国产图数据库厂商「费马科技」通过LDBC-SNB官方审计测试,达到原纪录的7.6倍

  2020年7月30日,LDBC_SNB官方宣布完成了对费马科技TuGraph的测试和审计,并公布了测试结果。该结果刷新了世界纪录,达到原记录的7.6倍。

  近年来,随着大数据技术的发展,社交网络、交易网络、知识图谱等图数据也得以大量积累,从而有力的推动了图数据的应用。目前,图数据已经被成功应用于包括金融风控、推荐、工业流程控制、设备管理等许多领域。图数据库作为管理图数据的基础软件,也吸引了许多厂商的注意。近年来,包括Oracle、IBM、微软在内的传统软件巨头及众多初创企业都大举进军图数据库领域。

  北京费马科技有限公司是一家以研发图数据库和图计算软件为目标的初创企业。在此前36氪的报道中,我们注意到这家由多名清华博士创办的公司对图计算技术有深厚的积累。今天我们欣喜地看到,费马科技的图数据库TuGraph取得了突破,在国内企业中率先通过了国际基准官方审计测试并取得了国际领先的测试结果。

  2020年7月30日,费马科技宣布,公司成为国内第一家通过图数据库国际标准基准测试程序LDBC-SNB官方审计测试的企业,同时打破了LDBC-SNB已经公布的最高纪录。在中大规模数据集(300GB)上,吞吐率达到之前最高纪录(由Virtuoso保持)的7.6倍。

  图1. 审计测试成功的声明页截图(含认证审计员,LDBC SNB任务组主任和费马科技CTO的签名)

  读者可以通过以下链接访问LDBC官网上的正式公布的测试结果,并下载测试报告、程序、说明文档以及软硬件信息等。

  LDBC SNB官方网站 http://ldbcouncil.org/benchmarks/snb

  测试报告下载: http://ldbcouncil.org/sites/default/files/LDBC_SNB_I_20200726_SF30-100-300_tugraph.pdf

  关于LDBC和LDBC-SNB测试:

  1.关联数据基准委员会(LDBC,linked Data Benchmark Council)是由Oracle、Intel等软硬件巨头和主流图数据库厂商NeoTechnology和TigerGraph等组成的非赢利机构,是图(Graph)和RDF数据管理的基准指南制定者与测试结果发布机构。

  2.社交网络基准测试(SNB,Social Network Benchmark)是由关联数据基准委员会(LDBC)开发的面向图数据库的基准测试(Benchmark)之一,分为交互式查询(Interactive)和商业智能(BI)两个场景。本次费马公司测试了其中的交互式查询场景,主要考察系统在并发情况下的更新和交互式查询吞吐率。 与很多厂商采用的基于单项测试的评测方式相比,LDBC-SNB(Interactive)更接近真实场景并对数据库系统的并发执行性能和事务处理能力进行了更具挑战性的评测。

  测试详情

  据公司创始人洪春涛介绍,本次测试采用LDBC SNB的30G(SF30)、100G(SF100)、300G(SF300)三个规模的数据集,其中300G数据集包含8亿结点53亿边及相关属性。查询操作由7类简单只读查询,14类复杂只读查询和8类事务类更新查询按LDBC SNB Interactive测试规范规定的比例组合并发执行,并以吞吐率为性能指标。可以看到,TuGraph在数据量增大时仍能保持较高的性能,体现了其对大规模数据的良好支撑能力。

  下表为不同数据规模下的测试结果,吞吐率(OPS)表示每秒完成的操作次数。

  表1. 不同数据规模SF30(30GB),SF100(100GB)和SF300(300GB)的测试结果

  CTO朱晓伟表示,公司在测试环境准备、测试数据生成和导入、测试例程序的安装和执行、结果正确性的验证方面都严格遵守LDBC-SNB的规范。整个测试过程由LDBC认证的评估师在其租用的标准云系统上操作完成,并对测试代码进行了详细的评审。整个测试环境和测试过程均完整披露并可在LDBC网站上公开下载,保证了测试结果的可信性和公正性。

  LDBC-SNB Interactive的主要测试要求包括:基准程序会通过多个客户端并发地发送各类读写请求到服务器端,每个请求都有相应的计划时间,数据库需要尽可能地使得所有操作都按计划正常进行;一旦某个操作晚于计划时间超过1秒以上则视作超时,如果超时比例大于5%则无法通过测试,对图数据库的更新和查询性能提出了很高的要求;查询分为7类简单查询和14类复杂查询,每类复杂查询在不同数据规模下根据其复杂度以不同的频率混合在一起,简单查询则穿插在这些复杂查询之间;8类更新操作中不少都涉及多个数据对象的更新,因此需要ACID事务的支持来保证操作的正确性,SNB规范要求隔离级别至少达到提交读(Read Committed),并在审计过程中对ACID支持进行了特别的测试。

  值得注意的是,在本次测试中,TuGraph的超时比例为0%,且SNB实现了最高的隔离级别可串行化(Serializable),说明TuGraph在提供了高级别的事务隔离保证的同时仍然获得了低延迟和远远超过其它数据库的吞吐率。

  CTO朱晓伟表示,相比同类型的图数据库产品,TuGraph可以支持更大的数据量,提供更快的响应,支持更多的并发查询,因此也更适应大数据时代。TuGraph在系统的设计目标上围绕实时图数据分析的特点展开:一方面,绝大部分请求是在最新数据上的只读查询,因此存储引擎需要面向读优化,并需要对其中一些查询操作采用并行的方式进行处理;另一方面,数据库需要在快速完成这些只读查询的同时处理源源不断的数据更新,而这些修改请求可能来自多个客户端,因此需要完善的事务支持,并需要尽可能地避免使用全局锁导致并发度的降低。为此,TuGraph实现了多版本的存储使得只读事务可以无阻塞地进行,并且提供了乐观和悲观两种模式的读写事务,从而针对不同情形提供最优化的事务管理,在并发度和读写效率间取得较好的权衡;针对复杂的分析任务,提供了并行遍历和迭代式图计算的接口,通过多个线程的协同工作来保障任务不会超时并持续占用系统资源。除此之外,TuGraph提供了丰富的开发接口:不仅支持描述式的查询语言OpenCypher以方便用户更快地上手和开发原型,还提供了过程式的核心API让用户可以通过存储过程的方式对一些需要追求极致性能的场景进行加速;存储过程支持开发效率较高的Python和执行效率较高的C++,未来还将增加受众较广的Java作为开发语言;访问上同时支持RESTful和RPC两种方式供用户选择。这些丰富的选项使得用户可以在开发和生产环境上根据各自不同的场景和需求灵活地选择最适合的使用方式,在易用性和高效性两方面取得更好的平衡。

  关于费马

  根据36氪此前报道,费马科技成立于2016年5月,拥有图数据平台(TuGraph,曾用名LightGraph)、图分析平台(PandaGraph)两大产品。TuGraph的定位是高性能单机版图数据库,这也是目前市场占有率最高的产品类型。费马科技基于创始团队在图计算领域积累的经验以及领先的科研成果,研发出的TuGraph具有高性能、大数据量以及稳定易用的特点,因此被广大客户所信赖。目前,费马科技的产品已经被多个领域的头部客户所采用,包括京东数科、大型国有银行及商业银行等金融业客户,以及国家电网、中国商飞、西门子等工业部门用户。