中山大学联合创邻科技,完成万亿规模数据智能挖掘性能测试
近日,中山大学团队联合创邻科技团队,基于中山大学 “软件定义的图计算关键技术”,并依托国家超级计算广州中心环境,完成全自主研发的国产高性能图数据库Galaxybase的安装部署和万亿规模超级大图数据的导入,实现实时大图数据增删改查,并完成多跳查询、模式挖掘等典型图查询、计算操作。
数字经济时代,数据成为关键生产要素,企业从海量数据中挖掘商业价值的需求也越发迫切。2021年12月12日, 国务院印发的《“十四五”数字经济发展规划》, 明确提出“突破大规模并行图数据处理关键技术”,推动高性能数据库在金融、电信、能源、制造等重点行业关键业务系统应用。这标志着我国数字经济转向深化应用、规范发展、普惠共享的新阶段。
但高维、异构、关联复杂的数据给传统大数据处理和关系型数据库产品带来了极大挑战。在此背景下,如何建立高性能的图计算理论及分布式存储技术,是一个充满挑战性并亟待解决的重要议题。
针对上述大数据处理痛点,创邻科技建立了Galaxybase图数据库平台。它基于超算集群环境,构建了一套基于多级最优图分片理论、动态任务调度模式及节点间混合通讯机制的分布式并行图处理体系,提供了一个高性能、可扩展、高可靠的图处理平台,支撑万亿节点大图的分布式存储、实时在线查询。
在自研数据生成器所模拟的万亿级真实金融交易场景数据集上(包含50亿条账户信息及5万亿条带属性的交易信息,涵盖了最小为10 到最大超过1000万出入度的超级节点),Galaxybase图数据库将账号、资金、交易信息以交易网络的形式组织在一起,高效实现了资金流向查询、资金环路以及嫌疑账户间的最短关联路径查询等深度图查询及图计算。其中,通过交易时间进行过滤的六度的深链查询平均耗时仅6.7秒。
本项目仅用50台机器集群实现了当前全球商业图数据库支持的最大规模图数据处理,打破了美国头部图技术厂商于2021年6月用1000台机器集群创造的1.2万亿规模大图处理的世界纪录,为图数据库赋能的智慧互联数字化未来开启了新纪元。