TigerGraph 介绍

产品介绍

首个原生并行图 (NPG) 系统

业务简介

TigerGraph代表了图数据库演进的下一个阶段,它是第一个能够在互联网规模数据上进行实时分析的系统。TigerGraph的原生并行图(NPG)的设计着眼于存储和计算,支持实时图更新并实现内置并行计算。TigerGraph的类SQL图查询语言(GSQL)为大数据的即时浏览和交互式分析提供支持。借助GSQL的表达能力和原生并行图的运行速度,您可以进行深度链接分析:揭示以往因其他系统性能问题或表达能力限制而无法获得的数据价值。

原生并行图系统如何做到这一点

完全自主开发

NPG的核心是基于系统编程概念用C++从零开发,实现了一个完整的数据技术栈。原生图存储引擎(GSE)与图处理引擎(GPE)共置,从而达到快速高效处理数据和算法的目的。图处理引擎(GPE)旨在提供基于MapReduce模型的具有内置并行性的API。图数据被优化存储在硬盘和内存中,使系统能够充分利用磁盘、内存和CPU缓存中的数据局部性。

高压缩率

TigerGraph通过高效的数据压缩来进一步利用内存和CPU缓存。虽然数据压缩比, 输入数据大小比输出图大小, 受输入数据和图结构影响,但普遍可以达到10倍压缩比。例如,1TB的输入数据在经过转换并加载到图中时,只需要100GB的系统内存。 这种压缩不仅减少内存占用,还提高缓存命中率,从而提高整体查询性能。

MPP计算模型

图中每个顶点和边同时作为存储和计算的并行单元。通过这种方法,图不再是一个静态数据的存储集合,而成为一个大规模并行计算引擎。顶点可以通过边相互发送和接收信息。一个顶点或一条边可以存储任何数量的任意信息。利用多核CPU和内存计算的特点,TigerGraph系统在每个顶点/边上并行执行计算功能。

图分区

TigerGraph系统支持多种图分区算法。在大多数情况下,对输入数据执行的自动分区即可获得很好的结果,而无需优化和调节。但是TigerGraph系统十分灵活,使面向具体应用的分区策略和其他混合分区策略能够实现更高的应用性能。TigerGraph系统还可以将多个图引擎搭建成多主网络模式。利用为不同类型的应用查询量身定制的不同分区算法,每个图引擎可以托管相同的图。前端服务器(通常是REST服务器)可以根据查询的类型将应用查询发送到不同的图引擎。

革命性技术

TigerGraph的原生并行图系统提供一种革命性的新技术。与市场上最著名的图数据库解决方案相比,该项技术具有明显的优势。

尽管当前主流解决方案的图数据库功能全面,文档齐全,但相比而言性能较慢。在基准测试中,TigerGraph的原生并行图系统可以在一小时内加载的数据量,而对照解决方案则需要24小时。

此外,通过其固有的大图分析并行性,原生并行图系统支持在超大图(VLG)上运行多种并行算法,而这种并行优势还将随着图的持续增大而增加。原生并行图既适用于局部图(从很小的子图到百万级别顶点和边级别子图)的快速查询,也适用于必须遍历图中每个顶点的非常复杂的分析任务。凭借其实时增量图更新功能,原生并行图系统比其他解决方案更胜任实时图分析任务。

原生并行图系统的一个优点在于,它将图表示为一个计算模型。如前所述,计算功能可以与图中的每个顶点和边相关联,从而将它们转换为活跃并行计算存储元素,其方式与人脑中神经元表现出的行为方式相同。

图中的顶点可以通过边交换信息,从而促进大规模并行和快速计算。原生并行图系统提供了一种全新的计算模式,从而使之成为一种真正的革命性技术。