使用图数据库进行大数据实体解析

我们正被大量数据淹没

图数据库可以帮助消除歧义

Tigergraph特别擅长发现真相

定义图Schema

加载数据

运行查询

(a)

(b)

图5。分组查询完成后,乘客1、2、3将被合并为乘客1。乘客4和5将被并入乘客4

在某些用例中,需要多次迭代来重复链接-分组步骤。例如(参见图5),在乘客1、2、3合并为乘客1之后,乘客1将拥有来自2、3和它本身的所有属性。因此,乘客1可以连接到它在上次迭代中没有连接到的其他实体,从而形成新的组。因此,需要重复链接分组,直到不再插入same-as边为止。值得一提的是,在上述所有步骤中,每个顶点的操作都可以并行运行,并且该算法可以适合于MapReduce框架。上面的解决方案也适用于增量更新。当有新的数据或流数据加载入数据库时,不需要使用所有现有数据重新运行进程。相反,只需要标记那些新加载的数据,并处理新加载的顶点及相邻顶点。

现在开始使用图数据库进行大数据实体解析

我们已经证明,图数据库是用于实体解析的强大工具,尤其是在大数据规模上。除此之外,还介绍了用图算法解决实体解析任务的通用方法,并详细讨论了一个具有代表性的用例(即机票预订),以展示如何通过在图数据库中运行三个查询来解析乘客实体。

现在是开始使用图数据库的最佳时机。而开始使用图分析的最佳方法之一就是使用TigerGraph Cloud。通过免费的基础套餐,你可以在几分钟内创建一个帐户。

查看TigerGraph Cloud入门套件

热门推荐

八月图期刊

02 Sep 2021

Neo4j “万亿”关系图背后的真相

19 Aug 2021

七月图期刊

03 Aug 2021