简介
一个自动的、通用的知识图谱框架,它从文本的非结构化数据开始构建,使用自然语言查询数据,并应用于一个大的金融股票数据集。
概述
一个自动的通用知识图谱框架,它从文本非结构化数据构建自身,并使用自然语言来查询和应用数据。
灵感

每天都会有大量的非结构化文本数据生成。企业、个人、新闻媒体等都会产生大量的非结构化数据,这些数据很难用结构化的方式进行分析和理解。

如果不进行大量的数据转换、数据模式设计和管理工作,业务用户/个人就没有更简单的方法来分析非结构化数据。此外,查询和搜索数据需要额外的努力,而且对于非技术人员来说很难轻松完成。

这个问题导致了Project Athena (雅典娜计划,以希腊知识和智慧女神命名)的诞生。我选择了一个接近100万(1,000,000)条记录的金融新闻数据集,并通过应用程序对其进行分析。

TigerGraph 最适合这个问题,它具有高性能、设计优雅的 GSQL 和丰富的数据科学库。

它能做什么
  • 如果有一个智能系统能够自动理解非结构化数据中的实体、人、位置、对象以及它们之间的关系,并创建一个大的知识图谱,会怎么样呢?
  • 如果有一个系统可以让我们使用自然语言搜索和查询这些数据呢?
  • 如果不管数据所属的领域是什么,系统都是通用的,会怎么样呢?

例如,当智能系统在积累多年的金融非结构化数据上执行时,它会自动创建一个金融知识图谱,当在一堆医疗非结构化数据上执行时,它会自动创建一个医疗知识图谱。

例如,我们可以通过输入自然语言来查询知识图谱——

  • “谁收购了安捷伦科技公司?”
  • “谁在俄罗斯投资?”
  • “谁在2014年到2016年间收购了微软公司?”
  • “2014年谁跑赢了市场?”
  • 甚至像“谁买了Facebook Inc .的公司”这样的查询也不需要依赖额外的查询工具。