博客

博客

基于GSQL的图灵完备的算法,运行算法查询与运行GSQL查询动作一致 日前,全球速度最快的企业级图分析平台TigerGraph宣布,正式开源 TigerGraph GSQL 图数据库算法库,发布3大类共10大核心算法。通过开放这些算法库,将为用户提供图分析的算法模板和示范,让用户以更加简单易用的方式支持更广泛场景的业务分析。 目前,用户可以从GitHub下载该算法库 ,体验TigerGraph原生并行图数据库的高速查询和算法库强大的分析能力。 图数据库核心算法图数据库算法是一系列的函数,用于计算图、图内顶点及其相互关系的指标和特征。 它可以从内部揭示出某个图中的各个实体之间的角色及其关联关系。TigerGraph GSQL图算法库包含了一系列性能卓越的GSQL查询,所以GSQL的图形算法本质上是GSQL查询。每种算法都可以作为一个独立的查询使用,而每个查询都可以实现某种标准的图算法。 在算法运行中,用户可以选择三种不同格式的输出结果,包括 JSON格式流输出、 输出值写入表格类文件,以及保存为顶点属性值。 目前,GSQL的图形算法库中开源的核心算法可分为三类:路径搜寻的算法、衡量中心度的算法以及衡量群体度的算法。 路径搜寻的算法,用于帮助用户找到最短路径或评估某条路径的可行性或质量。其中主要包括: 无权重单起点最短路径算法(Single-Source...

根据 DB-Engines.com,图数据库是所有数据管理中发展最迅速的一个类别。是什么让图数据库如此热门?图能够处理庞大且复杂的数据,然而其他的数据库不能做到。基于图数据库的优势所带来的热度,市场上出现了新的厂商,在图数据库工具和技术方面创造出了一幅新的景象。我们创建了一张信息图展现了图数据库行业概览,展示出这些类别和其中领先的解决方案: 下载图数据库行业概览 PDF 实时大图 TigerGraph创造了图数据库的最新类别—实时大图,专为处理海量快速生成的数据量而设计,提供实时分析。实时大图支持实时大图分析,每个服务器每秒顶点或边的遍历达到100M+次,同时每个服务器每秒更新100K+次。为处理庞大且不断增长的数据集,实时大图数据库支持横向和纵向的扩展。 运营型图数据库 这些解决方案往往是原生图存储或是构建在NoSQL平台之上的。它们着重于交易(ACID)和运营型的分析,没有绝对的索引要求。 厂商包括:Titan,JanuxGraph,OrientDB和Neo4j 知识图谱/RDF 这些图通常聚焦于语义并且需要基础支撑(包括相关的数据库)。在运营型环境下使用它们是很理想的,但是在事务型环境下它们需要有推断能力和索引要求。 厂商包括:AllegroGraph,Virtuoso,Blazegraph,Stardog和GraphDB 多模型图 这一类包含支持不同模型种类的数据库。比如,通常是在这三类中做出选择—文档储存、关键数据储存或者RDF/图储存。多模型的优势包括不同种类的查询,比如可以在同一数据上进行图查询和关键数值查询。主要的劣势在于其性能比不上一个专用且优化的数据库管理系统。 厂商包括:Microsoft Azure Cosmos DB,ArangoDB和Sqrrl 图谱分析 这些分析图聚焦于解决“已知-已知”问题—对象和关系都已知,或者“已知-未知”,甚至是“未知-未知”。 厂商包括:Apache Giraph...

如今,犯罪团体使用极其复杂并不断变换的技巧来逃过传统反洗钱系统的监管。任何涉及金融交易的组织,包括如数字移动支付之类的非银行货币交易,人寿保险或是零售商,都属于反洗钱(AML)的法律监管范围。面临的挑战持续增加,展现出对于减少开销并且提升速度的需求,以此减少监管费用。 许多企业都拥有可以发现非法活动的数据,但他们却无法将数据及数据间的关系结合在一起。传统的监管系统在调整、验证和维持方面是繁琐且昂贵的。这样的解决方案使用手动过程,并且通常不能分析以不同形式储存在多个位置、多个草案中海量的用户、机构和交易数据。为了解决这个问题,有很多新想法出现,包括半监管学习方法、基于深度学习的方法和基于网络/图的解决方案。这些方法都必须能够实时工作并且能处理大量的数据,不仅仅是现在有的数据,而是要处理每天每小时新生成的数据。一个全面的数据策略应该是打击金融犯罪的最好解决方案,尤其是利用机器学习和人工智能帮助连接并分析数据关系。 TigerGraph通过将数据关联起来,结合基于规则的机器学习让这个过程自动化并且减少误报,实现反洗钱的目标,而这一切都是实时进行的。通过图引擎,企业可以在反洗钱过程中结合包括自动化的数据流分析、社会网络分析和机器学习等各种精密复杂的数据科学技术,从而以更好的数据和更快的速度,提高反洗钱的检测成功率。企业组织可以远离繁琐的交易过程,朝着更具战略性、更高效的方向发展。 某全球最大的电子支付企业采用TigerGraph服务他们超过一亿的日活跃用户,将其分析调研工作现代化。此前,该企业的反洗钱工作是一项手动过程。调查人员参与了从检查数据到识别可疑货币流动行为的各个方面。运营费用高昂,而且相当容易出错。 通过使用TigerGraph,该公司能够自动化地开发智能反洗钱查询,通过实时反馈改进机器学习算法,最终通过更高效的反洗钱流程和更低的误报率获得了更好的经济回报和更高的检测成功率。 类似的,某世界排名前五的支付渠道提供商也试图提升反洗钱的能力,他们深陷在联邦反洗钱法规所带来的高监管成本和漏检罚金中。该组织先前依赖于数百名反洗钱调查人员所进行的人工检测。整个过程缓慢、昂贵、低效,且误报率超过90%。 使用TigerGraph,该公司成功提升了图引擎将反洗钱过程现代化。此前,他们只能通过人工讲琐碎的过程连接;如今,他们则能够在个体、账户、公司和地点之间发现潜在的深度关联,通过强大的图分析系统完成反洗钱的工作。 通过结合数据的多个维度并且整合外部数据(例如关于客户的外部数据),企业可以自动且实时监控潜在的洗钱犯罪。调查人员则能够腾出双手从事更加战略性的工作,处理更有价值的数据。最终企业则能够对其海量的数据拥有一个整体性的理解和判断并降低误报的比例。 由于我们正处于一个数据爆炸的时代,企业的反洗钱工作越来越需要对内部海量数据进行实时分析的能力。TigerGraph的实时深度链接分析系统可以助力企业达成该目标。 您可以下载TigerGraph 反洗钱方案简述了解更多,或者在2月12和13日纽约市举行的SIFMA反洗钱与金融犯罪大会上拜访我们,这是一个为反洗钱和金融犯罪专业人士设立的领先论坛。 ...

有一刻,你会意识到一个科技达到了临界点,那就是当你的孩子开始问你这个科技的时候。这最近在我身上发生了,我那个八年纪的女儿问我:“什么是机器学习?它为什么很重要?” 为了回答她的问题,我解释了机器学习是人工智能的一部分,而我们教机器像人类一样进行推理并学习。我使用了欺诈检测的案例,因为在很大程度上,找到欺诈行为就像大海捞针--我们必须对海量的数据进行分类和解析,才能找到大海中的“针头”(例如欺诈者)。 假设有一家电话公司,他的网络中每周产生数十亿次的呼叫。我们怎样才能在海量的数据中找到欺诈行为的线索呢?这时候就需要机器学习了。 当然,我的女儿已经有了一个解决问题的方法:“为什么不用一个强力磁铁把细针吸出来?” 她是对的。当我们在训练机器识别欺诈者时,我们需要给它提供一个更强力的磁铁才能把针吸引出来。我们的“磁铁”就是发现疑似欺诈者的行为规律的能力。这样一个机器能更加准确地识别可疑手机号的规律,并且能够将它们从普通用户所拨打的数十亿电话中找出来。 现有训练机器学习的方法缺陷 让我们通过这个电话公司的例子,探究一下目前通过机器学习识别欺诈者的方法。现有的机器学习算法依靠于原始训练数据—例如在上述案例中,训练数据就是被已经确证的欺诈电话。但是还需面对两个问题—训练数据的数量和质量。 由于现有号码网络中能被确证的欺诈号码量不足总呼叫量的1%,因此可以作为训练数据的欺诈电话量也屈指可数。这从而降低了机器学习算法的准确性。 当下的反欺诈功能是基于对某些行为特征或属性的简单分析。这些特征包括:某个号码与其他网内外号码的通话记录,某张预付费SIM卡的使用时长,单项呼叫的百分比(指被呼叫方未回电的情况)和被拒绝接听的百分比等。这些过于简单的特征分析往往会导致大量误报,因为除了欺诈者之外,销售人员或恶作剧者也常常会有类似行为特征。 基于图特性训练机器学习,进行欺诈侦测 某大型移动运营商使用TigerGraph来弥补当前机器学习算法的缺陷,TigerGraph是具备实施深度链接分析功能的新一代图数据库。他们将该方案应用在包括4.6亿部手机在内的100多亿次呼叫分析之中,并为每部手机生成118个新的图形特征。这些特征基于对通话记录的深入分析,跨越了电话的直接接听者而直接延展到整个通话网络。 下图示意说明了图数据库如何将手机号码识别为“可信号码”或”嫌疑号码“。被定义为”嫌疑号码“的记录会被进一步调查以确证它是否的确属于欺诈号码。 图 1 - 通过分析网络或图形关系特征来检测电话欺诈行为 “可信号码”与“嫌疑号码”的不同 “可信号码”的第一个特征是,多数都会有对方回电,这显示出号码用户之间的熟悉或信任关系。一个“可信号码”也会每周或每月定期拨打一系列其他的号码,并且在一段时间内保持稳定(称之为“稳定组”)。 “可信号码”的另一个特征是,某个号码呼叫另一个已经入网达多月或多年的号码并得到回电,这也是一个很好的信号,它代表“可信号码”有着相当多的组内关联(in-group connection)。 最后的特征是,“可信号码”往往符合“三朋友关系环链”(three step friend connection)--即当号码1呼叫号码2,号码2呼叫号码3时,号码1与号码3也有直接的通话。因为这种关联环链隐含着一个相互信任和关联的圈子。 通过分析这些号码之间的通话模式,TigerGraph 可轻松识别那些可能涉及欺诈的“嫌疑号码”。这些嫌疑号码总是 会在短时间拨打多个可信号码,却不会被回拨。同时它们也没有定期稳定的通话组(即“空稳定组”)。嫌疑号码也不会...

前言 去年12月,我在 Quora 上发布了一篇文章介绍图数据库的利弊。我在其中分享了当今市场普遍存在的两个问题:第一是图数据库应用开发人才匮乏,第二是非标准化的图查询语言减慢了企业的采用,而这些企业是最需要它的。 解决这两个问题的方法是提供一个简单但是强大的图查询语言。市场中有很多图语言,包括Neo4j的Cypher,Apache TinkerPop Gremlin和TigerGraph的GSQL。在讨论哪一种图语言最好,或者将每个图语言的优点融合成为一个全新、统一的选项之前,让我们先后退一步,问一个更加基本的问题:一个图查询语言的先决条件是什么? 图语言的先决条件 乍看之下,这是一个很难回答的问题!基于许多用户的反馈以及我18年多在数据管理方面的职业经验,我将尝试通过剖析一系列有内在联系的问题来一步步做回答。 首先,为什么世界关注图模型? 1972年4月1日,英特尔推出了8008处理器。随后,1975年首台个人电脑问世。在那个时代,越来越多的企业信息变得数据化。当时市场的一个紧迫需求是操作简单的数据管理应用来帮助记账,生成即席业务通信报告 。由于内存不足,基于磁盘的关系数据库诞生了,它利用规范化理论减少数据冗余,提升数据完整性。关联模型(或表格模型)在硬件的限制下满足了市场的需求,于是在接下来的三十年里被广泛使用。在那时,QUEL 和 SQL 是两个互相竞争的关联查询语言。这两种语言都具有极强的表达能力而且操作简单,也都能够满足市场的需求。而随着市场的发展,SQL最终胜出,并被业界广泛采用。 时光飞逝。硬件持续发展的同时,数据容量也在快速增长。市场需要可扩展的软件来管理这些日益增长的数据。自2000年以来,许多大规模并行处理(MPP)数据库供应商通过满足这个需求获得优势,其中包括Teradata,Greenplum,Netezza,Vertica,AsterData,亚马逊Redshift等。这些MPP数据库依旧遵循关联模型,但是利用MPP解决了扩展性的问题。MPP数据库的成功可以归功于SQL。正是由于SQL的声明性特点,用SQL编写的应用独立于数据,因此可以轻松移植到单节点或者多节点的RDBMS系统。 现代社会正在见证着数据泛滥以及数据互联。数据互联的独特性和强大能力已经被大型互联网公司的出现所证明,这些公司包括Google(搜索引擎),Facebook(社交网络),LinedIn(职业社交网络)和Twitter(线上新闻及社交图)。如今,Instagram、WhatsApp、 微信等移动通讯工具,以及Paypal、微信支付和支付宝等移动支付提供商,每一秒都能产生海量的网络形互联数据。当人、机器、汽车、移动设备等产生了大量相互关联的数据时,我们真的正处于网络时代! 管理图数据的迫切需求已经出现。 在数据管理的历史上,关系模型第一次不起作用,因为关系数据库不能有效地连接多个表,以遍历互连数据中的多个链接。通常,关系模型数据库盲目地扫描参与表的所有或大部分,并使用join谓词查找数据记录连接。虽说索引(加速随机记录查找的辅助数据结构)可以有所帮助。然而,有经验的数据库管理员将很乐意告诉你, 索引是一个关系表的一小部分复制,如果数据随时都在变化,保持更新的表和索引同步,同时不牺牲查询性能是一个很大的挑战(如果不是不可行)。 更重要的是,我们甚至无法编写SQL查询来发现和预测隐藏在许多表中的关系——当我们事先不确定可能涉及哪些类型的关系时,我们不能通过加入表来“连接这些点”。 图模型提供了以下有益的特性: 互联数据的自然和经济存储模型 ...

今天,我们自豪地宣布TigerGraph 2.0具有实时多图协作服务——这是业内首个支持GDPR(欧盟即将出台的通用数据保护法规)要求。该版本是TigerGraph致力于创新的一部分,因为我们授权客户从连接的数据中获得更深层的含义。 MultiGraph提供了市场上的第一个图分析协作服务,它允许多个组共享同一个主数据库,同时保留本地控制和安全性。MultiGraph的优点包括: 准许多人使用一个数据库, 每人拥有个人视角,并且支持实时更新的情况下提升团队的生产力。 瓦解数据孤岛:消除通信问题、一致性问题和复制问题 改进了企业数据(用于数据驱动决策)的透明性和可用性。 保留安全性:每个组管理员控制谁可以在其域内做什么。 多租户执行数据孤岛; MultiGraph在支持实时安全协作的同时支持多个租户。 MultiGraph的一个最大好处是,企业拥有确保遵从法规所需的控制和安全特性。TigerGraph知道这些功能对我们客户的重要性,我们将看到TigerGraph 2.0如何带来新的客户案例。 此外,使用MultiGraph...

图数据库市场红热,增长迅速。令人兴奋的是,云服务巨头现在也将自己定位为图数据库提供商:IBM和微软(Microsoft)去年和今年分别在他们的云上发布了图数据库。 本周,亚马逊宣布了自己的图数据库服务——亚马逊海王星(Amazon Neptune),加入了不断增长的图数据库市场。 IBM、微软(Microsoft)和现在的亚马逊(Amazon)都加入了这个市场,这完全证实了业界日益增长的,运用图技术帮助分析和挖掘大数据价值的兴趣。 开发人员和企业越来越意识到图分析的好处:简单和自然的数据建模、易于编写的查询来解决复杂的问题,以及快速、强大的来自连接数据的见解。 随着云服务成为计算的最大趋势之一,图数据库为这项技术的增长设置了一个令人兴奋的方向。 所有其他数据库类型(关系型数据库、数据仓库、文档数据库,和键-值数据库)都是以本地安装为主打开始进入市场的,然后再有数据库作为云服务出现 。 然而,从另一个角度看,图数据库由于其一开始使用更加复杂的数据模型,相比其他NoSQL数据库来看 发展得比较缓慢。 现在大部分大型云服务提供商,比如亚马逊,提供了图数据库服务,很明显,这意味着在接下来的几个月里,图数据库在业界被采用的步伐将会大大加快。 云服务的方便性和灵活性只是其中一个因素。每个服务都由它可以执行的任务来度量, 支付的价格往往取决于它能够提供的价值。 TigerGraph的可伸缩和分布式平台可以根据业务需求在本地或云中运行。...

TigerGraph知道企业安全性和高效率是多么的重要。我们为此将推出新的多图共存功能,允许数据独享或公用,而每个图谱拥有自己的用户组和基于角色的权限管理。 基于图的安全性 延续我们提供更高的安全性和可用性的承诺,TigerGraph很快就会发布基于图的访问控制,并支持多个图谱共存。使用这个新的多图特性,企业就可以在单个主图模式中定义独立的子图谱,从而可以将所有的数据都保存在一个系统中,同时限制不同业务部门对不同图谱的访问。 如同现有的数据库,每个图谱都有自己的一组用户。但在多图共存中,我们增添有一个超级用户的新角色。它定义了各个图谱的模式,并为每个图谱设置了管理员用户。在各个图谱之间,数据允许全部或部分共享。超级用户保留对所有图谱和所有用户的控制权。 多图共存的命令语法非常简单。图谱级用户将使用与以前相同的命令,不需要改变任何业务逻辑。 而超级用户可以按照需求,创建一个或多个的图谱。 就这么简单! 优点: 简化管理:单一系统,便于集中监督以及托管每个图的局部控制。 数据若已经集成:直接升级,不需要导出/导入/变换数据。 适用于和现有的基于角色的安全特性协调工作。   其他安全功能 基于角色的安全性 TigerGraph系统采用基于角色的访问控制,以自然和易于部署的形式提供复杂的用户权限管理。 除了在所有图表上拥有完全权限的超级用户以外,TigerGraph还为每个图谱提供了五个预定义的用户角色: 公共用户可以看到特定图谱的模式,但不能看到数据本身。 QueryReader可以在特定图谱上运行查询或数据加载任务。 QueryWriter除QueryReader的权限外,还可以为图谱创建查询和执行数据操作命令。 ...

TigerGraph创始人兼首席执行官许昱。 今天,我们自豪地推出TigerGraph平台。 这是一项我们自主开发的突破性技术,它从根本上解决了企业在海量数据上进行实时数据分析的关键痛点。 当我还是一个在中国的大学生时,我在与大数据的公司工作合作第一次接触到这个需求。为寻求答案,我来到了美国,在加州大学圣地亚哥分校那里获得了博士学位,随后在 Teradata和Twitter从事大数据和大系统的研发工作。 图数据库有相当多的技术优点。但迄今为止,基于图分析的解决方案并没有实现其应有的承诺 。 事实上,当设计第一代图数据库,从未考虑它可用来应对企业级的大规模和复杂大数据的挑战。 TigerGraph为此而生。 相对于其他解决方案仅限于在大数据图查询中的两步遍历,TigerGraph可进行三步或更多步的遍历,同时提供快速的查询响应时间。这为图深度链分析(DLA)提供了一个强大的企业平台。 TigerGraph如何能够做到这一点?其NPG技术 -世界上第一个也是唯一的原生并行图(Native Parallel Graph)。这是一个以支持实时图更新和内置并行计算的存储和计算的完全解决方案,一个完整的分布式图形分析平台。其性能特点包括:   实时深度链接查询速度 每台机器每秒能够遍历数以亿计的顶点/边,遍历三步或更多,比传统方法快几个数量级。 实时图数据加载 每台机器每小时加载50到150 GB数据。不需批量加载! 超大规模 在世界上最大的电子支付公司上线两年多。...