利用图数据库和机器学习进行“大海捞针”

利用图数据库和机器学习进行“大海捞针”

有一刻,你会意识到一个科技达到了临界点,那就是当你的孩子开始问你这个科技的时候。这最近在我身上发生了,我那个八年纪的女儿问我:“什么是机器学习?它为什么很重要?”

为了回答她的问题,我解释了机器学习是人工智能的一部分,而我们教机器像人类一样进行推理并学习。我使用了欺诈检测的案例,因为在很大程度上,找到欺诈行为就像大海捞针–我们必须对海量的数据进行分类和解析,才能找到大海中的“针头”(例如欺诈者)。

假设有一家电话公司,他的网络中每周产生数十亿次的呼叫。我们怎样才能在海量的数据中找到欺诈行为的线索呢?这时候就需要机器学习了。

当然,我的女儿已经有了一个解决问题的方法:“为什么不用一个强力磁铁把细针吸出来?”

她是对的。当我们在训练机器识别欺诈者时,我们需要给它提供一个更强力的磁铁才能把针吸引出来。我们的“磁铁”就是发现疑似欺诈者的行为规律的能力。这样一个机器能更加准确地识别可疑手机号的规律,并且能够将它们从普通用户所拨打的数十亿电话中找出来。

现有训练机器学习的方法缺陷

让我们通过这个电话公司的例子,探究一下目前通过机器学习识别欺诈者的方法。现有的机器学习算法依靠于原始训练数据—例如在上述案例中,训练数据就是被已经确证的欺诈电话。但是还需面对两个问题—训练数据的数量质量

由于现有号码网络中能被确证的欺诈号码量不足总呼叫量的1%,因此可以作为训练数据的欺诈电话量也屈指可数。这从而降低了机器学习算法的准确性。

当下的反欺诈功能是基于对某些行为特征或属性的简单分析。这些特征包括:某个号码与其他网内外号码的通话记录,某张预付费SIM卡的使用时长,单项呼叫的百分比(指被呼叫方未回电的情况)和被拒绝接听的百分比等。这些过于简单的特征分析往往会导致大量误报,因为除了欺诈者之外,销售人员或恶作剧者也常常会有类似行为特征。

基于图特性训练机器学习,进行欺诈侦测

某大型移动运营商使用TigerGraph来弥补当前机器学习算法的缺陷,TigerGraph是具备实施深度链接分析功能的新一代图数据库。他们将该方案应用在包括4.6亿部手机在内的100多亿次呼叫分析之中,并为每部手机生成118个新的图形特征。这些特征基于对通话记录的深入分析,跨越了电话的直接接听者而直接延展到整个通话网络。

下图示意说明了图数据库如何将手机号码识别为“可信号码”或”嫌疑号码“。被定义为”嫌疑号码“的记录会被进一步调查以确证它是否的确属于欺诈号码。

图 1 – 通过分析网络或图形关系特征来检测电话欺诈行为

“可信号码”与“嫌疑号码”的不同
“可信号码”的第一个特征是,多数都会有对方回电,这显示出号码用户之间的熟悉或信任关系。一个“可信号码”也会每周或每月定期拨打一系列其他的号码,并且在一段时间内保持稳定(称之为“稳定组”)。

“可信号码”的另一个特征是,某个号码呼叫另一个已经入网达多月或多年的号码并得到回电,这也是一个很好的信号,它代表“可信号码”有着相当多的组内关联(in-group connection)。

最后的特征是,“可信号码”往往符合“三朋友关系环链”(three step friend connection)–即当号码1呼叫号码2,号码2呼叫号码3时,号码1与号码3也有直接的通话。因为这种关联环链隐含着一个相互信任和关联的圈子。

通过分析这些号码之间的通话模式,TigerGraph 可轻松识别那些可能涉及欺诈的“嫌疑号码”。这些嫌疑号码总是 会在短时间拨打多个可信号码,却不会被回拨。同时它们也没有定期稳定的通话组(即“空稳定组”)。嫌疑号码也不会 被长期入网的号码客户回拨,同时时常被拒接,也缺乏三朋友关系环链。

总结一下这个案例:TigerGraph 对每部电话创建了超过 118 项特征属性,通过对 4.6 亿部电话相关联属性的分析, 将这些电话区分为可信号码或嫌疑号码。 与此同时,它新产生的 540 亿条数据特征,可以作为训练数据为机器学习算法 的自我提升提供支持。

这使得通过机器学习进行欺诈检测的准确性大幅提高,并同时降低了误报率(将非欺诈号码标记 为欺诈号码)和漏报率(涉及欺诈的号码未被标记)。

基于图的特性提高机器学习的准确性

让我们通过一个示例(图 2)来了解一下图的特性是如何提高机器学习的准确性的 : 假设有四个移动电话用户的数据,他们分别是蒂姆,莎拉,弗雷德和约翰。

图 2-基于图的特性提高机器学习的准确性

按照传统的通话记录属性(如 SIM 卡的使用时长,单向通话的百分比以及被拒接百分比),会导致他们四人中的三人被标记为疑似欺诈者。从这些传统属性来看,蒂姆,弗雷德和约翰都非常像一个潜在的欺诈者。 但是基于图特性而做的深层链接或多跳关系分析,则可以帮助机器学习将他们区分开来,识别出蒂姆是恶作剧者,约翰是销售人员,而只有弗雷德才会被标记为潜在的欺诈者。

因为蒂姆拥有一个“稳定组”,这意味着他不太可能是一名销售人员,因为销售人员每周都会拨打不同的电话号码。而蒂姆又没有很多组内关联,这意味着他很可能经常给陌生人打电话。 同时他也没有任何三朋友关系环链来证明他与他的拨打对象彼此认识。 因此根据这些判断,蒂姆很可能是一个恶作剧者

约翰没有一个“稳定组”,这意味着他每天都在拨打陌生人的号码。 但同时他却拥有许多组内关联。 当约翰通过电话向他的客户推荐产品或服务时,如果他的客户认为产品或服务对他们有价值,那么他们中的某些就会将这些产品服务推荐给他们的朋友。 这样约翰就因此建立起了三朋友关系环链。 这表明约翰作为一名优秀的销售人员,可以通过一轮针对朋友或者同事的销售,将产品或服务信息传递出去,形成一个关系链闭环。这些特性使得约翰能够被识别为一名销售人员。

反之,弗雷德即没有一个稳定组,也没有与任何拥有组内关联的群体有过互动。 同时弗雷德与他的拨叫用户之间也没有三朋友关系环链。 这使得他最可能成为电信诈骗的调查对象。

回到之前那个海底捞针的比喻—通过基于图特性的分析,我们便可以在海量的数据中找到那根针。在上述的案例中,弗莱德便是那个潜在的欺诈者,也就是我们要找的针。通过使用图数据库,我们可以对相互关联的数据进行分析并识别某些特征,而同时机器本身也可以得到越来越多准确的数据进行训练,使之在识别潜在欺诈者方面变得更加智能和成功。

基于图特性训练机器学习的一些其它适用案例

除了用于识别电话诈骗之外, TigerGraph 实时生成的图特性也同时被用于大量其它场景,这其中包括训练机器学习算法以检测各种其他类型的异常行为—包括所有在线零售商家都面对的销售产品或服务时的信用卡诈骗行为,以及横跨了整个金融服务生态系统的洗钱行为。这些违法行为的影响面涉及到银行,支付服务提供商以及当下新兴的数字货币市场(例如比特币,以太坊以及瑞波币Ripple等)。

线上零售企业也可以利用图的特性来分析客户的购买行为,从而更精准地把产品推荐给客户、客户的朋友以及其他拥有类似行为特征的人群。同时,新生成的图特性也可作为现有机器学习的训练数据,使得未来的产品推荐更加精准

开启属于您自身的更加智能的机器学习系统

TigerGraph是全球最快的图数据库,提供了实时深度链接分析,形成了适应机器学习系统的新属性。这样提高了准确率,减少了误报。我们邀请您现在来试用,感受它将如何满足您的企业需求。如果您也参加 Chief Analytics Officer, Spring Event(5月14~16日,旧金山),欢迎来TigerGraph展台与我们交流。