德阳信息港

当前位置:

欺詐檢測大數據的安全管理

2019/05/03 来源:德阳信息港

导读

中國IDC圈1月14道:現在越來越多的銀行業務依賴大數據和物聯基礎設施,比如,移動支付、上銀行和智能售貨機。但在這些交易過程中存在大量的個人

中國IDC圈1月14道:現在越來越多的銀行業務依賴大數據和物聯基礎設施,比如,移動支付、上銀行和智能售貨機。但在這些交易過程中存在大量的個人敏感的身份信息需要保護。大數據安全是一個極大挑戰的問題,由于作弊者在不斷的尋求新方法來獲取到有價值的數據。為了防止這些壞家伙,人們需要不斷的去設計和發布新的大規模預測模型來預測作弊者的行為。不光銀行需要大數據安全保護,任何含有對個人用戶信息personally identifiable information (PII)處理的商業交易都要做好保護,比如,醫療機構和保險業。

近有好消息称,有越来越多的机器学习的专家、新的技术和工具来提供有效的分析模型,能够鉴别潜伏的 欺诈交易和钓鱼式攻击 。但不是所有公司都拥有机器学习专家来做这方面的工作,因此这些公司就需要从外面请一些专家来建立有效的模型来抵制做弊者。与此同时,他们又不想自己用户的信息让其他公司知道。通过匿名用户个人信息PII还保证不了这一点。那有没有一种较好的方法能够既利用外部气力而又不暴露本公司的敏感的数据呢?

图1在纽约近的一次大数据会议上,大数据公司MapR的首席架构师Ted Dunning发表了一种新方法来解决上述问题。

找出被盗商家

现在一个新的趋势是:做弊者通过成千上万的用户盗取个人信息来进行许多小批量的讹诈交易。这样他们可以在很短的时间里盗取百万美元/英镑/欧元,通过被盗的商家或者站来获取大量的顾客的金融信息。作弊者不是偷一张信用卡然后去购买大宗商品,因为这种行为容易被现在的安全软件探测到,而是通过欺骗交易来进行大批量的信用卡交易。这些小额购买常常被用户忽略,但是恰恰会被不良做弊者利用。为了应对这类潜在的通过被盗商家来进行盗窃的行动,一家大型金融机构采用大数据公司MapR的技术来构建新的模型来检测这种分布式攻击。他们的目标是改良自己的欺诈检测的能力:a)探测出更多的可疑事件,b)更及时的检测,在出现严重的影响之前尽可能的快的去关闭受影响的账户。

银行有海量的个人交易行为数据,Ted的方法是把银行的每个顾客的交易数据按时间序列转换,在商家出现被盗之前找出来。他采取的相似估计的方法把每一个被盗商家的特点点提取出来,然后进行打分。但问题在于即使是出于打击盗取者,银行也不太愿意把敏感的数据分享出来。

为了克服这个问题,Ted写了一个可根据个人需求定制的样本数据生成的代码 log-synth ,并开源在Github上。通过log-synth生成被盗过的用户历史数据模拟来找出被盗的特征。在模拟数据实验中,被盗商家有较高的打分。

构建好探测模型,并进行参数调优,然后将这个模型应用到真实的交易数据。真实的数据分析更使人振奋,一个商家打分超过80分的(见图2),经银行核实发现这个商家的确存在大量的数据泄露。

图2 通过模拟数据构建的模型运用到真实数据中的情况

更好的数据模拟的方法

使用人为生成的数据来进行构建模型其实不新鲜,但是这种方法却常常被人忽视。Ted发现,想精确模拟真实世界的行为特征是非常难的一件事,而通过人为生成的数据就可以很好的构建好的模型,这样更快更容易。

这种方法不仅仅用于讹诈检测,也可以用于其它真实的情况。具体怎样使用开源log-synth,在这里由于篇幅限制就不再细激昂,感兴趣的可以去看Ted Dunning和Ellen Friedman写的书 《Sharing Big Data Safely: Managing Data Security》 ,可免费下载。

小儿脑瘫医院北京权威
五个月脑瘫婴儿的康复治疗
小儿脑瘫多见的症状
标签