信息化 频道

数据挖掘的“无底洞”

监控缺失

    目前,美国政府的数据挖掘项目分为两大类:一类是基于监控对象的系统。它能够帮助分析专家跟踪某个恐怖头目;另一类是基于行为模式的系统,它可以在多种活动方式中搜寻可疑行为。基于监控对象的数据挖掘技术吸引了诸多工作人员和学者,被称作关联分析法(link analysis)。它利用数据,在表面上没有关系的人或事件之间建立关联。如果你知道某人是恐怖分子,那么就可以使用关联软件发现嫌疑犯可能正在影响的其他人。很多专家都认为,美国国土安全部可以分析上百万条国内电话记录的系统就属于关联分析系统。

   “关联分析项目只有在较窄的样本对象范围内才有用。”Valdis Krebs说,他是一位IT 咨询顾问。在911 惨案之后,他画出了著名的显示劫机涉案关系人的关联图。成功的关联分析需要一个可靠的关系起始点,但是当分析不规律行为的时候,这种方法就变得不那么有效。“当你观察大量样本对象时,你就很难区分他们是恐怖分子还是你不认识的其他人。”Krebs说。如果美国政府把网撒得太大,项目成本就会更高、耗费时间就会更长,且会增加“误报”风险。

    用于反恐的数据挖掘技术想得到提高,那么需要改变的不只是业务规则,一个数据挖掘系统如果没有优质数据的支持,就什么也不是。“单独使用名字来监测嫌疑对象,不是一种有希望的方法。”Jeff Jonas 说,他是数据挖掘知识领域内的超级明星,他曾经让拉斯维加斯的赌场免遭诈骗。

    企业的CIO运用IT战略,可以保证项目不脱离自己的控制,政府也需要对IT战略进行类似的商业分析

     911 之后,美国政府开始用Capps 二代系统替换老系统(CappsII,即电脑辅助乘客预检系统II ,Computer AssistedPassenger Pre-Screening system II,用于对每位乘机者的背景进行更深入调查,将个人信息和美国政府掌握的犯罪纪录、情报资料进行对比)。老系统只能跟踪从航空公司收集来的乘客信息,包括姓名、信用卡号码、地址等,而CappsII 系统增加了从数据处理公司那里精选来的数据。2003 年,CappsII 刚开始实施时,就声名狼藉。当时,有媒体揭露,美国西北航空公司和JetBlue 航空公司把乘客记录交给了美国交通安全管理局(Transportation Security Administration,TSA),从而用这些数据来检验新系统。

     2004 年8 月1日,交通安全管理局取消了对CappsII系统超过1亿美元的投资,转而推动“安全飞”(Secure Flight)的新系统。Secure Flight 系统和它的“前辈”有很多共通的特点,最明显的就是把乘客记录和从商业数据库购买来的数据结合在一起。2005 年9 月,Secure Flight 系统工作组——一个由数据挖掘和隐私专家组成的团队,被交通安全管理局请来审查这个项目,他们用9个月时间对系统进行分析,最终提交了一份对该系统存亡极为关键的机密报告文献。1周之内,这个报告被挂到了互联网上。安全专家Bruce Schneier曾是这个工作组的成员。他认为,如果缺乏恰当的样本对象,数据挖掘反而会破坏反恐IT工作的努力。他把CappsII和Secure Flight看做这一观点的两个佐证。Schneier说:“即便努力设计的数据挖掘系统能够过滤电话记录或信用卡交易,且能够以99%的成功率定位恐怖分子,它依然不能算做可以放心的好调查工具。如果近3亿美国人每天打10次电话,那么1年就会制造出1万亿条要由政府挖掘的数据。此时,即便有99%的精度,每年也会产生100亿条的漏报。99%的准确度依然意味着会漏掉一些真正的恐怖分子,数据挖掘是一种浪费钱的徒劳行为。”

    Schneier指出,相比反恐应用,数据挖掘更能在预防信用卡欺诈等领域发挥作用。这是由于诈骗高手们的行动方式是可以预测的,并且信用卡数据挖掘系统的操作人员已经画出了一条清晰的ROI(投资汇报率)曲线——这条曲线处在一个可以接受的漏报或误报水平上,且操作人员据此相应调整了整个系统的参数设置。例如大多数信用卡发卡机构都愿意接受几千美元的损失,以防止消费者每次透支过限走出结账柜台时警铃大作。如果误报情况不经常发生,消费者不会介意偶尔的警报打扰,他们甚至有可能看作这是发卡机构正在努力保护自己的一种信号。

    Capps II 和Secure Flight 却没有这样的投资回报率分析机制。美国政府并没有重新考量这两个项目的目标和应用范围,只是把它们扩展到了包括描绘嫌疑人外形轮廓、追捕普通罪犯等应用上。由于对这两个IT项目的目标定义过于宽泛,导致它们到如今依然不能发挥作用。“交通安全管理局从来不愿意重新评估项目的样本覆盖范围,所以现在我们依然不能拥有一个自动化系统,能把乘客姓名和恐怖分子观察名单上的姓名相匹配。”

    尽管像CappsII 这样的项目已经成为明显的失败案例,但数据挖掘专家依然在鼓吹数据挖掘会成为反恐的有效工具,且由于这项技术非常新,随着时间的推移,它会坚持到对事情更有帮助的那一天,前提是如果它能得到正确管理。但是美国政府的大多数数据挖掘项目并没有经过严格的商业分析。现在,美国情报部门CIO都认为这是困扰他们很久的问题。最近,美国国家科学院(National Academy of Sciences,NAS)任命了一个委员会,开发出了一套美国政府能用来评估反恐数据挖掘项目效率的方法,但是它的报告目标截止期限已经在1 年之后了。“就监督程序来说,美国政府为防止恐怖主义而开展的数据挖掘工作是一场灾难。”                                                

                            (本文译自《CIO》杂志,Ben Worthen/ 文   ,陈春华/ 编译)   (《IT经理世界》)

0
相关文章