由于缺失商业分析和监督程序,数据挖掘工具在美国反恐中的应用陷于困顿。
2001 年9 月27 日晚,纽约城市大学计算机科学教授Howard Rubin 正在家进行赎罪日祷告,这一天是希伯来历中最神圣的节日。此时,他家中的电话铃声响起,电话那头是前美国政府信息机构的一位最重要的官员。他问Rubin是否了解政府可以用来抓捕恐怖分子的IT技术。在克林顿执政期间,Rubin 曾就一些技术课题向美国政府当局提供过建议。但由于缺乏商业分析和足够的监督,Rubin 的答案——数据挖掘如今成为旋绕在这个智囊团大部分成员头上的技术咒语。
就监督程序来说,美国政府为防止恐怖主义而开展的数据挖掘工作是一场灾难
“无底洞”
在IT 领域,数据挖掘是一个相对较新的应用领域,它把统计模型、高性能处理器和人工智能结合在一起,以发现并恢复有价值的信息,否则这些信息可能会一直被埋藏在海量数据中。零售商可以利用数据挖掘技术预测消费者的购物模式,信用卡公司可以用它查明信用卡欺诈。911 恐怖袭击之后,美国政府开始利用数据挖掘技术,帮助安全部门预防未来的恐怖袭击。
现在,美国政府已经非常依赖数据挖掘技术,特别是在情报界。《2004 美国联邦政府会计总署报告》显示,美国政府部门积极参与或正在筹划的数据挖掘项目为199个,其中14个项目明确用于抓捕恐怖分子和预防恐怖袭击。这些项目还不包括美国中情局和国土安全部等7个部门的自有项目。在过去1年中,美国媒体披露,这几个部门都有一些高度机密的计划,涉及收集和搜寻电话记录、电子邮件和其他个人信息中的数据模型样本。当这项计划披露后,布什总统和其他政府高官都竭力为此辩解,理由是它对反恐很重要。
有关专家指出,由于政府对这些数据挖掘工具的大力投入,以及情报安全部门所面临的巨大压力,所以相关官员批准这些项目的速度之快,大大超乎人们的想像。“如果这些项目有价值,人们就不会站到反对数据挖掘的阵营一边,不接受政府的这种做法。”RobertPopp说,他是美国国防先进技术研究计划下属的信息识别办公室主任。当然,政府官员对实施数据挖掘项目都有着直白的理由——“我们想保卫我们的国家和我们的生活方式。”Robert Gourley说,他是美国国防情报局(Defense IntelligenceAgency)的首席技术官。
然而一些专家开始对此进行置疑——这些没有样本对象范围限制、没有预算限制和时间表限制的IT战略能否非常好的地实现预期目标。这是美国情报机构CIO们每天都要面对的难题。无论这些项目的意义如何重大,不加以控制,往往都会流于失败。据Sandish Group(一家跟踪IT成功率的分析公司)的观点,缺乏监督是IT 项目失败的主要原因。“政府没有人从IT价值角度看待数据挖掘工具,我也描述不出数据挖掘的价值,但我不会停止对它的使用。”Steve Cooper说,他是美国国土安全部(United States Department of Homeland Security, DHS)的CIO。
根据他的说法,没有人会为政府的IT 项目做商业分析,以确定政府真的从IT 投资中获得了回报。政府为自己提供的有关项目是否合乎经济原则的解释似乎很充分——如果某个项目有可能抓住哪怕一名恐怖分子,那么它就是值得的。不过,假设美国政府管理IT 项目的历史记录特别糟糕,那么强制要求其对项目进行优先级划分和管理控制,结果反而适得其反。专家担心某些IT 项目会拖延几年,而有些好项目会因为涉及隐私和公民自由等被束之高阁。实际上,美国国会已经中止了大量数据挖掘项目,包括国防部的“全面信息识别计划”(Total Information Awareness project)。这项计划于2003 年野心勃勃地启动,它试图建立一个巨型数据库,收集、分析可能的恐怖分子的任何数据。
因此,数据挖掘专家指出,企业的CIO 运用IT 战略,可以保证项目不脱离自己的控制,政府也需要对反恐的IT 战略进行类似的商业分析。“这些项目有着极为合理的目标,但没有监控程序。”Fred Cate 说,他是印第安纳大学应用虚拟安全研究中心主任。
监控缺失
目前,美国政府的数据挖掘项目分为两大类:一类是基于监控对象的系统。它能够帮助分析专家跟踪某个恐怖头目;另一类是基于行为模式的系统,它可以在多种活动方式中搜寻可疑行为。基于监控对象的数据挖掘技术吸引了诸多工作人员和学者,被称作关联分析法(link analysis)。它利用数据,在表面上没有关系的人或事件之间建立关联。如果你知道某人是恐怖分子,那么就可以使用关联软件发现嫌疑犯可能正在影响的其他人。很多专家都认为,美国国土安全部可以分析上百万条国内电话记录的系统就属于关联分析系统。
“关联分析项目只有在较窄的样本对象范围内才有用。”Valdis Krebs说,他是一位IT 咨询顾问。在911 惨案之后,他画出了著名的显示劫机涉案关系人的关联图。成功的关联分析需要一个可靠的关系起始点,但是当分析不规律行为的时候,这种方法就变得不那么有效。“当你观察大量样本对象时,你就很难区分他们是恐怖分子还是你不认识的其他人。”Krebs说。如果美国政府把网撒得太大,项目成本就会更高、耗费时间就会更长,且会增加“误报”风险。
用于反恐的数据挖掘技术想得到提高,那么需要改变的不只是业务规则,一个数据挖掘系统如果没有优质数据的支持,就什么也不是。“单独使用名字来监测嫌疑对象,不是一种有希望的方法。”Jeff Jonas 说,他是数据挖掘知识领域内的超级明星,他曾经让拉斯维加斯的赌场免遭诈骗。
企业的CIO运用IT战略,可以保证项目不脱离自己的控制,政府也需要对IT战略进行类似的商业分析
911 之后,美国政府开始用Capps 二代系统替换老系统(CappsII,即电脑辅助乘客预检系统II ,Computer AssistedPassenger Pre-Screening system II,用于对每位乘机者的背景进行更深入调查,将个人信息和美国政府掌握的犯罪纪录、情报资料进行对比)。老系统只能跟踪从航空公司收集来的乘客信息,包括姓名、信用卡号码、地址等,而CappsII 系统增加了从数据处理公司那里精选来的数据。2003 年,CappsII 刚开始实施时,就声名狼藉。当时,有媒体揭露,美国西北航空公司和JetBlue 航空公司把乘客记录交给了美国交通安全管理局(Transportation Security Administration,TSA),从而用这些数据来检验新系统。
2004 年8 月1日,交通安全管理局取消了对CappsII系统超过1亿美元的投资,转而推动“安全飞”(Secure Flight)的新系统。Secure Flight 系统和它的“前辈”有很多共通的特点,最明显的就是把乘客记录和从商业数据库购买来的数据结合在一起。2005 年9 月,Secure Flight 系统工作组——一个由数据挖掘和隐私专家组成的团队,被交通安全管理局请来审查这个项目,他们用9个月时间对系统进行分析,最终提交了一份对该系统存亡极为关键的机密报告文献。1周之内,这个报告被挂到了互联网上。安全专家Bruce Schneier曾是这个工作组的成员。他认为,如果缺乏恰当的样本对象,数据挖掘反而会破坏反恐IT工作的努力。他把CappsII和Secure Flight看做这一观点的两个佐证。Schneier说:“即便努力设计的数据挖掘系统能够过滤电话记录或信用卡交易,且能够以99%的成功率定位恐怖分子,它依然不能算做可以放心的好调查工具。如果近3亿美国人每天打10次电话,那么1年就会制造出1万亿条要由政府挖掘的数据。此时,即便有99%的精度,每年也会产生100亿条的漏报。99%的准确度依然意味着会漏掉一些真正的恐怖分子,数据挖掘是一种浪费钱的徒劳行为。”
Schneier指出,相比反恐应用,数据挖掘更能在预防信用卡欺诈等领域发挥作用。这是由于诈骗高手们的行动方式是可以预测的,并且信用卡数据挖掘系统的操作人员已经画出了一条清晰的ROI(投资汇报率)曲线——这条曲线处在一个可以接受的漏报或误报水平上,且操作人员据此相应调整了整个系统的参数设置。例如大多数信用卡发卡机构都愿意接受几千美元的损失,以防止消费者每次透支过限走出结账柜台时警铃大作。如果误报情况不经常发生,消费者不会介意偶尔的警报打扰,他们甚至有可能看作这是发卡机构正在努力保护自己的一种信号。
Capps II 和Secure Flight 却没有这样的投资回报率分析机制。美国政府并没有重新考量这两个项目的目标和应用范围,只是把它们扩展到了包括描绘嫌疑人外形轮廓、追捕普通罪犯等应用上。由于对这两个IT项目的目标定义过于宽泛,导致它们到如今依然不能发挥作用。“交通安全管理局从来不愿意重新评估项目的样本覆盖范围,所以现在我们依然不能拥有一个自动化系统,能把乘客姓名和恐怖分子观察名单上的姓名相匹配。”
尽管像CappsII 这样的项目已经成为明显的失败案例,但数据挖掘专家依然在鼓吹数据挖掘会成为反恐的有效工具,且由于这项技术非常新,随着时间的推移,它会坚持到对事情更有帮助的那一天,前提是如果它能得到正确管理。但是美国政府的大多数数据挖掘项目并没有经过严格的商业分析。现在,美国情报部门CIO都认为这是困扰他们很久的问题。最近,美国国家科学院(National Academy of Sciences,NAS)任命了一个委员会,开发出了一套美国政府能用来评估反恐数据挖掘项目效率的方法,但是它的报告目标截止期限已经在1 年之后了。“就监督程序来说,美国政府为防止恐怖主义而开展的数据挖掘工作是一场灾难。”
(本文译自《CIO》杂志,Ben Worthen/ 文 ,陈春华/ 编译) (《IT经理世界》)