“数据仓库不是奢侈品,而是必需品。”上海证券交易所总经理助理、总工程师白硕说。在这样的思路下,上证所不仅“清洗”完了十几年来累计的浩如烟海的数据,还让动辄沦为大报表系统的数据仓库真正归位于其日常运转、业务创新的基础。
“抢救”数据
在上海证券交易所这家全球最大的散户证券交易所,交易最高峰时每秒钟就有1万笔以上的订单。15年来,其产生的数据可谓浩如烟海。如何将海量数据进行整理,挖掘出其中的价值,成为上证所实施数据仓库项目的初衷。
2002年10月,白硕——这位中国科学院计算所的科学家来到上证所,就任负责IT系统建设的总经理助理、总工程师。在他来之前,上证所的数据已经堆积如山:12年以来,上市公司发布的公告,加上报送的各种财务报告,累计多达300多万份传真件;交易历史数据则更多,都被刻在了光盘中。
这些数据要么不是电子形态,要么处于离线存储状态,都不能够被信息系统识别,查找起来非常麻烦。曾经有几次,上证所为了配合相关机构查案找资料,几个人花了好几天的时间翻箱倒柜才找到。另外,根据我国《证券法》规定,证券交易所的历史数据至少要保存20年。当时,很多传真件在时光的侵蚀下,已经严重老化,数据光盘也有不同程度的损毁。如果再不“抢救”,这些数据可能就再也找不回来了。如果数据没有了,所有基于数据的应用也将不复存在。
这些数据里隐藏着很多没有发掘出来的“金矿”,与国外证券交易所交易数据只具体到席位有所不同,中国证券交易数据都具体到股民的交易账户上。因此,上证所能凭借手里的丰富历史数据,对中国证券史上很多重大事件的前因后果进行具体而细致地分析。这些数据价值非常宝贵,曾经有一家海外证券机构向上证所提出,愿意不惜代价买下这些历史数据。
白硕来上证所之前,为了解决历史数据应用的问题,其交易运行部就提出了一个开发交易历史数据的存储库方案,以统一数据的存放介质;上市公司部也提出了上市公司纸质文档电子化的建议。虽然这只是一些部门级的应用需求,上证所决策层还是从中捕捉到了对数据进行统一规划、有序提升的契机。
从2000年开始,上证所先后邀请波士顿、路透等国际知名咨询公司做了信息化战略咨询,最终将信息化提升到打造上证所核心竞争力的高度。经过反复讨论,上证所决定上马数据仓库,其目的不仅仅是为了业务部门保存数据的需求,而是要能够给上证所提供更多的数据服务。
于是,上证所工程浩大的数据“抢救”工作展开:将传真件扫描成图形文件,并将时间、公司等基本要素标注在其中;把海量交易数据先读取到一个特定的系统环境中,再根据每个光盘上的特定编号将其转化成在线状态。部分光盘出现了数据缺失和介质损坏,上证所采取了尽量修复的原则,将有些重要的光盘送到国外去修复;有的光盘中的部分数据丢失,他们就通过查找其他内部资料或与券商、分析机构合作,把原始数据找出来。为了验证数据准确与否,还需要根据他们之间的逻辑关系进行相互印证。经过整整一年,清洗完毕的光盘数据才被加载到数据仓库中。当然,所有的光盘数据也都被翻录了一遍,存放在交易所的地下保险柜当中。
“一统”数据
“抢救”数据只是实施数据仓库项目的第一步,因为很多数据是不可直接使用的图形文件。接下来的关键是把这些数据转换成统一的格式,只有这样才能方便地对它们进行深度分析和挖掘,真正体现数据的价值。此外,上证所还面临着一个难题——上市公司和交易所的会员报上来的增量数据与数据库里的存量数据无法实现无缝联接,难以以统一的格式进行处理。“如何既能将数据格式统一起来,又不至于加重包括上市公司、信息服务公司在内各参与方的负担?”这些问题一度让白硕等人非常头疼。
“幸运的是,科技总在不断进步。”白硕说,“虽然存量数据大多是非结构化数据,但基本上是以财务报表为基础,复杂程度有限。”2003年,在路透公司的建议下,项目组决定采用XBRL(可扩展的商业报告语言)来统一上证所的数据格式。这是一种基于互联网的数据标准,可以方便地转化成常用的各种书面文字,如PDF、HTML格式。当时,XBRL刚刚在国际上崭露头角并在海外会计师事务所、咨询公司、交易所、政府机关等机构中应用。结合实际,上证所决定直接在国际上推出不久的XBRL2.0标准上进行开发。2003年底,整个系统开发完成,上证所的存量数据逐步转化成XBRL格式。
为了更好地完成过渡,上证所首先选取了50家上海本地的上市公司进行试点,这些上市公司每天都会向交易所报送大量的增量数据。一开始,为了不增加这些上市公司的负担,上证所让它们仍然按原来的格式报送年报等文件,由上证所再派人手工把关键数据录入到XBRL文件中。不久,白硕等人很快就想出了更好的办法——做一个基于XBRL的电子文件模板,上市公司只需在模板中填写数据就可以了。他们从公告摘要开始,逐步推广到季报、年报。2004年2月6日,第一份采用XBRL格式的年报完成报送。于是,上证所数据仓库的存量和增量数据终于实现了统一的数据格式。
目前,所有在上证所上市的公司简报、季报、半年报和年报都已能通过这套XBRL系统进行报送。下一步,上证所还计划将这套系统推广到上市的基金公司和会员单位所报送的报告,及其自身发布的公告中。他们甚至还设想将XBRL与上市公司的财务软件对接起来,这样上市公司就能自动生成XBRL文件。“当然,这还需要做工作。”白硕说。国内很多上市公司都是两套账甚至三套账,它们并不愿意和交易所的数据库直接对接。在这个领域,技术的功力显得分外苍白。
如今,XBRL的作用已经超出了上证所的范围。在中国证监会的指导下,上证所的XBRL标准已被纳入全国金融标准化委员会证券分委员会的采标范围,并成为行业标准。
推广“必需品”
上证所的海量数据被整理到数据仓库中之后,对白硕等人而言,关键工作才开始。在项目实施的过程中,项目组就向上证所各业务部门,如交易管理部、会员部、上市公司部、市场监察部、债券基金部等发出邀请,让他们提需求。“我们必须坚持业务先导的应用原则,数据仓库才能成为一个必需品。”白硕说。
最初,12个业务部门都提出了自己的应用要求,不过那时它们都是抱着试试看的态度。但当项目进行到一半时,业务部门不约而同地发现自己的工作要求正在通过数据仓库逐步实现;之后,他们提需求的热情高涨多了。“项目每进行到一个阶段、一个部门时,都会产生一些应用成果,只有我们的成果得到了业务部门的认可,他们才会更加配合我们的工作,也才会产生更多的成果。我们把这叫做‘沿途下蛋’。”白硕说。高高在上的数据仓库开始在上证所归位。
如今,粗粗算来,上证所数据仓库项目组已经开发出了559项功能强大的应用。例如,针对上市公司报送的财务报表,他们开发了一个财务预警模型:利用这个模型,通过分析上市公司各种财务报表之间的勾稽关系,可以判断出该上市公司报送的数据是否真实可靠。如果初步判断报表是真实的,再通过进一步的数据挖掘,还可以分析该上市公司的财务状况存在哪些问题,并通过直观图形化的方式反馈给监管部门。最终,通过对上市公司每个季度、每年数据的比较分析,上证所就可以建立起上市公司的诚信数据库。“当然,现在的难点是上市公司风险特点在不断地变化,因此这个模型需要每年甚至每半年就要做一次调整。”上证所新信息系统项目组副组长、信息中心副总监皮六一说道。如今,上证所正在尝试与中国人民银行的征信系统联接,从而能够将更多领域的数据汇总起来,尽快掌握上市公司的最新情况,更加有效地化解金融风险。
在支持业务部门的日常工作之后,项目组又开始利用数据仓库为上证所的业务创新提供帮助,在上证所的股票期货、权证、国债买断式回购、ETF(交易型开放式指数基金)等新交易品种背后,都有数据仓库的身影。
在设计ETF时,业务部门需要评估ETF的套利状况,这需要建立一套复杂的套利行为识别模型。如果业务部门自己开发这套模型,费时且费力。这正好给了白硕与业务部门“拉近”关系和显示数据仓库威力的绝好机会。于是,项目组在数据仓库的基础上,针对ETF专门开发了一个套利模型,能够根据不同业务部门的要求,按照不同的类别(如账户、投资者类型、交易所会员)进行汇总分析。之后,他们又花了1个月向业务部门推广他们的这个套利模型。业务部门发现,以前他们需要花很多时间、编几千行程序开发的模型,现在只需把需求告诉数据仓库项目组,马上就能拿到为自己量身定制的套利模型。“从那以后,不用我们出去推广,很多业务部门开始自己找上门来了,而且一个比一个积极。”皮六一说道。
2005年2月,上证50ETF如期推出,这也是国内第一个ETF产品。有了这次经验,上证所随后的权证设计只用了不到半个月。如今,这些创新金融产品都受到了投资者的热烈欢迎。“有了我们的支持,业务部门的定位已经发生变化,他们不需要再去考虑数据模型等底层工作,从而可以把精力集中在业务创新、市场分析等更高层次的事上了。”皮六一认为。
前不久,上证所完成了数据仓库的二期建设并投入试运行。据负责项目实施的NCR Teradata数据仓库事业部大中华区专家中心总经理杨顺生介绍,一二期总体的系统容量有14TB(万亿字节),在整个亚太地区金融行业中排名第二。(IT经理世界)