信息化 频道

平易的数据仓库

       拉近与业务的距离,使得数据仓库平易而实用。

        “数据仓库不是奢侈品,而是必需品。”上海证券交易所总经理助理、总工程师白硕说。在这样的思路下,上证所不仅“清洗”完了十几年来累计的浩如烟海的数据,还让动辄沦为大报表系统的数据仓库真正归位于其日常运转、业务创新的基础。

        “抢救”数据

        在上海证券交易所这家全球最大的散户证券交易所,交易最高峰时每秒钟就有1万笔以上的订单。15年来,其产生的数据可谓浩如烟海。如何将海量数据进行整理,挖掘出其中的价值,成为上证所实施数据仓库项目的初衷。

        2002年10月,白硕——这位中国科学院计算所的科学家来到上证所,就任负责IT系统建设的总经理助理、总工程师。在他来之前,上证所的数据已经堆积如山:12年以来,上市公司发布的公告,加上报送的各种财务报告,累计多达300多万份传真件;交易历史数据则更多,都被刻在了光盘中。

        这些数据要么不是电子形态,要么处于离线存储状态,都不能够被信息系统识别,查找起来非常麻烦。曾经有几次,上证所为了配合相关机构查案找资料,几个人花了好几天的时间翻箱倒柜才找到。另外,根据我国《证券法》规定,证券交易所的历史数据至少要保存20年。当时,很多传真件在时光的侵蚀下,已经严重老化,数据光盘也有不同程度的损毁。如果再不“抢救”,这些数据可能就再也找不回来了。如果数据没有了,所有基于数据的应用也将不复存在。

        这些数据里隐藏着很多没有发掘出来的“金矿”,与国外证券交易所交易数据只具体到席位有所不同,中国证券交易数据都具体到股民的交易账户上。因此,上证所能凭借手里的丰富历史数据,对中国证券史上很多重大事件的前因后果进行具体而细致地分析。这些数据价值非常宝贵,曾经有一家海外证券机构向上证所提出,愿意不惜代价买下这些历史数据。

        白硕来上证所之前,为了解决历史数据应用的问题,其交易运行部就提出了一个开发交易历史数据的存储库方案,以统一数据的存放介质;上市公司部也提出了上市公司纸质文档电子化的建议。虽然这只是一些部门级的应用需求,上证所决策层还是从中捕捉到了对数据进行统一规划、有序提升的契机。

      从2000年开始,上证所先后邀请波士顿、路透等国际知名咨询公司做了信息化战略咨询,最终将信息化提升到打造上证所核心竞争力的高度。经过反复讨论,上证所决定上马数据仓库,其目的不仅仅是为了业务部门保存数据的需求,而是要能够给上证所提供更多的数据服务。

        于是,上证所工程浩大的数据“抢救”工作展开:将传真件扫描成图形文件,并将时间、公司等基本要素标注在其中;把海量交易数据先读取到一个特定的系统环境中,再根据每个光盘上的特定编号将其转化成在线状态。部分光盘出现了数据缺失和介质损坏,上证所采取了尽量修复的原则,将有些重要的光盘送到国外去修复;有的光盘中的部分数据丢失,他们就通过查找其他内部资料或与券商、分析机构合作,把原始数据找出来。为了验证数据准确与否,还需要根据他们之间的逻辑关系进行相互印证。经过整整一年,清洗完毕的光盘数据才被加载到数据仓库中。当然,所有的光盘数据也都被翻录了一遍,存放在交易所的地下保险柜当中。

0
相关文章