“一统”数据
“抢救”数据只是实施数据仓库项目的第一步,因为很多数据是不可直接使用的图形文件。接下来的关键是把这些数据转换成统一的格式,只有这样才能方便地对它们进行深度分析和挖掘,真正体现数据的价值。此外,上证所还面临着一个难题——上市公司和交易所的会员报上来的增量数据与数据库里的存量数据无法实现无缝联接,难以以统一的格式进行处理。“如何既能将数据格式统一起来,又不至于加重包括上市公司、信息服务公司在内各参与方的负担?”这些问题一度让白硕等人非常头疼。
“幸运的是,科技总在不断进步。”白硕说,“虽然存量数据大多是非结构化数据,但基本上是以财务报表为基础,复杂程度有限。”2003年,在路透公司的建议下,项目组决定采用XBRL(可扩展的商业报告语言)来统一上证所的数据格式。这是一种基于互联网的数据标准,可以方便地转化成常用的各种书面文字,如PDF、HTML格式。当时,XBRL刚刚在国际上崭露头角并在海外会计师事务所、咨询公司、交易所、政府机关等机构中应用。结合实际,上证所决定直接在国际上推出不久的XBRL2.0标准上进行开发。2003年底,整个系统开发完成,上证所的存量数据逐步转化成XBRL格式。
为了更好地完成过渡,上证所首先选取了50家上海本地的上市公司进行试点,这些上市公司每天都会向交易所报送大量的增量数据。一开始,为了不增加这些上市公司的负担,上证所让它们仍然按原来的格式报送年报等文件,由上证所再派人手工把关键数据录入到XBRL文件中。不久,白硕等人很快就想出了更好的办法——做一个基于XBRL的电子文件模板,上市公司只需在模板中填写数据就可以了。他们从公告摘要开始,逐步推广到季报、年报。2004年2月6日,第一份采用XBRL格式的年报完成报送。于是,上证所数据仓库的存量和增量数据终于实现了统一的数据格式。
目前,所有在上证所上市的公司简报、季报、半年报和年报都已能通过这套XBRL系统进行报送。下一步,上证所还计划将这套系统推广到上市的基金公司和会员单位所报送的报告,及其自身发布的公告中。他们甚至还设想将XBRL与上市公司的财务软件对接起来,这样上市公司就能自动生成XBRL文件。“当然,这还需要做工作。”白硕说。国内很多上市公司都是两套账甚至三套账,它们并不愿意和交易所的数据库直接对接。在这个领域,技术的功力显得分外苍白。
如今,XBRL的作用已经超出了上证所的范围。在中国证监会的指导下,上证所的XBRL标准已被纳入全国金融标准化委员会证券分委员会的采标范围,并成为行业标准。