【IT168 专稿】国家卫生统计指标体系及数据字典的研究包含两个部分,第一个是指标体系,第二个是数据字典。
国家卫生统计指标体系
国家卫生指标体系是反映一个国家、一个地区的人群健康状况和卫生系统工作绩效的必须或者是最少的一组指标。它主要关注的问题有四个方面:一个是我们老百姓关心的问题,看病难,看病贵;第二个是我们党和政府关心的问题,如重大疾病的控制、农村和社区突发公共卫生事件;还有我们卫生部门关心的疾病负担、卫生资源配置,以及国际社会关注的重点问题。

中国人民解放军第四军医大学徐勇勇教授
一个国家卫生体系的开发过程涉及到好几个方面的内容:首先是需求分析,这个直报系统涉及到多个主管部门,一共有13个不同渠道的信息来源;其次,我们的行政决策还要根据国内外有关的统计指标,像国家发展规划纲要、世界卫生组织的统计指标体系、联合国的世界发展目标的体系(就是OECD的指标体系)还有英国、美国、澳大利亚的相关研究。国家卫生体系遵循的标准和规范主要是ISO的10746和11779、欧盟的TC215等,目标是修改国家统计调查制度的工作指南,以及编写国家卫生数据字典。
我们主要围绕三个方面来界定相关的指标:第一个是反映人的健康状况,第二个是反映卫生系统的工作绩效,第三个是我们的环境和相关行为,卫生统计的指标是三个维度交叉的地方。有一条线非常重要,所有的这些指标都要反映卫生服务的公平性,也就是体现我们的地区差异、城乡差异和民族间的差异。根据国家卫生统计指标体系的数据模型,总共有指标211个。健康状况包含了52个指标,卫生系统的指标有150个,环境和行为因素相对少一些,包含了9个指标。健康状况的52个指标包括人口特征,例如性别代码、城乡表示代码、营养发育的指标、还有死亡的指标。卫生系统的指标涉及到我们的业务工作,其中疾病预防有25个指标、妇幼保健25个、卫生资源44个,合计是150个。关于系统经济和地理环境我们作为分组因素,这个框架里面也体现出来的。
接下来的问题是怎么把这些数据搜集上来,这是调查表的设计过程,实际上就是国家统计报告的最小数据集,卫生部门、各地区必须报告的国家数据。我们有很多调查,几十个调查表,如出院病人调查、死因调查、机构调查等等。把他归纳起来完成数据项以后,要过一个筛子,就是国家卫生数据模型;然后我们把每一个表里面涉及的数据元变成我们的数据元库从中提取,最后再做数据元的定位。
国家卫生数据字典
第二个部分是国家卫生数据字典。国家卫生数据字典首先是一个字典,它装载的是数据元的定义和表示数据元的资源库。这里有几个概念,一是关于数据,数据本身是没有意义的,好比符号、声音、数字。二是关于信息,信息是可以被解释的,它是组织和结构化表达的数据,信息本身具有明确含义。数据元指的是在一定数据中不可分割的数据单位,即所需要的最小的数据单位。而元数据是帮助人们理解和准确解释数据的数据,如数据的表示符、定义、名称、值域等等。
数据字典的主干是国家卫生信息数据模型,这里面有12个超级实体,他们还有子实体,如关于人的信息一共有30个子实体。数据元里面还包括其他的因素在内,我们这里面的编号有数据元、有值域、有表示,一个是数据元的概念,一个是数据元的对象,一个是数据元的特性。好比说,大家对人有各种各样的概念:男人女人、老师同学、家庭父母都是人,但是要具体表达的话,必须有一个数据元概念。表达什么?表达的是这个人的职业,那么这个职业到底是什么职业呢?要通过值域来反映,是医生还是护士,是医学生还是陪护员。这样我们就可以分解成元数据类别的,一个是对象类,就是人,特性是职业,表示是职业的名称,原数据类别就是人的职业名称。
一个编码,数据字典怎么认识它呢?首先是原数据的表示符,我们给了11—15位,前5位就是数据模型的分类代码,中间有1位叫作元数据类别的代码,有对象类、特性类,还有表示类,此外还包括术语和分类模式。它和数据模型有一个对应关系,对象类在国家的数据字典里面是参与者,是PAT,后面是800001,8表示术语,有很多很多的对象。第二个性别,性别是7打头的,7表示是一个特性的。然后它表示是性别代码,性别代码是标准化的,大都是3,最后完整的数据元就是人的性别代码。
然后是数据格式,这里的格式是I—10029E表示数字形状的。关于元数据的描述,按照规范可能有几十个项目,大的类别是五个类别:第一个是标识与定义,第二个是数据采集及使用指南,第三个是来源及参考文本,第四个是关系,第五个是管理。最需要的就是标识与定义,我们先用他写数据库的数据,来做数据的交换,后面的管理部分可以慢慢完善。在目前的数据字典里面,一共有278个标识和定义。
数据元的一个部分是值域,前面的代码长度是一位数,代码要通过值域来表示,开头编号都是3。另外一个非常重要的概念是词汇表,如职业、时间、症状等一些大型的词汇表。还有观察词汇,这是非常大型的词汇表,我们自己做不了,主要靠一些外国的词汇。SNOMND可以表达40万个概念,100万个描述,8000多个检测目,40000万个代码。从指标到调查表,到标准化的数据元和国家的数据字典,我们可以一步一步地用于医护操作。通过标准化,很多的具体的数据元的表示和定义最后就变成标准化的数据,这个数据拿去共享大家就都能够认识了。
注:文字系作者演讲辑录,未经作者本人确认。