信息化 频道

国家卫生统计指标体系及数据字典研究

国家卫生数据字典

  第二个部分是国家卫生数据字典。国家卫生数据字典首先是一个字典,它装载的是数据元的定义和表示数据元的资源库。这里有几个概念,一是关于数据,数据本身是没有意义的,好比符号、声音、数字。二是关于信息,信息是可以被解释的,它是组织和结构化表达的数据,信息本身具有明确含义。数据元指的是在一定数据中不可分割的数据单位,即所需要的最小的数据单位。而元数据是帮助人们理解和准确解释数据的数据,如数据的表示符、定义、名称、值域等等。

  数据字典的主干是国家卫生信息数据模型,这里面有12个超级实体,他们还有子实体,如关于人的信息一共有30个子实体。数据元里面还包括其他的因素在内,我们这里面的编号有数据元、有值域、有表示,一个是数据元的概念,一个是数据元的对象,一个是数据元的特性。好比说,大家对人有各种各样的概念:男人女人、老师同学、家庭父母都是人,但是要具体表达的话,必须有一个数据元概念。表达什么?表达的是这个人的职业,那么这个职业到底是什么职业呢?要通过值域来反映,是医生还是护士,是医学生还是陪护员。这样我们就可以分解成元数据类别的,一个是对象类,就是人,特性是职业,表示是职业的名称,原数据类别就是人的职业名称。

  一个编码,数据字典怎么认识它呢?首先是原数据的表示符,我们给了11—15位,前5位就是数据模型的分类代码,中间有1位叫作元数据类别的代码,有对象类、特性类,还有表示类,此外还包括术语和分类模式。它和数据模型有一个对应关系,对象类在国家的数据字典里面是参与者,是PAT,后面是800001,8表示术语,有很多很多的对象。第二个性别,性别是7打头的,7表示是一个特性的。然后它表示是性别代码,性别代码是标准化的,大都是3,最后完整的数据元就是人的性别代码。

  然后是数据格式,这里的格式是I—10029E表示数字形状的。关于元数据的描述,按照规范可能有几十个项目,大的类别是五个类别:第一个是标识与定义,第二个是数据采集及使用指南,第三个是来源及参考文本,第四个是关系,第五个是管理。最需要的就是标识与定义,我们先用他写数据库的数据,来做数据的交换,后面的管理部分可以慢慢完善。在目前的数据字典里面,一共有278个标识和定义。

  数据元的一个部分是值域,前面的代码长度是一位数,代码要通过值域来表示,开头编号都是3。另外一个非常重要的概念是词汇表,如职业、时间、症状等一些大型的词汇表。还有观察词汇,这是非常大型的词汇表,我们自己做不了,主要靠一些外国的词汇。SNOMND可以表达40万个概念,100万个描述,8000多个检测目,40000万个代码。从指标到调查表,到标准化的数据元和国家的数据字典,我们可以一步一步地用于医护操作。通过标准化,很多的具体的数据元的表示和定义最后就变成标准化的数据,这个数据拿去共享大家就都能够认识了。

注:文字系作者演讲辑录,未经作者本人确认。

0
相关文章