5数据集分类 5.1分类基本原则 a)系统性原则:综合考虑数据集主题一致性,按其内在联系进行系统化排列,确保类目唯一、结构合理、层次清晰,减少冗余。 b)实用性原则:满足数据集分类编目的简便性、可操作和通用性需求和数据集查询的--致性理解。 c)可扩展性原则:保证分类体系框架适应数据集不断丰富的内容和日益增长的种类与数量。 d)兼顾科学性原则: 自顶向下,优先选择最能代表卫生健康信息数据集主题的语言、词条定义类目名称,编制受控分类体系表。 e)稳定性原则:使用稳定的因素作为分类依据,同时提高分类体系的可延展性或兼容性,促进稳定性。 5.2分类方法 5.2.1主题优先法 卫生健康信息数据集分类体系首先依据主题构建主分类框架,分类框架各层级类目可表示为一级、二级、三级类目等,见表1。 5.2.2多属性复分法 卫生 健康信息数据集以相同主题构建,同时在若干相同主题数据集中,又根据其个性,如时间、地域、疾病、学科、机构等多属性,构成辅助分类体系,即复分类体系。 卫生健康信息数据集复分类见图1: 图1卫生 健康信息数据集-复分类 5.2.3组配分类法 组配分类法是按照多维度、交叉性方式,将数据集主分类框架与复分类表组合使用,对数据集进行分类的规则。在某个主分类下的卫生健康信息数据集的组配分类示意见图2: 图2卫生健康信息数据集组配分类 5.3类目设置规则 5.3.1主分类表类目设置 5.3.1.1类目界定规则 卫生健康信息数据集分类与编码中的每一个类目都围绕特定的主题,表达一定主题知识的内涵和外延。遵照本分类与编码规则,科学分类体系所列的类目,能够容纳大量卫生健康信息的最小单元一数据集,从而成为管理数据集的工具。 a) 类目名称与主题对应:类类反映主题内容,一一对应。 b) 类目名称规范:名称应简洁、规范、通用、无歧义,且确切表达主题内容、范围,必要时应给出类目注释。 c) 同位类互斥:同位类之间应界限分明,非此即彼。 d) 数据集存在性:每个类目应确保存在- -定数量的卫生健康信息数据集。 e) 类目均衡:类目均衡展开,允许突出或合并列类。 f) 层次逐级隶属:类目从总到分的结构须逐级隶属,每层划分应有单一、明确依据,连续展开。 5.3.1.2类目层级约束规则. 卫生健康信息数据集分类体系的展开层次决定着分类导航系统的导航程度,层次越多越深,知识被组织得越细密,用户查找信息耗费的时间和精力就越多。 卫生健康信息数据集主分类层次应控制在3级-6级之间。 5.3.2复分类表类目设置 5.3.2. 1类目界定规则 类目界定规则如下: a) 复分类表的类 目根据特有属性分区段设置,每个区段对应数据集的一个特有属性,构成一个复分类的类目。 b) 复分类的类目间无层级、无关联,无顺序约束,属于分区段的松耦合约束。 c) 复分类目区段个数可根据实际需要进行扩展。 5.3.2.2属性有限性控制 复分类表属性宽度的控制应该充分考虑卫生健康信息数据集内容的特有属性进行设置,详细描述、全面覆盖数据集内容信息,多属性组配,增加数据集管理维度、提高数据组织和生产的效率和质量,增强数据集聚类的灵活性、增加检索入口,适应计算机检索的需要。 卫生健康信息数据集分类中的复分类表可以包括多种属性分类,例如,地区表(国内地区按GB/T 2260、国际地区按GB/T 2659)、组织机构代码表按GB/T 11714、 疾病分类表按GB/T 14396、学科分类表按GB/T 13745的规定。 6数据集编码 6.1编码基本原则 编码基本规则如下: a) 唯一性:在卫生健康信息数据集编码体系中,每一个类目仅有一个代码,一个代码只唯一 表示一个主题概念。 b) 匹配性:代码结构应与分类体系相匹配。 c) 可扩充性:代码应留有适当的后备容量,以便适应不断扩充的需要。 d) 简洁性:代码结构应尽量简单,以便减少代码的差错率,便于管理。 e) 区段性:在卫生健康信息数据集编码体系设置若干区段,每个区段表达不同的类目属性,便于实现不同维度检索。 6.2编码方法 按GB/T 7027规定的方法。 6.3 编码设计规则 卫生健康信息分类与编码体系设计为两类系统,-类是主分类编码系统,-类是复分类编码系统。给予数据集主分类码和复分类码,进行分段编码标识。 6.3.1 主分类表编码 6.3.1. 1码位设计 本标准规定主分类框架中每一个类目设定唯一-的编码, 码位结构对应各级类目分段组合而成,见表2,此示例中,- -级类目为1位英文字母,二级、三级等类目分别为2位数字,从01到99,后3位给出数字流水码,从001-999, 各层级按从属关系逐级顺序编码。 表2卫生 健康信息数据集主分类码位结构
6.3.1.2编码规则 编码规则如下: ——整体编码是数字字母混合码,同位类目位数、类型- -致; ——各级类目中的“其他”类编码定为“99”。 6.3.2复分类表编码 6.3.2.1码位设计 复分类表编码需依据卫生健康信息数据集的特有属性采用分段设计,其基本内容可以由诸如卫生机构、疾病分类和学科分类等多个区段组成,表述格式为XXXXXXXXXXXX
(GB/I 11714) - XXXX.XXX (GB/T 14396) -XXX. XXXX (GB/T 13745) - ....。 对扩增的复分属性,其代码按照同一规则设计。 6.3.2.2编码规则 编码规则如下: ——标准优先性原则。复分类表编码须参照其相应特有属性的标准化代码表,各类代码表的采用中,依次优先采用国家、地区、行业标准代码或积极采用适宜的国际标准代码,没有参考标准时可自定义代码。 ——数据 集内容不体现某一复 分类目属性时,相应编码位须用等位0表述。 7分类与编码标准文档结构 在卫生健康领域层面对卫生健康信息资源进行统筹规划、规范描述和系统关联时,会涉及大量的数据集分类与编码标准的制定工作。为便于起草这类标准,给出了卫生健康领域各专业《分类与编码标准文档》编写格式与规范,参见本标准附录A。 |