1、ICS 65.020.30CCS B 40DB50重庆市地方标准DB50/T 1096.22021畜牧兽医大数据应用与管理第 2 部分:元数据2021-03-30 发布2021-07-01 实施重庆市市场监督管理局发 布DB50/T 1096.22021I前言本文件按照GB/T 1.12020标准化工作导则 第 1 部分:标准化文件的结构和起草规则的规定起草。本文件是DB50/T 1096的第 2 部分。DB50/T 1096已发布了以下部分:-第 1 部分:总则-第 2 部分:元数据-第 3 部分:信息分类与编码-第 4 部分:数据接口-第 5 部分:共享交换技术要求-第 6 部分:信息资源
2、目录-第 7 部分:管理要求请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由重庆市农业农村委员会提出并归口。本文件起草单位:重庆市畜牧技术推广总站、重庆大学、广州中科易德科技有限公司、西南大学、广州中国科学院软件应用技术研究所。本文件主要起草人:李晓波、古平、李引、陈红跃、夏云霓、樊莉、张科、何道领、黄文明、朱燕、赖鑫、高敏、陈雷。DB50/T 1096.220211畜牧兽医大数据应用与管理第 2 部分:元数据1范围本文件规定了畜牧兽医行业大数据应用与管理的元数据。本文件适用于畜牧兽医行业有关数据集属性的统一规范化描述。2规范性引用文件下列文件中的内容通过文中
3、的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 7408数据元和交换格式 信息交换 日期和时间表示方法GB/T 18391.12009信息技术 元数据注册系统(MDR)第 1 部分 框架GB/T 197102005地理信息 元数据3术语和定义下列术语和定义适用于本文件。3.1元数据 metadata定义和描述其他数据的数据。来源:GB/T 18391.12009,3.2.163.2数据集 dataset可以识别的数据集合。来源:GB/T 197102005,4.24畜牧兽医
4、数据集的元数据4.1元数据组成畜牧兽医行业数据集的元数据包括核心元数据与参考元数据。参考元数据与核心元数据的包含关系见图 1,其中数据集按照GB/T 19710的要求进行。DB50/T 1096.220212图 1 参考元数据与核心元数据的包含关系4.2元数据框架畜牧兽医行业数据集的元数据规定了 7 个元数据子集,详见4.5、4.6:a)元数据标识信息:包含元数据本身的基本信息。b)数据集标识信息:包含元数据所描述的数据集的基本信息。c)内容信息:包含数据内容特征的描述信息。d)分发信息:包含数据分发的信息以及用户获得数据的途径。e)数据质量信息:包含数据集数据质量信息的说明。f)限制信息:包
5、含对元数据或数据集进行访问和使用的限制信息。g)维护信息:包含元数据或数据集的更新频率及更新范围的信息。畜牧兽医行业数据集参考元数据的聚集关系与依赖关系见图2。图 2 畜牧兽医行业数据集参考元数据的聚集关系与依赖关系4.3元数据的结构层次按照GB/T 18391.1的要求,元数据的结构包含元数据元素、元数据实体和元数据子集三个层次:a)元数据元素:最基本的信息单元。例如:数据集名称、数据集标识符、元数据创建日期等。b)元数据实体:同类元数据元素的集合。例如“数据集提交和发布方”这一元数据实体需要“单位名称”、“联系人”、“联系电话”等若干个元数据元素来说明。c)元数据子集:元数据的子集合,由元
6、数据元素与元数据实体组成。例如标识信息、内容信息、分发信息等。4.4元数据摘要描述DB50/T 1096.220213元数据摘要描述定义畜牧兽医行业数据集的元数据内容。表1给出了元数据的元素、实体与子集的定义。表2给出了元数据元素表达式符号的含义。表 1元数据摘要描述符描述符描述符约束性约束性说明说明中文名称必选元数据子集、元数据实体或元数据元素的中文名称。英文名称必选元数据子集、元数据实体或元数据元素的英文名称,一般使用英文全称。英文名称的要求如下:词汇均采用无缝连写,元数据子集与元数据实体英文名称的每个词汇的首字母均为大写,元数据元素英文名称的首词汇全部小写,其余词汇的首字母采用大写。定义
7、必选描述元数据子集、元数据实体或元数据元素的基本内容,是畜牧兽医大数据信息数据集某个属性和特征的概念与说明。数据类型必选表示对元数据的有效值域和允许对该值域内的值进行有效操作的规定。数据类型遵循如下规定:元数据子集与元数据实体的数据类型为复合型,元数据元素的数据类型包括数值型、布尔型、字符串、日期型和复合型等;当元数据元素的数据类型为复合型的时候,表明该元数据元素使用了引用信息中的引用数据类型;引用数据类型是由一组元素组成、能被重复引用的元素集合。例如,“数据集提交和发布方”和“元数据维护方”两个属性,要共同用到“单位名称”、“联系人”、“联系电话”、“通讯地址”、“邮政编码”和“电子邮件地址
8、”这一组子元素来表示,为了表达的方便,畜牧兽医大数据信息元数据定义了一个叫做“负责方”的数据类型,供“数据集提交和发布方”和“元数据维护方”进行引用。短名必选元数据子集、元数据实体或元数据元素的英文缩写名称,具体缩写规则如下:短名在本标准范围内必须唯一;对存在国际或行业惯用英文缩写词汇的元数据元素、实体或子集,采用惯用英文缩写作短名;对于根据英文名称或自定义的短名,在可以保证其(本标准范围中的所有短名范围内)唯一性的情况下取每个词汇的前 3 位字母作为其短名,当如此取词时发现不能够保证短名标识的唯一性时,应当延展取词的位数,通常增加 1 位,如果仍然不能满足唯一性要求,则照此顺延;元数据元素、
9、实体或子集的短名中,词汇均采用无缝连写。元数据子集与实体短名中每个词汇的首字母均为大写;元数据元素短名的首词汇全部小写,其余词汇的首字母采用大写。注解必选对元数据子集、元数据实体或元数据元素的含义的进一步解释,包括该元数据的约束/条件(必选、可选)和最大出现次数。当该元数据为可选时,应注明其约束条件。取值规则可选元数据元素、元数据实体或元数据子集取值方式的说明。描述元数据元素时必选,描述元数据实体、子集时不选。子元素可选子元素是通过一定的表示规则以确定一个元数据实体中包含的下一级的元数据实体或元数据元素。表示规则为:“标识符=表达式”。描述元数据实体、子集时必选,描述元数据元素时不选。具体定义
10、方式见表2。表 2元数据元素表达式符号含义符号含义=“=”左侧由“=”右侧内容替换、生成、组成,补充举例+与,“+”左侧与右侧的两项都要选择|或(选择),在由“|”分开的两项之中选择其一a表示元数据元素a为必选项,且最大出现次数为1DB50/T 1096.220214表 2(续)符号含义0a1表示中的元数据元素 a 为可选项,且最大出现次数为1或参见其注解0an表示中的元数据元素 a 为可选项,且最大出现次数为N或参见其注解1an表示中的元数据元素 a 为必选项,且最大出现次数为N4.5畜牧兽医行业数据集核心元数据畜牧兽医行业数据集的核心元数据包括 8 个必选元数据元素或实体,10 个可选元数
11、据元素或实体。畜牧兽医行业数据集的核心元数据内容见表 3。表 3畜牧兽医行业数据集核心元数据内容核心元数据内容元素或实体约束性在参考元数据中的位置数据集名称元素必选数据集标识信息数据集标识符元素必选数据集标识信息数据集摘要元素必选内容信息数据集提交或发布方元素必选数据集标识信息关键词实体必选数据集标识信息数据集语种元素必选数据集标识信息元数据创建日期元素必选元数据标识信息元数据标识符元素必选元数据标识信息数据集特征数据元元素可选内容信息数据集发布日期元素可选发布信息数据集发布格式实体可选发布信息在线访问地址元素可选发布信息数据集分类实体可选数据集标识信息相关环境说明元素可选数据集标识信息元数据
12、负责方元素可选元数据标识信息元数据标准名称元素可选元数据标识信息元数据标准版本元素可选元数据标识信息元数据更新日期元素可选元数据标识信息具体核心元数据内容说明见表 4。表 4畜牧兽医行业数据集核心元数据具体说明核心元数据内容定义英文名称数据类型取值规则/子元素短名约束性数据集名称简要描述数据集主题与内容的标题datasetTitle字符串自由文本dataTitle必选项,最大出现次数为1DB50/T 1096.220215表 4(续)核心元数据内容定义英文名称数据类型取值规则/子元素短名约束性数据集标识符数据集的唯一标识符datasetIdentifier字符串按照“提交机构-编号-版本号”的
13、命名规则进行赋值。提交机构使用机构标准名称,版本号用1位整数加2位小数的表示方式,例如“2.10”(版本)dataID必选项,最大出现次数为1数据集摘要数据集内容的简单说明abstract字符串自由文本abstract必选项,最大出现次数为1数据集提交或发布方提交或发布数据集,并对数据集的真实性、正确性、可靠性负责的单位或部门datasetContact复合型自由文本dataContact必选项,最大出现次数为1关键词用于描述数据集主题的通用词、形式化词或短语keywords字符串自由文本keyword必选项,最大出现次数为N数据集语种数据集采用的语言datasetLanguage字符串语种代
14、码dataLang必选项,最大出现次数为N元数据创建日期创建、采集元数据的日期metadataDateStart日期型按照 GB/T 7408 规定,格式应当为 YYYY-MM-DDmdDateStart必选项,最大出现次数为1元数据标识符元数据的唯一标识metadataIdentifier字符串自由文本mdID必选项,最大出现次数为1数据集特征数据元数据集中能够表达数据集核心内容与特征资源的数据元列举characteristicDataElement字符串自由文本charaDataEle可选项,最大出现次数为1数据集发布日期数据集进行提交或发布的日期datasetPublicationDat
15、e日期型按照 GB/T 7408 规定,格式应当为 YYYY-MM-DDdataPubDate可选项,最大出现次数为1数据集发布格式分发数据的格式说明distributionFormat复合型分发格式=分发格式名称+0版本1distFormat可选项,最大出现次数为N在线访问地址可以对数据集进行在线访问或获取的信息online字符串在线访问地址,按照 RFC2396 规定填写online可选项,最大出现次数为NDB50/T 1096.220216表 4(续)核心元数据内容定义英文名称数据类型取值规则/子元素短名约束性数据集分类数据集的分类信息datasetCategory复合型数据集分类=类目
16、名称+类目编码+分类标准dataCat可选项,最大出现次数为N相关环境说明说明数据集产生的处理环境,包括软件、计算机操作系统、文件名和数据量等environmentDescription字符串自由文本envDesc可选项,最大出现次数为1元数据负责方提交元数据并对元数据负责的部门和单位metadataContact复合型自由文本mdContact可选项,最大出现次数为N元数据标准名称执行的元数据标准名称metadataStandardName字符串自由文本mdStdName可选项,最大出现次数为1元数据标准版本执行的元数据标准版本metadataStandardVersion字符串自由文本md
17、StdVer可选项,最大出现次数为1元数据更新日期更新元数据的日期metadataDateUpdata日期型按照 GB/T 7408 规定,格式应当为YYYY-MM-DDmdDateUpd可选项,最大出现次数为14.6畜牧兽医行业数据集参考元数据畜牧兽医行业数据集的参考元数据由 7 个元数据子集构成:a)中文名称:根实体元数据b)定义:畜牧兽医行业数据集参考元数据的根实体c)英文名称:metaDatad)数据类型:复合型e)短名:metaDataf)子 元 素:元数据=元数据标识信息+数据集标识信息+内容信息+0分发信息1+0数据质量信息n+0限制信息n+0维护信息1每个参考元数据子集的说明见
18、表 5。DB50/T 1096.220217表 5畜牧兽医行业数据集的参考元数据子集说明参考元数据子集定义英文名称数据类型子元素短名约束性元数据标识信息关于元数据本身的基本信息metaDataIdentificationInfo复合型元数据标识信息=元数据创建日期+数据集标识符+0元数据负责方n+0元数据更新日期1+0元数据标准名称1+0元数据标准版本1+mDIdInfo必选项,最大出现次数为1数据集标识信息元数据所描述的数据集的基本信息datasetIdentificationInfo复合型数据集标识信息=数据集名称+数据集标识符+0目的1+0可信度n+1 数 据 集 提 交 或 发 布方n
19、+1关键词说明n+1数据集语种n+1数据集分类n+0相关环境说明1dataIdInfo必选项,最大出现次数为1内容信息数据集内容特征的描述信息content复合型内容信息=数据集摘要+0数据集特征数据元1+0数据获取手段1+0数据描述对象n+cont必选项,最大出现次数为1分发信息提供数据集的分发格式和分发方式的信息distributionInfo复合型分发信息子集=0数据集发布格式n+0数据集发布日期n+0在线访问地址n+0离线发布介质ndistInfo可选项,最大出现次数为1数据质量信息提供数据集质量的总体评价信息dataQualityInfo复合型数据质量信息=数据志说明dataQuaI
20、nfo可选项,最大出现次数为N限制信息对数据集和元数据进行访问和使用的限制信息dataConstraints复合型限制信息=0数据集限制信息n+0元数据限制信息n+dataConst可选项,最大出现次数为N维护信息对数据集或元数据进行更新与维护的有关信息maintenanceInfo复合型维护信息=0数据集维护信息n+0元数据维护信息n+maintInfot可选项,最大出现次数为1DB50/T 1096.2202184.7元数据著录用户针对畜牧兽医行业数据集进行元数据著录的实例,可参考附录 A。4.8元数据扩展4.8.1扩展原则新扩展的元数据需要遵循如下两条基本原则:a)新建的元数据不应与参考
21、元数据中的现有的元数据元素、实体、子集的名称、定义相冲突。b)如果共享元数据标准中规定了不允许的情况,则不得扩展这些不允许的内容。4.8.2扩展步骤元数据扩展的步骤包含以下环节,如图 3所示:a)分析参考元数据:对参考元数据进行全面的分析,不仅要针对元数据元素/实体的名称,还应分析它们的定义、数据类型、约束条件、值域和最大出现次数等属性,在不能满足需要的情况下进行扩展;b)使用已有的元数据元素、实体、子集等:如果参考元数据中存在能够满足要求的元数据元素、实体、子集,则直接采用即可,无需新扩展元数据;c)定义新的元数据元素:给出新元数据元素;d)定义新的元数据实体:给出新元数据实体的属性信息,确
22、定构成元数据实体的元数据元素;e)定义新的元数据子集:建立新的元数据子集,确定该元数据子集的定义,确定新建的元数据子集中包含的元数据元素、实体等;f)形成元数据扩展文档:根据新定义的元数据元素、实体、子集等,更新对应的摘要描述信息。图 3 元数据扩展的流程DB50/T 1096.220219附录 A(资料性)畜牧兽医行业数据集核心元数据著录示例表A.1给出了畜牧兽医行业数据集核心元数据著录示例。表 A.1 畜牧兽医行业数据集核心元数据著录示例元数据项元数据值数据集名称新兽药注册品种批准情况数据集标识符新兽药注册-品种批准情况-1.00数据集摘要主要介绍 2019 年重庆地方对新兽药审批情况的统计情况,统计范围包括中药天然药物、化学药品、生物制品、体外诊断试剂、辅料五类。数据集提交或发布方负责单位名称重庆市农业农村委员会联系人姓名夏商联系电话1860000000通讯地址重庆市两江新区黄山大道东段186号邮政编码401121电子邮件地址X关键词说明关键词 1新兽药注册品种关键词 2中药天然药物关键词 3化学药品关键词 4生物制品关键词 5体外诊断试剂关键词 6辅料词典名称特征数据元药品名称,英文名,商品名,类别,剂型,规格,生产企业,批准文号,新药证书编号,批准日期,新药证书持有单位数据集发布日期2020-02-18数据集发布格式发布格式名称版本元数据创建日期2020-02-18