DB12∕T 1303-2024 地方志数字化加工技术规范(天津市).pdf
《DB12∕T 1303-2024 地方志数字化加工技术规范(天津市).pdf》由会员分享,可在线阅读,更多相关《DB12∕T 1303-2024 地方志数字化加工技术规范(天津市).pdf(27页珍藏版)》请在咨信网上搜索。
1、 ICS 01.140.20 CCS A 14 12 天津市地方标准 DB12/T 13032024 地方志数字化加工技术规范 Technical specification for digital processing of Local Chronicles 2024-02-19 发布 2024-03-19 实施 天津市市场监督管理委员会 发 布 DB12/T 13032024 I 前言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。本文件由天津市地方志编修委员会办公室提出并归口。本文件起草单位:天津市地方志编修委员会办公室、天津市地方志馆
2、。本文件主要起草人:莫洪胜、仇伟海、郝登奎、梁娜、巩志彬、朱晓飞、朱雅晶、郑佳、张迪、李庆福、王靓、邓滢、柳杨。DB12/T 13032024 1 地方志数字化加工技术规范 1 范围 本文件规定地方志纸质文献数字化加工流程、技术规范和地方志书籍出版的电子文件格式以及著录元数据结构等内容。本文件适用于地方志纸质文献数字化及出版电子书籍的加工处理。2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 22602007 中华人民共和国行政区划
3、代码 GB/T 223732008 标准文献元数据 GB/T 31219.22014 图书馆馆藏资源数字化加工规范 第2部分:文本资源 DA/T 312017 纸质档案数字化规范 3 术语和定义 下列术语和定义适用于本文件。3.1 地方志 local chronicles 包括地方志书和地方年鉴。地方志书是全面系统地记述某一地域或某一专门领域自然、政治、经济、文化、社会和生态建设的历史与现状的资料性文献。地方年鉴是指全面系统记述某一地域或某一专门领域自然、政治、经济、文化、社会和生态建设年度现状的资料性文献。3.2 地方志资源 local chronicle resources 包括但不限于地
4、方志书、地方年鉴、期刊、地方史等地方志书刊类资源。3.3 数字化 digitization 利用计算机技术将模拟信号转换为数字信号的处理过程。DA/T 312017,定义 3.1 3.4 地方志数字化 digitization of paper-based records 采用扫描仪等设备对地方志资源进行数字化加工,使其转化为存储在磁带、磁盘、光盘等载体上的数字图像、文本数据、图片数据、表格数据,并按照在纸质文献的内在联系,建立起目录数据、内容数据、数字图像间的相互关联关系的处理过程。3.5 分辨率 resolution 单位长度内图像包含的点数或素数,一般用dpi表示。3.6 准确率 pre
5、cision 文本文件中正确识别的字符数与总字符数之比,即准确率=(正确识别字符数/总字符数)100%。DB12/T 13032024 2 3.7 光学字符识别 optical character recognition(OCR)电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,用字符识别方法将形状翻译成计算机文字的过程。3.8 元数据 metadata 描述信息资源或数据的数据。GB/T 223732008,定义3.3 3.9 元素 element 元数据的基本语义单位,描述元数据的基本实体。3.10 简单型 simple type 不具有子元素的元素所对应
6、的元素类型。3.11 容器型 container type 具有子元素且本身不能被赋值的元素所对应的元素类型。3.12 复合型 complex type 4.3建立目录数据库包括但不限于:建立目录数据库、扫描纸质文献、OCR 识别、制作书签。4.2加工流程地方志数字资源移交登记表。资源用于任何商业或其他营利性用途。各单位向同级地方志馆移交地方志数字资源应按照附录A,填写地方志数字化资源的著作权属于作者,.或数字化扫描公司未经作者同意不得将地方志数字4.1.5合规性地方志数字化资源的文字、图像、版式文件、资源挂接、元数据应保证准确。4.1.4准确性码混乱、图像失真等无法使用的错误。地方志数字化资
7、源应能通过相关软件及系统读出,不允许出现数据损坏、异常报错、无法打开,编4.1.3有效性地方志数字化资源的数据格式、数据文件命名、数据存储应保证规范。4.1.2规范性地方志数字化资源的类型、内容、元数据信息应保证完整。4.1.1完整性4.1基本要求4地方志数字化加工流程及质量要求本身可以被赋值且在一定条件下可以具有子元素的元素所对应的元素类型。DB12/T 13032024 3 目录数据库数据规则的制定应符合附录 C 的要求,包括数据名称、字段类型、取值范围等。地方志数字资源命名要求应符合本文件 4.7 的要求。扫描纸质文献 4.4 4.4.1 加工范围 包括封面、版权页、目录、正文、附录、插
8、页、封底等从封面到封底的全部页面。4.4.2 加工格式 地方志数字资源在形成过程中可采用通用格式,在归档时要转为版式文件,版式文件格式应与国家允许的格式一致,目前可采用双层OFD、双层PDF或矢量PDF格式。双层OFD、双层PDF文件图像所使用的图像格式为JPG;矢量PDF文件文字使用矢量字库,图像采用高质量方式。4.4.3 加工要求 4.4.3.1 页面要求 页面中图像层和文字层的文字对位要准确,页面完整,无缺页、重页,页码顺序颠倒等情况发生。文字简繁体参照原书处理。4.4.3.2 图像要求 4.4.3.2.1 图像精度不少于 300dpi,如原件质量较差或字体很小,字迹密集,可适当提高分辨
9、率。4.4.3.2.2 图像放大到 200%的时候,字迹清晰,笔画连续,无断裂、缺块的现象,倾斜度不能超过 0.50。4.4.3.2.3 含彩色插图的页面为彩色图像;含灰度插图的页面为灰度图像;其他页面,为黑白图像。OCR 识别 4.5 使用OCR相关软件对地方志文献进行文字识别。OCR文字识别完成后需进行内容校对,采用人工检验或计算机程序辅助检验的方法对地方志数字资源中的文本、图片、表格等进行抽样检测。文本、图片准确率应在99%以上,表格准确率应在95%以上。制作书签 4.6 需包含与原书一致的书签。在出版物的封面、封面后的折页、第一次出现书名的地方、版权页、封底前的折页、封底,添加书签“封
10、面、前折页、书名页、版权页、后折页、封底”,其他出现与章节平级的(如序,前言,后记等)内容,必须在版式文件出现的地方按原书内容添加书签。所有书签均按原书实际顺序,书签能准确跳转到其对应的位置。命名要求 4.7 地方志数字资源以其具有的唯一标识符命名,编码由15位组成。前2位代表地方志数字资源类型,其中“ZS”代表志书,“NJ”代表年鉴,“QK”代表地方志期刊,“FS”代表地方史。第3位代表地方志资源内容所属类别,编码规则按照中国图书馆分类法,其中AX为专业性地方志资源(包括专门年鉴和专门志书)的类别编码,Z为综合型地方志资源(包括综合年鉴和综合志书)的类别编码。第49位共6位为地方志资源所属地
11、行政区划代码,应符合GB/T 22602007 中华人民共和国行政区划代码的要求。第1013位共4位为地方志记事下限的年份。第1415位为卷次编号,代表地方志资源在该年份该区划的卷次,00代表只有唯一一卷,若有多卷,则01代表第一卷、02代表第二卷,依次类推。示例:ZS Z 120104 2010 00 表示 2010 年天津市南开区志(1979-2010)4 4.9.2.1 XML文件的规格应遵循XML1.0版本规格要求,编码方式为UTF-8,使用字符集应符合GB 18030。4.9.2.2 XML 文件要求大小写正确、嵌套正确。4.9.2.3 元数据的 Schema 定义见附录 B。4.9
12、.3 存储结构及实例 一册(卷)地方志数字资源建立一个文件夹,文件夹以图书或期刊的标识符命名。文件夹内文件包括双层OFD或PDF(含书签)和元数据文件,均以其标识符来命名,存储结构应符合图1。图 1 存储实例 5 元数据著录要求 元数据的组成 5.1 4.9.2XML 格式要求XML、ET格式。地方志数字资源应以图书或期刊为单位进行存储,其元数据应一并收集、归档。元数据可采用XLS、4.9.1元数据收集4.9存储结构要求出版电子书籍的加工处理应符合本文件4.4.3的要求,书签应符合本文件4.6的要求。4.8.2加工及书签要求文字内容能够被正确检索和拷贝,与原书版面保持一致。其中外文数字、标点、
13、符号等均应采用半角。由.的排版文件转换成版式文件时,必须纠正内码错误(原文文字错误可以除外),确保所有4.8.1格式转换要求4.8出版电子书籍的加工处理DB12/T 13032024DB12/T 13032024 5 由基本数据元素组成,包括题名、责任者、标识符、日期、数字加工信息、馆藏信息等元素。元数据的分类 5.2 5.2.1 元数据从概念层次上区分为为描述元数据和管理元数据。5.2.2 描述元数据由基本元素组成,包括题名、责任者等信息。5.2.3 管理元数据由实体书的来源信息、馆藏信息和数字化加工元素组成,包括数字化加工机构、数字化加工交付时间等信息。元数据的描述方法 5.3 5.3.1
14、 中文名称 由一个对象称谓的中文词或短语构成。5.3.2 英文标签 由一个对象称谓的英文词或短语构成。5.3.3 定义说明 数据元素范围的定义或说明,描述信息对象的一段文字。5.3.4 目的 描述数据元素的必要性和作用。5.3.5 必备性 数据元素的选择性属性。5.3.6 重复性 数据元素的可重复性属性。5.3.7 元素类型 数据元素所属的类型,分为简单型、容器型、复合型。5.3.8 数据类型 由字符、数字、数值和日期等类型构成。5.3.9 取值范围 数据元素所涉及的取值范围。5.3.10 注释 对数据元素的进一步说明。元数据索引表 5.4 元数据索引见表1。表1 元数据索引表 层次描述 编号
15、 元素 编号 元素 描述元数据 M1 题名 DB12/T 13032024 6 M2 责任者 M3 主管单位 M4 主办单位 M5 其他责任者 M6 地域 M7 描述信息 M8 摘要 M9 编辑说明/凡例 M10 卷次篇目名称 M11 日期 M12 纂修日期 M13 出版日期 M14 标识符 M15 资源类型 M16 图书分类号 M17 行政区划代码 M18 记事下限 M19 卷次编号 M20 版权 M21 语种 M22 关联 M23 出版信息 M24 出版编号 M25 出版单位 M26 印刷单位 M27 开本 M28 印数 M29 字数 M30 页数 M31 定价 管理元数据 M32 数字加
16、工信息 M33 数字加工来源格式 M34 数字化加工机构 M35 数字化加工交付时间 M36 数字化加工执行标准 M37 来源信息 M38 来源方式 M39 提供方名称 M40 馆藏信息 M41 收藏单位名称 M42 典藏号 M43 排架区分号 M44 入藏日期 M45 入藏卷期 M46 保存状态 M47 完残 M48 完残程度 元数据具体描述 5.5 见附录C。DB12/T 13032024 7 A A 附录A (规范性)地方志数字资源移交登记表 各单位向同级地方志馆移交地方志数字资源应填写地方志数字资源移交登记表,应符合表 A.1。表A.1 地方志数字资源移交登记表 移交单位名称 移交地方
17、志 数字资源明细 1.2.3.4.5.6.7.数字版权情况 拥有版权 提供版权所有者授权声明 其他情况说明 移交介质 光盘 U 盘 移动硬盘 其他:_ 移交人(签字)年 月 日 接收人(签字)年 月 日 移交单位(盖章)年 月 日 接收单位(盖章)年 月 日 备注:移交单位应提供版权所有者的授权声明,确保接收单位享受地方志数字资源的复制、信息网络传播、汇编等权利。若发生版权争议,责任由移交单位承担。DB12/T 13032024 8 附录B (规范性)元数据的 Schema 定义 DB12/T 13032024 9 DB12/T 13032024 10 附录C (规范性)元数据具体描述 元数据
18、的具体描述见表 C.1。表 C.1 元数据具体描述 编号 M1 中文名称 题名 英文标签 title 定义说明 地方志资源的正式名称 目的 描述地方志资源的中心内容,提供检索 必备性 必备 重复性 不可重复 元素类型 简单型 数据类型 字符 取值范围-注释-编号 M2 中文名称 责任者 英文标签 creator 定义说明 创作地方志资源的主要责任者 目的 描述地方志资源的唯一责任者,提供检索 必备性 必备 重复性 不可重复 元素类型 简单型 数据类型 字符 取值范围-注释 著录单个作者 编号 M3 中文名称 主管单位 英文标签 dominantAgency 定义说明 创作地方志资源的主管单位或
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB12T 1303-2024 地方志数字化加工技术规范天津市 DB12 1303 2024 地方志 数字化 加工 技术规范 天津市
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【曲****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【曲****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。