DA∕T 77—2019 纸质档案数字复制件光学字符识别(OCR)工作规范(档案).pdf
《DA∕T 77—2019 纸质档案数字复制件光学字符识别(OCR)工作规范(档案).pdf》由会员分享,可在线阅读,更多相关《DA∕T 77—2019 纸质档案数字复制件光学字符识别(OCR)工作规范(档案).pdf(10页珍藏版)》请在咨信网上搜索。
1、I C S0 1. 1 4 0. 2 0A1 4中 华 人 民 共 和 国 档 案 行 业 标 准D A/T7 72 0 1 9纸质档案数字复制件光学字符识别(O C R) 工作规范S p e c i f i c a t i o nf o ro p t i c a l c h a r a c t e rr e c o g n i t i o n(O C R)o fd i g i t a lc o p i e so fp a p e r - b a s e dr e c o r d s2 0 1 9 - 1 2 - 1 6发布2 0 2 0 - 0 5 - 0 1实施国家档案局发 布1D A/T
2、7 72 0 1 9 前 言本标准按照G B/T1. 12 0 0 9给出的规则起草。本标准由国家档案局提出并归口。本标准起草单位: 国家档案局馆室司、 青岛市档案馆。本标准主要起草人: 刘芸、 丁德胜、 杨来青、 邹杰。2D A/T7 72 0 1 9 纸质档案数字复制件光学字符识别(O C R) 工作规范1 范围本标准规定了纸质档案数字复制件光学字符识别(O C R) 工作的组织、 实施和管理。本标准适用于字迹清晰、 文本规范的纸质档案数字复制件的光学字符识别(O C R) 工作。2 规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件, 仅注日期的版本适用于本文件。凡
3、是不注日期的引用文件, 其最新版本( 包括所有的修改单) 适用于本文件。D A/T1 3 档号编制规则D A/T2 2 归档文件整理规则D A/T3 1 纸质档案数字化规范3 术语和定义下列术语和定义适用于本文件。3. 1 字符 c h a r a c t e r供组织、 控制或表示数据用的元素集合中的一个元素。G B1 8 0 3 02 0 0 5, 定义4. 13. 2 字符集 c h a r a c t e r s e t多个字符的集合。注:常见字符集有A S C I I字符集、G B2 3 1 2字符集、B I G 5字符集、G B1 8 0 3 0字符集、U n i c o d e字
4、符集等。3. 3 光学字符识别 o p t i c a l c h a r a c t e r r e c o g n i t i o n;O C R通过信息技术对图像文件中的字符形状进行识别、 文字转换和文本输出、 呈现的过程。3. 4 纸质档案数字复制件 d i g i t a l c o p yo fp a p e r - b a s e dr e c o r d纸质档案经过数字化加工过程后形成的, 存储在磁带、 磁盘、 光盘等载体上并能被计算机等电子设备识别的数字图像。3. 5 档案O C R成果 O C Ro u t c o m eo f r e c o r d记录通过O C R技术
5、获取的纸质档案数字复制件文字内容的文件。3D A/T7 72 0 1 9 3. 6 识别准确率 r e c o g n i t i o na c c u r a c y通过O C R技术识别正确字符的比率。注:识别准确率=( 识别正确字符数/应识别字符总数)1 0 0%3. 7 识别速度 r e c o g n i t i o ns p e e d单位时间内通过O C R技术识别字符的数量。4 总则4. 1 档案O C R应纳入数字档案馆( 室) 资源建设范畴, 统筹规划、 有序实施, 逐步实现常态化。4. 2 档案O C R应科学开展, 有利于实现档案信息检索和计算机辅助编目、 编研开发、
6、数据挖掘。4. 3 档案O C R应基于档案数字化工作, 档案O C R成果与纸质档案数字复制件之间应建立准确、 可靠的关联关系。4. 4 应当釆取有效的管理和技术手段, 加强档案O C R的过程管理和质量控制, 确保档案O C R过程规范、 成果可靠、 数据安全。4. 5 涉密纸质档案数字复制件的O C R工作, 应符合涉密档案相关的管理和技术要求。5 工作组织5. 1 机构及人员5. 1. 1 应建立档案O C R工作机构, 配备相应素质和技术水平的工作人员, 组织开展档案O C R工作的统筹规划、 组织实施、 协调管理、 技术保障、 安全保障、 监督检查、 成果验收和长期保存等。档案O
7、C R可与纸质档案数字化工作统筹配置工作机构和人员。5. 1. 2 档案O C R工作实行服务外包的, 应从企业性质、 股东组成、 安全保密、 企业规模、 注册资金情况等方面严格审查档案O C R服务供方的相关资质; 从规章制度的建立健全程度等方面考查服务供方的管理能力, 建立权责明确、 覆盖工作全过程的监督机制和安全防范机制, 确保档案信息安全。对外聘的工作人员, 应进行安全审查, 按规定进行保密教育。5. 2 流程控制5. 2. 1 档案O C R流程包括图像导入、 图像预处理、 比对识别、 修改校正、 成果整理输出五个业务环节。应依据相关技术标准, 对档案O C R全过程进行有效控制。5
8、. 2. 2 应加强对档案O C R工作全流程的质量管理和安全管理, 建立完善的质量、 安全问题发现、 修正机制, 确保O C R成果质量和档案信息安全。5. 3 工作文件与元数据5. 3. 1 应建立档案O C R工作方案、 技术方案、 工作审批材料、 流程控制材料、 数据验收材料、 项目验收报告、 成果移交材料等的管理工作文件, 采取服务外包的还应包括项目招标文件、 投标文件、 中标通知书、 项目合同、 保密协议、 操作规程、 监管记录等, 以加强对档案O C R工作的管理。5. 3. 2 应参照相关标准, 提出档案O C R工作流程中相关元数据设计、 捕获、 著录和管理的基本要求,与对应
9、的纸质档案数字复制件管理过程元数据实施融合管理, 并纳入数字档案馆( 室) 应用系统数据库。4D A/T7 72 0 1 9 6 方案制定6. 1 确定工作策略6. 1. 1 O C R工作开展前, 应当依据纸质档案数字复制件O C R项目的计划、 合同、 招投标书等有关项目文件, 对O C R工作的识别处理系统、 网络系统、 基础设施、 保障能力等方面进行业务评价。6. 1. 2 评价通过后, 应根据以下因素, 制定档案O C R的工作策略: 图像资源: 符合导入标准的可识别的彩色(2 4b i t s) 、 灰度(2 5 6阶) 和黑白二值图像。一般应为T I F F、BMP、J P G、
10、P D F( 图像) 、O F D( 图像) 格式文件。 O C R引擎: 对图像包含文字进行高速度和高准确率识别的O C R软件开发包。 O C R软件: 装备O C R引擎的软件, 可高速、 准确输出识别成果, 支持人工比对和校正。应根据需要识别的目标, 按照项目资源的成本风险平衡原则确定O C R的范围、 质量、 效率、 技术等要求。 基础设施: 支持系统运行的场所、 设施和设备, 包括O C R设备及工作间、 介质的场外存放场所、 备用的机房及辅助设施等。 专业技术支持能力: 对系统的运转提供支撑和综合保障的能力, 以实现系统的预期目标。包括硬件、 系统软件和应用软件的问题分析和处理能
11、力, 网络系统安全运行管理能力, 沟通协调能力等。 运行维护管理能力: 保障系统相关的设备和软件正常运行, 提供长期、 及时、 全面的技术支持的能力。包括运行环境管理、 系统管理、 安全管理和变更管理等。 灾难恢复预案: 对系统灾难实行快速、 有效的响应和恢复。包括灾难紧急响应, 灾后系统重建及重续运行, 通信、 后勤、 技术等相关保障机制建设。6. 2 制定技术方案6. 2. 1 应当根据确定的档案O C R工作策略制定O C R各工作系统技术方案, 包含O C R的数据管理系统、O C R识别处理系统和网络系统。技术方案中所涉及的系统应满足如下条件: 与档案管理系统相当的安全保护级别; 具
12、有可扩展性; 对档案管理系统无明显可用性和性能影响。6. 2. 2 为确保技术方案满足档案O C R工作策略的要求, 应对技术方案进行确认和验证, 并记录和保存验证及确认的成果。按照确认的O C R软件技术方案进行开发, 实现所要求的数据管理系统、O C R识别处理系统和网络系统。6. 2. 3 应按照经过确认的技术方案, 制定O C R软件各阶段的系统安装及测试计划, 以及支持不同关键业务功能的系统安装及测试计划, 并组织最终用户共同进行测试。确认以下各项功能可正确实现: 对识别图像进行预处理; 数据识别及校验; 输出档案O C R成果; 数据安全管理。7 档案O C R的实施7. 1 图像
13、导入7. 1. 1 档案O C R实施前, 应先评估纸质档案数字复制件质量是否符合O C R的基本要求。评估内容5D A/T7 72 0 1 9 一般应包括图像分辨率、 偏斜度、 清晰度、 失真度、 亮度、 对比度、 灰度等。7. 1. 2 纸质档案数字复制件的图像分辨率应不低于2 0 0d p i。特殊情况下, 如文字偏小、 密集、 清晰度较差等, 可以适当提高分辨率。文件命名应符合D A/T1 3、D A/T2 2、D A/T3 1的规定。7. 1. 3 对质量不能达到档案O C R工作基本要求的纸质档案数字复制件, 应按照D A/T3 1的要求重新数字化后导入。7. 2 图像预处理7.
14、2. 1 二值化7. 2. 1. 1 在识别处理前, 应对彩色图像进行灰度化和二值化处理, 对灰度图像进行二值化处理。应采取局部自适应二值化等算法, 并支持自动或手动调节。7. 2. 1. 2 应具备亮度和对比度值自动、 手动调节功能。亮度和对比度值的设定以调整后的图像中文字的笔画连贯清晰为准。7. 2. 2 图像降噪7. 2. 2. 1 对图像中印刷体字符进行识别处理前, 需要根据噪声的特征对待识别图像进行降噪处理, 提升识别处理的精确度。7. 2. 2. 2 降噪处理应去除在扫描过程中产生的污点、 污线、 黑边等影响图像质量的杂质, 去除档案页面原有的纸张褪变斑点、 水渍、 污点、 装订孔
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DAT 772019 纸质档案数字复制件光学字符识别OCR工作规范档案 DA 77 2019 纸质 档案 数字 复制 光学 字符 识别 OCR 工作 规范
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【曲****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【曲****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。