YY∕T 1833.2-2022 人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求[医药].pdf
《YY∕T 1833.2-2022 人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求[医药].pdf》由会员分享,可在线阅读,更多相关《YY∕T 1833.2-2022 人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求[医药].pdf(22页珍藏版)》请在咨信网上搜索。
1、ICS 1 1 .040.99CCS C 30YY中华人民共和医药行业标准YY/T 1833.22022人工智能医疗器械质量要求和评价 第2部分:数据集通用要求Artificial intelligence medical device-Quality requirements and evaluation一 Part 2 : General requirements for datasets2022-07-01 发布2023-07-01 实施国家药品监督管理局 发布YY/ T 1 833.22022目 次前言.I 引言.n 1范围.1 2规范性引用文件 .1 3术语和定义.1 4数据集说明要
2、求.3 5数据集质量要求.7 6数据集质量符合性评价.10 附录A (规范性)数据集类型说明.14 附录B(资料性数据筛选与清洗说明 .15 参考文献.17YY/ T 1 833.22022 11 -A.刖 百本文件按照GB/ T 1 .1 2020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定 起草。本文件是YY/ T 1833人工智能医疗器械 质量要求和评价的第2部分。YY/ T 1833已经发布 了以下部分:第1部分:术语;第2部分:数据集通用要求。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任.本文件由国家药品监督管理局提出o本文件由全国人工智能医
3、疗器械标准化技术归口单位归口。本文件起草单位:中国食品药品检定研究院、解放军总医院、上海长征医院、中国科学院深圳先进技 术研究院、华为技术有限公司、飞利浦(中国)投资有限公司、上海西门子医疗器械有限公司、杭州依图医 疗技术有限公司、腾讯医疗健康(深圳)有限公司、上海联影智能医疗科技有限公司、广州柏视医疗科技 有限公司、美中互利医疗有限公司、慧影医疗科技(北京)有限公司、北京安德医智科技有限公司、广州市 妇女儿童医疗中心、中山大学中山眼科中心.本文件主要起草人:王浩、刘土远、何昆仑、郑海荣、李佳戈、詹翊强,孟祥峰、萧毅、葛鑫、刘东泉、 颜子夜、钱天翼、丁子建、陆遥、任海萍、柴象飞、周娟、王珊珊、
4、张培芳、梁会营、林浩添。IYY/ 1 1 1 833.22022引 言近年来,人工智能医疗器械不断发展,成为医疗器械标准化领域的一个新兴方向。我国已初步建立 人工智能医疗器械标准体系。在该标准体系中,YY/ T 1833人工智能医疗器械质量要求和评价是 基础通用标准,为开展细分领域的标准化活动提供指导,拟由八个部分组成,一第1部分:术语。目的在于为人工智能医疔器械的质量评价活动提供术语。第2部分:数据集通用要求。目的在于提出数据集的通用质量要求与评价方法。第3部分:数据标注通用要求。目的在于提出数据标注环节的质量要求与评价方法。一第4部分:可追溯性通用要求。目的在于提出人工智能医疗器械可追溯性
5、的通用要求及评价 方法.一第5部分;算法安全要求。目的在于规范人工智能医疗器械采用的人工智能算法的安全要求 与评价方法。第6部分:环境要求。目的在于规范人工智能医疗器械的运行环境条件要求与评价方法.-第7部分:隐私保护要求。目的在于加强人工智能医疗器械保护受试者隐私的能力。一第8部分:伦理要求。目的在于从技术层面实现人工智能伦理的要求,保护人的权益。本文件为其他部分提供数据集质量评价相关的工作思路。数据集是人工智能医疗器械研发、训练、测试、质控等环节常用的资源,对产品质量有重要影响。本 文件作为YY/ T 1833人工智能医疗器械 质量要求和评价的第2部分,把数据集纳入产品质量评价 体系的一部
6、分,也为后续制定细分领域的数据集专用要求提供依据。YY/ T 1 833.22022人工智能医疗器械质量要求和评价 第2部分:数据集通用要求1范围本文件规定了人工智能医疗器械全生命周期使用的数据集的通用质量要求和评价方法。本文件适用于人工智能医疗器械研发、生产、测试、质控等环节使用的数据集的开发与评价。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文 件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于 本文件.GB/ T 2828.4GB/ T 2828.1 1GB/ T 6378.4YY/ T 1
7、833.1计数抽样检验程序 计数抽样检验程序计量抽样检验程序人工智能医疗器械第4部分:声称质量水平的评定程序第U部分:小总体声称质量水平的评定程序 第4部分:对均值的声称质量水平的评定程序 质量要求和评价第1部分:术语 3术语和定义YY/ T 1 833.1界定的以及下列术语和定义适用于本文件。3.1计数检验 inspection by attributes关于规定的一个或一组要求,或者仅将单位产品划分为合格或不合格,或者仅计算单位产品中不合 格数的检验。来源:GB/ T 2828.1201 2,34.33.2计量质量特性 variables quality characteristic被检的
8、单位产品特性能用连续尺度进行度量的质量特性。来源:GB/ T 80542008,3.1 .33.3计量抽样检验 sampling inspection by variables按规定的抽样方案从批中随机抽取一定数量的单位产品。用测量、试验或其他方法取得它们的质 量特性值,与质量要求进行对比,并判断该批产品能否接收的过程。来源:GB/ T 80542008,3.1 .43.4批皿按抽样目的,在基本相同条件下组成的总体的一个确定部分。1YY/ T 1 833.22022来源:GB/ T 1 01 1 12008,3.1 .43.5准确度 accuracy对数据内容正确、形式有效的一种度量。来源:G
9、B/ T 1 1 4572006,2.22,有修改3.6精度 precision对于说明的量的精确或差异的程度。例如,2位十进制数字对5位十进制数字。来源:GB/ T 1 1 4572006,2,1 1 60注含义有别于算法性能指标的精确度.3.7一致性 consistency在数据集的各阶段、部分之间,一致、标准化、无矛盾的程度。来源:GB/ T 1 1 4572006,2.320,有修改3,8可得性 availability数据集在投入使用时可操作或可利用的程度。来源:GB/ T 1 1 4572006,2.1 1 5,有修改3.9信息安全性information security对数据进
10、行的保护,以防止其受到意外的或蓄意的存取、使用、修改、毁坏或泄密。安全性也涉及对受试者隐私、元数据、通信以及计算机安装的物理保护。来源:GB/ T 1 1 4572006,2.1 420,有修改3.1 0可移植性 portability数据集能被安装、替换或从一个系统移动到另一个系统中,并保持已有质量的属性的程度。 3.1 1数据集制造责任方 dataset manufacture responsible organization对某数据集的设计、制造负有责任的实体。来源:GB 9706.1 2020,3.1 01 ,有修改口3.1 2离群值 outlier一组数据中被认为与该组其他数据不一致
11、的观测值。注:离群值可能来源于不同的总体,或由于不正确的记录或其他误差的结果。来源:CNAS 61-0022018,3.6,有修改 3.1 3数据集说明 dataset description 陈述数据集各种性质的文档.YY/ T 1 833.220224数据集说明要求4.1 数据集描述4.1 .1 数据集整体描述4.1 .1 .1 数据集类型数据集说明应按照附录A的要求,注明数据集的类型。4.1 .1 .2 数据集形态数据集说明应描述数据集的数据模态、数据格式、数据量、存储方式。4.1 .1 .3 数据集层次数据集说明应描述数据集的数据层次、子集分解和组合变化。4.1 .1 .4 应用场景数
12、据集说明应描述数据集预期模拟的应用场景。4J .L5版本控制数据集说明应描述数据集的版本号、存储信息、说明文档编制时间、使用状态。4.1 .1 .6 数据集更新对于动态数据集,数据集说明应描述新增数据的人组规则和数据退役规则。4.1 .1 .7 文档管理数据集说明宜通过计算机技术(如软硬件、普通网络、云服务),对文档内容进行发布、交换、管理和 查询。4J .1 .8元数据属性数据集说明宜描述数据集元数据属性,如数据集名称、标识符、发布方、语种、分类类目名称、摘 要等。4.1 .1 .9 数据元属性数据集说明宜描述数据元的共用属性、专用属性,如数据窠版本、注册机构、分类模式、主管机构等。注:注册
13、机构、主管机构定义见WS/T 3032009.4.1 .1 .1 0 标注信息数据集说明应描述数据集是否具有标注信息。4.1 .2 数据采集信息4.1 .2 J 合规性陈述数据集说明应提供数据来源的合规性陈述。3YY/ T 1 833.220224.1 .2.2 隐私保护数据集说明应描述用于保护受试者隐私的技术手段,如数据去标识化、数据匿名化等。适当时,数 据集说明文档应描述数据去标识化或者数据匿名化的规则。4.1.2.3 多样性数据集说明应提供数据来源多样性的描述,如人群、采集场所、采集设备、参数设置、操作人员资质、 采集流程、采集时间等。4J .2.4数据采集依从原则数据集说明应提供数据采
14、集依据的法规、技术标准、临床规范、专家共识或其他参考文献。4.1.2.5 数据筛选数据集说明应描述数据的录入、排除标准,以及进行数据筛选的方法,如人工清洗、自动清洗。注:示例见附录B.4.1 .3 数据预处理适当时,数据集说明应描述数据预处理的操作步骤和内容。4.1 .4 数据集标注4,1 .4.1 数据集标注依从原则数据集如具有标注信息,数据集说明应描述数据集标注依据的法规、技术标准、临床规范、专家共识 或其他参考文献。4.1.4.2 参考标准数据集如具有标注信息,数据集说明应描述数据集参考标准的制定规则、范围、存储格式与数据规 范。如果参考标准是可验证的,应描述参考标准的验证方式。4.L4
15、.3标注流程数据集如具有标注信息,数据集说明应描述数据标注与质控流程,明确决策机制。在多人标注、多 重标注的情况下,应描述标注分歧的仲裁机制.4.1.4.4其他标注信息数据集如具有标注信息,数据集说明应描述除参考标准外的其他标注信息的范围、数据规范和存储 格式。4.1 .5 数据集存储信息数据集说明宜描述数据存储信息,如数据集存储方式与存储路径、安全控制、备份、恢复的说明。在 数据集使用云服务存储的情况下,应提供云服务的提供商名称和资质访问路径、使用权限说明等。4.1 .6 数据集用户访问4.1.6.1 访问控制数据集说明应描述用户访问控制机制,如用户类型、权限分配、授权机制.4YY/ T 1
16、 833.220224.1 .6.2 访问条件数据集说明应描述访问数据集需要的条件,如软硬件配置、访问方式,数据接口、协议、工具等.4.1 .6.3 可视化- -.一 一 二数据集说明宜描述数据集信息的可视化呈现方式。4.1 .7 开发管理数据集说明宜描述数据集开发过程依从的管理标准。4.2 数据集标识421标识数据集应显示唯一的标识,包含数据集名称、版本号、数据集制造责任方信息,可以随附文件的形式 给出,可在数据集说明文档中进行详细描述。若数据集制造责任方向用户提供数据集管理软件/平台, 应支持数据集标识的预览和查询。数据集如发生变更,标识应同步变更。当数据集作为医疗器械功能实现的一部分时,
17、数据集标识可沿用产品标识。4.2.2 数据集制造责任方信息数据集说明宜包含数据集制造责任方的单位名称和联系方式。适当时,应陈述数据集制造责任方 是否对数据集的使用提供技术支持和维护,以及技术支持和维护的具体内容。4.2.3 文件命名与编码数据集说明应陈述数据集中的文件命名和编码规则。4.3 数据集质量特性描述4.3.1 完整性4.3.1 .1 准确性数据集说明应陈述数据与真实值一致的程度,可按照数据采集、信息记录、数据标注等环节展开,并 以书面形式提供可验证的指标.4.3.1 .2 完备性数据集说明应陈述数据集包含的信息能覆盖数据集的预期用途的程度,并以书面形式展示可验证 的证据。4.3.2
18、唯一性数据集说明应陈述数据集、子集和数据在何种程度上是唯一的,并以书面形式提供可验证的指标。4.3.3 一致性数据集说明应陈述数据之间一致的程度,考虑内部一致性和外部一致性,并以书面形式提供可验证 的指标。5YY/ T 1 833.220224.3.4 确实性数据集说明应陈述数据集在何种程度上是真实和可信的,包括数据、元数据的获取和处理,并以书 面形式展示可验证的证据。4.3.5 时效性数据集说明应陈述数据集开发阶段的各个环节所需时限符合预期的程度,考虑预处理、清洗、标注 等,并以书面形式提供可验证的指标。4.3.6 可访问性数据集说明应陈述数据集可被访问的程度,并以书面形式展示可验证的证据。
19、4.3.7 依从性数据集说明应陈述数据集依从的标准规范、专家共识、操作规程或其他参考文献。438保密性数据集说明应描述信息安全、数据保密相关的措施,并以书面形式展示可验证的证据。4.3.9 资源利用性数据集说明应陈述执行数据集相关任务需要的资源消耗,并以书面形式展示可验证的依从性证据, 如访问、读取数据、预览,检索等任务需要的软件、硬件、网络配置。4.3.1 0 精度数据集说明应描述数据定量信息与真实值的接近程度,考虑数据元、元数据、数据标注结果,并以书 面形式提供可验证的指标,如空间/时间分辨率、有效数字、最小测量单位。4.3.1 1 可追溯性数据集说明应描述数据可被追溯的程度,考虑数据采集
20、历史、数据标注历史、数据访问踪迹和数据 变更踪迹,并以书面形式展示可验证的证据。4312可理解性数据集说明应使用数据集的用户可理解的术语,对数据元、元数据和标注结果的含义提供解释,并 以书面形式展示可验证的证据.4.3.1 3 可得性数据集说明应陈述数据集能被授权用户使用和检索的程度,并以书面形式展示可验证的证据.4.3.1 4 可移植性数据集说明应陈述数据集能被安装、替换或从一个系统移动到另一个系统中,并保持已有质量的属 性的能力,考虑数据安装、替换、移动的效率,并以书面形式展示可验证的证据.4.3.1 5 可恢复性数据集说明应陈述数据集可被恢复的程度,并以书面形式展示可验证的证据.数据集说
21、明可提供 6YY/ T 1 833.22022用于数据恢复的措施,数据集说明可提供防止数据集使用过程出现中断、失效的措施.4.3.1 6 代表性数据集说明应对样本的组成、比例、人群分布特征、数据的多样性和接近应用场景的程度开展分析, 并以书面形式提供可验证的指标。5数据集质量要求5J概述本文件所述内容关注数据集的质量特性、整体风险等要素,宜根据数据集的预期用途、应用场景对 数据集开展质量评价,形成技术报告,作为对数据集质量的验证。5.2质量特性5.2+1完整性5.2.1 .1 准确性数据集应符合数据集说明有关准确性的陈述,如:a)记录信息的准确性;b)文字描述准确、清晰、无歧义?c)数据标注的
22、准确性;d)采集设备的有效性;e)人员操作的有效性;f)数据形式的合理性。5.2.1.2 完备性数据集应包含实现数据集预期用途、满足应用场景需要的信息,如:a)数据结构与格式应支持数据元、标注信息、元数据的保存、传输与访问,避免信息空白、遗漏或 丢失;b)对不可避免的缺失数据、离群值,应给山明确的处理方式,证明应用场景的合理性,对相关数据 元加以标识:c)元数据应描述数据集标识信息、内容信息、数据质量特性等相关信息;d)数据包含的信息应支持数据标注与参考标准溯源的需要。5.2.2 唯一性同一数据集或子集内的数据元应是唯一的。同一数据集的各个子集应是可区分的,同一数据集内 的数据唯一性宜以受试者
23、个体为识别特征,对同一个体的不同时间、空间的数据应明确描述处理方法。523 一致性数据集应符合数据集说明有关一致性的陈述,包括内部一致的程度和外部一致的程度。内部一致性是指相同来源数据之间的相关性,如,a)同一数据元在数据集生存周期不同阶段应保持一致;b)数据的特征应保持一致;c)数据的采集、预处理、标注方法应保持一致;7YY/ T 1 833.22022d)原始记录、中间记录与最终记录应保持一致。外部一致性是指不同来源数据之间的相关性,如:a)不同来源的数据应在数据特征方面保持一致;b)离群值应是可解释的;c)不同来源的数据在采集、标注环节应依从相同的法规、技术标准、医学规范、其他文献要求。
24、5.2.4 确实性数据集应符合数据集说明有关确实性的陈述,如:a)数据应来自真实的临床数据采集流程;适当时,数据采集涉及的设备、人员、方法应符合技术标 准、临床规范或专家共识;b)数据扩增、数据合成活动和结果应是可溯源和可解释的;c)元数据应如实对数据进行描述。5.2.5 时效性数据的采集、标注、流转、归档、变更等活动的时限应符合数据集说明有关时效性的陈述.动态更新 的数据集应明确数据的更新周期、更新方法和更新比例。若数据涉及临床诊断、治疗中的时序过程,应 证明数据在临床时效上的合理性。526可访问性数据集应满足数据集的预期用途和应用场景范围内的访问需要。527依从性数据集应符合数据集说明有关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医药 YYT 1833.2-2022 人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求医药 YY 1833.2 2022 人工智能 医疗器械 质量 要求 评价 部分 数据 通用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【曲****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【曲****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
链接地址:https://www.zixin.com.cn/doc/177657.html