AIOSS-01-2018 人工智能 深度学习算法评估规范.pdf
《AIOSS-01-2018 人工智能 深度学习算法评估规范.pdf》由会员分享,可在线阅读,更多相关《AIOSS-01-2018 人工智能 深度学习算法评估规范.pdf(30页珍藏版)》请在咨信网上搜索。
1、ICS 35.080 L 77 AIOSS 中 国 人 工 智 能 开 源 软 件 发 展 联 盟 标 准 AIOSS012018 人工智能 深度学习算法评估规范 Artificial intelligenceAssessment specification for deep learning algorithms 2018 - 07 - 01 发布 2018 - 07 - 01 实施 AIOSS-01-2018 I 目 次 前言 . III 引言 . IV 1 范围 . 1 2 术语和定义 . 1 3 评估指标体系 . 2 3.1 评估指标体系表 . 2 3.2 算法功能实现的正确性 . 4
2、 3.3 代码实现的正确性 . 4 3.4 目标函数的影响 . 4 3.5 训练数据集的影响 . 4 3.6 对抗性样本的影响 . 4 3.7 软硬件平台依赖的影响 . 5 3.8 环境数据的影响 . 5 4 评估流程 . 5 4.1 概述 . 5 4.2 确定可靠性目标 . 6 4.3 选择评估指标 . 7 4.4 评估准则 . 7 4.5 各阶段评估 . 8 4.6 评估结论 . 8 5 需求阶段的评估 . 8 5.1 概述 . 8 5.2 前提条件 . 8 5.3 输入 . 8 5.4 关键活动 . 9 5.5 输出 . 9 6 设计阶段的评估 . 9 6.1 概述 . 9 6.2 前提
3、条件 . 9 6.3 输入 . 9 6.4 关键活动 . 9 6.5 输出 . 10 7 实现阶段的评估 . 10 7.1 概述 . 10 AIOSS-01-2018 II 7.2 前提条件 . 10 7.3 输入 . 10 7.4 关键活动 . 10 7.5 输出 . 11 8 运行阶段的评估 . 11 8.1 概述 . 11 8.2 前提条件 . 11 8.3 输入 . 11 8.4 关键活动 . 11 8.5 输出 . 12 附录 A(规范性附录) 深度学习算法可靠性评估指标选取规则 . 13 附录 B(资料性附录) 深度学习算法可靠性评估实施案例 . 15 参考文献 . 25 AIOS
4、S-01-2018 III 前 言 本标准按照GB/T 1.12009给出的规则起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本标准由中国人工智能开源软件发展联盟提出。 本标准由中国电子技术标准化研究院归口。 本标准负责起草单位:中国电子技术标准化研究院、中国科学院软件研究所、上海计算机软件技术开发中心、北京航空航天大学、华东师范大学、中国科学院计算技术研究所、军事科学院国防科技创新研究院、国防科技大学、卡索(北京)科技有限公司、北京百度网讯科技有限公司、浙江蚂蚁小微金融服务集团有限公司、深圳前海微众银行股份有限公司、顺丰科技有限公司、深圳市优必选科技
5、有限公司、北京京东尚科信息技术有限公司、深圳赛西信息技术有限公司、数据地平线(广州)科技有限公司。 本标准主要起草人:薛云志、孟令中、崔静、张明英、张璨、周平、武斌、郭崎、刘畅、吴涛、李海峰、肖良、张超、于泉杰、宋俊典、戴炳荣、王长波、孙仕亮、陈美、李刚、潘欣、程思、刘志欣、刘新凯、王太峰、巢林林、袁杰、曹安然、尹思遥。 AIOSS-01-2018 IV 引 言 人工智能的迅速发展正在深刻改变人类社会生活、 改变世界, 其技术和应用正经历快速发展的阶段。根据GB/T 5271.28-2001信息技术 词汇 第28部分:人工智能 基本概念与专家系统中的定义,“人工智能是表现出与人类智能(如推理和
6、学习)相关的各种功能单元的能力。”机器学习是人工智能的核心技术之一,是使计算机具有智能的重要途径,其应用遍及人工智能的各个领域。深度学习是机器学习的一个子集,发源于人工神经网络的研究,通常也称为深度神经网络,是一种基于数据进行表征学习的方法。目前,深度学习算法在金融、安防、医疗等领域得到广泛应用,国务院发布的新一代人工智能发展规划中指出,人工智能进入新的发展阶段,“呈现出深度学习、跨界融合、人机协同、群智开放、自主操控等新特征。” 然而,业界缺乏对深度学习算法可靠性、可移植性、效率等的系统性评估方法,一定程度上影响着深度学习的广泛应用和技术发展。本标准此版本仅针对人工智能深度学习算法的可靠性评
7、估进行要求。随着研究的深入及应用的发展,后续将不断进行持续改进,逐渐扩展到深度学习算法可移植性、效率等方面的评估。 中国电子技术标准化研究院作为国际标准化组织ISO/IEC JTC1/SC42(人工智能分技术委员会)的国内技术归口单位,在本标准研制过程中,充分发挥了组织协调和技术方向把关作用。标准编写组聚集了国内人工智能深度学习领域的技术专家, 开展了多种形式的专题研讨和征求意见活动, 在保证标准科学性、合理性和可行性的同时,也确保了标准研制过程的公开性和透明性。 本标准的研制工作, 得到了中国人工智能开源软件发展联盟专家委员会的指导和支持, 专家委员会主任委员、 中国科学院院士、 华东师范大
8、学计算机科学与软件工程学院院长何积丰院士和各位专家对标准内容和文稿进行了深入严谨的讨论, 给出了许多切实可行的意见, 对标准质量提升和标准内容完善起到关键性作用。 使用帮助信息:任何单位和个人在使用本标准的过程中,若存在疑问,或有对本标准的改进建议和意见,请与中国电子技术标准化研究院(中国人工智能开源软件发展联盟 秘书处)联系。 电话:010-64102848;电子邮件: 通信地址:北京东城区安定门东大街1号(100007) 版权声明:本标准版权受法律保护,转载、摘编或利用其它方式使用本标准内容的,应注明出处。违反上述声明者,本联盟将追究其相关法律责任。 为了推动本标准的持续改进, 使其内容更
9、加贴近用户组织的实际需求, 欢迎社会各方力量参加本标准的持续改进,本标准的更多信息欢迎关注“中国人工智能开源软件发展联盟”公众号。 AIOSS-01-2018 1 人工智能 深度学习算法评估规范 1 范围 本标准提出了人工智能深度学习算法的评估指标体系、评估流程,以及需求阶段评估、设计阶段评估、实现阶段评估和运行阶段评估等内容。 本标准适用于指导深度学习算法开发方、 用户方以及第三方等相关组织对深度学习算法的可靠性开展评估工作。 2 术语和定义 下列术语和定义适用于本文件。 2.1 可靠性 reliability 在规定的条件下和规定的时间内, 深度学习算法正确完成预期功能, 且不引起系统失效
10、或异常的能力。 2.2 可靠性评估 reliability assessment 确定现有深度学习算法的可靠性所达到的预期水平的过程。 2.3 算法失效 algorithm failure 算法丧失完成规定功能的能力的事件。 2.4 危险 hazard 深度学习算法发生算法失效, 从而导致机器学习系统出现的一个非预期或有害的行为, 或者提交给其他与机器学习系统相关联的系统发生错误。 2.5 危险严重性 hazard severity 某种危险可能引起的事故后果的严重程度。 2.6 查准率 precision 对于给定的数据集,预测为正例的样本中真正例样本的比率。 2.7 查全率 recall
11、对于给定的数据集,预测为真正例的样本占所有实际为正例样本的比率。 2.8 准确率 accuracy 对于给定的数据集,正确分类的样本数占总样本数的比率。 AIOSS-01-2018 2 2.9 响应时间 response time 在给定的软硬件环境下,深度学习算法对给定的数据进行运算并获得结果所需要的时间。 2.10 对抗性样本 adversarial examples 在数据集中通过故意添加细微的干扰所形成输入样本, 受干扰之后的输入导致模型以高置信度给出错误的输出。 2.11 置信度 confidence 总体参数值落在样本统计值某一区内的概率。 3 评估指标体系 3.1 评估指标体系表
12、 基于深度学习算法可靠性的内外部影响考虑, 结合用户实际的应用场景, 本标准给出了一套深度学习算法的可靠性评估指标体系。本指标体系如图1所示,包含7个一级指标和20个二级指标。在实施评估过程中,应根据可靠性目标选取相应指标。 AIOSS-01-2018 3 算法功能实现的正确性响应时间任务指标代码实现的正确性代码漏洞代码规范性软硬件平台依赖的影响硬件架构差异操作系统差异深度学习框架差异目标函数的影响拟合程度优化目标数量训练数据集的影响数据集污染情况数据集标注质量数据集规模数据集均衡性对抗性样本的影响不指定目标方式生成的样本指定目标方式生成的样本黑盒方式生成的样本白盒方式生成的样本环境数据的影响
13、数据集分布迁移干扰数据野值数据深度学习算法的可靠性指标体系 图 1 深度学习算法可靠性评估指标体系 AIOSS-01-2018 4 3.2 算法功能实现的正确性 用于评估深度学习算法实现的功能是否满足要求,应包括但不限于下列内容: a) 任务指标: 用户可以根据实际的应用场景选择任务相关的基本指标, 用于评估算法完成功能的能力; 示例:分类任务中的查准率(见 2.6)、查全率(见 2.7)、准确率(见 2.8)等;语音识别任务中的词错误率、句错误率等;目标检测任务中的平均正确率等;算法在使用中错误偏差程度带来的影响等。 b) 响应时间(见2.9)。 3.3 代码实现的正确性 用于评估代码实现功
14、能的正确性,应包括下列内容: a) 代码规范性:代码的声明定义、版面书写、指针使用、分支控制、跳转控制、运算处理、函数调用、语句使用、循环控制、类型转换、初始化、比较判断和变量使用等是否符合相关标准或规范中的编程要求; b) 代码漏洞:指代码中是否存在漏洞。 示例:栈溢出漏洞、堆栈溢出漏洞、整数溢出、数组越界、缓冲区溢出等。 3.4 目标函数的影响 用于评估计算预测结果与真实结果之间的误差,应包括下列内容: a) 优化目标数量:包括优化目标不足或过多。优化目标过少容易造成模型的适应性过强,优化目标过多容易造成模型收敛困难; b) 拟合程度:包括过拟合或欠拟合。过拟合是指模型对训练数据过度适应,
15、通常由于模型过度地学习训练数据中的细节和噪声, 从而导致模型在训练数据上表现很好, 而在测试数据上表现很差,也即模型的泛化性能变差。欠拟合是指模型对训练数据不能很好地拟合,通常由于模型过于简单造成,需要调整算法使得模型表达能力更强。 3.5 训练数据集的影响 用于评估训练数据集带来的影响,应包括下列内容: a) 数据集均衡性:指数据集包含的各种类别的样本数量一致程度和数据集样本分布的偏差程度; b) 数据集规模:通常用样本数量来衡量,大规模数据集通常具有更好的样本多样性; c) 数据集标注质量:指数据集标注信息是否完备并准确无误; d) 数据集污染情况:指数据集被人为添加的恶意数据的程度。 3
16、.6 对抗性样本的影响 用于评估对抗性样本对深度学习算法的影响,应包括下列内容: a) 白盒方式生成的样本:指目标模型已知的情况下,利用梯度下降等方式生成对抗性样本; b) 黑盒方式生成的样本:指目标模型未知的情况下,利用一个替代模型进行模型估计,针对替代模型使用白盒方式生成对抗性样本; c) 指定目标生成的样本:指利用已有数据集中的样本,通过指定样本的方式生成对抗性样本; d) 不指定目标生成的样本:指利用已有数据集中的样本,通过不指定样本(或使用全部样本)的方式生成对抗性样本。 AIOSS-01-2018 5 3.7 软硬件平台依赖的影响 用于评估运行深度学习算法的软硬件平台对可靠性的影响
17、,应包括下列内容: a) 深度学习框架差异:指不同的深度学习框架在其所支持的编程语言、模型设计、接口设计、分布式性能等方面的差异对深度学习算法可靠性的影响; b) 操作系统差异:指操作系统的用户可操作性、设备独立性、可移植性、系统安全性等方面的差异对深度学习算法可靠性的影响; c) 硬件架构差异: 指不同的硬件架构及其计算能力、 处理精度等方面的差异对深度学习算法可靠性的影响。 3.8 环境数据的影响 用于评估实际运行环境对算法的影响,应包括下列内容: a) 干扰数据:指由于环境的复杂性所产生的非预期的真实数据,可能影响算法的可靠性; b) 数据集分布迁移: 算法通常假设训练数据样本和真实数据
18、样本服从相同分布, 但在算法实际使用中,数据集分布可能发生迁移,即真实数据集分布与训练数据集分布之间存在差异性; c) 野值数据:指一些极端的观察值。在一组数据中可能有少数数据与其余的数据差别比较大,也称为异常观察值。 4 评估流程 4.1 概述 深度学习算法的可靠性评估流程如图 2所示。包括确定可靠性目标、选择评估指标、需求阶段的评估、设计阶段的评估、实现阶段的评估、运行阶段的评估及得出评估结论这七个活动。 AIOSS-01-2018 6 确定可靠性目标选择评估指标需求阶段的评估设计阶段的评估是否满足评估准则?实现阶段的评估是是运行阶段的评估是得出通过可靠性评估结论是否否否开始结束得出未通过
19、可靠性评估结论是否满足评估准则?是否满足评估准则?是否满足评估准则?否 图 2 深度学习算法的可靠性评估流程 4.2 确定可靠性目标 应运用以下步骤确定深度学习算法的可靠性目标: AIOSS-01-2018 7 a) 场景分析 针对深度学习算法实现的功能发生算法失效从而导致软件系统产生一个危险时, 需要对其所处的运行环境与运行模式进行描述, 既要考虑软件系统正确使用的情况, 也要考虑可预见的不正确使用的情况。 b) 危险分析 1) 应通过多种途径开展有关深度学习算法失效的危险识别;如头脑风暴、专家评审会、质量历史记录和软件失效模式和影响分析等技术识别深度学习算法发生算法失效的危害; 2) 应识
20、别危险的后果;如对环境或人员是否有伤害、需要完成的任务是否有影响等; 3) 危险事件应由运行场景和算法失效的相关组合确定; 4) 应以能在深度学习算法所在的软件系统层面观察到的输出来定义结果。 c) 危险严重性等级评估 针对每一个算法失效,应基于确定的理由来预估潜在危险的严重性等级。危险严重性等级(见表1)。 表 1 危险严重性等级 危险严重性等级 描述 灾难级 算法失效导致系统任务失败,或对安全、财产、环境和业务等造成灾难性影响。 严重级 算法失效导致系统任务的主要部分未完成,或对安全、财产、环境和业务等造成严重影响。 一般级 算法失效导致系统完成任务有轻度影响,或对安全、财产、环境和业务等
21、造成一般影响。 轻微级 算法失效导致系统完成任务有障碍但能够完成,或对安全、财产、环境和业务等造成轻微影响或无影响。 危险严重性等级的评估可以基于对多个场景的综合性考虑, 同时危险严重性等级的确定应基于场景中有代表性的个体样本。 d) 确定可靠性目标 根据算法失效的危险严重性等级,建立深度学习算法的可靠性目标(见表2)。其中可靠性目标从高到低依次分为A、B、C、D四个级别。 表 2 深度学习算法的可靠性目标 可靠性目标 可靠性目标说明 危险严重性等级对应说明 A 避免算法失效造成灾难级危险 灾难级 B 避免算法失效造成严重级危险 严重级 C 避免算法失效造成一般级危险 一般级 D 避免算法失效
22、造成轻微级危险 轻微级 4.3 选择评估指标 不同可靠性目标的深度学习算法在各个阶段中选取的可靠性评估指标不同, 因此在面向算法的需求阶段、设计阶段、实现阶段和运行阶段的可靠性评估过程中应确定与之对应的评估指标。具体选取规则见规范性附录A。 4.4 评估准则 开展可靠性评估工作应遵守以下准则: AIOSS-01-2018 8 a) 各阶段评估通过的准则应同时满足如下要求: 1) 依据规范性附录A选取的某一级指标下的二级指标全部通过; 2) 依据规范性附录A选取的某阶段的一级指标全部通过。 b) 深度学习算法可靠性评估通过的准则应满足:面向算法需求阶段、设计阶段、实现阶段及运行阶段四个阶段的可靠
23、性评估均通过。 4.5 各阶段评估 各阶段评估工作应满足: a) 面向深度学习算法的需求阶段、设计阶段、实现阶段、运行阶段四个阶段实施评估活动; b) 通过当前阶段的评估是进入下一阶段评估的前提条件之一; c) 四个阶段的评估活动有完整的顺序关系; d) 各阶段评估活动的输入、关键活动及输出要求详见本标准第5至第8章; e) 各阶段可靠性评估结果均应以阶段评估报告的形式进行输出,其内容至少应包括以下内容: 1) 深度学习算法的可靠性目标; 2) 开展可靠性评估的阶段名称; 3) 针对算法在该阶段开展可靠性评估工作所选择的评估指标及针对评估指标的评估结果; 4) 该阶段的可靠性评估结果。 4.6
24、 评估结论 面向深度学习算法的需求阶段、设计阶段、实现阶段及运行阶段四个阶段均通过评估,深度学习算法可靠性通过评估并达到目标要求;否则未通过评估。 5 需求阶段的评估 5.1 概述 深度学习算法需求阶段是通过调研和分析,理解用户和项目应用的功能、性能等具体要求,最后确定算法应实现的功能性需求、非功能性需求和应满足的设计约束的阶段。 面向深度学习算法需求阶段的可靠性评估工作, 指运用可靠性分析方法, 通过对算法功能实现的正确性和软硬件平台依赖的影响等进行评估,以确定算法的需求满足可靠性目标要求。 5.2 前提条件 开展本阶段可靠性评估工作前至少应完成获取深度学习算法的可靠性目标。 5.3 输入
25、开展本阶段可靠性评估工作的输入至少应包括: a) 软件系统的需求说明书; b) 系统设计规范; c) 软硬件接口规范; d) 深度学习算法的需求; e) 深度学习算法的功能概念,包括其目标、功能、运行模式及状态; f) 深度学习算法的运行条件与环境约束。 AIOSS-01-2018 9 5.4 关键活动 对应确定后的算法需求阶段的可靠性目标选取评估指标, 并从以下关键活动中选取与评估指标对应的关键活动,实施评估工作: a) 对算法功能实现的正确性进行评估: 1) 分析需求阶段设定的任务指标要求是否影响可靠性目标; 2) 分析需求阶段设定的响应时间要求是否影响可靠性目标。 b) 对软硬件平台依赖
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AIOSS-01-2018 人工智能 深度学习算法评估规范 AIOSS 01 2018 深度 学习 算法 评估 规范
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【apps****199】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【apps****199】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。