欢迎来到咨信网! | 成为共赢成为共赢 咨信网助力知识提升 | 自信网络旗下运营:咨信网 自信AI创作助手 自信AI导航
咨信网
全部分类
  • 包罗万象   教育专区 >
  • 品牌综合   考试专区 >
  • 管理财经   行业资料 >
  • 环境建筑   通信科技 >
  • 法律文献   文学艺术 >
  • 学术论文   百科休闲 >
  • 应用文书   研究报告 >
  • ImageVerifierCode 换一换
    首页 咨信网 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    AIOSS-01-2018 人工智能 深度学习算法评估规范.pdf

    • 资源ID:80104       资源大小:701.32KB        全文页数:30页
    • 资源格式: PDF        下载积分:5金币
    微信登录下载
    验证码下载 游客一键下载
    账号登录下载
    三方登录下载: QQ登录
    二维码
    微信扫一扫登录
    下载资源需要5金币
    邮箱/手机:
    验证码: 获取验证码
    温馨提示:
    支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    开通VIP
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    声明    |    会员权益      获赠5币      写作写作
    1、填表:    下载求助     索取发票    退款申请
    2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【apps****199】。
    6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    7、文档遇到问题,请及时私信或留言给本站上传会员【apps****199】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

    AIOSS-01-2018 人工智能 深度学习算法评估规范.pdf

    1、ICS 35.080 L 77 AIOSS 中 国 人 工 智 能 开 源 软 件 发 展 联 盟 标 准 AIOSS012018 人工智能 深度学习算法评估规范 Artificial intelligenceAssessment specification for deep learning algorithms 2018 - 07 - 01 发布 2018 - 07 - 01 实施 AIOSS-01-2018 I 目 次 前言 . III 引言 . IV 1 范围 . 1 2 术语和定义 . 1 3 评估指标体系 . 2 3.1 评估指标体系表 . 2 3.2 算法功能实现的正确性 . 4

    2、 3.3 代码实现的正确性 . 4 3.4 目标函数的影响 . 4 3.5 训练数据集的影响 . 4 3.6 对抗性样本的影响 . 4 3.7 软硬件平台依赖的影响 . 5 3.8 环境数据的影响 . 5 4 评估流程 . 5 4.1 概述 . 5 4.2 确定可靠性目标 . 6 4.3 选择评估指标 . 7 4.4 评估准则 . 7 4.5 各阶段评估 . 8 4.6 评估结论 . 8 5 需求阶段的评估 . 8 5.1 概述 . 8 5.2 前提条件 . 8 5.3 输入 . 8 5.4 关键活动 . 9 5.5 输出 . 9 6 设计阶段的评估 . 9 6.1 概述 . 9 6.2 前提

    3、条件 . 9 6.3 输入 . 9 6.4 关键活动 . 9 6.5 输出 . 10 7 实现阶段的评估 . 10 7.1 概述 . 10 AIOSS-01-2018 II 7.2 前提条件 . 10 7.3 输入 . 10 7.4 关键活动 . 10 7.5 输出 . 11 8 运行阶段的评估 . 11 8.1 概述 . 11 8.2 前提条件 . 11 8.3 输入 . 11 8.4 关键活动 . 11 8.5 输出 . 12 附录 A(规范性附录) 深度学习算法可靠性评估指标选取规则 . 13 附录 B(资料性附录) 深度学习算法可靠性评估实施案例 . 15 参考文献 . 25 AIOS

    4、S-01-2018 III 前 言 本标准按照GB/T 1.12009给出的规则起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本标准由中国人工智能开源软件发展联盟提出。 本标准由中国电子技术标准化研究院归口。 本标准负责起草单位:中国电子技术标准化研究院、中国科学院软件研究所、上海计算机软件技术开发中心、北京航空航天大学、华东师范大学、中国科学院计算技术研究所、军事科学院国防科技创新研究院、国防科技大学、卡索(北京)科技有限公司、北京百度网讯科技有限公司、浙江蚂蚁小微金融服务集团有限公司、深圳前海微众银行股份有限公司、顺丰科技有限公司、深圳市优必选科技

    5、有限公司、北京京东尚科信息技术有限公司、深圳赛西信息技术有限公司、数据地平线(广州)科技有限公司。 本标准主要起草人:薛云志、孟令中、崔静、张明英、张璨、周平、武斌、郭崎、刘畅、吴涛、李海峰、肖良、张超、于泉杰、宋俊典、戴炳荣、王长波、孙仕亮、陈美、李刚、潘欣、程思、刘志欣、刘新凯、王太峰、巢林林、袁杰、曹安然、尹思遥。 AIOSS-01-2018 IV 引 言 人工智能的迅速发展正在深刻改变人类社会生活、 改变世界, 其技术和应用正经历快速发展的阶段。根据GB/T 5271.28-2001信息技术 词汇 第28部分:人工智能 基本概念与专家系统中的定义,“人工智能是表现出与人类智能(如推理和

    6、学习)相关的各种功能单元的能力。”机器学习是人工智能的核心技术之一,是使计算机具有智能的重要途径,其应用遍及人工智能的各个领域。深度学习是机器学习的一个子集,发源于人工神经网络的研究,通常也称为深度神经网络,是一种基于数据进行表征学习的方法。目前,深度学习算法在金融、安防、医疗等领域得到广泛应用,国务院发布的新一代人工智能发展规划中指出,人工智能进入新的发展阶段,“呈现出深度学习、跨界融合、人机协同、群智开放、自主操控等新特征。” 然而,业界缺乏对深度学习算法可靠性、可移植性、效率等的系统性评估方法,一定程度上影响着深度学习的广泛应用和技术发展。本标准此版本仅针对人工智能深度学习算法的可靠性评

    7、估进行要求。随着研究的深入及应用的发展,后续将不断进行持续改进,逐渐扩展到深度学习算法可移植性、效率等方面的评估。 中国电子技术标准化研究院作为国际标准化组织ISO/IEC JTC1/SC42(人工智能分技术委员会)的国内技术归口单位,在本标准研制过程中,充分发挥了组织协调和技术方向把关作用。标准编写组聚集了国内人工智能深度学习领域的技术专家, 开展了多种形式的专题研讨和征求意见活动, 在保证标准科学性、合理性和可行性的同时,也确保了标准研制过程的公开性和透明性。 本标准的研制工作, 得到了中国人工智能开源软件发展联盟专家委员会的指导和支持, 专家委员会主任委员、 中国科学院院士、 华东师范大

    8、学计算机科学与软件工程学院院长何积丰院士和各位专家对标准内容和文稿进行了深入严谨的讨论, 给出了许多切实可行的意见, 对标准质量提升和标准内容完善起到关键性作用。 使用帮助信息:任何单位和个人在使用本标准的过程中,若存在疑问,或有对本标准的改进建议和意见,请与中国电子技术标准化研究院(中国人工智能开源软件发展联盟 秘书处)联系。 电话:010-64102848;电子邮件: 通信地址:北京东城区安定门东大街1号(100007) 版权声明:本标准版权受法律保护,转载、摘编或利用其它方式使用本标准内容的,应注明出处。违反上述声明者,本联盟将追究其相关法律责任。 为了推动本标准的持续改进, 使其内容更

    9、加贴近用户组织的实际需求, 欢迎社会各方力量参加本标准的持续改进,本标准的更多信息欢迎关注“中国人工智能开源软件发展联盟”公众号。 AIOSS-01-2018 1 人工智能 深度学习算法评估规范 1 范围 本标准提出了人工智能深度学习算法的评估指标体系、评估流程,以及需求阶段评估、设计阶段评估、实现阶段评估和运行阶段评估等内容。 本标准适用于指导深度学习算法开发方、 用户方以及第三方等相关组织对深度学习算法的可靠性开展评估工作。 2 术语和定义 下列术语和定义适用于本文件。 2.1 可靠性 reliability 在规定的条件下和规定的时间内, 深度学习算法正确完成预期功能, 且不引起系统失效

    10、或异常的能力。 2.2 可靠性评估 reliability assessment 确定现有深度学习算法的可靠性所达到的预期水平的过程。 2.3 算法失效 algorithm failure 算法丧失完成规定功能的能力的事件。 2.4 危险 hazard 深度学习算法发生算法失效, 从而导致机器学习系统出现的一个非预期或有害的行为, 或者提交给其他与机器学习系统相关联的系统发生错误。 2.5 危险严重性 hazard severity 某种危险可能引起的事故后果的严重程度。 2.6 查准率 precision 对于给定的数据集,预测为正例的样本中真正例样本的比率。 2.7 查全率 recall

    11、对于给定的数据集,预测为真正例的样本占所有实际为正例样本的比率。 2.8 准确率 accuracy 对于给定的数据集,正确分类的样本数占总样本数的比率。 AIOSS-01-2018 2 2.9 响应时间 response time 在给定的软硬件环境下,深度学习算法对给定的数据进行运算并获得结果所需要的时间。 2.10 对抗性样本 adversarial examples 在数据集中通过故意添加细微的干扰所形成输入样本, 受干扰之后的输入导致模型以高置信度给出错误的输出。 2.11 置信度 confidence 总体参数值落在样本统计值某一区内的概率。 3 评估指标体系 3.1 评估指标体系表

    12、 基于深度学习算法可靠性的内外部影响考虑, 结合用户实际的应用场景, 本标准给出了一套深度学习算法的可靠性评估指标体系。本指标体系如图1所示,包含7个一级指标和20个二级指标。在实施评估过程中,应根据可靠性目标选取相应指标。 AIOSS-01-2018 3 算法功能实现的正确性响应时间任务指标代码实现的正确性代码漏洞代码规范性软硬件平台依赖的影响硬件架构差异操作系统差异深度学习框架差异目标函数的影响拟合程度优化目标数量训练数据集的影响数据集污染情况数据集标注质量数据集规模数据集均衡性对抗性样本的影响不指定目标方式生成的样本指定目标方式生成的样本黑盒方式生成的样本白盒方式生成的样本环境数据的影响

    13、数据集分布迁移干扰数据野值数据深度学习算法的可靠性指标体系 图 1 深度学习算法可靠性评估指标体系 AIOSS-01-2018 4 3.2 算法功能实现的正确性 用于评估深度学习算法实现的功能是否满足要求,应包括但不限于下列内容: a) 任务指标: 用户可以根据实际的应用场景选择任务相关的基本指标, 用于评估算法完成功能的能力; 示例:分类任务中的查准率(见 2.6)、查全率(见 2.7)、准确率(见 2.8)等;语音识别任务中的词错误率、句错误率等;目标检测任务中的平均正确率等;算法在使用中错误偏差程度带来的影响等。 b) 响应时间(见2.9)。 3.3 代码实现的正确性 用于评估代码实现功

    14、能的正确性,应包括下列内容: a) 代码规范性:代码的声明定义、版面书写、指针使用、分支控制、跳转控制、运算处理、函数调用、语句使用、循环控制、类型转换、初始化、比较判断和变量使用等是否符合相关标准或规范中的编程要求; b) 代码漏洞:指代码中是否存在漏洞。 示例:栈溢出漏洞、堆栈溢出漏洞、整数溢出、数组越界、缓冲区溢出等。 3.4 目标函数的影响 用于评估计算预测结果与真实结果之间的误差,应包括下列内容: a) 优化目标数量:包括优化目标不足或过多。优化目标过少容易造成模型的适应性过强,优化目标过多容易造成模型收敛困难; b) 拟合程度:包括过拟合或欠拟合。过拟合是指模型对训练数据过度适应,

    15、通常由于模型过度地学习训练数据中的细节和噪声, 从而导致模型在训练数据上表现很好, 而在测试数据上表现很差,也即模型的泛化性能变差。欠拟合是指模型对训练数据不能很好地拟合,通常由于模型过于简单造成,需要调整算法使得模型表达能力更强。 3.5 训练数据集的影响 用于评估训练数据集带来的影响,应包括下列内容: a) 数据集均衡性:指数据集包含的各种类别的样本数量一致程度和数据集样本分布的偏差程度; b) 数据集规模:通常用样本数量来衡量,大规模数据集通常具有更好的样本多样性; c) 数据集标注质量:指数据集标注信息是否完备并准确无误; d) 数据集污染情况:指数据集被人为添加的恶意数据的程度。 3

    16、.6 对抗性样本的影响 用于评估对抗性样本对深度学习算法的影响,应包括下列内容: a) 白盒方式生成的样本:指目标模型已知的情况下,利用梯度下降等方式生成对抗性样本; b) 黑盒方式生成的样本:指目标模型未知的情况下,利用一个替代模型进行模型估计,针对替代模型使用白盒方式生成对抗性样本; c) 指定目标生成的样本:指利用已有数据集中的样本,通过指定样本的方式生成对抗性样本; d) 不指定目标生成的样本:指利用已有数据集中的样本,通过不指定样本(或使用全部样本)的方式生成对抗性样本。 AIOSS-01-2018 5 3.7 软硬件平台依赖的影响 用于评估运行深度学习算法的软硬件平台对可靠性的影响

    17、,应包括下列内容: a) 深度学习框架差异:指不同的深度学习框架在其所支持的编程语言、模型设计、接口设计、分布式性能等方面的差异对深度学习算法可靠性的影响; b) 操作系统差异:指操作系统的用户可操作性、设备独立性、可移植性、系统安全性等方面的差异对深度学习算法可靠性的影响; c) 硬件架构差异: 指不同的硬件架构及其计算能力、 处理精度等方面的差异对深度学习算法可靠性的影响。 3.8 环境数据的影响 用于评估实际运行环境对算法的影响,应包括下列内容: a) 干扰数据:指由于环境的复杂性所产生的非预期的真实数据,可能影响算法的可靠性; b) 数据集分布迁移: 算法通常假设训练数据样本和真实数据

    18、样本服从相同分布, 但在算法实际使用中,数据集分布可能发生迁移,即真实数据集分布与训练数据集分布之间存在差异性; c) 野值数据:指一些极端的观察值。在一组数据中可能有少数数据与其余的数据差别比较大,也称为异常观察值。 4 评估流程 4.1 概述 深度学习算法的可靠性评估流程如图 2所示。包括确定可靠性目标、选择评估指标、需求阶段的评估、设计阶段的评估、实现阶段的评估、运行阶段的评估及得出评估结论这七个活动。 AIOSS-01-2018 6 确定可靠性目标选择评估指标需求阶段的评估设计阶段的评估是否满足评估准则?实现阶段的评估是是运行阶段的评估是得出通过可靠性评估结论是否否否开始结束得出未通过

    19、可靠性评估结论是否满足评估准则?是否满足评估准则?是否满足评估准则?否 图 2 深度学习算法的可靠性评估流程 4.2 确定可靠性目标 应运用以下步骤确定深度学习算法的可靠性目标: AIOSS-01-2018 7 a) 场景分析 针对深度学习算法实现的功能发生算法失效从而导致软件系统产生一个危险时, 需要对其所处的运行环境与运行模式进行描述, 既要考虑软件系统正确使用的情况, 也要考虑可预见的不正确使用的情况。 b) 危险分析 1) 应通过多种途径开展有关深度学习算法失效的危险识别;如头脑风暴、专家评审会、质量历史记录和软件失效模式和影响分析等技术识别深度学习算法发生算法失效的危害; 2) 应识

    20、别危险的后果;如对环境或人员是否有伤害、需要完成的任务是否有影响等; 3) 危险事件应由运行场景和算法失效的相关组合确定; 4) 应以能在深度学习算法所在的软件系统层面观察到的输出来定义结果。 c) 危险严重性等级评估 针对每一个算法失效,应基于确定的理由来预估潜在危险的严重性等级。危险严重性等级(见表1)。 表 1 危险严重性等级 危险严重性等级 描述 灾难级 算法失效导致系统任务失败,或对安全、财产、环境和业务等造成灾难性影响。 严重级 算法失效导致系统任务的主要部分未完成,或对安全、财产、环境和业务等造成严重影响。 一般级 算法失效导致系统完成任务有轻度影响,或对安全、财产、环境和业务等

    21、造成一般影响。 轻微级 算法失效导致系统完成任务有障碍但能够完成,或对安全、财产、环境和业务等造成轻微影响或无影响。 危险严重性等级的评估可以基于对多个场景的综合性考虑, 同时危险严重性等级的确定应基于场景中有代表性的个体样本。 d) 确定可靠性目标 根据算法失效的危险严重性等级,建立深度学习算法的可靠性目标(见表2)。其中可靠性目标从高到低依次分为A、B、C、D四个级别。 表 2 深度学习算法的可靠性目标 可靠性目标 可靠性目标说明 危险严重性等级对应说明 A 避免算法失效造成灾难级危险 灾难级 B 避免算法失效造成严重级危险 严重级 C 避免算法失效造成一般级危险 一般级 D 避免算法失效

    22、造成轻微级危险 轻微级 4.3 选择评估指标 不同可靠性目标的深度学习算法在各个阶段中选取的可靠性评估指标不同, 因此在面向算法的需求阶段、设计阶段、实现阶段和运行阶段的可靠性评估过程中应确定与之对应的评估指标。具体选取规则见规范性附录A。 4.4 评估准则 开展可靠性评估工作应遵守以下准则: AIOSS-01-2018 8 a) 各阶段评估通过的准则应同时满足如下要求: 1) 依据规范性附录A选取的某一级指标下的二级指标全部通过; 2) 依据规范性附录A选取的某阶段的一级指标全部通过。 b) 深度学习算法可靠性评估通过的准则应满足:面向算法需求阶段、设计阶段、实现阶段及运行阶段四个阶段的可靠

    23、性评估均通过。 4.5 各阶段评估 各阶段评估工作应满足: a) 面向深度学习算法的需求阶段、设计阶段、实现阶段、运行阶段四个阶段实施评估活动; b) 通过当前阶段的评估是进入下一阶段评估的前提条件之一; c) 四个阶段的评估活动有完整的顺序关系; d) 各阶段评估活动的输入、关键活动及输出要求详见本标准第5至第8章; e) 各阶段可靠性评估结果均应以阶段评估报告的形式进行输出,其内容至少应包括以下内容: 1) 深度学习算法的可靠性目标; 2) 开展可靠性评估的阶段名称; 3) 针对算法在该阶段开展可靠性评估工作所选择的评估指标及针对评估指标的评估结果; 4) 该阶段的可靠性评估结果。 4.6

    24、 评估结论 面向深度学习算法的需求阶段、设计阶段、实现阶段及运行阶段四个阶段均通过评估,深度学习算法可靠性通过评估并达到目标要求;否则未通过评估。 5 需求阶段的评估 5.1 概述 深度学习算法需求阶段是通过调研和分析,理解用户和项目应用的功能、性能等具体要求,最后确定算法应实现的功能性需求、非功能性需求和应满足的设计约束的阶段。 面向深度学习算法需求阶段的可靠性评估工作, 指运用可靠性分析方法, 通过对算法功能实现的正确性和软硬件平台依赖的影响等进行评估,以确定算法的需求满足可靠性目标要求。 5.2 前提条件 开展本阶段可靠性评估工作前至少应完成获取深度学习算法的可靠性目标。 5.3 输入

    25、开展本阶段可靠性评估工作的输入至少应包括: a) 软件系统的需求说明书; b) 系统设计规范; c) 软硬件接口规范; d) 深度学习算法的需求; e) 深度学习算法的功能概念,包括其目标、功能、运行模式及状态; f) 深度学习算法的运行条件与环境约束。 AIOSS-01-2018 9 5.4 关键活动 对应确定后的算法需求阶段的可靠性目标选取评估指标, 并从以下关键活动中选取与评估指标对应的关键活动,实施评估工作: a) 对算法功能实现的正确性进行评估: 1) 分析需求阶段设定的任务指标要求是否影响可靠性目标; 2) 分析需求阶段设定的响应时间要求是否影响可靠性目标。 b) 对软硬件平台依赖

    26、的影响进行评估: 1) 分析深度学习框架差异对算法带来的影响; 2) 分析操作系统差异对算法带来的影响; 3) 分析硬件架构差异对算法带来的影响。 5.5 输出 深度学习算法需求阶段的可靠性评估报告,评估报告要求见4.5e)。 6 设计阶段的评估 6.1 概述 深度学习算法的设计阶段是根据算法需求阶段得到的需求分析, 设计出满足设计约束并能够实现任务功能性需求、非功能性需求的深度学习目标函数及相应的算法,并选取合适的训练数据集的阶段。 面向深度学习算法设计阶段的可靠性评估工作, 指运用分析或评审等方法, 对算法功能实现的正确性、训练数据集的影响及目标函数等进行评估,以确定算法的设计满足可靠性目

    27、标要求。 6.2 前提条件 开展本阶段可靠性评估工作前至少应完成: a) 深度学习算法需求阶段的可靠性评估工作; b) 深度学习算法的设计工作。 6.3 输入 开展本阶段可靠性评估工作的输入至少应包括: a) 深度学习算法需求阶段的可靠性评估报告; b) 深度学习算法的可靠性评估目标; c) 深度学习算法的功能说明; d) 深度学习算法所在的软硬件系统的接口规范; e) 深度学习算法的训练数据集; f) 深度学习算法的设计说明。 6.4 关键活动 对应确定后的算法可靠性目标选取评估指标, 并从以下关键活动中选取与评估指标对应的关键活动实施评估工作: a) 对算法功能实现的正确性进行评估: 1)

    28、 分析设计完成后任务指标要求是否满足需求阶段设定的相应要求; 2) 分析设计完成后响应时间要求是否满足需求阶段设定的相应要求。 AIOSS-01-2018 10 b) 对训练数据集进行分析: 1) 分析训练数据集是否存在不均衡情况; 2) 分析训练数据集规模是否满足训练需求; 3) 分析训练数据集标注质量是否满足训练需求; 4) 分析训练数据集是否受到污染。 c) 对目标函数的影响进行分析: 分析优化目标数量是否满足算法需求。 6.5 输出 深度学习算法设计阶段的可靠性评估报告,评估报告要求见4.5e)。 7 实现阶段的评估 7.1 概述 深度学习算法实现阶段是对算法设计阶段所设计的算法进行编

    29、程实现, 包括利用数据集对深度学习算法的开展训练、测试与验证等活动。 面向深度学习算法实现阶段的可靠性评估工作, 指运用分析和测试等方法, 对算法功能实现的正确性、代码实现的正确性、目标函数的影响及对抗性样本的影响等进行评估,以确定算法的实现满足可靠性目标要求。 7.2 前提条件 开展本阶段可靠性评估工作前至少应完成: a) 深度学习算法设计阶段的可靠性评估工作; b) 深度学习算法的实现工作。 7.3 输入 开展本阶段可靠性评估工作的输入至少应包括: a) 深度学习算法需求阶段的可靠性评估报告; b) 深度学习算法设计阶段的可靠性评估报告; c) 深度学习算法的可靠性评估目标; d) 深度学

    30、习算法所在的软硬件系统的接口规范; e) 深度学习算法的训练数据集; f) 深度学习算法的对抗性样本; g) 深度学习算法的设计说明; h) 深度学习算法的功能说明; i) 深度学习算法的源代码。 7.4 关键活动 对应确定后的算法可靠性目标选取评估指标, 并从以下关键活动中选取与评估指标对应的关键活动实施评估工作: a) 对算法功能实现的正确性进行评估: 1) 验证算法实现后的任务指标是否达到需求阶段设定的相应要求; AIOSS-01-2018 11 2) 验证算法实现后的响应时间是否达到需求阶段设定的相应要求。 b) 对代码实现的正确性进行评估: 1) 分析代码是否满足相应的编程规范或指南

    31、; 2) 验证代码是否存在漏洞。 c) 对目标函数的影响进行评估:分析算法的拟合程度对算法可靠性的影响。 d) 对对抗性样本的影响进行分析: 1) 分析白盒方式生成的样本对算法的影响; 2) 分析黑盒方式生成的样本对算法的影响; 3) 分析指定目标方式生成的样本对算法的影响; 4) 分析不指定目标方式生成的样本对算法的影响。 7.5 输出 深度学习算法实现阶段的可靠性评估报告,评估报告要求见4.5e)。 8 运行阶段的评估 8.1 概述 深度学习算法运行阶段是在实际应用场景下运行包含深度学习算法的软件系统的阶段。 面向深度学习算法运行阶段的可靠性评估工作, 指针对实际运行环境使用的数据进行分析

    32、, 对算法功能实现的正确性、 软硬件平台的依赖影响和环境数据的影响等进行评估, 以确定算法的运行满足可靠性目标要求。 8.2 前提条件 开展本阶段可靠性评估工作前至少应完成: a) 深度学习算法实现阶段的可靠性评估工作; b) 深度学习算法在目标运行环境中的部署工作。 8.3 输入 开展本阶段可靠性评估工作的输入至少应包括: a) 深度学习算法的可靠性评估目标; b) 深度学习算法需求阶段的可靠性评估报告; c) 深度学习算法设计阶段的可靠性评估报告; d) 深度学习算法实现阶段的可靠性评估报告; e) 深度学习算法运行中使用的真实数据; f) 包含深度学习算法的软件系统。 8.4 关键活动

    33、对应确定后的算法可靠性目标选取评估指标, 并从以下关键活动中选取与评估指标对应的关键活动实施评估工作: a) 对算法功能实现的正确性进行评估: 1) 验证算法运行时任务指标是否达到需求阶段设定的相应要求; 2) 验证算法运行时响应时间是否达到需求阶段设定的相应要求。 AIOSS-01-2018 12 b) 软硬件平台依赖对算法运行的影响: 1) 分析深度学习框架差异对算法带来的影响; 2) 分析操作系统差异对算法带来的影响; 3) 分析硬件架构差异对算法带来的影响。 c) 分析环境数据对算法运行的影响: 1) 分析环境干扰数据对算法运行的影响,可以参考以下几个方面: - 算法输入对象所处环境的

    34、复杂情况; - 算法输入对象自身环境的复杂情况; - 算法输入对象的传输过程的复杂情况; - 算法输入对象的数据产品的复杂情况。 2) 分析数据集分布发生迁移对算法运行的影响; 3) 分析野值数据对算法运行的影响。 8.5 输出 深度学习算法运行阶段的可靠性报告,评估报告要求见4.5e)。 AIOSS-01-2018 13 A A 附 录 A (规范性附录) 深度学习算法可靠性评估指标选取规则 表A.1给出了深度学习算法的可靠性评估指标的选取规则。针对不同级别的的深度学习算法可靠性目标开展相关评估活动。 表 A.1 选取规则 阶 段 可 靠 性 目 标 评估指标 算法功能实现的正确性 代码实现

    35、的正确性 目标函数的影响 训练数据集的影响 对抗性样本的影响 软硬件平台依赖的影响 环境数据的影响 任务指标 响应时间 代码规范性 代码漏洞 优化目标数量 拟合程度 数据集均衡性 数据集规模 数据集标注质量 数据集污染情况 白盒方式生成的样本 黑盒方式生成的样本 指定目标方式生成的样本 不指定目标方式生成的样本 深度学习框架差异 操作系统差异 硬件架构差异 干扰数据 数据集分布迁移 野值数据 需求阶段 A - - - - - - - - - - - - - - - B - - - - - - - - - - - - - - - C - - - - - - - - - - - - - - - D

    36、 - - - - - - - - - - - - - - - 设计阶段 A - - - - - - - - - - - - - B - - - - - - - - - - - - - C - - - - - - - - - - - - - D - - - - - - - - - - - - - AIOSS-01-2018 14 表 A.1 (续) 阶 段 可 靠 性 目 标 评估指标 算法功能实现的正确性 代码实现的正确性 目标函数的影响 训练数据集的影响 对抗性样本的影响 软硬件平台依赖的影响 环境数据的影响 任务指标 响应时间 代码规范性 代码漏洞 优化目标数量 拟合程度 数据集均衡性 数

    37、据集规模 数据集标注质量 数据集污染情况 白盒方式生成的样本 黑盒方式生成的样本 指定目标方式生成的样本 不指定目标方式生成的样本 深度学习框架差异 操作系统差异 硬件架构差异 干扰数据 数据集分布迁移 野值数据 实现阶段 A - - - - - - - - - - - B - - - - - - - - - - - C - - - - - - - - - - - D - - - - - - - - - - - 运行阶段 A - - - - - - - - - - - - B - - - - - - - - - - - - C - - - - - - - - - - - - D - - - -

    38、 - - - - - - - - 注: “”表示对于指定的深度学习算法可靠性目标,必须选择的二级指标; “”表示对于指定的深度学习算法可靠性目标,推荐选择的二级指标。 “-”表示不适用。 AIOSS-01-2018 15 B B 附 录 B (资料性附录) 深度学习算法可靠性评估实施案例 表B.1 B.2分别给出人脸识别算法可靠性评估实施案例和行为检测算法可靠性评估实施案例。 表 B.1 人脸识别算法可靠性评估实施案例 深度学习算法名称深度学习算法名称 人脸识别 深度学习算法说明深度学习算法说明 人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术。其通过摄像机或摄像头采集含有人脸的图

    39、像或视频流,自动在图像中检测跟踪人脸,并在人脸数据库中进行人脸检索核实身份,此外还具备活体识别等能力。 人脸识别闸机系统将传统闸机设备集成人脸识别能力,用户在闸机处提供人脸影像进行人脸抽取,采集到的人脸进行云端人脸识别身份验证,闸机随识别验证结果做相应响应。该系统将应用于世博会的门禁系统中。 算法可靠性评估方算法可靠性评估方 开发方 用户方 第三方 第一阶段第一阶段 确定深度学习算法可靠性目标确定深度学习算法可靠性目标 1.11.1 场景分析场景分析 算法运行条件算法运行条件 本地: 硬件设备:智能摄像头,操作系统:Linux, 深度学习框架:PaddlePaddle Mobile,本地设备通

    40、过网络接入云端。 云端: 硬件设备: GPU Nvidia P4, 操作系统: CentOS 7, 深度学习框架: PaddlePaddle Serving 算法运行模式算法运行模式 摄像头捕捉影像,将不同视频帧进行预处理,之后发送云端服务器中部署的人脸识别算法。人脸识别首先判断视频帧中是否包含人脸,如果不存在人脸,切换到下个视频帧。如果存在人脸,则判断是否存在遮挡以及是否为活体人脸。如果存在遮挡等干扰,返回信息提醒除去遮挡物,展示真实人脸。如果人脸正常,算法判断人的身份,如果算法判断的概率在 99%以上,将判断结果发送给闸机,否则提示工作人员协助。如果判断结果为“准入”,打开人脸闸机。否则报

    41、警。 正常运行场景正常运行场景 1. 算法持续性接收摄像头前端传送的影像 2. 有人接近摄像头,摄像头捕捉到影像 3. 人脸识别算法判断身份,返回识别结果 4. 用户以人脸作为身份识别凭证进行注册,通过闸机时通过摄像头提供人脸闸机随识别结果做相应响应 可预见的异常可预见的异常场景场景 1. 人脸存在如太阳镜、口罩等遮挡时的识别 2. 用其他人的图片来请求人脸识别 3. 相似度较高的人脸如双胞胎进行人脸识别 1.2 1.2 危险分析危险分析 算法失效序号算法失效序号 算法失效说明算法失效说明 识别方法识别方法 1 人脸存在如太阳镜、口罩等遮挡时的识别 基于类似产品的历史数据 2 用其他人的图片来

    42、请求人脸识别 头脑风暴 3 相似度较高的人脸如双胞胎进行人脸识别 头脑风暴 1.31.3 危险严重危险严重性等级评估性等级评估 算法失效序号算法失效序号 后果后果 危险严重性等级危险严重性等级 1 导致重要参会人员无法正常进入会场,需要现场工作人员帮助 一般 2 导致不法分子混入会场,可能造成严重后果 严重 3 导致不法分子混入会场,可能造成严重后果 严重 AIOSS-01-2018 16 表 B.1 (续) 1.41.4 确定可确定可靠性目标靠性目标 危险严重性等级说明危险严重性等级说明 可靠性目标可靠性目标 基于本人脸识别的算法会被应用到国际会议的门禁系统中。会议的参会人员包括各国的政府领

    43、导人和商界领袖。算法失效可能导致: 1. 重要参会人员无法正常进入会场。2.不法分子混入会议,并造成恶劣的国际影响,所以归为严重级。 B 第二阶段第二阶段 选择可靠性评估指标选择可靠性评估指标 2.12.1 指标选指标选择说明择说明 阶段名称阶段名称 选择的二级指标选择的二级指标 需求阶段 查准率、查全率、准确率、响应时间、深度学习框架差异、操作系统差异 设计阶段 查准率、查全率、准确率、响应时间、优化目标数量、数据集均衡性、数据集规模、数据集标注质量 实现阶段 查准率、查全率、准确率、响应时间、代码规范性、代码漏洞、拟合程度、白盒方式生成的样本、黑盒方式生成的样本、指定目标方式生成的样本、不

    44、指定目标方式生成的样本 运行阶段 查准率、查全率、准确率、响应时间、深度学习框架差异、操作系统差异、干扰数据、数据集分布迁移 2.22.2 评估准评估准则说明则说明 a) 各阶段评估通过的准则应同时满足如下要求: 1) 依据规范性选取的某一级指标下的二级指标全部通过。 2) 依据规范性选取的某阶段的一级指标全部通过。 b) 深度学习算法可靠性评估通过的准则应满足:面向算法需求阶段、设计阶段、实现阶段及运行阶段四个阶段的可靠性评估均通过。 第三阶段第三阶段 面向算法需求阶面向算法需求阶段的可靠性评估段的可靠性评估 3.13.1 输入输入 说明说明 软件系统的需求说明书:人脸识别系统需求说明书-V

    45、1.0 软件系统设计规范:人脸识别系统设计规范-V1.0 软硬件接口规范:人脸闸机系统软硬件接口规范-V1.0 深度学习算法的需求说明书:人脸检测识别算法需求说明书-V1.0 3.23.2 关键关键 活动活动 一级指标一级指标 算法功能实现的正确性算法功能实现的正确性 二级指标二级指标 名称名称 评估工作评估工作 评估结果评估结果 查准率 查准率阈值预计为 99.9%以上, 经专家评审和技术负责人确认满足需求; 类似软件系统中的要求为 99%以上, 达到相应要求。 通过未通过 查全率 查全率阈值预计为 99.9%以上, 经专家评审和技术负责人确认满足需求; 类似软件系统中的要求为 99%以上,

    46、 达到相应要求。 通过未通过 准确率 准确率阈值预计为 99.9%以上, 经专家评审和技术负责人确认满足需求; 类似软件系统中的要求为 99%以上, 达到相应要求。 通过未通过 响应时间 响应时间阈值预计为 20ms 以内,经专家评审和技术负责人确认满足需求;类似软件系统中的要求为 50ms 以内,达到相应要求。 通过未通过 一级指标一级指标评估结果评估结果 通过 未通过 一级指标一级指标 软硬软硬件平台依赖的影响件平台依赖的影响 二级指标二级指标 名称名称 评估工作评估工作 评估结果评估结果 深度学习框架差异 所选深度学习框架PaddlePaddle 支持CPU、GPU 多种设备及其混布计算

    47、, 分布式训练和预测性能良好, 提供C+和Python 两种高层API 易于使用,可以方便的进行Linux, IOS 和Android 移动端环境上的编译部署,满足适用性要求。 通过未通过 操作系统差异 移动端所使用操作系统为 Linux, IOS 或 Android,云端所使用的操作系统类型为 Linux,可以运行在 CentOS 7 或者Ubuntu 16.04 上,系统安全稳定。对于其他版本有潜在移植风险的操作系统,亦可使用 Docker 进行服务部署,不存在因可移植导致失效的风险。 通过未通过 一级指标一级指标评估结果评估结果 通过 未通过 AIOSS-01-2018 17 表 B.1

    48、 (续) 3.33.3 输出输出 面向算法需求阶段的可靠性评估面向算法需求阶段的可靠性评估 通过 未通过 第四阶段第四阶段 面向算法设计阶段的可靠性评估面向算法设计阶段的可靠性评估 4.14.1 输入输入 说明说明 深度学习算法的训练数据集:全球人脸数据集-A 深度学习算法的设计说明:人脸识别算法设计文档-V1.0 4.24.2 关键关键 活动活动 一级指标一级指标 算法功能实现的正确性算法功能实现的正确性 二级指标二级指标 名称名称 评估工作评估工作 评估结果评估结果 查准率 设计后的查准率阈值预计为 99.9%,经过评审,能够达到需求阶段设计的要求。 通过未通过 查全率 设计后的查全率阈值

    49、预计为 99.9%,经过评审,能够达到需求阶段设计的要求。 通过未通过 准确率 设计后的准确率阈值预计为 99.9%,经过评审,能够达到需求阶段设计的要求。 通过未通过 响应时间 设计后的响应时间阈值预计为 12ms,经过评审,能够达到需求阶段设计的要求。 通过未通过 一级指标一级指标评估评估 通过 未通过 一级指标一级指标 训训练数据集的影响练数据集的影响 二级指标二级指标 名称名称 评估工作评估工作 评估结果评估结果 数据集均衡性 数据集为“全球人脸数据集-A”,数据包含 1.100 个主要人口国家的人脸数据; 2.70%正脸,30%侧脸; 3.50%无遮挡,30%轻微遮挡,20%严重遮挡

    50、; 4.50%男性,50%女性; 5.018 岁 20%,1840 岁 30%,4060 岁 30%,60 岁以上20%; 6.正常人脸 80%,带有伤疤能不可除去遮挡 20%。 通过未通过 数据集 规模 数据集规模约为 100 万张。其中利用 50 万张数据样本可以达到预期可靠性,并且无明显过拟合和欠拟合。使用超过 100 万数据后,训练时间变长但算法效果无明显提升。 通过未通过 数据集标注质量 数据集中 100%的数据完成标注,并且 99.99%的样本标注准确 通过未通过 一级指标一级指标评估评估 通过 未通过 一级指标一级指标 目标函数的影响目标函数的影响 二级指标二级指标 名称名称 评


    注意事项

    本文(AIOSS-01-2018 人工智能 深度学习算法评估规范.pdf)为本站上传会员【apps****199】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表




    页脚通栏广告
    关于我们 - 网站声明 - 诚招英才 - 文档分销 - 便捷服务 - 联系我们 - 成长足迹

    Copyright ©2010-2024   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:4008-655-100    投诉/维权电话:4009-655-100   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   



    关注我们 :gzh.png  weibo.png  LOFTER.png