分销赏收藏举报申诉 / 23

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 现在讨论AI安全,为时尚早吗.pdf

现在讨论AI安全,为时尚早吗.pdf

上传人：自信****多点

文档编号：593904

上传时间：2024-01-10

格式：PDF

页数：23

大小：14.74MB

《现在讨论AI安全,为时尚早吗.pdf》由会员分享，可在线阅读，更多相关《现在讨论AI安全,为时尚早吗.pdf（23页珍藏版）》请在咨信网上搜索。

1、现在讨论 AI 安全，为时尚早吗？文/周文斌刘雨琦编辑/张心怡“10 分钟被骗 430 万”“9 秒钟被骗走 245 万”“杨幂走进小商家直播间”“互联网大佬虚拟人真假难辨”大模型火爆了之后，比之更火爆的，是动辄百万的诈骗金额、虚假“明星脸”、真假难辨的 AI 生成内容、多次抵抗AI 觉醒的联名上书，连续一周的热搜，让人们意识到，比发展 AI 更重要的，是保障 AI 安全。一时间，关于 AI 安全的讨论也开始不绝于耳，但 AI 安全并不是某一个行业，也并不局限于某一项技术，而是一个庞大而复杂的产业，目前，我们还没有拨云见雾。以“人”的安全为参考系，或许能够帮助我们更好地理解 AI 安全问题

2、的复杂程度。首先是人的个体安全，涉及到人的身体健康和思想健康、教育、发展等等。其次是人所处的环境安全，是否存在危险，是否符合生存条件。最后是人与人所组成的社会安全，我们所构建的法律、道德都是维护社会安全的准绳。AI 作为一个“新物种”，在出现的一瞬间，这三个层面的问题同时爆发，也就引来了现阶段的迷茫和慌乱，导致我们在讨论大模型安全时，没有一个具体的落点。本文中，我们试图从头厘清 AI 安全的三个层面，无论是从技术的角度还是应用的角度，帮助大家定位安全问题，找到解决方案，同时，针对国内巨大的 AI 安全空白，靶向狙击其中所存在的薄弱环节，也正是巨大的产业机遇。IS IT TOO EARLY TO

3、 TALK ABOUT AI SECURITY?一个不得不承认的事实是，现阶段我们对 AI 大模型安全的讨论是笼统的。我们太过于担心 AI 带来的威胁，以至于将大多数问题都混为一谈。比如有人上来就谈论 AI 的伦理问题，也有人担心 AI 胡说八道，误人子弟；还有人担心 AI 滥用，诈骗成风；更有甚者，在 ChatGPT 发布的第一天就振臂高呼：AI 即将觉醒，人类即将毁灭这些问题归结起来，都是AI安全的问题，但细分下来，它们其实处在AI发展的不同维度，由不同的主体和人来负责。而我们只有理清楚了这个责任归属，才能明白应该如何应对大模型时代的安全挑战。一般而言，现阶段 AI 大模型的安全问题可以分

4、为三个：大语言模型的安全（AI Safety）；模型及使用模型的安全（Security for AI）；大语言模型的发展对现有网络安全的影响。1.个体安全：大语言模型的安全（AI Safety）首先是 AI Safety，简单来讲，这一部分聚焦 AI 大模型本身，确保大模型是一个安全的大模型，不会成为漫威电影里的“奥创”，亦或是黑客帝国里的“母体”。我们期望AI 大模型是一个可靠的工具，它应该帮助人类，而不是取代人类或者以其他任何形式对人类社会造成威胁。WHAT SHOULD WE DISCUSS WHEN IT COMES TO THE SECURITY OF LARGE MODELS?大模

5、型安全，应该讨论什么？58专题策划5859SPECIAL TOPICS现在讨论 AI 安全，为时尚早吗？文/周文斌刘雨琦编辑/张心怡“10 分钟被骗 430 万”“9 秒钟被骗走 245 万”“杨幂走进小商家直播间”“互联网大佬虚拟人真假难辨”大模型火爆了之后，比之更火爆的，是动辄百万的诈骗金额、虚假“明星脸”、真假难辨的 AI 生成内容、多次抵抗AI 觉醒的联名上书，连续一周的热搜，让人们意识到，比发展 AI 更重要的，是保障 AI 安全。一时间，关于 AI 安全的讨论也开始不绝于耳，但 AI 安全并不是某一个行业，也并不局限于某一项技术，而是一个庞大而复杂的产业，目前，我们还没有拨云见

6、雾。以“人”的安全为参考系，或许能够帮助我们更好地理解 AI 安全问题的复杂程度。首先是人的个体安全，涉及到人的身体健康和思想健康、教育、发展等等。其次是人所处的环境安全，是否存在危险，是否符合生存条件。最后是人与人所组成的社会安全，我们所构建的法律、道德都是维护社会安全的准绳。AI 作为一个“新物种”，在出现的一瞬间，这三个层面的问题同时爆发，也就引来了现阶段的迷茫和慌乱，导致我们在讨论大模型安全时，没有一个具体的落点。本文中，我们试图从头厘清 AI 安全的三个层面，无论是从技术的角度还是应用的角度，帮助大家定位安全问题，找到解决方案，同时，针对国内巨大的 AI 安全空白，靶向狙击其中所存在

7、的薄弱环节，也正是巨大的产业机遇。IS IT TOO EARLY TO TALK ABOUT AI SECURITY?一个不得不承认的事实是，现阶段我们对 AI 大模型安全的讨论是笼统的。我们太过于担心 AI 带来的威胁，以至于将大多数问题都混为一谈。比如有人上来就谈论 AI 的伦理问题，也有人担心 AI 胡说八道，误人子弟；还有人担心 AI 滥用，诈骗成风；更有甚者，在 ChatGPT 发布的第一天就振臂高呼：AI 即将觉醒，人类即将毁灭这些问题归结起来，都是AI安全的问题，但细分下来，它们其实处在AI发展的不同维度，由不同的主体和人来负责。而我们只有理清楚了这个责任归属，才能明白应该如何应

8、对大模型时代的安全挑战。一般而言，现阶段 AI 大模型的安全问题可以分为三个：大语言模型的安全（AI Safety）；模型及使用模型的安全（Security for AI）；大语言模型的发展对现有网络安全的影响。1.个体安全：大语言模型的安全（AI Safety）首先是 AI Safety，简单来讲，这一部分聚焦 AI 大模型本身，确保大模型是一个安全的大模型，不会成为漫威电影里的“奥创”，亦或是黑客帝国里的“母体”。我们期望AI 大模型是一个可靠的工具，它应该帮助人类，而不是取代人类或者以其他任何形式对人类社会造成威胁。WHAT SHOULD WE DISCUSS WHEN IT COMES

9、 TO THE SECURITY OF LARGE MODELS?大模型安全，应该讨论什么？58专题策划5859SPECIAL TOPICS这一部分通常主要由训练 AI 大模型的公司和人员负责，比如我们需要 AI 能够正确理解人类的意图，我们需要大模型每次输出的内容都是准确、安全的，它不会具备某种偏见和歧视等等。比如 2023 年 3 月份，美国加州大学洛杉矶分校的一位教授在使用 ChatGPT 时发现，自己被ChatGPT列入“对某人进行过性骚扰的法律学者”的名单，但实际上自己并没有做这件事情，为了“造这个谣”，ChatGPT 甚至杜撰了一篇不存在的华盛顿邮报报道。另外，4 月份澳大利亚一位

10、市长发现 ChatGPT 造谣他曾因贿赂入狱服刑 30 个月。这些时候，AI 就像一个“坏人”，它本身就存在风险。这样的案例其实还有很多，诸如性别歧视、种族歧视、地域歧视等问题，以及暴力有害的信息、言论，甚至意识形态的输出等等。Open AI 也坦然承认，并警告人们在使用 GPT-4 时要“非常小心地查证”，并表示该产品的局限性会带来重大的内容安全挑战。所以欧盟正在推进的人工智能法案也专门提到，要确保人工智能系统具有透明、可追溯的特点，且所有生成式AI内容必须注明来源，目的就是防止AI胡说八道，生成虚假信息。2.环境安全：模型及使用模型的安全（Security for AI）Security

11、for AI 聚焦的是对 AI 大模型的保护，以及 AI 大模型在被使用过程中的安全。正如 AI自己犯罪和人使用 AI 犯罪，是两个不同维度的安全问题。这有些类似我们在十年前使用电脑和手机，都会安装一个电脑安全管家，或者手机安全卫士一样。我们要确保 AI 大模型日常不会受到外部攻击。先说对大模型的安全保护。2023 年 2 月份，有国外网友用一句“忽视掉之前的指令”把ChatGPT 所有的 prompt（提示词）都钓了出来，ChatGPT 一边说不能透露自己的内部代号，又一边将这个信息告诉了用户。这种行为在安全领域被称为提示注入（Prompt Injections），即通过精心设计的提示绕过过

12、滤器或操纵 LLM，使模型忽略先前的指令或执行意外操作，这是目前针对大模型最普遍的攻击方式之一。这里的关键在于，大模型本身没有问题。但用户却通过诱导的方式，让大模型犯了错误。所以错不在大模型，而在诱导它犯错的人。60专题策划6061SPECIAL TOPICS这一部分通常主要由训练 AI 大模型的公司和人员负责，比如我们需要 AI 能够正确理解人类的意图，我们需要大模型每次输出的内容都是准确、安全的，它不会具备某种偏见和歧视等等。比如 2023 年 3 月份，美国加州大学洛杉矶分校的一位教授在使用 ChatGPT 时发现，自己被ChatGPT列入“对某人进行过性骚扰的法律学者”的名单，但实际上

13、自己并没有做这件事情，为了“造这个谣”，ChatGPT 甚至杜撰了一篇不存在的华盛顿邮报报道。另外，4 月份澳大利亚一位市长发现 ChatGPT 造谣他曾因贿赂入狱服刑 30 个月。这些时候，AI 就像一个“坏人”，它本身就存在风险。这样的案例其实还有很多，诸如性别歧视、种族歧视、地域歧视等问题，以及暴力有害的信息、言论，甚至意识形态的输出等等。Open AI 也坦然承认，并警告人们在使用 GPT-4 时要“非常小心地查证”，并表示该产品的局限性会带来重大的内容安全挑战。所以欧盟正在推进的人工智能法案也专门提到，要确保人工智能系统具有透明、可追溯的特点，且所有生成式AI内容必须注明来源，目的就

14、是防止AI胡说八道，生成虚假信息。2.环境安全：模型及使用模型的安全（Security for AI）Security for AI 聚焦的是对 AI 大模型的保护，以及 AI 大模型在被使用过程中的安全。正如 AI自己犯罪和人使用 AI 犯罪，是两个不同维度的安全问题。这有些类似我们在十年前使用电脑和手机，都会安装一个电脑安全管家，或者手机安全卫士一样。我们要确保 AI 大模型日常不会受到外部攻击。先说对大模型的安全保护。2023 年 2 月份，有国外网友用一句“忽视掉之前的指令”把ChatGPT 所有的 prompt（提示词）都钓了出来，ChatGPT 一边说不能透露自己的内部代号，又一边

15、将这个信息告诉了用户。这种行为在安全领域被称为提示注入（Prompt Injections），即通过精心设计的提示绕过过滤器或操纵 LLM，使模型忽略先前的指令或执行意外操作，这是目前针对大模型最普遍的攻击方式之一。这里的关键在于，大模型本身没有问题。但用户却通过诱导的方式，让大模型犯了错误。所以错不在大模型，而在诱导它犯错的人。60专题策划6061SPECIAL TOPICS其次是使用过程中的安全。我们用数据泄露举例，2023 年 3 月，因为 ChatGPT涉嫌违反数据收集规则，意大利宣布暂时禁止 OpenAI 处理意大利用户数据，并暂时禁止使用 ChatGPT。4 月份，韩国媒体报道，三

16、星设备解决方案部门因使用 ChatGPT，导致良品率/缺陷、内部会议内容等敏感信息泄露。在防止 AI 犯罪之外，“人”通过社会工程学的方式利用 AI 犯罪，是更广泛以及影响更大的人问题。在这两起事件中，大模型本身没有问题，不存在恶意，用户也没有恶意诱导，向大模型发起攻击。而是在使用的过程中当中存在漏洞，让用户数据发生了泄露。这就像房子是个好房子，但可能有些漏风一样，所以我们需要一些措施，将相应的漏洞堵上。3.社会安全：大语言模型的发展对现有网络安全的影响模型本身安全了，也保证了模型的安全，但作为一个“新物种”，AI 大模型的出现必然会影响当前的网络环境，比如频繁见诸报端的，犯罪分子利用生成式

17、AI 进行诈骗。2023 年 4 月 20 日，有犯罪分子使用深度伪造的视频，10 分钟骗走了 430 万元人民币；仅仅一个月之后，安徽又出现一起AI 诈骗案件，犯罪分子利用 9 秒钟的智能AI换脸视频佯装“熟人”，骗走受害者245万。显然，生成式 AI 的出现与普及，让网络安全的形势变得更加复杂。这种复杂也不局限在诈骗，更严重的，甚至已影响商业运转和社会稳定。比如 5 月 22 日，科大讯飞因为一篇由AI 生成的小作文，导致股价一度大跌 9%。而在这件事情发生的前两天，美国也出现了一起因生成式 AI 引发的恐慌。当天，一张显示美国五角大楼附近发生爆炸的图片在 Twitter 疯传，而在图片传

18、播的同时，美国股市应声下跌。在此之外，大模型也可能成为人类实现网络攻击的利器。今年 1 月份，世界头部网络安全公司 Check Point 的研究人员曾在一份报告中提到，在 ChatGPT 上线的几周内，网络犯罪论坛的参与者，包括一些几乎没有编程经验的人正在使用 ChatGPT 编写可用于间谍、勒索软件、恶意垃圾邮件和其他用于不法活动的软件和电子邮件。另据英国网络安全初创公司 Darktrace 发现，自从 ChatGPT 发布，网络钓鱼电子邮件的平均语言复杂度就上升了 17%。AI 大模型的出现降低了网络攻击的门槛，增加了网络安全的复杂性。在 AI 大模型之前，网络攻击的发起者至少需要懂得代

19、码，但在 AI 大模型之后，完全不懂代码的人也可以借助 AI 生成恶意软件。这里的关键在于，AI 本身没有问题，AI 也不会被人诱导产生恶劣影响。而是有人利用 AI 从事违法犯罪活动。这就像有人用刀杀人，但刀本身只是“凶器”，但却能让使用者有从“步枪”换成“迫击炮”的威力。当然，生成式 AI 的出现对于网络安全也并非全是负面，毕竟技术本身是没有善恶，有善恶的是使用它的人。所以当 AI 大模型被用作加强网络安全的时候，仍然会对网络安全带来裨益。比如美国网络安全公司 Airgap Networks 推出 ThreatGPT，将 AI 引入其零信任防火墙。这是一个基于自然语言交互6

20、2专题策划6263SPECIAL TOPICS其次是使用过程中的安全。我们用数据泄露举例，2023 年 3 月，因为 ChatGPT涉嫌违反数据收集规则，意大利宣布暂时禁止 OpenAI 处理意大利用户数据，并暂时禁止使用 ChatGPT。4 月份，韩国媒体报道，三星设备解决方案部门因使用 ChatGPT，导致良品率/缺陷、内部会议内容等敏感信息泄露。在防止 AI 犯罪之外，“人”通过社会工程学的方式利用 AI 犯罪，是更广泛以及影响更大的人问题。在这两起事件中，大模型本身没有问题，不存在恶意，用户也没有恶意诱导，向大模型发起攻击。而是在使用的过程中当中存在漏洞，让用户数据发生了泄露。这就像房

21、子是个好房子，但可能有些漏风一样，所以我们需要一些措施，将相应的漏洞堵上。3.社会安全：大语言模型的发展对现有网络安全的影响模型本身安全了，也保证了模型的安全，但作为一个“新物种”，AI 大模型的出现必然会影响当前的网络环境，比如频繁见诸报端的，犯罪分子利用生成式 AI 进行诈骗。2023 年 4 月 20 日，有犯罪分子使用深度伪造的视频，10 分钟骗走了 430 万元人民币；仅仅一个月之后，安徽又出现一起AI 诈骗案件，犯罪分子利用 9 秒钟的智能AI换脸视频佯装“熟人”，骗走受害者245万。显然，生成式 AI 的出现与普及，让网络安全的形势变得更加复杂。这种复杂也不局限在诈骗，更严重的，

22、甚至已影响商业运转和社会稳定。比如 5 月 22 日，科大讯飞因为一篇由AI 生成的小作文，导致股价一度大跌 9%。而在这件事情发生的前两天，美国也出现了一起因生成式 AI 引发的恐慌。当天，一张显示美国五角大楼附近发生爆炸的图片在 Twitter 疯传，而在图片传播的同时，美国股市应声下跌。在此之外，大模型也可能成为人类实现网络攻击的利器。今年 1 月份，世界头部网络安全公司 Check Point 的研究人员曾在一份报告中提到，在 ChatGPT 上线的几周内，网络犯罪论坛的参与者，包括一些几乎没有编程经验的人正在使用 ChatGPT 编写可用于间谍、勒索软件、恶意垃圾邮件和其他用于不法活

23、动的软件和电子邮件。另据英国网络安全初创公司 Darktrace 发现，自从 ChatGPT 发布，网络钓鱼电子邮件的平均语言复杂度就上升了 17%。AI 大模型的出现降低了网络攻击的门槛，增加了网络安全的复杂性。在 AI 大模型之前，网络攻击的发起者至少需要懂得代码，但在 AI 大模型之后，完全不懂代码的人也可以借助 AI 生成恶意软件。这里的关键在于，AI 本身没有问题，AI 也不会被人诱导产生恶劣影响。而是有人利用 AI 从事违法犯罪活动。这就像有人用刀杀人，但刀本身只是“凶器”，但却能让使用者有从“步枪”换成“迫击炮”的威力。当然，生成式 AI 的出现对于网络安全也并非全是负面，毕竟技

24、术本身是没有善恶，有善恶的是使用它的人。所以当 AI 大模型被用作加强网络安全的时候，仍然会对网络安全带来裨益。比如美国网络安全公司 Airgap Networks 推出 ThreatGPT，将 AI 引入其零信任防火墙。这是一个基于自然语言交互62专题策划6263SPECIAL TOPICS的深度机器学习安全洞察库，能够让企业在与先进网络威胁的对抗中变得更加容易。Airgap Networks 首席执行官 Ritesh Agrawal 表示：“客户现在需要的是一种无需任何编程即可利用这种功能的简单方法。这就是 ThreatGPT 的美妙之处人工智能的纯粹数据挖掘智能与简单的

25、自然语言界面相结合，这对安全团队来说简直是游戏规则的改变者。”除此之外，AI 大模型还可以被用在帮助 SOC 分析师进行威胁分析，能够通过持续监控更快识别基于身份的内部或外部攻击，以及帮助威胁猎人快速了解哪些端点面临最严重的供给风险等。将AI安全的不同阶段厘清便会发现，显然 AI 大模型的安全问题不是某一个单独的问题。它很像人的健康管理，涉及到身体内外、眼耳口鼻等等，复杂且多面。准确地说，是一个复杂的、体系化的，涉及多个主体结构和整个产业链的系统工程。目前，国家层面也开始有所关注。今年 5 月份，相关部门再次更新人工智能安全标准化白皮书，就人工智能的安全具体归结为五大属性，包括可靠性、透明性、

26、可解释性、公平性和隐私性，为 AI 大模型的发展提出了一个较为明确的方向。当然，我们如今也不必为 AI 大模型的安全问题感到过多的担忧，因为它并没有真正走到千疮百孔的地步。毕竟就安全而言，大模型并没有完全颠覆过去的安全体系，我们过去 20 年在互联网上积累的安全堆栈大部分仍然能够被复用。比如 Microsoft Security Copilot（安全副驾驶）背后的安全能力仍然来自于既有的安全积累，大模型仍然要使用 Cloudflare、Auth0 来管理流量和用户身份。在此之外还有像防火墙、入侵检测系统、加密技术、认证和访问系统等等，保证了网络的安全问题。而这里我们其实要讲的是，当前我们遇到的

27、绝大多数关于大模型的安全问题，都是有解决途径的。首先是模型安全（AI Safety）。这里面具体包括对齐（Alignment）、可解释性（Interpreferability）、鲁棒性（Robustness）等问题。翻译成方便理解的话，就是我们需要 AI 大模型和人类意图对齐，输出的内容没有偏见，所有内容都可以找到出处或论据支撑，并且有更大的容错空间。这一套问题的解决，依赖于 AI 训练的过程，就像一个人的三观是在培养和教育中塑造的一样。目前，国外已经有企业开始为大模型的训练提供全程的安全监控，比如 Calypso AI，他们推出的安全工具 VESPR 可以对模型从研究到部署的整个生命周期，从

28、数据到训练的每个环节进行监控，最终提供一个关于功能、漏洞、性能、准确性的全面报告。别慌，安全问题可解DONT PANIC,SECURITY ISSUES CAN BE SOLVED64专题策划6465SPECIAL TOPICS的深度机器学习安全洞察库，能够让企业在与先进网络威胁的对抗中变得更加容易。Airgap Networks 首席执行官 Ritesh Agrawal 表示：“客户现在需要的是一种无需任何编程即可利用这种功能的简单方法。这就是 ThreatGPT 的美妙之处人工智能的纯粹数据挖掘智能与简单的自然语言界面相结合，这对安全团队来说简直是游戏规则的改变者。”除此之外，AI 大模型

29、还可以被用在帮助 SOC 分析师进行威胁分析，能够通过持续监控更快识别基于身份的内部或外部攻击，以及帮助威胁猎人快速了解哪些端点面临最严重的供给风险等。将AI安全的不同阶段厘清便会发现，显然 AI 大模型的安全问题不是某一个单独的问题。它很像人的健康管理，涉及到身体内外、眼耳口鼻等等，复杂且多面。准确地说，是一个复杂的、体系化的，涉及多个主体结构和整个产业链的系统工程。目前，国家层面也开始有所关注。今年 5 月份，相关部门再次更新人工智能安全标准化白皮书，就人工智能的安全具体归结为五大属性，包括可靠性、透明性、可解释性、公平性和隐私性，为 AI 大模型的发展提出了一个较为明确的方向。当然，我们

30、如今也不必为 AI 大模型的安全问题感到过多的担忧，因为它并没有真正走到千疮百孔的地步。毕竟就安全而言，大模型并没有完全颠覆过去的安全体系，我们过去 20 年在互联网上积累的安全堆栈大部分仍然能够被复用。比如 Microsoft Security Copilot（安全副驾驶）背后的安全能力仍然来自于既有的安全积累，大模型仍然要使用 Cloudflare、Auth0 来管理流量和用户身份。在此之外还有像防火墙、入侵检测系统、加密技术、认证和访问系统等等，保证了网络的安全问题。而这里我们其实要讲的是，当前我们遇到的绝大多数关于大模型的安全问题，都是有解决途径的。首先是模型安全（AI Safety）

31、。这里面具体包括对齐（Alignment）、可解释性（Interpreferability）、鲁棒性（Robustness）等问题。翻译成方便理解的话，就是我们需要 AI 大模型和人类意图对齐，输出的内容没有偏见，所有内容都可以找到出处或论据支撑，并且有更大的容错空间。这一套问题的解决，依赖于 AI 训练的过程，就像一个人的三观是在培养和教育中塑造的一样。目前，国外已经有企业开始为大模型的训练提供全程的安全监控，比如 Calypso AI，他们推出的安全工具 VESPR 可以对模型从研究到部署的整个生命周期，从数据到训练的每个环节进行监控，最终提供一个关于功能、漏洞、性能、准确性的全面报告。别

32、慌，安全问题可解DONT PANIC,SECURITY ISSUES CAN BE SOLVED64专题策划6465SPECIAL TOPICS而在更具体的问题上，比如解决AI 胡说八道的问题，OpenAI 在 GPT-4发布时就同时推出了一项新技术，让AI 能够模拟人类的自我反思。之后，GPT-4 模型回应非法内容请求（如自残方法等）的倾向比原来降低了 82%，回应敏感请求方面（如医疗咨询等）符合微软官方政策的次数增加了 29%。除了在大模型的训练过程中要有安全监控，在大模型最后推向市场的时候，也需要一次“质检”。在国外，安全公司 Cranium 正在试图构建“一个端到端的人工智能安全和信任

33、平台”，用来验证人工智能安全性并监测对抗性威胁。在国内，清华大学计算机科学与技术系的 CoAI 在五月初推出了一套安全评测框架，他们总结设计了一个较为完备的安全分类体系，包括 8 种典型安全场景和 6 种指令攻击的安全场景，可以用来评估大模型的安全性。除此之外，一些外部的防护技术也在让 AI 大模型变得更安全。比如英伟达在5月初发布的一项名为“护栏技术”（NeMo Guardrails）的新工具，相当于为大模型安装了一个安全滤网，既控制大模型的输出，也帮助过滤输入的内容。比如当有用户诱导大模型生成攻击性代码，或者危险、带有偏见的内容时，“护栏技术”就会限制大模型输出相关内容。它还能阻挡来自外界

34、的“恶意输入”，保护大模型不受用户攻击，比如我们前面提到威胁大模型的“提示注入”就能被有效控制。“护栏技术”虽然解决的是“胡说八道”的问题，但它并不属于“AI Safety”，而是属于“Security for AI”的范畴。在这两者之外，关于 AI大模型引发的社会/网络安全问题也已经开始解决。比如 AI 图像生成的问题，本质上是 DeepFake（深度伪造）技术的成熟，具体包括深度视频伪造、深度伪造声音克隆、深度伪造图像和深度伪造生成文本。在之前，各类深度伪造内容通常是单一形式存在，但在 AI 大模型之后，各类深度伪造内容呈现融合趋势，让深度伪造内容的判断更加复杂。但无论技术如何变化，

35、对抗深度伪造的关键就是内容识别，即想办法分清楚什么是 AI 生成的。早在 2023 年 2 月份，OpenAI 就曾表示，考虑在 ChatGPT 生成的内容中添加水印。5 月份，谷歌也表示将确保公司的每一张 AI 生成图片都内嵌水印。这种水印人无法用肉眼识别，但机器却可以通过特定的方式看到，目前包括 Shutterstock、Midjourney 等 AI 应用也将支持这种新的标记方法。在国内，“小红书”从 4 月份就已经为 AI 生成的图片打上标记，提醒用户“疑似包含 AI 创作信息，请注意甄别真实度”。5 月初，抖音也发布了关于人工智能生成内容平台规范暨行业倡议，提出各生成式人工智能技

36、术的提供者，均应对生成内容进行显著标识，以便公众判断。66专题策划6667SPECIAL TOPICS而在更具体的问题上，比如解决AI 胡说八道的问题，OpenAI 在 GPT-4发布时就同时推出了一项新技术，让AI 能够模拟人类的自我反思。之后，GPT-4 模型回应非法内容请求（如自残方法等）的倾向比原来降低了 82%，回应敏感请求方面（如医疗咨询等）符合微软官方政策的次数增加了 29%。除了在大模型的训练过程中要有安全监控，在大模型最后推向市场的时候，也需要一次“质检”。在国外，安全公司 Cranium 正在试图构建“一个端到端的人工智能安全和信任平台”，用来验证人工智能安全性并监测对抗性

37、威胁。在国内，清华大学计算机科学与技术系的 CoAI 在五月初推出了一套安全评测框架，他们总结设计了一个较为完备的安全分类体系，包括 8 种典型安全场景和 6 种指令攻击的安全场景，可以用来评估大模型的安全性。除此之外，一些外部的防护技术也在让 AI 大模型变得更安全。比如英伟达在5月初发布的一项名为“护栏技术”（NeMo Guardrails）的新工具，相当于为大模型安装了一个安全滤网，既控制大模型的输出，也帮助过滤输入的内容。比如当有用户诱导大模型生成攻击性代码，或者危险、带有偏见的内容时，“护栏技术”就会限制大模型输出相关内容。它还能阻挡来自外界的“恶意输入”，保护大模型不受用户攻击，比

38、如我们前面提到威胁大模型的“提示注入”就能被有效控制。“护栏技术”虽然解决的是“胡说八道”的问题，但它并不属于“AI Safety”，而是属于“Security for AI”的范畴。在这两者之外，关于 AI大模型引发的社会/网络安全问题也已经开始解决。比如 AI 图像生成的问题，本质上是 DeepFake（深度伪造）技术的成熟，具体包括深度视频伪造、深度伪造声音克隆、深度伪造图像和深度伪造生成文本。在之前，各类深度伪造内容通常是单一形式存在，但在 AI 大模型之后，各类深度伪造内容呈现融合趋势，让深度伪造内容的判断更加复杂。但无论技术如何变化，对抗深度伪造的关键就是内容识别，即想办法分

39、清楚什么是 AI 生成的。早在 2023 年 2 月份，OpenAI 就曾表示，考虑在 ChatGPT 生成的内容中添加水印。5 月份，谷歌也表示将确保公司的每一张 AI 生成图片都内嵌水印。这种水印人无法用肉眼识别，但机器却可以通过特定的方式看到，目前包括 Shutterstock、Midjourney 等 AI 应用也将支持这种新的标记方法。在国内，“小红书”从 4 月份就已经为 AI 生成的图片打上标记，提醒用户“疑似包含 AI 创作信息，请注意甄别真实度”。5 月初，抖音也发布了关于人工智能生成内容平台规范暨行业倡议，提出各生成式人工智能技术的提供者，均应对生成内容进行显著标识，以

40、便公众判断。66专题策划6667SPECIAL TOPICS甚至随着 AI 产业的发展，国内外都开始出现了一些专门的 AI 安全公司/部门，他们通过用 AI 对抗 AI 的方式，来完成深度合成和伪造检测。比如 2023 年 3 月份，日本 IT 巨头 CyberAgent 宣布从 4 月开始引入“深度伪造技术（Deepfake）”检测系统，以检测由人工智能生成的伪造面部照片或视频。国内，百度在 2020 年就推出了深度换脸检测平台，他们提出的动态特征队列（DFQ）的方案和度量学习方法可以提高模型鉴伪的泛化能力。创业公司方面，瑞莱智慧推出的 DeepReal 深度伪造内容检测平台，能够通过研究深

41、度伪造内容和真实内容的表征差异性辨识，不同生成途径的深度伪造内容一致性特征挖掘等问题，对多种格式与质量的图像、视频、音频进行真伪鉴别。整体上，从模型训练，到安全防护，从 AI Safety 到 Security for AI，大模型行业已经形成了一套基本的安全机制。当然，这一切也只是刚刚开始，所以这其实也意味着，这背后还藏着一个更大的市场机遇。LIMITLESS OPPORTUNITIES IN AI SECURITY和 AI Infra（AI 架构）一样，在中国，AI 安全同样面临着巨大的产业空白。不过，AI 安全产业链比 AI Infra 要更加复杂。一方面，大模型作为新事物的诞生，掀起了

42、一波安全需求，且在上述三个阶段的安全方向和技术完全不同；另一方面，大模型技术也被应用在安全领域，为安全带来新的技术变革。“安全 for AI”和“AI for 安全”，是两个完全不同的方向和产业机遇。现阶段推动二者发展的牵引力也完全不同：AI for 安全将大模型应用在安全领域，属于拿着锤子找钉子的阶段工具是有了，能解决什么问题在进一步挖掘；安全 for AI 则属于遍地都是钉子，急需造锤子的阶段暴露的问题太多，需要研发新的技术逐个解决。关于 AI 安全带来的产业机遇，本文也将从这两个方面进行展开。受限于文章篇幅，我们将对其中同时拥有紧迫性、重要性、应用普遍性最高的机遇进行详细的解释以及对标公

43、司情况的盘点，以期抛砖引玉。AI 安全中的无限机遇68专题策划6869SPECIAL TOPICS6869甚至随着 AI 产业的发展，国内外都开始出现了一些专门的 AI 安全公司/部门，他们通过用 AI 对抗 AI 的方式，来完成深度合成和伪造检测。比如 2023 年 3 月份，日本 IT 巨头 CyberAgent 宣布从 4 月开始引入“深度伪造技术（Deepfake）”检测系统，以检测由人工智能生成的伪造面部照片或视频。国内，百度在 2020 年就推出了深度换脸检测平台，他们提出的动态特征队列（DFQ）的方案和度量学习方法可以提高模型鉴伪的泛化能力。创业公司方面，瑞莱智慧推出的 Deep

44、Real 深度伪造内容检测平台，能够通过研究深度伪造内容和真实内容的表征差异性辨识，不同生成途径的深度伪造内容一致性特征挖掘等问题，对多种格式与质量的图像、视频、音频进行真伪鉴别。整体上，从模型训练，到安全防护，从 AI Safety 到 Security for AI，大模型行业已经形成了一套基本的安全机制。当然，这一切也只是刚刚开始，所以这其实也意味着，这背后还藏着一个更大的市场机遇。LIMITLESS OPPORTUNITIES IN AI SECURITY和 AI Infra（AI 架构）一样，在中国，AI 安全同样面临着巨大的产业空白。不过，AI 安全产业链比 AI Infra 要更

45、加复杂。一方面，大模型作为新事物的诞生，掀起了一波安全需求，且在上述三个阶段的安全方向和技术完全不同；另一方面，大模型技术也被应用在安全领域，为安全带来新的技术变革。“安全 for AI”和“AI for 安全”，是两个完全不同的方向和产业机遇。现阶段推动二者发展的牵引力也完全不同：AI for 安全将大模型应用在安全领域，属于拿着锤子找钉子的阶段工具是有了，能解决什么问题在进一步挖掘；安全 for AI 则属于遍地都是钉子，急需造锤子的阶段暴露的问题太多，需要研发新的技术逐个解决。关于 AI 安全带来的产业机遇，本文也将从这两个方面进行展开。受限于文章篇幅，我们将对其中同时拥有紧迫性、重要性

46、、应用普遍性最高的机遇进行详细的解释以及对标公司情况的盘点，以期抛砖引玉。AI 安全中的无限机遇68专题策划6869SPECIAL TOPICS68691.安全 for AI：3 个板块、5 个环节、无限机遇回顾一下前文对于 AI 安全的基础分类：分为大语言模型的安全（AI Safety）、模型及使用模型的安全（Security for AI），以及大语言模型的发展对现有网络安全的影响。即模型的个体安全、模型的环境安全和模型的社会安全（网络安全）。但 AI 安全并不只局限于这三个独立的板块中。网络世界中，数据如同水源，存在于海洋、河湖、冰川雪山中，但也流通在一道道细密的河流之中，而污染往往出现

47、在河流交汇之处。同理，每个模块都需要进行连接，而正如同人的关节最脆弱一般，往往模型的部署、模型的应用环节也是最容易受到安全攻击的环节。我们将以上的3个板块、5个环节中的AI安全细节进行有选择地展开，形成了一张 AI 安全产业架构图，但需要注意的是，属于大模型公司和云厂商等大型公司的机遇等，这些对一般创业者影响不大的机遇并没有再次罗列。同时，安全 for AI 是一个不断进化的过程，今天的技术仅仅是刚刚迈出的一小步。数据安全产业链：数据清洗、隐私计算、数据合成等在整个 AI 安全中，数据安全贯穿了整个周期。数据安全通常指用于保护计算机系统中数据不因偶然和恶意的原因遭到破坏、更改和泄露的安全工具，

48、以确保数据的可用性、完整性和保密性。统筹来看，数据安全产品不仅包括数据库安全防御、数据防泄露、数据容灾备份及数据脱敏等，也涵盖关注云存储、隐私计算、数据风险动态评估、跨平台数据安全、数据安全虚拟防护、数据合成等前瞻领域，因此从企业视角围绕数据安全建设整体安全中心、在供应链视角推动数据安全一致性保障，将会是应对企业供应链安全风险的有效思路。举几个典型的例子：为了保证模型的“思想健康”，用来训练模型的数据不能夹带危险数据、错误数据等脏数据，这是保证模型不会“胡说八道”的前提。笔者参考论文，目前已经有“数据投毒”，攻击者在数据源中添加恶意数据，干扰模型结果。所以，数据清洗就成为了模型训练前的一个必要

49、环节。数据清洗是指发现并纠正数据文件中可识别错误的最后一道程序，包括检查数据一致性、处理无效值和缺失值等。将清洗后的干净数据“喂”给模型，才能保证健康模型的生成。另一个方向是大家都异常关心的，在上一个网络安全时代就被广泛讨论的数据隐私泄露问题。你一定经历过在微信中和朋友们聊天聊到某商品，打开淘宝和抖音就被推送该商品的情况，在数字化时代，人几乎就是半透明的。而在智能化时代，机器变得更聪明，有意的抓取和诱导将会把隐私问题再次推向风口浪尖。隐私计算是解决问题的方案之一。安全多方计算、可信执行环境、联邦学习是目前隐私计算的三大方向。隐私计算的方法有很多种，比如为了保证消费者的真实数据，为 1 个真实数

50、据配备 99 个干扰数据，但这会大大增加企业的使用成本；再比如将具体的消费者模糊成小 A，使（图/自象限）70专题策划7071SPECIAL TOPICS1.安全 for AI：3 个板块、5 个环节、无限机遇回顾一下前文对于 AI 安全的基础分类：分为大语言模型的安全（AI Safety）、模型及使用模型的安全（Security for AI），以及大语言模型的发展对现有网络安全的影响。即模型的个体安全、模型的环境安全和模型的社会安全（网络安全）。但 AI 安全并不只局限于这三个独立的板块中。网络世界中，数据如同水源，存在于海洋、河湖、冰川雪山中，但也流通在一道道细密的河流之中，而污染往往出

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 现在讨论 AI 安全为时尚早

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。