零基础AI入门指南 -绝世好 Sora .pdf
《零基础AI入门指南 -绝世好 Sora .pdf》由会员分享,可在线阅读,更多相关《零基础AI入门指南 -绝世好 Sora .pdf(16页珍藏版)》请在咨信网上搜索。
1、零基础AI入门指南01 绝世好 Sora 目录一、Sora03(一)Sora的定义03(二)AGI的定义03(三)Sora的优势03(四)Sora可能带来的行业冲击04二、Sora的原理04(一)视频压缩网络技术04(二)空间时间补丁04三、Sora视频生成过程04(一)视频压缩网络05(二)空间时间潜在补丁提取05(三)视频生成的Transformer模型05四、Sora的应用05(一)电影制作:预览与概念验证05(二)设计领域:产品概念和广告创意06(三)创意产业:音乐视频和动画06(四)虚拟现实和游戏:环境设计和资产创建06五、Sora视频生成的局限06(一)物理世界模拟的局限性06(二
2、)长视频生成的困难07(三)准确理解复杂文本指令07(四)训练与生成效率07六、Sora对传媒业的影响07(一)Sora对传媒业的意义071.重构信息生产方式,赋能内容生产创新微观072.提升信息生产效率,促进视频创作民主化微观083.重塑传媒业产业链,促进传媒行业智能转型中观084.深度赋能跨文化传播,促进文化交流与理解中观08(二)Sora对于传媒业的挑战09零基础AI入门指南021.Sora技术限制内容表达,品质和准确度仍存缺陷092.Sora模糊真实与虚拟边界,加剧深度伪造问题093.Sora加剧用户隐私侵犯风险,放大信息储存危机094.Sora应用冲击影视行业发展,拉响从业者失业警报
3、10七、Sora与深度伪造风险10(一)视频传播中媒介伦理呈现的新特征101.伦理主体的变化:三元主体的形成102.伦理边界的变化:从职业伦理到社会伦理10(二)网络视频传播中伦理失范的几种主要表现101.内容上:制作或传播虚假视频影像102.隐私权上:个人隐私画面和影像缺乏保护113.价值观上:传播低俗、暴力、悲剧画面等不适当视频影像114.用户保护上:未成年人视频影像的呈现与保护十分重要11(三)重构网络视频传播伦理规范的可能路径121.从个体美德到数字伦理122.从职业伦理到平台伦理123.从道德自律到交往伦理12七、应对Sora风险:审美优化力的提升12(一)审美优化力的关键131.审
4、美鉴赏力132.文化解码力133.伦理辨识力134.趋势洞察力135.创意整合力13(二)审美优化力中的优化141.认知升级142.情感共鸣的深化143.技术与艺术的融合144.文化敏锐度的增强145.伦理责任的提升15零基础AI入门指南03一、Sora(一)Sora 的定义Sora是一个能以文本描述生成视频的人工智能模型,由美国人工智能研究机构OpenAI开发。Sora这一名称源于日文“空”,即天空之意,以示其无限的创造潜力。其背后的技术是在OpenAI的文本到图像生成模型 DALL-E 基础上开发而成的。模型的训练数据既包含公开可用的视频,也包括了专为训练目的而获授权的著作权视频,但Ope
5、nAI没有公开训练数据的具体数量与确切来源。OpenAI 于2024 年 2 月 15 日向公众展示了由 Sora 生成的多个高清视频,称该模型能够生成长达一分钟的视频。同时,OpenAI也承认了该技术的一些缺点,包括在模拟复杂物理现象方面的困难。麻省理工科技评论的报道称演示视频令人印象深刻,但指出它们可能是经精心挑选的,并不一定能代表 Sora 生成视频的普遍水准。由于担心Sora可能被滥用,OpenAI表示目前没有计划向公众发布该模型,而是给予小部分研究人员有限的访问权限,以理解模型的潜在危害。OpenAI还与一小群创意专业人士分享了 Sora,以获取对其实用性的反馈。(二)AGI的定义在
6、OpenAI的理念中,人工通用智能(AGI)被定义为一种能力水平与人类相当、可以解决广泛人类级别问题的智能系统。不同于当前的人工智能技术通常专注于解决特定的、狭窄的任务,AGI将能够理解、学习和应用知识于一个范围广泛的问题和环境,包括那些它未被特别编程处理的任务。这一定义突显了AGI与现有AI系统的根本区别,同时也指出了实现AGI所需克服的技术和理论难题。(三)Sora 的优势中央民族大学新闻与传播学院教授郭全中认为,相比 Chatgpt,Sora有了质的飞跃:一是 Sora 具备推理能力,人类长期以来孜孜以求的AGI(通用人工智能)成为可能,估计不久之后就会到来,而ChatGPT 是让我们看
7、到了曙光。二是在当今视频时代,Sora作为图生视频的利器将助力传媒业降本增效,极大地扩大能力范围和能力边界,给传媒业带来的影响远远超过 ChatGPT。零基础AI入门指南04(四)Sora 可能带来的行业冲击清华大学新闻学院教授、新媒体研究中心主任沈在个人社交平台提出,sora 的出现将深刻影响 10 个行业,包括短视频行业、影视行业、游戏行业、广告行业、教育行业、电商行业、制造业、科学研究、建筑行业、艺术创作行业。Sora对影视相关的产业影响比较大,它能大幅拉低制作成本,如果普遍使用的话,成本至少可以是原来的十分之一,所以 Sora 对视频、游戏、教育等行业都会带来比较明显的影响。二、Sor
8、a 的原理(一)视频压缩网络技术首先,Sora 通过一个叫做“视频压缩网络”的技术,将输入的图片或视频压缩成一个更低维度的表示形式,这一过程类似于将不同尺寸和分辨率的照片“标准化”,便于处理和存储。这并不意味着忽略原始数据的独特性,而是将它们转换成一个对 Sora 来说更容易理解和操作的格式。(二)空间时间补丁接下来,Sora将这些压缩后的数据进一步分解为所谓的“空间时间补丁”(SpacetimePatches),这些补丁可以看作是视觉内容的基本构建块,就像是我们前面相册中的每一张照片都能分解为包含独特景观、颜色和纹理的小片段。这样,不管原始视频的长度、分辨率或风格如何,Sora 都可以将它们
9、处理成一致的格式。通过这种方法,Sora能够在保留原始视觉信息丰富性的同时,将不同来源和风格的视觉数据统一成一种可操作的内部表示形式。这就像你在查看世界名胜相册时,尽管照片多种多样,但你依然能通过相同的方式去理解和欣赏它们。这种处理多样化视觉数据的能力,使得 Sora 在接收到如猫坐在窗台上这样的文本提示时,不仅能理解这个提示背后的意图,还能利用它的内部表示形式,综合利用不同类型的视觉信息,生成与文本提示相匹配的视频或图片。就好比是从全世界的视觉数据中找到那些能够拼凑出你想象中的“猫坐在窗台上”场景的片段,并将它们组合起来,创造出一个全新的视觉作品。三、Sora 视频生成过程零基础AI入门指南
10、05(一)视频压缩网络想象一下,你正在将一间杂乱无章的房间打扫干净并重新组织。你的目标是,用尽可能少的盒子装下所有东西,同时确保日后能快速找到所需之物。在这个过程中,你可能会将小物件装入小盒子中,然后将这些小盒子放入更大的箱子里。这样,你就用更少、更有组织的空间存储了同样多的物品。视频压缩网络正是遵循这一原理。它将一段视频的内容“打扫和组织”成一个更加紧凑、高效的形式(即降维)。这样,Sora就能在处理时更高效,同时仍保留足够的信息来重建原始视频。(二)空间时间潜在补丁提取接下来,如果你想要细致地记下每个盒子里装了什么,可能会为每个盒子编写一张清单。这样,当你需要找回某个物品时,需查看对应的清
11、单,就能快速定位它在哪个盒子里。在 Sora 中,类似的“清单”就是空间时间潜在补丁。通过视频压缩网络处理后,Sora会将视频分解成一个个小块,这些小块含有视频中一小部分的空间和时间信息,就好像是对视频内容的详细“清单”。这让Sora在之后的步骤中能针对性地处理视频的每一部分。(三)视频生成的 Transformer 模型最后,想象你和朋友一起玩拼图游戏,但游戏的目标是根据一段故事来拼出一幅图。你们先将故事拆分成若干段落,每人负责一段。然后,你们根据各自负责的故事段落选择或绘制出拼图的一部分。最终,大家将各自的拼图部分合并,形成一幅完整的图画,讲述了整个故事。在 Sora 的视频生成过程中,T
12、ransformer 模型正扮演着类似的角色。它接收空间时间潜在补丁(即视频内容的“拼图片”)和文本提示(即“故事”),然后决定如何将这些片段转换或组合以生成最终的视频,从而讲述文本提示中的故事。通过这三个关键步骤的协同工作,Sora 能够将文本提示转化为具有丰富细节和动态效果的视频内容。不仅如此,这一过程还极大地提升了视频内容生成的灵活性和创造力,使 Sora 成为一个强大的视频创作工具。四、Sora 的应用(一)电影制作:预览与概念验证在电影制作领域,Sora的视频生成技术可被应用于项目的早期阶零基础AI入门指南06段,特别是在预览和概念验证环节中。一家知名的电影制作公司可利用 Sora
13、生成了数个关键场景的预览视频,这些视频基于简单的文本描述,如“未来城市在黄昏的背景下,主角站在高楼之巅俯视下方。”Sora不仅成功呈现了文本描述中的细节,还以其独有的视角和创意,为创作者提供了灵感,帮助他们更加准确地定义最终的视觉样式。通过这种方式,Sora显著减少了从概念到视觉呈现的时间和成本,同时增强了创意的多样性和创新性。(二)设计领域:产品概念和广告创意在设计行业,一个创意机构可采用 Sora 技术为其客户设计新产品的概念视频和广告。通过向 Sora 输入产品的描述和预期效果,机构能够迅速获得一系列创意丰富、视觉吸引的视频,展示了产品在不同环境下的使用场景。这种应用不仅提高了设计流程的
14、效率,还为客户提供了更加直观和动态的产品展示方式。此外,利用Sora 生成的视频也用于社交媒体广告,通过生动的视觉故事叙述,有效提高了广告的互动性和受众的参与度。(三)创意产业:音乐视频和动画一个新兴的音乐制作团队可用 Sora 为他们的最新单曲创作了一部音乐视频。通过向 Sora 提供歌词和主题描述,团队得到了一系列与歌曲情感和故事匹配的视频片段。Sora 的技术不仅在视频中成功融入了抽象和象征性的元素,还模拟了动态摄像机运动和复杂的人物互动,增加了视频的艺术性和观赏价值。此外,在动画制作领域,Sora可被用来快速生成原型动画,帮助动画师探索不同的风格和叙事方法,加速创作流程,同时提供丰富的
15、视觉材料以供最终产品的参考。(四)虚拟现实和游戏:环境设计和资产创建虚拟现实(VR)和游戏开发商也可探索使用 Sora 来设计环境和创建资产。一个 VR 体验项目团队可通过 Sora 生成了一系列极具沉浸感的环境场景,包括从密林深处到未来城市的全景视图。Sora在这一过程中展现出的能力包括了对场景细节的精准捕捉以及在生成过程中考虑用户交互和探索的可能性。此外,一款即将发布的视频游戏使用 Sora 来创建游戏内的资产,如角色、道具和环境元素,这些通过 Sora 生成的资产不仅保持了视觉上的一致性,还加快了开发进度,降低了制作成本。五、Sora 视频生成的局限(一)物理世界模拟的局限性零基础AI入
16、门指南07Sora 虽然能够生成具有一定复杂度的动态场景,但在模拟物理世界的准确性方面仍然存在局限。例如,对于复杂的物理互动,如玻璃破碎的精细过程,或是涉及精确力学运动的场景,Sora有时无法准确再现。这主要是因为 Sora 目前的训练数据中缺乏足够的实例来让模型学习这些复杂的物理现象。(二)长视频生成的困难Sora 在生成长时间视频时面临的另一个挑战是如何保持视频内容的长期一致性。对于较长的视频,维持人物、物体和场景的连续性和逻辑一致性变得更加困难。Sora 有时可能会在视频的不同部分产生矛盾,例如,人物的衣着突然变化,或是场景中物体的位置不一致。(三)准确理解复杂文本指令虽然 Sora 在
17、理解简单的文本指令并生成相应视频方面表现出色,但对于复杂的、含有多重含义或要求精确描绘特定事件的文本指令,模型有时会遇到困难。这限制了 Sora 在更加复杂创意内容生成上的应用。(四)训练与生成效率Sora 作为一个高度复杂的模型,其训练和视频生成的时间效率是一个不容忽视的挑战。高质量视频的生成通常需要较长的时间,这限制了Sora 在实时或快速反馈场景中的应用。六、Sora 对传媒业的影响(一)Sora 对传媒业的意义1.重构信息生产方式,赋能内容生产创新微观Sora能够高效快速根据用户提供的关键信息生成视频内容,可以有效辅助内容创作,提高创作效率,加速内容创作和迭代创意,丰富内容供给。Sor
18、a 可以打破内容创作壁障,拉近艺术与生活的距离,为传媒行业内容生产带来巨大变革。新技术、新玩法也为内容产业高效赋能,大大激发传媒产业活力。在新闻生产方面,Sora 将进一步分能动新闻生产,且基于预训练大语言模型、Transformer算法,Sora能完成上下文语境理解,增强视频新闻的可读性和新颖性。零基础AI入门指南082.提升信息生产效率,促进视频创作民主化微观Sora可以自动生成视频,无需人工拍摄和剪辑,大幅提高视频创作效率。同时,Sora 可以生成高质量的视频,画面逼真,细节丰富,这就为动新闻的生产提供了源源不断的动力。此外,Sora可以使视频创作更加便捷高效,普通人需输入文本即可生成高
19、质量视频,降低了视频创作的门槛,使得视频创作更加民主化。3.重塑传媒业产业链,促进传媒行业智能转型中观以ChatGPT、Sora 为代表的人工智能未来或将成为内容生产的主流形态:借AIGC之力优化自然语言对讲功能,借AIGC功能可自动生成用户所需的内容,无需搜索即时生产即时消费等。AIGC赋能内容生产,将表现出更加多维立体及多样化特征,能满足各类用户的个性化需求。此外,Sora能推进媒体深度融合,推进新型搜索引擎,优化虚拟数字人等项目开展,为内容交互提供进入智媒时代的技术支持。当下,传媒领域实际应用层面,国外大部分影视机构在生产中已开始使用AI 相关技术支持内容生产流程优化。因此,拥有版权视频
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 零基础AI入门指南 -绝世好 Sora 基础 AI 入门 指南 绝世
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。