很可惜 T 。T 您现在还不是作者身份,不能自主发稿哦~
如有投稿需求,请把文章发送到邮箱tougao@appcpx.com,一经录用会有专人和您联系
咨询如何成为春羽作者请联系:鸟哥笔记小羽毛(ngbjxym)
来源:游戏陀螺
这几天,AI行业,乃至整个互联网行业,包括投资界都在谈论一件事:OpenAI发布的文生视频模型Sora,这一石子究竟能激起多少层浪。
AI生成视频并不是一个新生赛道,所以很多人疑惑,在铺天盖地的新闻之下,Sora到底取得了多大的进步。
我们将时间拉回到一年前,“AI视频大模型”此时已经拥有足够的关注度。2023年2月,Runway发布第一代产品Gen-1,让用户可以在iOS上,通过文本转化成视频格式。3月份,Gen-2发布,人们可以插手后期剪辑优化视频。网络热门作品《流浪地球3预告片》正是基于Gen-2创作。作者“数字生命卡兹克”借MidJourney生成分镜图,然后使用Gen-2扩散为4秒的视频片段,最终合成一条以假乱真的预告片。
或许出身自纽约大学艺术学院的三位创始人一开始想着是为影视内容输出生产力,所以Runway全身心加入到《瞬息全宇宙》等大片制作当中。但AIGC浪潮的来临,在游戏产业却迸发了出乎意料的想象和需求。
5月29日,英伟达创始人兼首席执行官黄仁勋在COMPUTEX大会上展示公司为游戏提供的定制化AI模型代工服务——Avatar Cloud Engine (ACE),开发人员经AI视频生成工具Audio to Face一番操作实现栩栩如生的角色动画。
其实早在2021年,英伟达在GTC技术大会上便利用Audio to Face制造了一场AI黄仁勋演讲视频的假象。如今这一工具已成熟到可以被Convai、Inworld、米哈游、网易游戏、掌趣科技、腾讯游戏和育碧等公司,甚至是独立游戏开发者,应用于实际项目当中。一名开发者Fallen Leaf用Audio to Face成功制作完成了《索利斯堡》(FORT SOLIS) 中角色的脸部动画。
欧洲知名厂商之一的GSC Game World也在自家的得力之作《潜行者2:切尔诺贝利之心》身上采用了该工具来实现想要的效果。
当然游戏产业的技术需要绝不满足于此。所以,作为互联网技术领先企业,去年秋季英伟达推出基于AI增强光线重建技术的DLSS 3.5,训练的数据量是DLSS 3的5倍,可以适应更多的光照模式,最终效果比需要人工设计的降噪器更出色。以《赛博朋克2077》为例,开启DLSS 3.5后,整个城市模型的质感和霓虹灯反射的清晰度得到了大幅提升。英伟达称,DLSS 3.5结合了超分辨率、帧生成和光线重建,与没有DLSS渲染的画面相比,《赛博朋克 2077》帧率提高了5倍。
除此以外,该公司还针对ACE引入了SteerLM技术进行升级。该技术旨在让开发者能够定制NPC个性,为游戏对话等互动提供准确的情绪反馈。
无独有偶,艺术家团体Sagans运用虚幻引擎的MetaHuman Creator,同时配合AI算法,仅凭文本描述就为其首部音乐录影带《Coherence》生成了大部分镜头。
在最终成品所描绘的后现代图景中,一位女性正在新城市中寻找着属于自己的位置,画面采用素描风格,镜头伴随着音乐不断移动,从明亮的樱花树转场至纽约地铁。
据了解,Sagans是从iOS的Live Link Face应用中取得角色面部表情动画,通过Quixel和LUmen完成了背景环境,最后帮助AI算法生成了这般复杂行为的视频。
过程曲折,不过毋庸置疑,游戏行业对AI技术的追求正在使一批技术服务公司奋力推进旗下的AI业务,倒逼AI产业的迅速成长。
如今,Sora的到来可以实实在在地只用一句话,就能完成一个不俗的视频,用360公司CEO周鸿祎的话来说,“Sora的诞生意味着AGI(通用人工智能)实现从10年缩短至一两年。”
比起Gen-2的“4秒定律”和Pika的“风格化”,这颗突然袭来的“深水炸弹”不仅拉长了视频时间,功能强大,效果也是相当炸裂。
在一段演示时尚女性走在东京街头的视频中,Sora不仅可以完美呈现指令的内容,并且镜头能从远景到近景,再到特写等各角度拍摄。整个60秒的视频非常流畅。时尚女性面部的毛孔和瑕疵清晰可见,质量让人赞叹。
根据OpenAI的说法,Sora除了可以根据文字描述生成视频外,还可以根据现有的图片生成视频,目前可生成的视频长度在1分钟左右;而且,视频支持多个角色、特定类型的运动、精确主题和背景细节等复杂场景。
网络上,有极客针对Sora、Pika、Runway和Stable Video四个模型输入了相同的prompt进行比较,结论是,Sora不仅仅在生成时长方面有显著优势,并且难能可贵的是,它对指令的理解能力也更胜一筹。
Meta推出的Emu Video看起来比Gen-2更进一步,能够支持512×512、每秒16帧的“精细化创作”,但无论从对物理世界的理解能力,还是支持单视频任意机位和分辨率的角度来讲,Sora也许是目前现有的竞争产品尚未企及的。
尽管如此,Sora的短板边界依然明显。对于复杂的因果关系,Sora也没法做到尽善尽美。譬如一段人咬饼干的视频,饼干可能不会出现咬痕。再者篮球穿过篮筐时的穿模现象,椅子悬浮移动的画面,这些怪诞的镜头,一一说明Sora虽然是革命性的技术进步,但水平仍不足以封神。
不过要知道,Sora问世的时间距离Gen-2上线仅仅只有8个月,而Pika更短,它的出现又加快了行业革新的脚步,同行更加焦虑了,恍如每天面对的是日新月异的时代,不勒紧裤腰带拼命卷,可能刹那间就会被淘汰。知乎上,一位叫做“像素炼金师”的创业者表露了他在目睹Sora发布后的心声:“我有些害怕科技巨头的产品像隆隆火车一样驶过,而我做的东西如同路边的野草一样,在这个技术进步就像跑马灯一样的时代里,留不下一丝痕迹。”
周鸿祎在自己的口播视频里这样评论道:“有人认为有了AI以后创业公司只需要做个体户就行,实际今天再次证明这种想法是非常可笑的。”
AI发展过快好像整个世界都变得不真实了。出门问问创始人李志飞在朋友圈感叹:“LLM ChatGPT是虚拟思维世界的模拟器,以LLM为基础的视频生成模型Sora是物理世界的模拟器,物理和虚拟世界都被建模和模拟了,到底什么是现实?”
连马斯克在Sora发布后数小时都在X平台感慨:“gg humans”。
Sora的出现无疑又将引发新一轮的追赶。Runway联合创始人兼CEO Cristóbal Valenzuela表示,以前需要花费一年的进展,变成了几个月就能实现,又变成了几天、几小时。
前阿里副总裁、Lepton AI公司创始人贾扬清认为,Sora的问世还可能会给对标OpenAI的公司带来一波被大厂收购的机会,他称这类收购为“害怕错过机会而导致的收购”。同时他表示,Sora这类文生视频大模型的出现将会推动AI基础设施的需求猛增。
的确,为ChatGPT提供GPU的英伟达在公开四季度业绩后,于盘后涨超10%。另一方面,诸多游戏厂商们也正在争取与英伟达、Epic这样强劲的服务商达成独家合作,借助第三方AI工具及产品发力未来。又或者,一些拥有人才积累和技术的厂商也会选择自建AI驱动平台完善工业化流程,以此巩固护城墙。
显然易见,游戏厂商或许都在为了拿到一张AI车票而谋划。故此,面对行业日益高涨的需求,AI的技术革命会不断继续演进吧!
本文为作者独立观点,不代表鸟哥笔记立场,未经允许不得转载。
《鸟哥笔记版权及免责申明》 如对文章、图片、字体等版权有疑问,请点击 反馈举报
Powered by QINGMOB PTE. LTD. © 2010-2022 上海青墨信息科技有限公司 沪ICP备2021034055号-6
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)