APP推广合作
联系“鸟哥笔记小乔”
AI视频何时才能跑出一个“Midjourney ”?
2024-01-08 16:47:24

来源|光锥智能

前沿科技,数智经济

AI视频一跃成为“明日之星”,大厂和创业公司们打得热火朝天。

去年12月,Pika的出现仿佛点燃了AI视频赛道的引线,一个月之内冒出了近十家公司,谷歌、阿里、字节、腾讯竞相下场,不断将战事推向了高潮。

“AI视频的Midjourney V5时刻就要到了”,即将迎来成为生产力的关键时刻。

2022年~2023年,文生图的技术以肉眼可见的速度迭代进化。Midjourney平均3个月一个版本,一路从V1狂奔到了V6,实现了从“面目全非”到“细腻逼真”的里程碑式的巨变。文生图技术以月为单位的进化速度,像一把节奏紧凑的小锤,不停提醒所有AI视频的公司们,留给他们成长的时间,不多了。

AI视频何时才能跑出一个“Midjourney ”?

(图:网友制作的V1-V6的生成效果对比图,来源X)

如今AI视频的发展轨迹也正在慢慢向文生图靠拢,“Midjourney V5”成为了一个关键性的临界点:一旦突破,用户将大规模涌入,数据飞轮开始转动,效果日新月异,一步步推动着文生视频从“玩具”蜕变为“生产力”。

从文字到图片、视频的发展一脉相承,从文生图的进化历程中,也可以找寻到AI视频的影子。

当AI视频成为生产力后,才是产业链齿轮开始转动的开端。只有能用起来,才能诞生目标用户群体;只有能留存住用户,产生持续性的付费,才能构建起清晰的商业模式;也只有跑通了商业模式,池子里的企业才能存活下来,用消费端推动供给端,才能盘活整个AI视频产业。

“AI视频行业的生产力”——这恰恰才是现在各路玩家争夺的价值所在。

梦工厂创始人Jeffrey Katzenberg在近期预测,“生成式AI将使动画电影的成本,在未来3年内降低90%,该技术将给媒体和娱乐行业带来彻底的颠覆”。

“未来可能实现以每秒30帧的高分辨率实时生成内容,并且到2030年,可能会实现整个视频游戏的生成 ”,Midjourney首席执行官DaVid Holz判断道。

V5赛点已至,新一轮的排位赛正式打响,何时才能诞生下一个Midjourney?

AI视频迎来“生产力”时刻

实际上,AI视频几乎与文生图同一时期进入到人们视野中。

2023年初,Midjourney带火了文生图,Runway则激起了“人人制作电影大片”的无限遐想。

彼时,看到文生图领域在效果上大放异彩的Runway创始人曾表示:“希望 Gen-1 能像 Stable Diffusion 在图像上所做的那样为视频服务。我们已经看到了图像生成模型的爆发,我相信2023年将会是视频之年。”

但显然这个论断下得有点过早。2月,RunwayAI视频编辑Gen-1发布,功能类似于AI版的PS,可通过文字输入进行视频的风格转化和修改;3月,发布文生视频模型Gen-2,支持文生视频、文本+图像生成视频。

宣传视频很酷炫,但具体使用效果却差强人意,出现了时长短、生成画面不稳定、指令理解出错、没有音频、动作不连贯和不合理等等种种问题。

Runway打响AI视频第一枪后,虽未停下脚步,但却在视频编辑工具的道路越走越远,运动笔刷、文字转语音、视频合成等功能,只能算“锦上添花”。Gen-2迟迟没有根本性的突破,也让AI视频沉寂了一段时间。

就在大家快要失去对AI视频耐心的时候,去年12月,Pika、Genmo、Moonvalley、NeverEnds、谷歌VideoPoet、阿里Animate Anyone、字节Magic Animate,踏着希望之光来了。

在Pika的官方宣传片中,仅需一句话,就生成了动画版的马斯克,不但神形兼备,而且背景和动作都非常合理连贯,面部一致性也惊人得完美。

AI视频何时才能跑出一个“Midjourney ”?

(图:Pika 1.0宣传视频动图,源自X)

在其官方展示的第一个视频中,生成效果几乎可以达到迪士尼等动画电影公司的质感。

AI视频何时才能跑出一个“Midjourney ”?

(图:Pika 1.0宣传视频动图,源自X)

据使用过Pika 1.0产品的用户反映,Pika 1.0 支持3种方式生成视频:文生视频、图生视频、视频转视频。3D和2D效果确实上了一个全新的台阶,逼真度、稳定性、光影效果都可以吊打Gen-2。

“Pika 1.0和Gen-2仿佛不是一个时代的产品”,不少网友都在使用后给出了这样的评价。

Pika们的爆火,要归根于背后基建技术的成熟。其中最重要的就是AnimateDiff。这是一种基于Stable Diffusion文生图模型所搭建起来的动画框架,可让生成的图片直接动起来,字节、腾讯、阿里便是在这个框架的基础上推出了自己的AI视频模型。

当然,除了AnimateDiff的广泛应用,也与大模型多模态的发展,息息相关。

Pika们的出现开启了AI视频的新篇章,AI视频即将迎来“Midjourney V5”时刻。

这里面有两层重要的变化,首先体现在生成层面。

V5阶段,可达到更好的生成效果,在几秒的生成时间内能够达到动作、表情、叙事逻辑的连贯性;更有效的控制方式,对输入指令的理解、遵从,镜头、转场 、风格转化的控制都有了新的提升;更低的资源消耗,能够以更短的时间、更少的算力调用,生成更高分辨率和优质的视频,几秒的视频也可以达到几十秒的效果。

更重要的体现在生产力的突破上。

以Midjourney为例,在V5阶段,成为了UI设计师的设计工具,游戏原画师的助手,跨境电商的商品展示、广告营销的素材库。同样在这个阶段,AI视频也将有可能生成广告、短视频、电影、游戏,成为可以替代编导、导演、演员、设计师的生产力工具。

大模型、扩散模型

两条技术路径的殊途同归

AI视频就像一部电影大片,卖不卖座、叫不叫好,取决于剧本和特效两个重要元素。其中,剧本对应着AI视频生成过程中的“逻辑”,特效则对应着“效果”。

为了实现“逻辑”和“效果”,在AI视频行业中,分化出了两条技术路径扩散模型和大模型。

AI视频何时才能跑出一个“Midjourney ”?

(图:光锥智能自制)

AIGC火了以后,扩散模型长期占据了图像生成领域的主导位置,这背后要归功于Stability AI的不断开源,一方面让更多的开发者加入到了精进模型的队伍中,另一方面也一手将扩散模型捧到了文生图领域的“王位”上。

如今,AI视频自然也被深深地打上了扩散模型的烙印。大厂和初创公司或多或少都在采访和论文中提到过扩散模型的思路,Pika一批新崛起的公司取扩散模型之长,打造自身的新模型;英伟达、阿里、字节、腾讯等公司在其基础之上,进一步提升模型能力。

在大模型技术路线上,经历过一次改变。大模型面世的初期,AI视频的主要思路是用训练大模型的那套方法,靠大参数、大数据来从头构建一个文生视频的模型,比如2022年就问世的CogVideo就是这类代表。

但随着大模型从单一文本迈向多模态,视频就像之前文字、图像生成一样,成为了从大模型根上长出来的一项功能。从很早的时候,谷歌、微软就在尝试用大模型中Transformer的方法训练和增强现有的扩散模型,但直到谷歌发布多模态大模型Gemini和VideoPoet视频大模型后,大模型生视频这条路才终于看到了曙光。

AI视频何时才能跑出一个“Midjourney ”?

(谷歌VideoPoet视频生成效果演示)

两条技术路径无好坏,但侧重点不同,扩散模型的核心在于“还原呈现”,重效果;而大模型核心在于“接收理解”,重逻辑。

正是基于这样的特性,导致了走扩散模型路线的AI视频公司在细节刻画和生成效果上优势更强,走多模态大模型路线的公司在连贯性和生成合理性上更好。

Pika联合创始人兼CTO Chenlin Meng认为,可以同时发挥两条路径的优势来构建视频模型,比如GPT一类的大模型可以捕捉上下文,视频中也需要上下文控制生成每一帧从而达到系统的一致性;同时每一帧仍然是一张图片,可以用扩散模型来提高生成效果。

Pika的观点不是个例,行业中越来越呈现出这样的趋势。原因在于,虽然现阶段,Pika、Runway每一次升级都在效果宣传上搏足了眼球,但要落地到广告、电影、营销等实际场景中,还有很大的距离。

英伟达高级研究科学家兼人工智能代理负责人,Jim Fan认为,目前所生成的视频只能被称作“无意识的、局部的像素移动”,缺乏可以一以贯之的时间、空间、行为逻辑来控制生成过程。

有一个例子可以很好地理解当前AI视频发展现状。在X上,一个名叫Ben Nash的网友,做了一个测试,用同样的英文提示词“威尔·史密斯吃意大利面”来测试Runway、Pika的视频生成效果。结果发现,在两个视频中,虽然大致可以呈现出想要呈现的效果,但却出现了“意大利面倒流”、“面被直接吸入嘴里”的滑稽场面。

AI视频何时才能跑出一个“Midjourney ”?

Runway生成效果

AI视频何时才能跑出一个“Midjourney ”?

Pika生成效果

Jim Fan表示:“到2024年我们将看到具有高分辨率和长时间连贯性的视频生成。但这将需要更多的‘思考’,即系统2的推理和长期规划(对应System 1负责无意识的感觉运动控制)”。

近期Runway也在官网宣布了一项新的长期研究项目“通用世界模型”(General Wold Models),其解释原因称:“我们相信人工智能的下一个重大进步将来自于理解视觉世界及其动态的系统。”

逻辑、思考、推理,或许将成为,2024年AI视频的关键词,两条技术路线的融合也将成为常态。

生产力“解救”商业化

而一旦成为生产力,眼前AI视频面临的商业化困境,便迎刃而解。

生产力工具有两个方向,向上走的专业化路线,和向下包容的大众路线。但现阶段,AI视频行业多数还是以视频剪辑工具的形态向用户开放使用。

“工具即产品”在文生图和AI视频赛道十分普遍,大部分公司选择方法就是,最开始先在Discord上小范围开放测试,到正式开放使用,再到上线网站。

“工具”意味着专业性高、门槛高、操作复杂、上手困难,这就与易上手、操作便捷、体验性高的“产品”拉开了差距。

举一个很典型的例子,你需要花费时间、金钱成本在PR软件上了解每个工具的功能是什么以及怎么使用这些工具,以达到比较好的视频制作效果;但你打开抖音发布视频只需三步,点击加号-拍摄视频-发布,下至幼儿园的孩子,上至60多岁的中老年人,都能覆盖,这就是工具与产品最明显的差异。

生产力未突破的前夜,工具即产品或许还将存在一段时间,但下一步摆在AI视频公司面前的问题很明确:是要坚持走专业工具路线,还是要把门槛打下来,做下一个AI视频版的“抖音”?

在这个问题上,Pika已经率先做出了选择,其创始人郭文景在采访时表示:“我们开发的并不是电影制作工具,而是为日常消费者打造的产品——我们虽然有创造力,但并不是专业人士。”

落实到商业化上,郭文景称Pika最终可能会推出分层订阅模式,让普通的付费用户也能享用更多的功能,计划通过这种方式,让Pika与其他竞品分出区别。

生产力能力欠缺的AI视频工具也无法长期留住用户,不断地产生付费,从而形成健康的商业模式。现在的现状是,用户出于猎奇,或免费尝鲜,或抱着试一试的心态订阅一个月,到期过后,该视频工具就被抛之脑后。

这对创业公司的打击是巨大的,没有持续性的收入,不能自造血,就得依赖融资,哪天融资断了,公司也就维持不下去了。放眼到整个AI视频行业来看,如果作为身在其中的个体都生存不下去,又谈何行业未来前景。

如果一个行业只有单一的工具,没有更多的落地场景,也无法形成完整的生态闭环。就像现在,用户在AI视频工具上浅浅地停留一下,然后把大把的流量引向了社交平台。

AI视频何时才能跑出一个“Midjourney ”?

(图:源自X)

比如,马斯克跳舞、蒙娜丽莎跑步等大量搞怪视频,一度席卷了TikTok;使用Runway、Pika等视频工具生成的视频,通过用户在X、TikTok、油管的分享一炮走红,获得了巨大的流量,有人甚至已经靠这种方式完成了流量变现,而作为工具的提供方,却只能沦为社交平台的“嫁衣”。

打通工具和场景的壁垒,作为参考案例,国内抖音已经开始在尝试。

剪映的相关AI功能一上线就和抖音实现了联动,并引发了一波抖音扩图大赏,“让你意想不到的AI扩图”一话题挑战,达到了2亿多的播放量,甄嬛打篮球、星黛露秒变星黛驴、皮草美女化身狼人,AI是惊喜还是惊吓,引发了大量的讨论。

一旦成为了生产力,整个产业链条的消费端将开始出现购买力,消费端的需求推着供给端进化,至此,AI视频才算彻底“活了”。

光锥智能
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
光锥智能
光锥智能
发表文章122
前沿科技,数字经济。公众号:光锥智能(guangzhui-tech)
确认要消耗 羽毛购买
AI视频何时才能跑出一个“Midjourney ”?吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接