Veo3逼真脱口秀火爆全网,视频生成的GPT时刻到了吗?
Veo3逼真脱口秀火爆全网,视频生成的GPT时刻到了吗?
Veo3逼真脱口秀火爆全网,视频生成的GPT时刻到了吗?“如果AI生成(shēngchéng)的角色拒绝相信他们是AI生成的,会怎么样?”
近日,海外博主用(bózhǔyòng)谷歌最新视频(shìpín)模型Veo 3生成的(de)(de)一些人物视频火了。在这些视频中,有一群人集体高呼抗议“We're not prompts(我们不是提示词)”,还有一位男士举着手机自拍,背景是美妙的高山峡谷,他指着身后,“你想说我背后的完美创造物,仅仅(jǐnjǐn)是0和1的结果,一串二进制代码,再无其他?这不合理(bùhélǐ)。”
当然台词和剧本是人(rén)创作的,但由AI生成的这些人物(rénwù)和场景都极具(jíjù)真实感,无论是光线在人脸上投下的阴影与高光,还是人物的长相、口型,在阳光下眯起眼睛的神态都极为自然。配合Veo 3新的原生音频生成功能,人们再一次惊呼“真实不存在(cúnzài)了”。
事实是否真的(zhēnde)如此,视频生成的GPT时刻终于来了吗?第一财经记者采访的Veo 3的使用者们并(bìng)不这么认为。AI Talk主理(zhǔlǐ)人、AIGC创作者汗青提到,Veo 3确实是很好的技术,但(dàn)并没有(méiyǒu)网传那么夸张,例如视频生成质量有提升但不惊艳,价格不低,现阶段对实际生产帮助还不大。
AIGC创作领域的(de)KOL@尾鳍(wěiqí)Vicky对第一财经表示,Veo 3的文生效果是很好,但图生效果与国内第一梯队产品(chǎnpǐn)差不多,而在AI创作中,图生视频是更重要的工作流模式,综合价格(jiàgé)看还未达到使用者的预期。
是(shì)时候和好莱坞说再见了?
Veo 3是谷歌在近日的I/O大会上发布(fābù)的一系列更新之一,在当时一众眼花缭乱的产品线更新中,并不特别突出,但目前(mùqián)已经超过了其基座模型(móxíng)、智能眼镜更新,成为讨论度最高的产品。
Veo 3最大的迭代是,新增了原生音频生成功能,即模型在生成视频(shìpín)的同时能生成环境音和人物对话等,走出了此前视频生成的“无声时代”。从谷歌的演示看,无论是城市街道的车流声、公园中的鸟鸣,甚至是角色对话,均可(kě)通过文本(wénběn)提示(tíshì)生成。
在发布新视频模型的(de)同时(tóngshí),谷歌也发布了针对电影制作人的视频创作工具FLOW。汗青认为,Veo 3配合(pèihé)FLOW的剪辑功能,是AI影像新一代工作流的雏形。
Veo 3发布后,汗青第一时间进行了测试,他用大概两个多小时生成了一条一分半钟的(de)短片《前行列车》,包括影像在内,所有的配音、音效、对口型工作均由(yóu)Veo 3完成。记者观察到,无论是画面、长镜头(chángjìngtóu)的镜头运动、人物表情和神态(shéntài)都非常有电影的质感。
汗青认为,Veo 3的优势是真正(zhēnzhèng)原生多模态,原来的工作流是(liúshì)生成图像(túxiàng)、生成动画、生成配音/音效/音乐,最后对口型,但Veo 3的工作流是:文字生成动画,全部搞定。
“Veo 3生成的(de)(de)视频,会根据你的要求自动配上音乐和音效,提示词里如果有(yǒu)台词,甚至连(lián)配音和对口型都做完了。这应该是本次模型最大的亮点之一。在这个新的多模态(mótài)范式里,你不用(bùyòng)再单独去折腾音乐和找配音、对口型了。”汗青表示,这种一次性生成的体验,不是一站式生成,价值不言而喻,如果体验打磨到位,会大大降低创作的门槛,提升效率。
国外也(yě)不乏赞美的声音。海外AI影片制作者@PJ Ace在X上表示,自己(zìjǐ)曾经拍摄过价值50万美元的药品广告(guǎnggào),但现在(xiànzài)不到一天的时间内就用500美元的 Veo 3积分完成了一个一分多钟广告视频,“现在花 50 万美元的理由是(shì)什么(shénme)?(此前)拍这样的广告,从剧本到最终剪辑,我和50个工作人员得花两个多月的时间。”
有网友评论表示,从上面提及的这些数字来看,一部时长3小时的AI制作(zhìzuò)的电影成本约(yuē)为 9 万美元,“是时候和(hé)好莱坞说(shuō)再见了”。 @PJ Ace认为,AI制作相比好莱坞便宜了10到20倍。
这次出圈(chūquān)的脱口秀视频是(shì)海外博主@Hashem Al-Ghaili用Veo 3制作的,他用谷歌的Veo 3做了一个测试,“想象一下(yīxià),如果AI角色意识到他们生活在(zài)模拟环境中会是什么样子”。
谷歌DeepMind首席执行官哈萨比斯(Demis Hassabis)转发了这一视频,并(bìng)表示,Veo 3在(zài)建模直观物理方面的表现令人惊叹,在他看来,这对(duì)世界的计算复杂性有着重要的意义。他透露(tòulù),Veo 3的逼真效果源于其对复杂物理现象的推断(tuīduàn)能力。
在帖子下面,科技圈名人马斯克也(yě)现身称赞,认为(rènwéi)Veo 3“Nice work(干得漂亮)”。
在磐霖资本风险合伙人陈利人(chénlìrén)看来,一个高中生用Veo 3生成的短片就能在TikTok获得(huòdé)百万播放量,画面质量堪比漫威电影预告片,这就像数码相机终结柯达对影像的垄断,GitHub让程序员不必挤进硅谷才能创造(chuàngzào)伟大(wěidà)产品。“当工具将专业创作能力赋予普通人,垄断文化(wénhuà)生产的传统中心将失去存在的必要性。”
I/O大会之前,谷歌组织了(le)一次媒体沟通(gōutōng)会,第一财经记者曾问及谷歌的产品经理David,他们是(shì)如何实现(shíxiàn)Veo视频模型的质量提升的,他回复称,团队通过早期版本的实践,了解了需要改进的方向、适用的架构(jiàgòu)、数据类型,以及如何为模型提供准确、高质量和充足的数据,所有这些经验都融入了迭代过程(guòchéng),这才有了Veo模型的惊喜。
也有业内人士认为,谷歌模型的进展离不开“数据(shùjù)金矿(jīnkuàng)”YouTube,凭借海量的视频资源,谷歌可以轻松训练AI模型,生成效果(xiàoguǒ)自然远超竞争对手。哈萨比斯近日(jìnrì)在播客节目中提到Veo 3表示,在视频模型方面,“我们对数据质量管理非常严格”。
尽管Veo 3的视频生成质量有提升,但长期接触视频生成产品(chǎnpǐn)的AI创作者们并不(bù)觉得这是“GPT时刻”。
汗青认为,从生成效果上看Veo 3有提升但(dàn)并不惊艳,“相比Veo 2,效果低于我的(de)预期。”而在真实度这方面,他(tā)提到,Veo系列本来就是天花板,此前发布的Veo 2真实性已经很强,Veo 3是向前又走了(le)一步。
与此同时,视频生成的(de)瑕疵还有很多,例如,在(zài)火出(huǒchū)圈的视频中,一个“方头小孩”明显生成失误,还有被采访的女孩说话时,嘴型与发音略有偏差。汗青体验发现(fāxiàn),偶尔出现没有音频的现象,一致性很难把控等等。
汗青用Veo 3生成了(le)一个女主和蜘蛛侠一起做播客访谈的视频,可以(kěyǐ)看到其仿真度非常高,但背后LOGO的“AI.TALK”一直没能显示正确(zhèngquè)。
汗青也尝试了在8秒的生成长度中能容纳对话的上限能力,发现在台词较多的时候,会(huì)出现丢台词、对话主体混乱(A说了B的话)之类的问题(wèntí),同时对中文的支持并不好,大部分情况(qíngkuàng)下都会出错。这些都是Veo 3需要不断完善的,远远(yuǎnyuǎn)达不到完美。
汗青肯定了Veo 3音画同出的(de)方式,确实大幅度提升了创作效率,但目前体验下来很多效果远远不够理想,“它(tā)的意义是提出一个很有价值(jiàzhí)的方向,并且比Sora实现得要好得多,但千万别指望现在就(jiù)能用它做大量的商业生产。”
实际上(shíjìshàng),第一财经问及视频生成现阶段的挑战(tiǎozhàn)时,David也表示,这个领域仍处于早期阶段,视频生成的首要挑战是非常(fēicháng)基础的问题——指令遵循。用户提出需求后(hòu),是否能得到预期的结果,这也是谷歌在持续改进的方向。
对于创作者来说,除开这些瑕疵点,Veo 3最大问题是文生工作(gōngzuò)流模式和昂贵的价格(jiàgé)。
@尾鳍(wěiqí)Vicky与多个视频(shìpín)生成平台都有合作,她表示,Veo 3主要是文生效果很好,但从现阶段真实的商业化生产(shēngchǎn)场景来说,文生视频并不是主要生产力。实际上(shíjìshàng)创作者们“干活”用即梦、可灵、PixVerse、Vidu较多。
AI影视(yǐngshì)出现至今,AI创作者(chuàngzuòzhě)们有一个业内基本遵循的工作流范式,即以图像为核心,按图像去生成视频、再去音频融合(配音口型),最后剪辑(jiǎnjí),这是基本流程,而文生(érwénshēng)视频的流程,不确定性更高(gènggāo)。因此当一个新模型不支持图生视频时,则意味着创作者们无法将其用于生产流程。
“即便是Veo 3的出现,我也(yě)不认为AI创作基本流程在短期内会有太大的变化,因为控图比控视频(shìpín)的成本低太多了。”汗青也认为,传统的工作流在效率上存在很大的提升空间,Flow的发布让人们看见(kànjiàn)这种可能性正在形成,不过(bùguò),还有很长的路要走。
Veo 3另一个问题是价格(jiàgé)。目前要使用Veo 3,首先需要谷歌美区账号,同时订阅谷歌最贵的(de)AI ultra套餐,费用高达每月(měiyuè)(yuè)249.99美元(约为人民币1800元),这比OpenAI旗下(qíxià)最贵套餐ChatGPT Pro还贵近50美元。不过,目前首次使用AI ultra的用户(yònghù)在前三个月可以(kěyǐ)享受50%的特别优惠,现价暂时是124.99美元每月(约为人民币900元)。
但如果用于商业流程,AI ultra套餐也并不够用。汗青介绍,目前每个8秒(miǎo)的Veo 3视频需要(xūyào)(xūyào)150积分,ultra的套餐只赠送12500积分/月,超出部分需要加油包(bāo),100个积分1美元,算下来大约1个8秒的镜头就需要1.5美元。
“套餐里这点积分拿来做(zuò)商业项目是肯定不(bù)够的(de),一般都要涉及加油(jiāyóu)包的购买。由于文生视频的不可控性,成片率并不高。”汗青表示,以他做的《前行列车》为例,这条一分半的视频,用了6000-7000积分,花费在70美元左右。
从整体上来看,汗青认为(rènwéi)Flow和Veo 3是有里程碑意义的一次发布,但绝不推荐大部分(dàbùfèn)人目前重度使用它,除非是氪金玩家,或者有明确商业回报的项目。“恼人的瑕疵非常(fēicháng)多,远谈不上完美,也很贵。但意义是让我们看到了(le)新的AI影像工作流的雏形。”
(本文来自(láizì)第一财经)
“如果AI生成(shēngchéng)的角色拒绝相信他们是AI生成的,会怎么样?”
近日,海外博主用(bózhǔyòng)谷歌最新视频(shìpín)模型Veo 3生成的(de)(de)一些人物视频火了。在这些视频中,有一群人集体高呼抗议“We're not prompts(我们不是提示词)”,还有一位男士举着手机自拍,背景是美妙的高山峡谷,他指着身后,“你想说我背后的完美创造物,仅仅(jǐnjǐn)是0和1的结果,一串二进制代码,再无其他?这不合理(bùhélǐ)。”
当然台词和剧本是人(rén)创作的,但由AI生成的这些人物(rénwù)和场景都极具(jíjù)真实感,无论是光线在人脸上投下的阴影与高光,还是人物的长相、口型,在阳光下眯起眼睛的神态都极为自然。配合Veo 3新的原生音频生成功能,人们再一次惊呼“真实不存在(cúnzài)了”。
事实是否真的(zhēnde)如此,视频生成的GPT时刻终于来了吗?第一财经记者采访的Veo 3的使用者们并(bìng)不这么认为。AI Talk主理(zhǔlǐ)人、AIGC创作者汗青提到,Veo 3确实是很好的技术,但(dàn)并没有(méiyǒu)网传那么夸张,例如视频生成质量有提升但不惊艳,价格不低,现阶段对实际生产帮助还不大。
AIGC创作领域的(de)KOL@尾鳍(wěiqí)Vicky对第一财经表示,Veo 3的文生效果是很好,但图生效果与国内第一梯队产品(chǎnpǐn)差不多,而在AI创作中,图生视频是更重要的工作流模式,综合价格(jiàgé)看还未达到使用者的预期。
是(shì)时候和好莱坞说再见了?
Veo 3是谷歌在近日的I/O大会上发布(fābù)的一系列更新之一,在当时一众眼花缭乱的产品线更新中,并不特别突出,但目前(mùqián)已经超过了其基座模型(móxíng)、智能眼镜更新,成为讨论度最高的产品。
Veo 3最大的迭代是,新增了原生音频生成功能,即模型在生成视频(shìpín)的同时能生成环境音和人物对话等,走出了此前视频生成的“无声时代”。从谷歌的演示看,无论是城市街道的车流声、公园中的鸟鸣,甚至是角色对话,均可(kě)通过文本(wénběn)提示(tíshì)生成。
在发布新视频模型的(de)同时(tóngshí),谷歌也发布了针对电影制作人的视频创作工具FLOW。汗青认为,Veo 3配合(pèihé)FLOW的剪辑功能,是AI影像新一代工作流的雏形。
Veo 3发布后,汗青第一时间进行了测试,他用大概两个多小时生成了一条一分半钟的(de)短片《前行列车》,包括影像在内,所有的配音、音效、对口型工作均由(yóu)Veo 3完成。记者观察到,无论是画面、长镜头(chángjìngtóu)的镜头运动、人物表情和神态(shéntài)都非常有电影的质感。
汗青认为,Veo 3的优势是真正(zhēnzhèng)原生多模态,原来的工作流是(liúshì)生成图像(túxiàng)、生成动画、生成配音/音效/音乐,最后对口型,但Veo 3的工作流是:文字生成动画,全部搞定。
“Veo 3生成的(de)(de)视频,会根据你的要求自动配上音乐和音效,提示词里如果有(yǒu)台词,甚至连(lián)配音和对口型都做完了。这应该是本次模型最大的亮点之一。在这个新的多模态(mótài)范式里,你不用(bùyòng)再单独去折腾音乐和找配音、对口型了。”汗青表示,这种一次性生成的体验,不是一站式生成,价值不言而喻,如果体验打磨到位,会大大降低创作的门槛,提升效率。
国外也(yě)不乏赞美的声音。海外AI影片制作者@PJ Ace在X上表示,自己(zìjǐ)曾经拍摄过价值50万美元的药品广告(guǎnggào),但现在(xiànzài)不到一天的时间内就用500美元的 Veo 3积分完成了一个一分多钟广告视频,“现在花 50 万美元的理由是(shì)什么(shénme)?(此前)拍这样的广告,从剧本到最终剪辑,我和50个工作人员得花两个多月的时间。”
有网友评论表示,从上面提及的这些数字来看,一部时长3小时的AI制作(zhìzuò)的电影成本约(yuē)为 9 万美元,“是时候和(hé)好莱坞说(shuō)再见了”。 @PJ Ace认为,AI制作相比好莱坞便宜了10到20倍。
这次出圈(chūquān)的脱口秀视频是(shì)海外博主@Hashem Al-Ghaili用Veo 3制作的,他用谷歌的Veo 3做了一个测试,“想象一下(yīxià),如果AI角色意识到他们生活在(zài)模拟环境中会是什么样子”。
谷歌DeepMind首席执行官哈萨比斯(Demis Hassabis)转发了这一视频,并(bìng)表示,Veo 3在(zài)建模直观物理方面的表现令人惊叹,在他看来,这对(duì)世界的计算复杂性有着重要的意义。他透露(tòulù),Veo 3的逼真效果源于其对复杂物理现象的推断(tuīduàn)能力。
在帖子下面,科技圈名人马斯克也(yě)现身称赞,认为(rènwéi)Veo 3“Nice work(干得漂亮)”。
在磐霖资本风险合伙人陈利人(chénlìrén)看来,一个高中生用Veo 3生成的短片就能在TikTok获得(huòdé)百万播放量,画面质量堪比漫威电影预告片,这就像数码相机终结柯达对影像的垄断,GitHub让程序员不必挤进硅谷才能创造(chuàngzào)伟大(wěidà)产品。“当工具将专业创作能力赋予普通人,垄断文化(wénhuà)生产的传统中心将失去存在的必要性。”
I/O大会之前,谷歌组织了(le)一次媒体沟通(gōutōng)会,第一财经记者曾问及谷歌的产品经理David,他们是(shì)如何实现(shíxiàn)Veo视频模型的质量提升的,他回复称,团队通过早期版本的实践,了解了需要改进的方向、适用的架构(jiàgòu)、数据类型,以及如何为模型提供准确、高质量和充足的数据,所有这些经验都融入了迭代过程(guòchéng),这才有了Veo模型的惊喜。
也有业内人士认为,谷歌模型的进展离不开“数据(shùjù)金矿(jīnkuàng)”YouTube,凭借海量的视频资源,谷歌可以轻松训练AI模型,生成效果(xiàoguǒ)自然远超竞争对手。哈萨比斯近日(jìnrì)在播客节目中提到Veo 3表示,在视频模型方面,“我们对数据质量管理非常严格”。
尽管Veo 3的视频生成质量有提升,但长期接触视频生成产品(chǎnpǐn)的AI创作者们并不(bù)觉得这是“GPT时刻”。
汗青认为,从生成效果上看Veo 3有提升但(dàn)并不惊艳,“相比Veo 2,效果低于我的(de)预期。”而在真实度这方面,他(tā)提到,Veo系列本来就是天花板,此前发布的Veo 2真实性已经很强,Veo 3是向前又走了(le)一步。
与此同时,视频生成的(de)瑕疵还有很多,例如,在(zài)火出(huǒchū)圈的视频中,一个“方头小孩”明显生成失误,还有被采访的女孩说话时,嘴型与发音略有偏差。汗青体验发现(fāxiàn),偶尔出现没有音频的现象,一致性很难把控等等。
汗青用Veo 3生成了(le)一个女主和蜘蛛侠一起做播客访谈的视频,可以(kěyǐ)看到其仿真度非常高,但背后LOGO的“AI.TALK”一直没能显示正确(zhèngquè)。
汗青也尝试了在8秒的生成长度中能容纳对话的上限能力,发现在台词较多的时候,会(huì)出现丢台词、对话主体混乱(A说了B的话)之类的问题(wèntí),同时对中文的支持并不好,大部分情况(qíngkuàng)下都会出错。这些都是Veo 3需要不断完善的,远远(yuǎnyuǎn)达不到完美。
汗青肯定了Veo 3音画同出的(de)方式,确实大幅度提升了创作效率,但目前体验下来很多效果远远不够理想,“它(tā)的意义是提出一个很有价值(jiàzhí)的方向,并且比Sora实现得要好得多,但千万别指望现在就(jiù)能用它做大量的商业生产。”
实际上(shíjìshàng),第一财经问及视频生成现阶段的挑战(tiǎozhàn)时,David也表示,这个领域仍处于早期阶段,视频生成的首要挑战是非常(fēicháng)基础的问题——指令遵循。用户提出需求后(hòu),是否能得到预期的结果,这也是谷歌在持续改进的方向。
对于创作者来说,除开这些瑕疵点,Veo 3最大问题是文生工作(gōngzuò)流模式和昂贵的价格(jiàgé)。
@尾鳍(wěiqí)Vicky与多个视频(shìpín)生成平台都有合作,她表示,Veo 3主要是文生效果很好,但从现阶段真实的商业化生产(shēngchǎn)场景来说,文生视频并不是主要生产力。实际上(shíjìshàng)创作者们“干活”用即梦、可灵、PixVerse、Vidu较多。
AI影视(yǐngshì)出现至今,AI创作者(chuàngzuòzhě)们有一个业内基本遵循的工作流范式,即以图像为核心,按图像去生成视频、再去音频融合(配音口型),最后剪辑(jiǎnjí),这是基本流程,而文生(érwénshēng)视频的流程,不确定性更高(gènggāo)。因此当一个新模型不支持图生视频时,则意味着创作者们无法将其用于生产流程。
“即便是Veo 3的出现,我也(yě)不认为AI创作基本流程在短期内会有太大的变化,因为控图比控视频(shìpín)的成本低太多了。”汗青也认为,传统的工作流在效率上存在很大的提升空间,Flow的发布让人们看见(kànjiàn)这种可能性正在形成,不过(bùguò),还有很长的路要走。
Veo 3另一个问题是价格(jiàgé)。目前要使用Veo 3,首先需要谷歌美区账号,同时订阅谷歌最贵的(de)AI ultra套餐,费用高达每月(měiyuè)(yuè)249.99美元(约为人民币1800元),这比OpenAI旗下(qíxià)最贵套餐ChatGPT Pro还贵近50美元。不过,目前首次使用AI ultra的用户(yònghù)在前三个月可以(kěyǐ)享受50%的特别优惠,现价暂时是124.99美元每月(约为人民币900元)。
但如果用于商业流程,AI ultra套餐也并不够用。汗青介绍,目前每个8秒(miǎo)的Veo 3视频需要(xūyào)(xūyào)150积分,ultra的套餐只赠送12500积分/月,超出部分需要加油包(bāo),100个积分1美元,算下来大约1个8秒的镜头就需要1.5美元。
“套餐里这点积分拿来做(zuò)商业项目是肯定不(bù)够的(de),一般都要涉及加油(jiāyóu)包的购买。由于文生视频的不可控性,成片率并不高。”汗青表示,以他做的《前行列车》为例,这条一分半的视频,用了6000-7000积分,花费在70美元左右。
从整体上来看,汗青认为(rènwéi)Flow和Veo 3是有里程碑意义的一次发布,但绝不推荐大部分(dàbùfèn)人目前重度使用它,除非是氪金玩家,或者有明确商业回报的项目。“恼人的瑕疵非常(fēicháng)多,远谈不上完美,也很贵。但意义是让我们看到了(le)新的AI影像工作流的雏形。”
(本文来自(láizì)第一财经)





相关推荐
评论列表
暂无评论,快抢沙发吧~
你 发表评论:
欢迎