AI视频进入有声时代！谷歌发布视频生成音频技术，效果丝滑惊艳网友！

关注+2024-06-20作者：学臣

Runway前脚刚发布Gen-3Alpha，Google后脚就跟了个王炸。

fmt=png&from=appmsg" data-type="png" data-w="885" data-original-="" data-index="3" src="https://pic.chinaz.com/2024/0619/2024061908563731640.jpg" _width="546px" alt="图片" data-fail="0" style="margin: 0px auto; padding: 0px; box-sizing: border-box; outline: 0px; border: 1px solid rgb(238, 238, 238); --tw-shadow: 0 0 #0000; --tw-ring-inset: var(--tw-empty, ); --tw-ring-offset-width: 0px; --tw-ring-offset-color: #fff; --tw-ring-color: rgba(41, 110, 228, 0.5); --tw-ring-offset-shadow: 0 0 #0000; --tw-ring-shadow: 0 0 #0000; max-width: 700px; background: url("../img/bglogo2.svg") center center no-repeat rgb(247, 248, 249); box-shadow: rgba(27, 95, 160, 0.1) 0px 1px 3px; display: inline-block;"/>

北京时间6月18日凌晨，Google Deepmind发布了视频生成音频（Video-to-Audio，V2A）技术的进展，可以为视频创建戏剧性的背景音乐，逼真的音效，甚至是人物之间的对话。

V2A技术支持为AI生成视频“配乐”，Google还特别强调了官网发布的Demo视频都是由自家在五月份发布的生成视频模型“Veo”和V2A技术合作打造。

有不少网友表示，这下终于可以给用Luma生成的meme视频配上声音了!

FMt=png&from=appmsg" data-type="png" data-w="901" height="82px" width="423px" data-original-="" data-index="4" src="https://pic.chinaz.com/2024/0619/2024061908563731641.jpg" _width="423px" alt="图片" data-fail="0" style="margin: 0px auto; padding: 0px; box-sizing: border-box; outline: 0px; border: 1px solid rgb(238, 238, 238); --tw-shadow: 0 0 #0000; --tw-ring-inset: var(--tw-empty, ); --tw-ring-offset-width: 0px; --tw-ring-offset-color: #fff; --tw-ring-color: rgba(41, 110, 228, 0.5); --tw-ring-offset-shadow: 0 0 #0000; --tw-ring-shadow: 0 0 #0000; max-width: 700px; background: url("../img/bglogo2.svg") center center no-repeat rgb(247, 248, 249); box-shadow: rgba(27, 95, 160, 0.1) 0px 1px 3px; display: inline-block;"/>

从Google Deepmind官网发布的Blog上看，V2A技术会采用视频像素和文本提示来生成与底层视频同步的音频波形。

首先，V2A会对视频和文本提示进行编码，并通过扩散模型迭代运行，将随机噪声细化为与视频和所提供的文本提示相匹配的真实音频，最后再对音频进行解码并与视频数据相结合。

X网友纷纷表示太赞了，但就是有一个小小小小的问题，和同样是凌晨发布的Runway的视频生成模型Gen-3Alpha一样，这又是一个大家都用不上的超赞模型，到底啥时候开源让咱们试试水!

先不急，我们先尝尝官方发布的Demo咸淡!

Google认为，AI视频生成模型飞速发展，但市面上的大多数模型，不管是Sora、Luma，还是刚刚发布的Gen-3Alpha，都只能生成无声视频。

而Google所研发的V2A技术能够使AI视频进入“有声时代”，进一步推动AI在视听方面的完善与发展。

从Demo视频来看，其效果真的挺丝滑的，怪不得Google“夸下海口”!

比如这个，画面中一个人从前走到后，可以听到令人不安的背景音乐和嘎吱嘎吱的脚步声。

【提示:电影、惊悚片、恐怖片、音乐、紧张感、氛围、混凝土上的脚步声。Prompt for audio: Cinematic， thriller， horror film， music， tension， ambience， footsteps on concrete】

诸如此类的视频配乐还有小恐龙破壳的声音、打鼓的音乐声、车流声等等。

【提示:可爱的小恐龙鸣叫、丛林氛围、鸡蛋破裂。Prompt for audio: Cute baby dinosaur chirps， jungle ambience， egg cracking】

【提示:音乐会舞台上的鼓手被闪烁的灯光和欢呼的人群包围。Prompt for audio: A drummer on a stage at a concert surrounded by flashing lights and a cheering crowd】

【提示:汽车打滑、汽车发动机节流、天使般的电子音乐。Prompt for audio: cars skidding， car engine throttling， angelic electronic music】

Google还强调，V2A技术之所以能够在卷得要命的AI视频圈“脱颖而出”，是因为该技术可以理解原始像素，因而哪怕不输入文本提示，只要用户提供视频，该技术也可以为其“配乐”。

例如，下面视频中的吉他声和自行车声是在没有任何提示的情况下合成的。

V2A技术也可以生成人物对话，比如下面视频中角色所说的台词，“这只火鸡看起来棒极了，我好饿啊（this turkey looks amazing， I'm so hungry）”。

不过从视频中看，人物唇形与台词并不完全匹配，因为视频模型不会生成与转录文本相匹配的嘴部动作，Google也承认这一部分仍在研究完善当中。

此外，V2A技术还支持为视频输入生成无限数量的音轨，用户可以选择定义“正提示”来引导生成所需的声音，或定义“负提示”来引导远离不需要的声音。

这种灵活性使用户能够更好地控制V2A的音频输出，从而可以快速尝试不同的音频输出，并选择最佳匹配。

下面三个视频是Google放出的Demo，我们猜测Google是想说明用户可以用不同的文本提示来定向地修改配乐中的一些要素，不过好像不太明显

【提示:一艘宇宙飞船在浩瀚的太空中疾驰，星星从它身边飞过，速度很快，科幻感。Prompt for audio: A spaceship hurtles through the vastness of space， stars streaking past it， high speed， Sci-fi】

【提示:空灵的大提琴氛围。Prompt for audio: Ethereal cello atmosphere】

【提示:一艘宇宙飞船在浩瀚的太空中疾驰，星星从它身边飞过，速度很快，科幻效果。Prompt for audio: A spaceship hurtles through the vastness of space， stars streaking past it， high speed， Sci-fi】

虽然该技术还未开源，但从现有的Demo来看，待其开源之时，必将又掀起AI视频圈一阵大风浪。

届时我们估计能看到AI圈“大混战”——Runway的Gen-3Alpha刚生成一个视频，隔壁V2A就给它把音乐配好了;Meme变视频还没玩够呢，用户们已经等不及给它配上声音了。

AI视频圈，到底要“卷”成什么样?!