6月17日,DeepMind宣布正在研发一项名为V2A(Video-to-Audio)的新技术,旨在解决视频生成中音效同步的难题,为视频内容创作带来革命性的变化。
DeepMind官方博客:
原文地址:Generating audio for video - Google DeepMind
Video-to-Audio研究使用视频像素和文本提示生成丰富的音轨
视频生成模型正以令人难以置信的速度发展,但目前的许多系统只能生成无声输出。让生成的电影栩栩如生的下一个主要步骤是为这些无声视频创作配乐。
今天,我们将分享视频到音频(V2A)技术的进展,该技术使同步视听生成成为可能。V2A将视频像素与自然语言文本提示相结合,为屏幕上的动作生成丰富的声景。
我们的V2A技术可与Veo等视频生成模型配对,以创建具有戏剧性配乐、逼真音效或对话的镜头,这些镜头与视频的角色和色调相匹配。
它还可以为一系列传统镜头生成配乐,包括档案材料、无声电影等,从而打开更广泛的创作机会。
增强的创造性控制
重要的是,V2A可以为任何视频输入生成无限数量的音轨。作为选择,可以定义“积极提示”来引导生成的输出指向所需的声音,也可以定义“消极提示”来指导输出远离不需要的声音。
这种灵活性让用户能够更好地控制V2A的音频输出,从而可以快速试验不同的音频输出并选择最佳匹配。
工作机制
我们用自回归和扩散方法进行了实验,以发现最具可扩展性的人工智能架构,而基于扩散的音频生成方法为同步视频和音频信息提供了最真实、最令人信服的结果。
我们的V2A系统首先将视频输入编码为压缩表示。然后,扩散模型从随机噪声中迭代地细化音频。这一过程由视觉输入和自然语言提示引导,以生成与提示紧密一致的同步、逼真的音频。最后,对音频输出进行解码,将其转换为音频波形并与视频数据组合。
V2A是视频创作领域的重要突破
V2A技术,作为DeepMind在媒体创作领域的重要突破,被视为人工智能生成媒体拼图中的关键一环。传统的视频生成模型虽能生成逼真的画面,但音效的添加往往依赖于后期编辑,这大大限制了创意的发挥和效率的提升。V2A技术的出现,将彻底改变这一现状,使视频与音频的同步生成成为可能。
DeepMind是谷歌旗下的前沿人工智能企业,一直致力于将机器学习和系统神经科学的最先进技术结合起来,建立强大的通用学习算法。从AlphaGo击败围棋世界冠军,到AlphaFold破解蛋白质结构,DeepMind在人工智能领域取得了举世瞩目的成就。如今,随着V2A技术的推出,DeepMind再次展现了其在技术创新和应用方面的领先实力。