現今 AI 真的能做越來越多事情,就在我們對能夠用文字來生成出音樂、配樂感到興奮時,Google 的最新 AI 技術「V2A」,可以做到針對無聲音的影片,直接生成出適合的配樂,甚至連語音都沒問題。
Google 最新 AI 工具可為無聲音的影片,生成出配樂和語音
近日 Google 在官方部落格中,發表一項全新 V2A 技術(video-to-audio),就如同英文名字,它可以做到為無聲音的影片,生成出適合且匹配的音樂,意味著後續無需調整任何東西,可直接使用。
更值得注意的是,Google 還提到:「V2A 技術可以跟 Veo 等影片生成模型搭配使用,創建出帶有戲劇性配樂、逼真音效或與影片角色和語氣相符的對話的畫面。」
Veo 是 Google 於今年 5 月發表的文字生成影片模型,跟 OpenAI 的 Sora 類似。
也就是說,影片和音樂同步生成是可能的。Google 也有展示數部影片來展示,像是下面這部原本就只是恐怖的影片,透過 V2A 來自動生成出適合且搭配的配樂。
音樂使用的 Prompt:「Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete(電影、驚悚片、恐怖片、音樂、緊張感、氛圍、混凝土地面的腳步聲)」:
Prompt:「Cute baby dinosaur chirps, jungle ambience, egg cracking(可愛的小恐龍鳴叫聲、叢林氛圍聲、蛋殼破裂聲)」
Prompt:「A drummer on a stage at a concert surrounded by flashing lights and a cheering crowd(舞台上正在演奏的鼓手,周圍是閃爍的燈光和歡呼的人群)」
Prompt:「A slow mellow harmonica plays as the sun goes down on the prairie(夕陽西下的草原上,傳來悠揚柔和的口琴聲)」
Google 也有解釋其運作方式,V2A 系統首先會將影像輸入編碼成壓縮表示。接著,擴散模型從隨機噪音中反覆提煉音效。
這個過程是由視覺輸入和自然語言提示引導,生成與提示緊密匹配的同步且逼真的音效。最後,音效輸出被解碼,轉換為音頻波形,並與影像數據結合。
雖然釋出的幾部展示影片感覺都很不賴,但 Google 也承認,目前還沒有到完美,有一些限制在,尤其是語音部分
V2A 試圖根據輸入的台詞生成語音並與角色唇形動作同步。不過,配對的影片生成模型可能沒有依據台詞進行調整。這會導致不匹配,經常產生不自然的唇形同步,因為影片模型沒有生成與台詞匹配的口型動作。
另外音訊輸出品質也取決於影片輸入品質,如果影片中有出現瑕疵或失真,那就會導致音訊品質明顯下降。
Google 並沒有提到未來是否會開放給大家使用,對於有興趣的人。可以隨時關注 Google DeepMind 官方部落格。