OpenAI 發表 Sora 文字生成影片時,就已經讓不少 YouTuber 覺得自己的工作快被取代,稍早 Google Researcher 揭露的全新 VLOGGER AI 技術,一定會感受更深刻,不需要文字,只需上傳一張自己的圖片,這項 AI 技術就能轉變成會說話的影片,意味著未來不需要真的露臉拍片,靠它就能輕鬆製作出 VLOGGER 影片。
人人都能當影片創作者!Google Researcher 揭露全新 VLOGGER AI 技術,給一張圖片就能生成影片 + 人說話
近日 Google Researcher 在網站中揭露他們最新開發出的 VLOGGER AI 技術,根據說明,這是一個基於單張人物圖片,搭配上文字和聲音就能生成人類說話的影片,其原理主要有二大核心,首先是「能夠把人物動作轉化成 3D 隨機擴散模型 」、其次是「創新的擴散架構,為文字到圖片轉化提供時間和空間上的控制」。
透過這二個核心,VLOGGER AI 就能建立出高品質且長短不一的影片,而且能夠對人臉和身體進行高層次描述,進而做到細節控制,讓人說話起來更加自然。
https://twitter.com/EyeingAI/status/1769730077476917694
從說明來看,聲音部分似乎也能自己匯入,代表說應該可以使用克隆自己的 AI 聲音,這對創作影片來說就非常實用,而且講話的嘴形也會符合當前語言,如:如果你是拍攝西班牙語,那影片中的嘴形就會變成講西班牙話,真的厲害。未來搞不好就算你不懂外語,也能輕鬆製作出多國語言的影片。
當然,目前也不是零缺點,即使轉成影片後的人像有表情,但看起來是沒那麼自然,特別是眼睛處最明顯,有時候會出現不自然的眨眼。
這項技術跟 OpenAI 的 Sora 有很大不同,Sora 是文字生成影片,無法針對單一圖片轉變成影片,而且也沒有聲音,不過如果將這兩項技術所生成的影片結合起來,那就會變得相當強大。
Google Researcher 也提到,為此他們建立一個新的、更多元的數據集 MENTOR,其規模是先前數據集大一個量級,包含 2,200 小時、800,000 個不同人物、以及一個 120 小時和 4,000 個人物的測試集。
話說回來,隨著 AI 生成影片越來越強大,之後假新聞、假消息事件一定會變更多,尤其是這種上傳人像圖片就能轉成會說話的影片,因此未來該如何盡量避免這類情形發生,可說是每一間 AI 公司都需要思考的重點。
而對於創作者來說,也需要多多接觸這類 AI 工具,才不會被這波 AI 創作給吞噬,甚至可以提升自己的創作效率。想更深入了解 VLOGGER AI 技術的讀者,可以點我閱讀相關文件。
VLOGGER AI 還能做到編輯影片,控制影片中講者的眼睛和嘴巴: