微軟研究所推出一款可以利用單一靜態圖片、錄音片段和控制信號來生成具有精準人聲同步、逼真面部表情、自然頭部活動的影片的架構「 VASA-1」。 VASA-1 可以提供高品質的影片,還支持線上生成 512 X 512 的影片,為未來與生動的虛擬角色進行時時互動和交流打下基礎。
微軟研究所推出 VASA-1 架構 – 用單一照片和錄音生成逼真虛擬角色
VASA-1 作為用於生成具有吸引人的視覺情感技能(VAS)的虛擬角色逼真說話臉部的架構,能夠產生精細同步錄音的嘴唇動作,還能捕捉大量的面部細微表情和自然頭部動作,來增強虛擬角色的真實感和生動感。
除了能夠生成出真實感和生動感十足的影片以外,VASA-1 還能擁有生成的可控性,VASA-1 的擴散模型可以將角色凝視方向、頭部距離、不同情緒變化等信號作為條件來設定虛擬角色。
眼睛不同的凝視方向(正面、向左、向右、向上):
頭部距離鏡頭不同的距離:
中性、快樂、憤怒和驚訝等不同情緒變化:
VASA-1 也能夠處理不在訓練中的照片和錄音,藝術、唱歌錄音或者是非英文錄音也都能夠生成。
VASA-1 可以將單一圖片的外觀、3D 頭部姿態和臉部動態分離,讓你可以對生成內容的各個屬性進行單獨控制和編輯。譬如同一個 motion sequences 使用不同的三個照片。
研發 VASA-1 的團隊表示雖然我們意識到這種技術可能被濫用的風險,但我們堅定地相信它能產生更多積極的影響。 VASA-1 有助於增進教育公平,改善溝通障礙人群的生活質量,並為有需要的人提供陪伴和治療支持。這些潛在的好處突顯了我們的研究以及其他相關探索的重要性。也將積極應用本技術於偽造檢測,以遏制任何誤導或欺騙性的行為。雖然當前生成的視頻仍有一些可識別的痕跡,但我們相信通過不懈努力,終能達到與真實視頻無二的水準。我們將繼續以負責任和道德的方式,發揮這一技術的巨大潛力,為人類社會帶來更多積極的影響。對 VASA-1 有興趣的朋友可以點擊!這裡!前往了解更多。