OpenAI 於今日公開他們最新 AI 模型「Sora」,Sora 可以透過文字生成長達一分鐘的影片,同時還能保持視覺品質並依照使用者輸入的文字製作出符合指令的影片。OpenAI 現在正嘗試教導 AI 理解並模擬物理世界的運動,目標是將 Sora 訓練成能幫助人們解決需要與真實世界互動的問題的模型。
https://TWITTER.com/gdb/status/1758193811489243408?s=20
影片創作者惡夢來了!OpenAI 公開最新文字生成影片模型「Sora」
OpenAI 於今日也就是 16 日公開了它們能夠文字生成影片的 AI 模型「 Sora」 , Sora 能夠一次生成包含多個角色、特定類型動作、主體與背景精確細節的複雜場景。 Sora 不只可以理解使用者在咒語 prompt 裡所提到的要求,還能夠理解這些要求是如何在現實生活中運行或存在的。因此 Sora 生成出來的影片會比現在市面上的文字生成影片的效果還要好。
OpenAI 目前只提供某些視覺藝術家、設計師和電影製作人能有權限使用 Sora ,所以今天不能親自體驗,只能使用官網提供的 prompt 和範例來介紹。「The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.」咒語裡面提到鏡頭跟著一輛車頂裝有黑色行李架的白色復古 SUV ,車輛沿著陡峭的土路加速前進、路上有松樹等細節,使用 Sora 生成的影片都有做到。
「A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.」有養貓的人應該都知道貓咪想要吃東西而你還在睡覺的時候,貓咪就會來試圖吵醒你的美夢。Sora 能夠理解這一點並且在生成影片的時候記住這些現實世界會有的細節。不過如果認真看圖片的話還是會看到貓咪將手放在主人臉上的時候,手的動作不自然。
Sora 對語言有深入的理解,讓它能夠準確地解釋 prompt 並生成可以表達豐富情感角色。Sora 還可以在單一生成的影片中創建多個鏡頭,精確地保持角色和視覺風格。譬如你只要輸入短短一句「The story of a robot’s life in a cyberpunk setting.」的咒語,Sora 就可以自己生成一段有關機器人的故事,在賽博龐克的世界裡有沒事情就飛在空中的飛機,機器人也很自然地跟人類一起工作。而且沒有寫下任何有關鏡頭的咒語,Sora 也會依造自己的想法切換鏡頭或者呈現不同的畫面。
不過目前的 Sora 也有弱點,在準確模擬複雜場景的物理現象上會遭遇困難還有可能會無法理解特定的因果關係。官網有提示 ” 動物或人可能會突然出現,尤其是在有許多實體的場景下。 “所以在看到「Five gray wolf pups frolicking and chasing each other around a remote gravel road, surrounded by grass. The pups run and leap, chasing each other, and nipping at each other, playing.」五隻狼寶寶在一條偏遠的碎石路上嬉戲追逐。小狼們奔跑、跳躍、互相追逐、啄咬和玩耍。這個咒語的時候,五隻狼寶寶並不是同時出現而是突然會從別的狼寶寶的身後跑出來。
除了動物或人可能會突然出現的問題以外,Sora 目前在某些動作生成的影片中會發生錯誤。譬如輸入「Basketball through hoop then explodes」確實籃球穿過籃框後爆炸了,但是爆炸完之後籃球又出現了一次。這屬於不準確的物理建模和不自然的物體變形的例子。
目前來說 Sora 作為少數的文字生成影片的工具或模型來說,表現相當出色,不過還是會發生一些 AI 生成影片會遇到的問題,譬如不自然的動作或者突然出現的人或動物。不過現在 Sora 還尚未開放給一般民眾使用,只有某些視覺藝術家、設計師和電影製作人可以先體驗,相信等到 OpenAI 覺得 Sora 技術成熟的時候,上面提到的問題也會減少很多。不知道 OpenAI 什麼時候會開放一般民眾使用 Sora 呢!非常期待呢。