隨著科技進步,現在使用 AI 來進行文字生成圖片、文字生成影片的例子越來越多,不過大家有看過文字生成動作的案例嗎?日本東京大學和 Alternative Machine 合作研究使用 GPT-4 讓人形機器人 Alter3 能夠通過簡單的文字提示來生成動作,Alter3 通過 GPT-4 能夠將詞語與短語和實際運動相對應。通過程序代碼將人類行為的語言表達映射到機器人的身體上,不管是要讓機器人表達情境還是動作,人形機器人 Alter3 都能夠實現。
東京大學使用 GPT-4 讓人形機器人靠文字指令進行動作
東京大學開發出一款能夠利用 LLMs 大型語言模型產生自發運動的人形機器人 Alter3,東京大學將 GPT-4 整合到 Alter3 內,讓大型語言模型能夠與 Alter3 的身體動作結合,只需要輸入指令 Alter3 就能用機器人的身體表達出人類的行為。
這也讓 Alter3 可以做到譬如自拍、喝茶、假裝鬼魂、假裝蛇的動作:
你也可以讓 Alter3 使用動作或微表情來表達出一種場景,譬如「在電影院裡吃爆米花,突然意識到我實際上是在吃我旁邊人的爆米花」時的反應:
或者是給他一個很抽象的場景請他表現出來,例如「在公園裡慢跑時,世界似乎在講述一個古老的生存故事,每一個腳步都回響著億萬年的存在」。這麼抽象的表達還以為是在讓 Alter3 上表演課:
整合了 GPT-4 的人形機器人 Alter3 可以生成日常動作,模仿非人類運動或者表達抽象的動作,甚至 Alter3 可以根據人類的語言反饋來重寫代碼,Alter3 會將修改後的運動代碼作為運動技藝儲存在數據庫裡,以確保自己下次做這個動作的時候是使用改進過、訓練過的動作。
感覺未來 Alter3 可以運用在說故事上面,豐富的肢體動作和臉部微表情都會讓能更能夠帶入到故事中。對東京大學開發的能夠利用 LLMs 大型語言模型產生自發運動的人形機器人 Alter3,感興趣的朋友可以前往東京大學提供的 Githib 網站了解更多: