目前網路上有非常多 LLM 大語言模型,就 AI 聊天機器人來說,訓練數據越多,基本上就越厲害,但如果應用在格鬥遊戲就不是這樣,最近國外有人將 LLM 與《快打旋風》遊戲結合,測試 14 個大語言模型,最終獲勝的反而都是小模型。
國外將 LLM 結合《快打旋風》遊戲,比較 14 個大語言模型看誰最強
這個開源專案叫做 LLM Colosseum,由 Stan Girard 和 Quivr Brain 開發,根據介紹,這款遊戲是在模擬器中運行,允許 LLM 操作遊戲中的角色並進行對決(角色僅限使用 Ken),每個人都能下載安裝這個專案自行測試。
Amazon 員工 Banjo Obayomi 幾天前分享一篇他使用這專案來測試 14 個 LLMs 的結果,內容也有詳細說明 LLM 是怎麼控制《快打旋風》遊戲中的角色。LLM 會不斷讀取遊戲的當前狀態,如:角色位置、生命值和分數,這些數據會被翻譯成一個提示,如:可採取的動作和建議的策略,以便於 LLM 的理解和使用:
LLM 接收到這個提示後,會分析當前遊戲狀態並決定接下來的行動,轉化為遊戲指令,並在模擬器裡實施,像是靠近、後退、波動拳、升龍拳,詳細可以參考下方影片:
從國外知名 YouTube 頻道 Matthew Berman 分享的影片,可以看到一個比較完整的對決,左邊是 MISTRAL SMALL 模型,右邊是 MISTRAL MEDIUM 模型,兩個模型打起來還蠻順的,不過有個細節可以注意,這些二個模型似乎都沒有所謂的防守動作,就只是移動、攻擊這樣。如果是跟人類對打,沒意外人類很容易就贏了:
https://www.youtube.com/watch?v=CGV0MlnOd30
無論如何,這是一場 LLM 之間的戰鬥,最終是 MISTRAL SMALL 獲勝,小模型比大模型還強。由此可見,不同於 AI 聊天,格鬥遊戲最看重的是速度和反應,LLM 小模型通常具有較低的延遲和速度。
Matthew Berman 影片後半段還有安裝 LLM Colosseum 專案的教學步驟,想要自己玩玩看的人推薦看一下。
而 Banjo Obayomi 測試的 14 個大語言模型,最終獲勝的是 claude_3_haiku,總共進行 314 場比賽。他也發現到小模型延遲較低,每場比賽的反應時間都更快、動作也更多,因此 Anthropic 的 Claude 拿下前面位置也不意外:
不過 LLM 雖然很聰明,但也不是沒有缺點,有時候還是會出現一些特殊狀況,像是「幻覺」、「拒絕遊玩」。另外每個 LLM 也有獨自的遊戲風格,有些喜歡激進的攻擊,有些則是採取更具防禦性的反擊,甚至還有不斷重複發送相同動作的垃圾攻擊: