幾天前 Google 推出最新 Gemini AI 模型時,可說轟動科技圈,影片中展示的演示令不少人都覺得狂勝 OpenAI 的 GPT 模型,甚至直說 Gemini AI 是目前最強的 AI 模型,只不過之後有人發現到 Gemini AI 的影片是經過後製編輯的,並不是真實的即時演示,Google 也承認確實有此事。
更尷尬的地方是,最近有國外用戶展示 ChatGPT-4V 不需要靠作弊,就能做到 Gemini AI 影片中的各種演示內容,看來目前 GPT-4 依舊是最強的 AI 模型。
國外用戶用 ChatGPT-4V 輕鬆實現 Gemini AI 作弊影片中的演示(內含影片)
近日一位 Greg Technology 在 YouTube 頻道中分享一部影片,影片中演示一些在 Gemini AI 造假的實驗,ChatGPT-4V 可以輕鬆做到。.
OpenAI 在今年 9 月就推出支援語音和視覺辨識的 ChatGPT 新 GPT-4V 模型,Greg Technology 表示,看到 Gemini AI 影片造假事件後,他覺得 GPT-4 應該可以輕鬆做到同樣效果,不需要透過後製,所以才決定拍攝這部影片。
另外為了避免有人認為這部影片也不是真的,影片是一鏡到底拍攝,沒有經過任何剪輯,他也有分享程式碼在 GitHub 中,另外也能注意右上角的 Mac 時間:
首先,他問 GPT 現在他的姿勢是什麼,第一次 GPT 回答說用手做出類似望遠鏡的形狀,隨後他再問第二次,GPT 就正確回答是愛心形狀:
接著他問 GPT 他在玩什麼遊戲,他的手就做出類似玩剪刀石頭布過程,這問題 GPT 雖然處理比較久,但第一次就正確回答「你在玩剪刀石頭布遊戲」:
再來是蠻經典的畫畫,他問 GPT 他畫什麼東西,GPT 很快就正確辨識出是鴨子或類似鳥的動物在水上:
所以說,Gemini AI 影片能做到的事,ChatGPT-4v 也可以,而且是不用用什麼技巧,ChatGPT-4v 就能辨識正確。另外從 Greg Technology 的影片也能看出目前 ChatGPT-4v 的反應速度,雖然不能說即時,但速度已經相當快了。
Gemini AI 的影片則不一樣,開頭有聲名「已減少延遲時間,並為了簡潔化將 Gemini 的輸出內容縮短」,因此是確定有後製編輯,沒辦法知道 Gemini AI 在進行這些視覺辨識,需要花多久時間才能反應和正確辨識。
https://twitter.com/sundarpichai/status/1732433036929589301
對於不清楚 Gemini AI 影片造假事件的人,可以閱讀 Google 官方的這篇介紹文章,就以剪刀石頭布來說,Google 是先讓 Gemini AI 辨識出布、石頭、剪刀三個動作,然後再問 Gemini AI「我在玩什麼遊戲」。
Greg Technology 影片: