Google 剛宣布將 Bard 更名為 Gemini 沒多久,現在 Google 宣布推出新一代模型「 Gemini 1.5」,Gemini 1.5 提高了性能,利用新的 MoE 架構讓 Gemini 1.5 的訓練和部屬更有效率。 Gemini 1.5 能夠運行高達 100 萬的 token 並積極改善延遲,降低計算需求並增強用戶體驗。一起來看看 Gemini 1.5 有什麼改動吧!
Google 發布新一代語言模型 Gemini 1.5 ,可支援 100 萬 token 上下文理解能力
Google 推出 Gemini 1.0 後一直在測試、完善和增強 Gemini 的能力,也終於在 2 月 15 日宣布推出新一代的 Gemini 1.5 模型。Google 最先推出的 Gemini 1.5 模型為 Gemini 1.5 Pro, Gemini 1.5 Pro 屬於中型的多模態模型,在多方面都有明顯的性能提升,最特別的是 Gemini 1.5 Pro 在處理長上下文訊息理解方面有巨大突破。
Gemini 1.5 Pro 提供標準 12.8 萬 token 的上下文理解能力。部分開發者和企業客戶可以通過 AI Studio 和 Vertex AI 的私人瀏覽中先體驗最多 100 萬 token 的上下文理解能力。100 萬 token可以分析 1 小時的影片、11 小時的錄音、超過 3 萬行的代碼或者超過 70 萬字的文字內容。
高效能架構
Gemini 1.5 採用新的 Mixture of Experts (MoE) 架構,讓模型更高效的進行訓練和服務,同時還能在維持類似 1.0 Ultra 模型品質的同時減少計算需求。
對大量資訊進行複雜推理
Gemini 1.5 Pro 無縫分析、分類並概述所給提示的大量內容。譬如你給 Gemini 1.5 Pro 阿波羅 11 號登月任務總共 402 頁的紀錄,它可以根據你給的文字或圖片問題在短時間內從 402 頁的內容中找的對話、事件和詳細信息。
更好地理解和跨模態推理
Gemini 1.5 Pro 能夠對不同模態進行高度複雜的理解和推理任務,像是影片。你給 Gemini 1.5 Pro 一部 44 分鐘無聲的電影,它可以準確地分析各個情節點和事件,甚至會推理出一些你看電影的時候忽略的細節。
與較長程式碼相關的問題解決能力
Gemini 1.5 Pro 能夠在較長的程式碼中執行更多相關的問題解決能力。譬如你給它超過 10 萬行的代碼,它能更好地透過範例進行推理,提出有用的修改建議,並解釋程式碼不同部分的運作方式。
增強的性能
在文字、代碼、圖像、錄音和影片評估的棕褐面板上測試時,Gemini 1.5 Pro 在用於開發大型語言模型的 87 % 基準測試中的表現都優於 Gemini 1.0 Pro 且與 1.0 Ultra 在同樣的基準測試中表現大致相同。Gemini 1.5 Pro 的上下文學習技能讓它可以通過長提示中給出的信息中學習新技能。Google 使用 Machine Translation from One Book (MTOB) 從一本文法書中學習翻譯語言的方式來測試 Gemini 1.5 Pro 。給了 Gemini 1.5 Pro 一本 Kalamang 語法手冊,這個語言全世界只有 200 名不到的使用者。 Gemini 1.5 Pro 可以以人們從相同內容中學習的相似水平將英語翻譯成 Kalamang 語。
目前 Google 通過 AI Studio 和 Vertex AI 向開發者和企業客戶提供 Gemini 1.5 Pro 的有限預覽,對測試 Gemini 1.5 Pro 的開發者可以在 AI Studio 註冊,企業客戶可以聯繫他們的 Vertex AI 賬戶團隊。早期測試者可以在測試期間免費嘗試 100 萬 token 的上下文理解能力,未來等 Gemini 1.5 Pro 準備好之後,Google 會將標準 12.8 萬 token 的上下文理解能力引入 Gemini 1.5 Pro ,再隨著跟進將標準 12.8 萬 token 擴展到 100萬 token 的規模。