AI 進步速度真的快得嚇人,繼 7 月底時 Meta 推出 Llama 3.1 之後,才過 2 個月時間,Meta 又再度推新開源模型「Llama 3.2」,而且這次厲害地方在:支援多模態,意味著現在 Llama 3.2 可以讀圖像資訊了。
不僅如此,Llama 3.2 還有推出適合在筆電、手機本地運行的 3B 和 1B 版本,現在已經可以下載試用。
支援多模態的 Meta Llama 3.2 開源模型登場,共有四種版本
這次 Meta Llama 3.2 開源模型共有四種版本
- Llama 3.2 90B Vision:目前 Meta 最先進的模型,與 11B 模型類似,但支援更進階的圖像推理應用,可以處理更大範圍和更複雜的圖表、地圖等視覺資料,以及提供更準確和詳細的圖像描述和推理結果。
- Llama 3.2 11B Vision:支援圖像推理應用,包括文件級理解(如圖表和圖形),能做到用自然語言描述圖像中的物體、快速回答圖表中企業最佳銷售月份資料、以及透過地圖推理出,走路路線的坡度變化,或特定路徑距離等問題
- Llama 3.2 3B:與 1B 模型相似,具備更強大的多語言文字生成和工具調用能力,支援更複雜的應用場景和多樣化的任務需求,適合在筆電中運行。
- Llama 3.2 1B:輕量級模型,擁有高效的多語言文字生成能力,能摘要最近的消息、提取行動項目等,適合在行動裝置上運行。
Meta 也有提供一些範例,像是視覺模型,上傳圖後,就會透過文字描述出這張圖,接著可以針對文字提示,找出符合的圖像內容:
在手機上運行 Llama 3.2,可以當成作為文字編輯助手、總結 Demo、或是重寫內容,Meta 還說為了讓移動裝置能更相容運行模型,進行更多創新,他們有跟高通、聯發科、ARM 合作,未來會分享更多相關資訊:
Llama 3.2 跟其他競爭模型比較
而跟其他模型效能比較部分,Meta 也有分享一些實測數據,首先是 11B 和 90B 版本,比對對象是 Claude 3 – Haiku 和 GPT-4o-mini。
- 圖像測試的 MMMU 中,11B 以 50.7 贏過 Claude 3 – Haiku 的 50.2;90B 則以 60.3 贏過 GPT-4o-mini 的 59.4
- MMU-Pro, Stadard 和 MathVista 也是 Llama 3.2 獲勝,不過 Vision 模式 90B 的 33.8 稍微落後 GPT-4o-mini
- 文字測試的 MMLU 中,90B 贏過 GPT-4o-mini,11B 則小輸 Claude 3 – Haiku。
- MATH 測試 11B 贏 Claude 3 – Haiku 不少。
- GPQA 和 MGSM 表現都差不多。
Llama 3.2 的 1B 和 3B 比對對象是 Gemma 2 2B IT 和 Phi-3.5-mini IT,所有測試中,長內容部分 Llama 3.2 優勢比較明顯,其他有贏有輸,大圖部分可以到 Meta 官網查看:
Llama 3.2 哪裡可以下載
目前 Llama 3.2 已經在 Meta 官網和 Hugging Face 網站上開放下載,有需要的人可以按前方連結跳轉。