Meta 發表多模態 Llama 3.2 開源模型，視覺領先 GPT4o-mini，還有適合裝在手機的 1B 版本

Llama 又有新模型了，這次還是多模態

AI 進步速度真的快得嚇人，繼 7 月底時 Meta 推出 Llama 3.1 之後，才過 2 個月時間，Meta 又再度推新開源模型「Llama 3.2」，而且這次厲害地方在：支援多模態，意味著現在 Llama 3.2 可以讀圖像資訊了。

不僅如此，Llama 3.2 還有推出適合在筆電、手機本地運行的 3B 和 1B 版本，現在已經可以下載試用。

支援多模態的 Meta Llama 3.2 開源模型登場，共有四種版本

這次 Meta Llama 3.2 開源模型共有四種版本

Llama 3.2 90B Vision：目前 Meta 最先進的模型，與 11B 模型類似，但支援更進階的圖像推理應用，可以處理更大範圍和更複雜的圖表、地圖等視覺資料，以及提供更準確和詳細的圖像描述和推理結果。
Llama 3.2 11B Vision：支援圖像推理應用，包括文件級理解（如圖表和圖形），能做到用自然語言描述圖像中的物體、快速回答圖表中企業最佳銷售月份資料、以及透過地圖推理出，走路路線的坡度變化，或特定路徑距離等問題
Llama 3.2 3B：與 1B 模型相似，具備更強大的多語言文字生成和工具調用能力，支援更複雜的應用場景和多樣化的任務需求，適合在筆電中運行。
Llama 3.2 1B：輕量級模型，擁有高效的多語言文字生成能力，能摘要最近的消息、提取行動項目等，適合在行動裝置上運行。

Meta 也有提供一些範例，像是視覺模型，上傳圖後，就會透過文字描述出這張圖，接著可以針對文字提示，找出符合的圖像內容：

View post on imgur.com

在手機上運行 Llama 3.2，可以當成作為文字編輯助手、總結 Demo、或是重寫內容，Meta 還說為了讓移動裝置能更相容運行模型，進行更多創新，他們有跟高通、聯發科、ARM 合作，未來會分享更多相關資訊：

View post on imgur.com

而跟其他模型效能比較部分，Meta 也有分享一些實測數據，首先是 11B 和 90B 版本，比對對象是 Claude 3 – Haiku 和 GPT-4o-mini。

圖像測試的 MMMU 中，11B 以 50.7 贏過 Claude 3 – Haiku 的 50.2；90B 則以 60.3 贏過 GPT-4o-mini 的 59.4
MMU-Pro, Stadard 和 MathVista 也是 Llama 3.2 獲勝，不過 Vision 模式 90B 的 33.8 稍微落後 GPT-4o-mini
文字測試的 MMLU 中，90B 贏過 GPT-4o-mini，11B 則小輸 Claude 3 – Haiku。
MATH 測試 11B 贏 Claude 3 – Haiku 不少。
GPQA 和 MGSM 表現都差不多。

Llama 3.2 的 1B 和 3B 比對對象是 Gemma 2 2B IT 和 Phi-3.5-mini IT，所有測試中，長內容部分 Llama 3.2 優勢比較明顯，其他有贏有輸，大圖部分可以到 Meta 官網查看：

目前 Llama 3.2 已經在 Meta 官網和 Hugging Face 網站上開放下載，有需要的人可以按前方連結跳轉。