這一年很多中國公司都有推出自家的大語言模型,而且一直都會跟 OpenAI 的 GPT 模型比較,過去大多都只是標榜已經快追上 GPT-4,但最近中國權威大模型評測機構公布的最新測試報告顯示,中國國產大模型「日日新 5.0」已經正式超越 GPT-4-Turbo-0125 API,宣稱中文效能更好。
中國評測機構宣稱中國大模型已正式超越 GPT-4 Turbo,中文表現更好
根據商湯公告,中國權威大模型評測機構 SuperCLUE 近日公布了「日日新 5.0(SenseChat V5)」的中文基準測試結果,最終獲得 80.03 的總分,比起 GPT-4-Turbo-0125 的 79.13 分還高,也超越 GPT-4 官網網頁版的 75.32 分:
GPT-4-Turbo-0125 是之前 OpenAI 為了解決 GPT-4 變懶惰所推出的版本,目前最新 GPT-4 Turbo 版本是「GPT-4-Turbo-2024-04-09」。
SuperCLUE 表示,他們的測試內容有多個項目,從理科的計算、邏輯推理、程式碼、工具使用,一直到文科的知識百科、語言理解、長文本、角色扮演、生成與創作、安全都有,總共有 2194 多道題目。
從下圖圖表可以看到,SenseChat V5 在許多方面都表現最好,但寫程式能力明顯落後 GPT-4 很多,也輸 Claude3-Opus,大約跟 Llam03070B-it(poe) 差不多:
而跟其他中國國產模型相比,SenseChat V5 就大獲全勝,每一個分數都遠高於平均水平,特別是在長文本部份。由此可見,這個模型似乎在寫中文文章方面特別強:
SuperCLUE 也有分享提問的問題示範,都是針對簡體中文,因此如果變成其他國家語言,SenseChat V5 表現一定差很多,甚至不支援。
值得注意的是,最近中國大語言模型似乎也開始掀起價格戰,不僅許多 AI 服務的 API 都降價,有些甚至改成永久免費,像是知名科大訊飛就在最近宣布 SPark Lite 全面免費開放,百度智能雲的文心大模型 ENIRE Speed、ENIRE Lite 也一樣變免費 :
雖然中國大語言模型要追上 OpenAI 的 GPT 最新模型看起來還有一大段距離,但隨著中國價格戰開打,越來越多人使用,獲得的訓練數據越大,在簡體中文這塊或許會比想像中還要快超越。
日日新 5.0 更舊版本相比,主要更新亮點在「採用混合專家架構」、「基於超過 10TB tokens 訓練,大量合成數據」、「推理上下文窗口 200K」、「知識、推理、數學、代碼全面對標 GPT-4 Turbo」: