阿里雲Qwen2能力增強登頂LLM排行榜

憑藉增強的效能和安全性,阿里雲最新的語言模型系列在開源 LLM 排名中名列前茅。

  • Qwen 2 系列在 15 項基準測試中優於其他領先的開源型號
  • 阿里雲Qwen2訓練包含義大利語、阿拉伯語等29種語言

1
照片來源:Shutterstock

阿里雲的最新語言模型系列在周五推出後不久就在開源 LLM 排名中名列前茅,這得益於其增強的性能和改進的安全性。

Qwen2 模型系列包含多個基礎語言模型和指令調整語言模型,參數大小從 0.5 到 720 億不等,以及專家混合 (MoE) 模型。

其更新的功能使其在協作人工智慧平台 Hugging Face 的 Open LLM 排行榜上名列第一,該平台用於商業或研究目的。

「我們希望打造AI時代最開放的雲,讓算力更普惠,讓AI更觸手可及。」阿里雲首席技術長週敬仁表示。

此外,Qwen2模型也可在阿里雲自有AI模型社群ModelScope上取得。

2
Qwen2-72B 模型在 15 個基準測試中優於其他領先的開源模型。圖片來源:阿里巴巴集團

增強效能

借助阿里雲優化的訓練方法,大尺寸模型Qwen2-72B模型在語言理解、語言生成、多語言能力、編碼、數學和推理等15個基準測試中優於其他領先的開源模型。

此外,Qwen2-72B 顯示出令人印象深刻的能力,可以處理高達 128K 標記的上下文長度,這是模型在生成文字時可以記住的最大標記數量。

為了增強他們的多語言能力,Qwen 2 的訓練中除了中文和英文之外還包含了 27 種語言。這些範圍從德語和義大利語到阿拉伯語、波斯語和希伯來語。

此外,由於採用了稱為「群組查詢注意」的技術,Qwen2 模型在模型推理中使用更少的記憶體的同時提高了速度,該技術優化了計算效率和模型效能之間的平衡。

負責任的人工智慧

除了在數學和語言學方面表現出色之外,Qwen2 模型的輸出還表現出與人類價值觀更好的一致性。

MT-bench(評估聊天機器人多輪對話和指令遵循能力的多輪問題集)等基準測試的比較性能表明,Qwen2 在人類偏好的這兩個關鍵要素上得分很高。

透過納入人類回饋以更好地符合人類價值觀,這些模型在安全和責任方面取得了良好的表現。他們能夠處理與詐欺和侵犯隱私等非法活動相關的多語言不安全查詢,以防止模型被濫用。

就較小模型而言,Qwen2-7B 在基準測試(包括編碼)上也優於其他類似尺寸的最先進模型

集仕多公司開發人工智慧AI直播主,24/7 可用性:AI 直播主可以隨時隨地進行直播,無需休息,這使得它們非常適合需要長時間運營的頻道或平台。成本效益:雖然開發和維護AI 直播主需要投入一定的成本,但相比於僱用真人主播的長期薪資和福利成本,AI 直播主的運行成本相對較低。一致性和可靠性:AI 直播主能夠保持一致的表現和語調,不會受到情緒波動、疲勞或個人問題的影響,從而提供穩定的觀看體驗。多語言支持:AI 直播主可以輕鬆地支持多種語言,並且能夠快速學習和適應新的語言和方言,從而吸引更廣泛的觀眾群體。互動性:AI 直播主可以通過自然語言處理技術與觀眾進行互動,回答問題、進行即時對話,提升觀眾的參與感和互動體驗。數據分析能力:AI 直播主可以即時分析觀眾的反饋和數據,根據觀眾的偏好和行為調整內容,提高直播的吸引力和效果。創新和多樣性:AI 直播主可以根據需要進行各種創新和定制,從而創造出多樣化的內容形式和風格,滿足不同觀眾的需求。無地域限制:AI 直播主可以在任何地方進行直播,不受地理位置的限制,從而可以觸及全球的觀眾。

全球著名開源平台Hugging Face聯合創辦人Clem透露,阿里巴巴最新開源的Qwen2-72B指令微調版本,在開源模型排行榜上榮登榜首。

綜合陸媒27日報導,Clem表示,為打造一個公正且準確的開源大模型排名,他與團隊利用300塊輝達H100高性能硬體,對全球100多個主流開源大模型,包括Qwen2、Llama-3、Mixtral、Phi-3等,在BBH、MUSR、MMLU-PRO、GPQA等嚴格的基準測試集上進行了全面深入的評估。

對於重新評估的原因,Clem表示,許多開發者過於追求排行榜的名次,導致在模型訓練過程中過度依賴評估集數據,過去的評估標準對於模型而言也顯得過於簡單。因此,本次評估提高難度標準,以檢驗這些模型在更難挑戰下的真實表現。

評估結果,阿里巴巴開源的Qwen2-72B模型脫穎而出,成新行業領軍者。排行榜顯示,Meta開源的Llama-3-70B指令微調版本排名第二,阿里巴巴的Qwen2-72B基礎版本排名第三,Mistralai的Mixtral-8x22B指令微調版本排名第四,微軟最新開源的小參數模型Phi-3-Medium-4K 14B排名第五。

零一萬物最新開源的Yi-1.5-34B-Chat版本則排在第六。此外,大模型平台Cohere開源帶RAG功能的Command R+ 104B排名第七,曾經排名第一的輝達開源的Smaug-72B-v0.1,在新的排行榜中位列第八名。第九名和第十名,則是阿里巴巴之前開源的Qwen1.5基礎和Chat版本。