亚洲AV无码专区在线电影APP,国产嘿嘿嘿视频在线观看,国产在线线精品宅男网址,四虎永久在线精品免费青青

發(fā)新帖

通義千問(wèn)開源數(shù)學(xué)模型Qwen2-Math,數(shù)學(xué)能力超越GPT-4o 行業(yè)新聞

新聞機(jī)器人 8月前 8234

8月9日消息,阿里通義團(tuán)隊(duì)開源新一代數(shù)學(xué)模型Qwen2-Math,包含1.5B、7B、72B三個(gè)參數(shù)的基礎(chǔ)模型和指令微調(diào)模型。Qwen2-Math基于通義千問(wèn)開源大語(yǔ)言模型Qwen2研發(fā),旗艦?zāi)P?Qwen2-Math-72B-Instruct在權(quán)威測(cè)評(píng)集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等,以84%的準(zhǔn)確率處理了代數(shù)、幾何、計(jì)數(shù)與概率、數(shù)論等多種數(shù)學(xué)問(wèn)題,成為最先進(jìn)的數(shù)學(xué)專項(xiàng)模型。

通義千問(wèn)開源數(shù)學(xué)模型Qwen2-Math,數(shù)學(xué)能力超越GPT-4o?

注:在MATH基準(zhǔn)測(cè)評(píng)中,通義千問(wèn)數(shù)學(xué)模型的旗艦款Qwen2-Math-72B-Instruct取得了84%的準(zhǔn)確率,超過(guò)GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B等開閉源模型。

Qwen2-Math 基礎(chǔ)模型使用 Qwen2大語(yǔ)言模型進(jìn)行初始化,并在精心設(shè)計(jì)的數(shù)學(xué)專用語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練,訓(xùn)練數(shù)據(jù)包含大規(guī)模高質(zhì)量的數(shù)學(xué)網(wǎng)絡(luò)文本、書籍、代碼、考試題目,以及由 Qwen2 模型合成的數(shù)學(xué)預(yù)訓(xùn)練數(shù)據(jù)。所有預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)集都進(jìn)行了去污染處理。

隨后,研發(fā)團(tuán)隊(duì)訓(xùn)練了指令微調(diào)版本模型:首先,基于Qwen2-Math-72B 訓(xùn)練一個(gè)數(shù)學(xué)專用的獎(jiǎng)勵(lì)模型;接著,將密集的獎(jiǎng)勵(lì)信號(hào)與指示模型是否正確回答問(wèn)題的二元信號(hào)結(jié)合,用作學(xué)習(xí)標(biāo)簽,再通過(guò)拒絕采樣構(gòu)建監(jiān)督微調(diào)(SFT)數(shù)據(jù);最后在SFT模型基礎(chǔ)上使用 GRPO 方法優(yōu)化模型。

據(jù)悉,Qwen2-Math系列模型目前主要支持英文,通義團(tuán)隊(duì)很快就將推出中英雙語(yǔ)版本,多語(yǔ)言版本也在開發(fā)中。

通義團(tuán)隊(duì)在多個(gè)中英文數(shù)學(xué)基準(zhǔn)測(cè)評(píng)集對(duì)指令微調(diào)模型作了性能評(píng)估,除了 GSM8K 和 MATH等常見(jiàn)的測(cè)評(píng)基準(zhǔn) ,還引入了更具挑戰(zhàn)性的考試競(jìng)賽類測(cè)試,如奧林匹克級(jí)別的基準(zhǔn)測(cè)評(píng)OlympiadBench、大學(xué)數(shù)學(xué)級(jí)別的基準(zhǔn)測(cè)評(píng)CollegeMath、高考(GaoKao)、美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME)2024 賽題、美國(guó)數(shù)學(xué)競(jìng)賽( AMC)2023賽題,中文測(cè)評(píng)則有CMATH測(cè)評(píng)集、2024年中國(guó)高考和中考數(shù)學(xué)題。最終,Qwen2-Math-72B-Instruct表現(xiàn)優(yōu)異,在十大測(cè)評(píng)中都獲得了遠(yuǎn)超其他開源數(shù)學(xué)模型的成績(jī)。

通義千問(wèn)開源數(shù)學(xué)模型Qwen2-Math,數(shù)學(xué)能力超越GPT-4o?

注:研發(fā)團(tuán)隊(duì)在greedy和RM@8 的條件下對(duì)模型作了測(cè)評(píng),表中為每款Qwen2-Math-72B-Instruct模型列出了三個(gè)得分結(jié)果,分別是第1次回答得分(無(wú)下標(biāo)數(shù)字)、8次回答中出現(xiàn)最多次數(shù)的答案的得分,8次回答中reward model所選答案的得分。

“大模型能不能做數(shù)學(xué)題”,不僅是社交平臺(tái)的熱門話題,也是業(yè)界非常關(guān)注的研究課題。處理高級(jí)數(shù)學(xué)問(wèn)題,需要模型具備復(fù)雜多步邏輯推理能力。通義團(tuán)隊(duì)在技術(shù)博客中表示,希望通過(guò)開源“為科學(xué)界解決高級(jí)數(shù)學(xué)問(wèn)題做出貢獻(xiàn)”,未來(lái)將持續(xù)增強(qiáng)模型數(shù)學(xué)能力。

附:Qwen2-Math解題示例

通義千問(wèn)開源數(shù)學(xué)模型Qwen2-Math,數(shù)學(xué)能力超越GPT-4o?

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。

注:本文轉(zhuǎn)載自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán),轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如有侵權(quán)行為,請(qǐng)聯(lián)系我們,我們會(huì)及時(shí)刪除。

成都威爾德公司承接各種互聯(lián)網(wǎng)業(yè)務(wù)-幫助中小企業(yè)轉(zhuǎn)型互聯(lián)網(wǎng)加- 版權(quán)聲明 1、本主題所有言論和圖片純屬會(huì)員個(gè)人意見(jiàn),與成都威爾德公司承接各種互聯(lián)網(wǎng)業(yè)務(wù)-幫助中小企業(yè)轉(zhuǎn)型互聯(lián)網(wǎng)加立場(chǎng)無(wú)關(guān)。
2、本站所有主題由該帖子作者發(fā)表,該帖子作者新聞機(jī)器人成都威爾德公司承接各種互聯(lián)網(wǎng)業(yè)務(wù)-幫助中小企業(yè)轉(zhuǎn)型互聯(lián)網(wǎng)加享有帖子相關(guān)版權(quán)。
3、成都威爾德公司承接各種互聯(lián)網(wǎng)業(yè)務(wù)-幫助中小企業(yè)轉(zhuǎn)型互聯(lián)網(wǎng)加管理員和版主有權(quán)不事先通知發(fā)貼者而刪除本文。
4、其他單位或個(gè)人使用、轉(zhuǎn)載或引用本文時(shí)必須同時(shí)征得該帖子作者新聞機(jī)器人成都威爾德公司承接各種互聯(lián)網(wǎng)業(yè)務(wù)-幫助中小企業(yè)轉(zhuǎn)型互聯(lián)網(wǎng)加的同意。

這家伙太懶了,什么也沒(méi)留下。
最新回復(fù) (0)
只看樓主
全部樓主
    • 成都威爾德公司承接各種互聯(lián)網(wǎng)業(yè)務(wù)-幫助中小企業(yè)轉(zhuǎn)型互聯(lián)網(wǎng)加
      2
        立即登錄 立即注冊(cè) QQ登錄
返回
發(fā)新帖
免責(zé)聲明:本站部分資源來(lái)源于網(wǎng)絡(luò),如有侵權(quán)請(qǐng)發(fā)郵件(673011635@qq.com)告知我們,我們將會(huì)在24小時(shí)內(nèi)處理。