亚洲AV无码专区在线电影APP,国产嘿嘿嘿视频在线观看,国产在线线精品宅男网址,四虎永久在线精品免费青青

發(fā)新帖

國產(chǎn)大模型首次超過 GPT-4o!零一萬物「閃電」只用 2000 張 GPU 追平馬斯克 Grok 行業(yè)新聞

新聞機器人 6月前 4950

該不該從零開始預(yù)訓練一個千億級大模型?

這個問題從 2023 年 ChatGPT 破圈之后就一直成為行業(yè)人士的 Top 討論話題之一。不久前,國內(nèi)也有報道號稱排名前六的“大模型六虎”中至少有兩家已經(jīng)放棄大模型的預(yù)訓練、轉(zhuǎn)向 AI 應(yīng)用,零一萬物就是其中之一。

背后原因無他:預(yù)訓練的成本高,企業(yè)“算不過來賬”。

但就在今天,繼千億參數(shù)模型 Yi-Large 之后,零一萬物又發(fā)布了新的預(yù)訓練旗艦?zāi)P?Yi-Lightning(號稱“閃電”),在國際權(quán)威盲測榜單 LMSYS 上超越了 OpenAI 今年 5 月發(fā)布的 GPT-4o、Anthropic Claude 3.5 Sonnet,排名世界第六,中國第一。

這是在 LMSYS 這一全球大模型必爭的公開擂臺上,中國大模型首度實現(xiàn)超越 OpenAI GPT-4-2024-05-13!

根據(jù)榜單排名,零一萬物緊隨 OpenAI、Google 之后,與 xAI 打平,進擊全球前三大模型企業(yè),以優(yōu)異模型性能穩(wěn)居世界第一梯隊大模型公司之列。

國產(chǎn)大模型首次超過 GPT-4o!零一萬物「閃電」只用 2000 張 GPU 追平馬斯克 Grok

模型性能升級之余,Yi-Lightning 的推理速度也有大幅提升,首包時間較上半年發(fā)布的 Yi-Large 減少一半。最高生成速度提速近四成,堪稱“極速”。

同時,Yi-Lightning 還在保持高性能的同時,實現(xiàn)了推理成本的進一步下降,每百萬 token 僅需 0.99 元,直逼行業(yè)最低價,以極致性價比助力開發(fā)者與企業(yè)客戶輕松實現(xiàn) SOTA 大模型自由。

目前 Yi-Lightning 已上線 Yi 大模型開放平臺:

https://platform.lingyiwanwu.com/。

國產(chǎn)大模型首次超過 GPT-4o!零一萬物「閃電」只用 2000 張 GPU 追平馬斯克 Grok

在李開復(fù)看來,雖然中國在大模型的預(yù)訓練上落后于美國,但不代表中國大模型公司會放棄“預(yù)訓練”這一戰(zhàn)略級步驟。另外,中國的大模型在預(yù)訓練速度上其實沒有比美國落后很多,以 OpenAI 為例:今年 5 月 13 日 OpenAI 發(fā)布GPT-4o-2024-05-13,零一萬物 Yi-Lightning 在今年 10 月就超過了 GPT-4o-2024-05-13,僅五個月的時間差。

縮短時間差,是因為零一萬物在各個維度的人才儲備與知識積累上都足夠扎實。

預(yù)訓練的門檻很高,需要團隊具備芯片人才、推理人才、基礎(chǔ)架構(gòu)人才、算法人才等。由此來看,并不是所有的大模型公司都具備大模型預(yù)訓練的條件。對于這些公司來說,放棄預(yù)訓練其實是明智的選擇;但零一萬物從創(chuàng)業(yè)的第一天起就堅持“?;步ā?、“模型+Infra+應(yīng)用”三體合一,沒有放棄的理由。

此外,Yi-Lightning 打平了 xAI 的 Grok。xAI 在訓練 Grok 時號稱用了幾萬張 GPU,但零一萬物透露,他們此次發(fā)布的 Yi-Lightning 訓練只用了兩千張 GPU、訓練了一個半月,只花了 300 多萬美金。也就是說,零一萬物用了 xAI 的 2% 左右的成本就打平了 Grok。

零一萬物的特點是“?;步ā?。他們不僅追求模型的性能,也追求模型的推理成本,而 AI infra 與上層模型的同步優(yōu)化是實現(xiàn)這一目標的關(guān)鍵手段。

LMSYS 評測:性能超越 GPT-4o

LMSYS Org 發(fā)布的 Chatbot Arena 憑借著新穎的“真實用戶盲測投票”機制與 Elo 評分系統(tǒng),已成為全球業(yè)界公認最接近真實用戶使用場景、最具用戶體感的“大模型奧林匹克”。

隨著 Yi-Lightning 的加入,LMSYS ChatBot Arena 總榜排名再次發(fā)生震蕩。在 LMSYS 總榜上,Yi-Lightning 的最新排名勝過硅谷頭部企業(yè) OpenAI、Anthropic 發(fā)布的 GPT-4o-2024-05-13、 Claude 3.5 sonnet,在一眾國內(nèi)大模型中拔得頭籌,超越 Qwen2.5-72b-Instruct、DeepSeek-V2.5、GLM-4-Plus 等。

在眾多分榜上,Yi-Lightning 的成績同樣出眾。在中文分榜上,Yi-Lightning 超越了 xAI 發(fā)布的 Grok-2-08-13、智譜發(fā)布的 GLM-4-Plus 等國內(nèi)外優(yōu)質(zhì)模型,與 o1-mini 等模型并列排名世界第二。

國產(chǎn)大模型首次超過 GPT-4o!零一萬物「閃電」只用 2000 張 GPU 追平馬斯克 Grok

在多輪對話分榜上,Yi-Lightning 則是超越了 Google 所發(fā)布的 Gemini-1.5-Pro 、Anthropic 發(fā)布的 Claude 3.5 Sonnet 等知名旗艦?zāi)P?,排名第三?/p>

國產(chǎn)大模型首次超過 GPT-4o!零一萬物「閃電」只用 2000 張 GPU 追平馬斯克 Grok

數(shù)學能力,代碼能力方面,Yi-Lightning 同樣處于全球第一梯隊。在數(shù)學、代碼分榜上,Yi-Lightning分別取得第三、第四名。

國產(chǎn)大模型首次超過 GPT-4o!零一萬物「閃電」只用 2000 張 GPU 追平馬斯克 Grok

國產(chǎn)大模型首次超過 GPT-4o!零一萬物「閃電」只用 2000 張 GPU 追平馬斯克 Grok

以專業(yè)性與高難度著稱的艱難提問、長提問榜單上,Yi-Lightning 的表現(xiàn)依舊出眾,均取得世界第四的優(yōu)異成績。

國產(chǎn)大模型首次超過 GPT-4o!零一萬物「閃電」只用 2000 張 GPU 追平馬斯克 Grok國產(chǎn)大模型首次超過 GPT-4o!零一萬物「閃電」只用 2000 張 GPU 追平馬斯克 Grok

LMSYS Chatbot Arena 的用戶體驗評估體現(xiàn)了 Yi-Lightning 的出色性能,也更為直觀地驗證了大模型解決真實世界問題的能力。

換言之,Yi-Lightning 能夠絲滑地由實驗室場景過渡到模擬真實用戶場景,能夠更快、更高質(zhì)量地實現(xiàn)模型能力落地。

作為模型落地的典型場景之一,翻譯場景十分全面地考驗了模型語言理解和生成、跨語言能力、上下文感知能力,通過 Yi-Lightning 與 Qwen2.5-72b-Instruct、DeepSeek-V2.5、Doubao-pro 的對比,Yi-Lightning 優(yōu)異的模型性能也得到了最直觀的展現(xiàn):

國產(chǎn)大模型首次超過 GPT-4o!零一萬物「閃電」只用 2000 張 GPU 追平馬斯克 Grok


推理速度飛升生成速度較 Yi-Large 最高提升近四成

從命名可以看出,與 Yi-Large 相比,Yi-Lightning 在模型性能更進一步的前提下,推理速度方面有著極大提升。

這一方面得益于零一萬物自身世界一流的 AI Infra 能力,另一方面則是由于,與此前稠密模型架構(gòu)不同,Yi-Lightning 選擇采用 Mixture of Experts(MoE)混合專家模型架構(gòu),并在模型訓練過程中做了新的嘗試。

內(nèi)部評測數(shù)據(jù)顯示,在 8xH100 算力基礎(chǔ)下,以同樣的任務(wù)規(guī)模進行測試,Yi-Lightning 的首包時間(從接收到任務(wù)請求到系統(tǒng)開始輸出響應(yīng)結(jié)果之間的時間)僅為 Yi-Large 的一半,最高生成速度也提升了近四成,大幅實現(xiàn)了旗艦?zāi)P偷男阅苌墶?/p>

外部模型中,零一萬物選擇與 GPT-4o 支持下的 ChatGPT 做對比。僅憑肉眼就可以看出,Yi-Lightning 的生成速度,堪稱“極速”。

如何在保持模型性能接近最優(yōu)的同時,盡可能減少激活參數(shù)的數(shù)量以降低訓推成本、提升推理速度,是 MoE 模型訓練的重點目標。具體到 Yi-Lightning 模型的訓練,零一萬物的模型團隊進行了如下嘗試,并取得了正向反饋:

1.獨特的混合注意力機制(Hybrid Attention)

此前關(guān)注 MoE 架構(gòu)的大模型公司,如 Mistral AI?,大多采用了 Sliding Window Attention(滑動窗口注意力機制)。這種機制通過在輸入序列上滑動一個固定大小的窗口來限制每個位置的關(guān)注范圍,從而減少計算量并提高模型的效率和可擴展性。但是同樣受限于固定窗口,模型可能無法充分考慮序列中較遠位置的信息,導致信息理解不完整。

在 Yi-Lightning 的訓練過程中,零一萬物采用了混合注意力機制(Hybrid Attention)。這種機制只在模型的部分層次中將傳統(tǒng)的全注意力(Full Attention)替換為滑動窗口注意力(Sliding Window Attention),旨在平衡模型在處理長序列數(shù)據(jù)時的性能和計算資源消耗。通過這種方式,Yi-Lightning 能夠在保持模型對長序列數(shù)據(jù)的高效處理能力的同時,降低計算成本。

結(jié)合這兩項技術(shù),零一萬物成功地將 Yi-Lightning 模型在面對長序列數(shù)據(jù)時的表現(xiàn)保持在較高水平,同時顯著降低了 KV 緩存的大小,實現(xiàn)了 2 倍至 4 倍的減少;某些層次的計算復(fù)雜度也由序列長度的平方級降低到線性級,進一步提高了模型的計算效率。這些改進使得 Yi-Lightning 模型本身在處理長序列數(shù)據(jù)時更加高效。

基于?;步☉?zhàn)略,零一萬物在 AI Infra 方面也做出了進一步優(yōu)化,結(jié)合 Yi-Lightning 的自身特性,共同確保了模型即便在資源受限的環(huán)境下也能夠保持穩(wěn)定、出色的表現(xiàn)。

2. 動態(tài) Top-P 路由

面對簡單的任務(wù),MoE 模型可選擇激活較少的專家網(wǎng)絡(luò)以加快推理速度,同時保持良好的性能;面對更復(fù)雜的任務(wù),MoE 模型則可以激活更多的專家網(wǎng)絡(luò)可以提高模型的準確性。

動態(tài) Top-P 路由就像是 MoE 模型中做出選擇的“把關(guān)人”。它可以根據(jù)任務(wù)的難度動態(tài)自動選擇最合適的專家網(wǎng)絡(luò)組合,而無需人工干預(yù)。與傳統(tǒng)的 Top-K 路由機制相比,動態(tài) Top-P 路由能夠更靈活地根據(jù)任務(wù)的難度調(diào)整激活的專家網(wǎng)絡(luò)數(shù)量,從而更好地平衡推理成本和模型性能。

在 Yi-Lightning 訓練過程中,零一萬物選擇引入動態(tài) Top-P 路由機制,這使得 Yi-Lightning 能夠更加智能地適應(yīng)各種任務(wù)需求,這也是它能夠?qū)崿F(xiàn)“極速推理”的一大原因。

3. 多階段訓練(Multi-stage Training)

在 Yi-Lightning 的訓練規(guī)劃中,零一萬物還改進了單階段訓練,使用了多階段的訓練模式。據(jù)介紹,在訓練前期,零一萬物模型團隊更加注重數(shù)據(jù)的多樣性,希望 Yi-Lightning 在這個階段盡可能廣泛地吸收不同的知識;而在訓練后期則會更加側(cè)重內(nèi)容更豐富、知識性更強的數(shù)據(jù)。

通過這種各有側(cè)重的方式, Yi-Lightning 得以在不同階段吸收不同的知識,既便于模型團隊進行數(shù)據(jù)配比的調(diào)試工作,同時在不同階段采用不同的 batch size 和 LR schedule 來保證訓練速度和穩(wěn)定性。

結(jié)合多階段的訓練策略,輔之以自創(chuàng)高質(zhì)量數(shù)據(jù)生產(chǎn)管線,零一萬物不僅可以保證 Yi-Lightning 的訓練效率,還可以讓 Yi-Lightning 在具備豐富知識的同時,基于復(fù)雜且重要的數(shù)據(jù)做進一步的強化。此外,在有較多新增數(shù)據(jù)、或者想要對模型進行專有化時,零一萬物也可以基于 Yi-Lightning 進行快速、低成本的重新訓練。相較于傳統(tǒng)的單階段訓練,這樣的訓練方法既可以保證模型整體的訓練效果,同時也能更高效地利用訓練數(shù)據(jù)。


閃電秘訣:“模型+AI Infra+應(yīng)用”三體布局

國內(nèi)大模型賽道狂奔進入第二年,商業(yè)化造血能力已經(jīng)成為多方關(guān)注的焦點。而無論是 ToC 還是 ToB,如何提前預(yù)判 TC-PMF 是繞不開的核心命題。模型性能與推理成本,兩項關(guān)鍵因素直接影響著大模型落地的成敗。

Yi-Lightning 已在 LMSYS 等多項國際權(quán)威評測中取得 SOTA 成績,同時支持極速推理,模型性能已得到驗證。而基于 MoE 模型架構(gòu)與零一萬物的 AI Infra 優(yōu)勢,Yi-Lightning 的推理成本也降至行業(yè)新低。

目前, Yi-Lightning 已經(jīng)上線 Yi 大模型開放平臺(https://platform.lingyiwanwu.com/),每百萬 token 僅需 0.99 元,直逼行業(yè)最低價,支持開發(fā)者與企業(yè)客戶輕松實現(xiàn) SOTA 大模型自由。

基于模型性能顯著升級、推理成本大幅下降、同時可實現(xiàn)極速推理的 Yi-Lightning,零一萬物可探索的落地場景將會進一步擴展。

10月16日,零一萬物也首度對媒體公布了全新 ToB 戰(zhàn)略下的首發(fā)行業(yè)應(yīng)用產(chǎn)品 AI 2.0 數(shù)字人,聚焦零售和電商等場景,將最新版旗艦?zāi)P蛯嵺`到行業(yè)解決方案,在彈幕互動、商品信息提取、實時話術(shù)生成等環(huán)節(jié),AI 2.0 數(shù)字人已接入 Yi-Lightning。接入 Yi-Lightning 后,數(shù)字人的實時互動效果更好,話術(shù)更絲滑,回復(fù)也更準確;業(yè)務(wù)數(shù)據(jù)方面,在接入 Yi-Lightning 全新加持的數(shù)字人直播后,某酒旅企業(yè)的 GMV 較此前上升 170%。

,時長00:46Yi-Lightning數(shù)字人對比視頻同時, Yi-Lightning 的“極速”不僅體現(xiàn)在模型推理速度,定制模型的交付速度也會得到極大提升。受益于 MoE 模型的自身特性、在多階段訓練方面的技術(shù)積累,零一萬物能夠基于客戶的特殊需求,進行高效地針對性訓練,快速交付貼合特定服務(wù)場景、極速推理、成本極低的私有化定制模型。


打造新質(zhì)生產(chǎn)力

進入2024年以來,中國大模型行業(yè)從狂奔進入到了“長跑階段”,從技術(shù)側(cè)和產(chǎn)業(yè)側(cè)都引發(fā)了行業(yè)的進一步思考。

從技術(shù)發(fā)展上看,在算力受限的情況下,中國基座模型的研發(fā)能力處在世界什么身位,如何追趕國外頂尖大模型等問題引發(fā)外界關(guān)注。甚至一度傳出“中國可以不用再研發(fā)預(yù)訓練基座模型”的說法。

零一萬物此次推出的Yi-Lightning模型一經(jīng)亮相,就在世界權(quán)威的盲測榜單LMSYS中擊敗了OpenAI今年五月發(fā)布的GPT-4-2024-05-13。中國大模型首度超越性能極佳的 GPT-4-2024-05-13 對于我國人工智能發(fā)展是個里程碑事件,彰顯了中國所孕育的強大技術(shù)實力。

根據(jù)線上成果展示,零一萬物的 Yi-Lightning 翻譯莎士比亞的作品,只要 5 秒鐘;其他模型是 Yi-Lightning 的 2 到 3 倍。

這些都彰顯了中國大模型公司“模型+基礎(chǔ)設(shè)施+應(yīng)用”“三位一體”全棧式布局的必要性和重要性。

GPT-4o 之后,o1 的發(fā)布是一種新技術(shù)范式的開始,代表著大模型的重點從預(yù)訓練到推理。接下來零一萬物也會朝著這個方向去發(fā)展。

AGI 仍在遠方,現(xiàn)階段更需要讓大模型能力落地應(yīng)用層, 推動整個大模型行業(yè)形成健康的生態(tài)。

在這一階段,零一萬物會堅持“模型+AI Infra+應(yīng)用”三位一體的全棧式布局,以國際 SOTA 的基座模型為基礎(chǔ),積極在 ToB 企業(yè)級解決方案上探索 TC-PMF,以更從容的姿態(tài)迎接即將到來的 AI 普惠時代。

雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。

注:本文轉(zhuǎn)載自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán),轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。如有侵權(quán)行為,請聯(lián)系我們,我們會及時刪除。

成都威爾德公司承接各種互聯(lián)網(wǎng)業(yè)務(wù)-幫助中小企業(yè)轉(zhuǎn)型互聯(lián)網(wǎng)加- 版權(quán)聲明 1、本主題所有言論和圖片純屬會員個人意見,與成都威爾德公司承接各種互聯(lián)網(wǎng)業(yè)務(wù)-幫助中小企業(yè)轉(zhuǎn)型互聯(lián)網(wǎng)加立場無關(guān)。
2、本站所有主題由該帖子作者發(fā)表,該帖子作者新聞機器人成都威爾德公司承接各種互聯(lián)網(wǎng)業(yè)務(wù)-幫助中小企業(yè)轉(zhuǎn)型互聯(lián)網(wǎng)加享有帖子相關(guān)版權(quán)。
3、成都威爾德公司承接各種互聯(lián)網(wǎng)業(yè)務(wù)-幫助中小企業(yè)轉(zhuǎn)型互聯(lián)網(wǎng)加管理員和版主有權(quán)不事先通知發(fā)貼者而刪除本文。
4、其他單位或個人使用、轉(zhuǎn)載或引用本文時必須同時征得該帖子作者新聞機器人成都威爾德公司承接各種互聯(lián)網(wǎng)業(yè)務(wù)-幫助中小企業(yè)轉(zhuǎn)型互聯(lián)網(wǎng)加的同意。

這家伙太懶了,什么也沒留下。
最新回復(fù) (0)
只看樓主
全部樓主
    • 成都威爾德公司承接各種互聯(lián)網(wǎng)業(yè)務(wù)-幫助中小企業(yè)轉(zhuǎn)型互聯(lián)網(wǎng)加
      2
        立即登錄 立即注冊 QQ登錄
返回
免責聲明:本站部分資源來源于網(wǎng)絡(luò),如有侵權(quán)請發(fā)郵件(673011635@qq.com)告知我們,我們將會在24小時內(nèi)處理。