該不該從零開(kāi)始預(yù)訓(xùn)練一個(gè)千億級(jí)大模型?
這個(gè)問(wèn)題從 2023 年 ChatGPT 破圈之后就一直成為行業(yè)人士的 Top 討論話(huà)題之一。不久前,國(guó)內(nèi)也有報(bào)道號(hào)稱(chēng)排名前六的“大模型六虎”中至少有兩家已經(jīng)放棄大模型的預(yù)訓(xùn)練、轉(zhuǎn)向 AI 應(yīng)用,零一萬(wàn)物就是其中之一。
背后原因無(wú)他:預(yù)訓(xùn)練的成本高,企業(yè)“算不過(guò)來(lái)賬”。
但就在今天,繼千億參數(shù)模型 Yi-Large 之后,零一萬(wàn)物又發(fā)布了新的預(yù)訓(xùn)練旗艦?zāi)P?Yi-Lightning(號(hào)稱(chēng)“閃電”),在國(guó)際權(quán)威盲測(cè)榜單 LMSYS 上超越了 OpenAI 今年 5 月發(fā)布的 GPT-4o、Anthropic Claude 3.5 Sonnet,排名世界第六,中國(guó)第一。
這是在 LMSYS 這一全球大模型必爭(zhēng)的公開(kāi)擂臺(tái)上,中國(guó)大模型首度實(shí)現(xiàn)超越 OpenAI GPT-4-2024-05-13!
根據(jù)榜單排名,零一萬(wàn)物緊隨 OpenAI、Google 之后,與 xAI 打平,進(jìn)擊全球前三大模型企業(yè),以?xún)?yōu)異模型性能穩(wěn)居世界第一梯隊(duì)大模型公司之列。

模型性能升級(jí)之余,Yi-Lightning 的推理速度也有大幅提升,首包時(shí)間較上半年發(fā)布的 Yi-Large 減少一半。最高生成速度提速近四成,堪稱(chēng)“極速”。
同時(shí),Yi-Lightning 還在保持高性能的同時(shí),實(shí)現(xiàn)了推理成本的進(jìn)一步下降,每百萬(wàn) token 僅需 0.99 元,直逼行業(yè)最低價(jià),以極致性?xún)r(jià)比助力開(kāi)發(fā)者與企業(yè)客戶(hù)輕松實(shí)現(xiàn) SOTA 大模型自由。
目前 Yi-Lightning 已上線(xiàn) Yi 大模型開(kāi)放平臺(tái):
https://platform.lingyiwanwu.com/。

在李開(kāi)復(fù)看來(lái),雖然中國(guó)在大模型的預(yù)訓(xùn)練上落后于美國(guó),但不代表中國(guó)大模型公司會(huì)放棄“預(yù)訓(xùn)練”這一戰(zhàn)略級(jí)步驟。另外,中國(guó)的大模型在預(yù)訓(xùn)練速度上其實(shí)沒(méi)有比美國(guó)落后很多,以 OpenAI 為例:今年 5 月 13 日 OpenAI 發(fā)布GPT-4o-2024-05-13,零一萬(wàn)物 Yi-Lightning 在今年 10 月就超過(guò)了 GPT-4o-2024-05-13,僅五個(gè)月的時(shí)間差。
縮短時(shí)間差,是因?yàn)榱阋蝗f(wàn)物在各個(gè)維度的人才儲(chǔ)備與知識(shí)積累上都足夠扎實(shí)。
預(yù)訓(xùn)練的門(mén)檻很高,需要團(tuán)隊(duì)具備芯片人才、推理人才、基礎(chǔ)架構(gòu)人才、算法人才等。由此來(lái)看,并不是所有的大模型公司都具備大模型預(yù)訓(xùn)練的條件。對(duì)于這些公司來(lái)說(shuō),放棄預(yù)訓(xùn)練其實(shí)是明智的選擇;但零一萬(wàn)物從創(chuàng)業(yè)的第一天起就堅(jiān)持“?;步ā?、“模型+Infra+應(yīng)用”三體合一,沒(méi)有放棄的理由。
此外,Yi-Lightning 打平了 xAI 的 Grok。xAI 在訓(xùn)練 Grok 時(shí)號(hào)稱(chēng)用了幾萬(wàn)張 GPU,但零一萬(wàn)物透露,他們此次發(fā)布的 Yi-Lightning 訓(xùn)練只用了兩千張 GPU、訓(xùn)練了一個(gè)半月,只花了 300 多萬(wàn)美金。也就是說(shuō),零一萬(wàn)物用了 xAI 的 2% 左右的成本就打平了 Grok。
零一萬(wàn)物的特點(diǎn)是“?;步ā薄K麄儾粌H追求模型的性能,也追求模型的推理成本,而 AI infra 與上層模型的同步優(yōu)化是實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵手段。
LMSYS 評(píng)測(cè):性能超越 GPT-4o
LMSYS Org 發(fā)布的 Chatbot Arena 憑借著新穎的“真實(shí)用戶(hù)盲測(cè)投票”機(jī)制與 Elo 評(píng)分系統(tǒng),已成為全球業(yè)界公認(rèn)最接近真實(shí)用戶(hù)使用場(chǎng)景、最具用戶(hù)體感的“大模型奧林匹克”。
隨著 Yi-Lightning 的加入,LMSYS ChatBot Arena 總榜排名再次發(fā)生震蕩。在 LMSYS 總榜上,Yi-Lightning 的最新排名勝過(guò)硅谷頭部企業(yè) OpenAI、Anthropic 發(fā)布的 GPT-4o-2024-05-13、 Claude 3.5 sonnet,在一眾國(guó)內(nèi)大模型中拔得頭籌,超越 Qwen2.5-72b-Instruct、DeepSeek-V2.5、GLM-4-Plus 等。
在眾多分榜上,Yi-Lightning 的成績(jī)同樣出眾。在中文分榜上,Yi-Lightning 超越了 xAI 發(fā)布的 Grok-2-08-13、智譜發(fā)布的 GLM-4-Plus 等國(guó)內(nèi)外優(yōu)質(zhì)模型,與 o1-mini 等模型并列排名世界第二。

在多輪對(duì)話(huà)分榜上,Yi-Lightning 則是超越了 Google 所發(fā)布的 Gemini-1.5-Pro 、Anthropic 發(fā)布的 Claude 3.5 Sonnet 等知名旗艦?zāi)P?,排名第三?/p>

數(shù)學(xué)能力,代碼能力方面,Yi-Lightning 同樣處于全球第一梯隊(duì)。在數(shù)學(xué)、代碼分榜上,Yi-Lightning分別取得第三、第四名。


以專(zhuān)業(yè)性與高難度著稱(chēng)的艱難提問(wèn)、長(zhǎng)提問(wèn)榜單上,Yi-Lightning 的表現(xiàn)依舊出眾,均取得世界第四的優(yōu)異成績(jī)。


LMSYS Chatbot Arena 的用戶(hù)體驗(yàn)評(píng)估體現(xiàn)了 Yi-Lightning 的出色性能,也更為直觀(guān)地驗(yàn)證了大模型解決真實(shí)世界問(wèn)題的能力。
換言之,Yi-Lightning 能夠絲滑地由實(shí)驗(yàn)室場(chǎng)景過(guò)渡到模擬真實(shí)用戶(hù)場(chǎng)景,能夠更快、更高質(zhì)量地實(shí)現(xiàn)模型能力落地。
作為模型落地的典型場(chǎng)景之一,翻譯場(chǎng)景十分全面地考驗(yàn)了模型語(yǔ)言理解和生成、跨語(yǔ)言能力、上下文感知能力,通過(guò) Yi-Lightning 與 Qwen2.5-72b-Instruct、DeepSeek-V2.5、Doubao-pro 的對(duì)比,Yi-Lightning 優(yōu)異的模型性能也得到了最直觀(guān)的展現(xiàn):

推理速度飛升生成速度較 Yi-Large 最高提升近四成
從命名可以看出,與 Yi-Large 相比,Yi-Lightning 在模型性能更進(jìn)一步的前提下,推理速度方面有著極大提升。
這一方面得益于零一萬(wàn)物自身世界一流的 AI Infra 能力,另一方面則是由于,與此前稠密模型架構(gòu)不同,Yi-Lightning 選擇采用 Mixture of Experts(MoE)混合專(zhuān)家模型架構(gòu),并在模型訓(xùn)練過(guò)程中做了新的嘗試。
內(nèi)部評(píng)測(cè)數(shù)據(jù)顯示,在 8xH100 算力基礎(chǔ)下,以同樣的任務(wù)規(guī)模進(jìn)行測(cè)試,Yi-Lightning 的首包時(shí)間(從接收到任務(wù)請(qǐng)求到系統(tǒng)開(kāi)始輸出響應(yīng)結(jié)果之間的時(shí)間)僅為 Yi-Large 的一半,最高生成速度也提升了近四成,大幅實(shí)現(xiàn)了旗艦?zāi)P偷男阅苌?jí)。
外部模型中,零一萬(wàn)物選擇與 GPT-4o 支持下的 ChatGPT 做對(duì)比。僅憑肉眼就可以看出,Yi-Lightning 的生成速度,堪稱(chēng)“極速”。
如何在保持模型性能接近最優(yōu)的同時(shí),盡可能減少激活參數(shù)的數(shù)量以降低訓(xùn)推成本、提升推理速度,是 MoE 模型訓(xùn)練的重點(diǎn)目標(biāo)。具體到 Yi-Lightning 模型的訓(xùn)練,零一萬(wàn)物的模型團(tuán)隊(duì)進(jìn)行了如下嘗試,并取得了正向反饋:
1.獨(dú)特的混合注意力機(jī)制(Hybrid Attention)
此前關(guān)注 MoE 架構(gòu)的大模型公司,如 Mistral AI?,大多采用了 Sliding Window Attention(滑動(dòng)窗口注意力機(jī)制)。這種機(jī)制通過(guò)在輸入序列上滑動(dòng)一個(gè)固定大小的窗口來(lái)限制每個(gè)位置的關(guān)注范圍,從而減少計(jì)算量并提高模型的效率和可擴(kuò)展性。但是同樣受限于固定窗口,模型可能無(wú)法充分考慮序列中較遠(yuǎn)位置的信息,導(dǎo)致信息理解不完整。
在 Yi-Lightning 的訓(xùn)練過(guò)程中,零一萬(wàn)物采用了混合注意力機(jī)制(Hybrid Attention)。這種機(jī)制只在模型的部分層次中將傳統(tǒng)的全注意力(Full Attention)替換為滑動(dòng)窗口注意力(Sliding Window Attention),旨在平衡模型在處理長(zhǎng)序列數(shù)據(jù)時(shí)的性能和計(jì)算資源消耗。通過(guò)這種方式,Yi-Lightning 能夠在保持模型對(duì)長(zhǎng)序列數(shù)據(jù)的高效處理能力的同時(shí),降低計(jì)算成本。
結(jié)合這兩項(xiàng)技術(shù),零一萬(wàn)物成功地將 Yi-Lightning 模型在面對(duì)長(zhǎng)序列數(shù)據(jù)時(shí)的表現(xiàn)保持在較高水平,同時(shí)顯著降低了 KV 緩存的大小,實(shí)現(xiàn)了 2 倍至 4 倍的減少;某些層次的計(jì)算復(fù)雜度也由序列長(zhǎng)度的平方級(jí)降低到線(xiàn)性級(jí),進(jìn)一步提高了模型的計(jì)算效率。這些改進(jìn)使得 Yi-Lightning 模型本身在處理長(zhǎng)序列數(shù)據(jù)時(shí)更加高效。
基于?;步☉?zhàn)略,零一萬(wàn)物在 AI Infra 方面也做出了進(jìn)一步優(yōu)化,結(jié)合 Yi-Lightning 的自身特性,共同確保了模型即便在資源受限的環(huán)境下也能夠保持穩(wěn)定、出色的表現(xiàn)。
2. 動(dòng)態(tài) Top-P 路由
面對(duì)簡(jiǎn)單的任務(wù),MoE 模型可選擇激活較少的專(zhuān)家網(wǎng)絡(luò)以加快推理速度,同時(shí)保持良好的性能;面對(duì)更復(fù)雜的任務(wù),MoE 模型則可以激活更多的專(zhuān)家網(wǎng)絡(luò)可以提高模型的準(zhǔn)確性。
動(dòng)態(tài) Top-P 路由就像是 MoE 模型中做出選擇的“把關(guān)人”。它可以根據(jù)任務(wù)的難度動(dòng)態(tài)自動(dòng)選擇最合適的專(zhuān)家網(wǎng)絡(luò)組合,而無(wú)需人工干預(yù)。與傳統(tǒng)的 Top-K 路由機(jī)制相比,動(dòng)態(tài) Top-P 路由能夠更靈活地根據(jù)任務(wù)的難度調(diào)整激活的專(zhuān)家網(wǎng)絡(luò)數(shù)量,從而更好地平衡推理成本和模型性能。
在 Yi-Lightning 訓(xùn)練過(guò)程中,零一萬(wàn)物選擇引入動(dòng)態(tài) Top-P 路由機(jī)制,這使得 Yi-Lightning 能夠更加智能地適應(yīng)各種任務(wù)需求,這也是它能夠?qū)崿F(xiàn)“極速推理”的一大原因。
3. 多階段訓(xùn)練(Multi-stage Training)
在 Yi-Lightning 的訓(xùn)練規(guī)劃中,零一萬(wàn)物還改進(jìn)了單階段訓(xùn)練,使用了多階段的訓(xùn)練模式。據(jù)介紹,在訓(xùn)練前期,零一萬(wàn)物模型團(tuán)隊(duì)更加注重?cái)?shù)據(jù)的多樣性,希望 Yi-Lightning 在這個(gè)階段盡可能廣泛地吸收不同的知識(shí);而在訓(xùn)練后期則會(huì)更加側(cè)重內(nèi)容更豐富、知識(shí)性更強(qiáng)的數(shù)據(jù)。
通過(guò)這種各有側(cè)重的方式, Yi-Lightning 得以在不同階段吸收不同的知識(shí),既便于模型團(tuán)隊(duì)進(jìn)行數(shù)據(jù)配比的調(diào)試工作,同時(shí)在不同階段采用不同的 batch size 和 LR schedule 來(lái)保證訓(xùn)練速度和穩(wěn)定性。
結(jié)合多階段的訓(xùn)練策略,輔之以自創(chuàng)高質(zhì)量數(shù)據(jù)生產(chǎn)管線(xiàn),零一萬(wàn)物不僅可以保證 Yi-Lightning 的訓(xùn)練效率,還可以讓 Yi-Lightning 在具備豐富知識(shí)的同時(shí),基于復(fù)雜且重要的數(shù)據(jù)做進(jìn)一步的強(qiáng)化。此外,在有較多新增數(shù)據(jù)、或者想要對(duì)模型進(jìn)行專(zhuān)有化時(shí),零一萬(wàn)物也可以基于 Yi-Lightning 進(jìn)行快速、低成本的重新訓(xùn)練。相較于傳統(tǒng)的單階段訓(xùn)練,這樣的訓(xùn)練方法既可以保證模型整體的訓(xùn)練效果,同時(shí)也能更高效地利用訓(xùn)練數(shù)據(jù)。
閃電秘訣:“模型+AI Infra+應(yīng)用”三體布局
國(guó)內(nèi)大模型賽道狂奔進(jìn)入第二年,商業(yè)化造血能力已經(jīng)成為多方關(guān)注的焦點(diǎn)。而無(wú)論是 ToC 還是 ToB,如何提前預(yù)判 TC-PMF 是繞不開(kāi)的核心命題。模型性能與推理成本,兩項(xiàng)關(guān)鍵因素直接影響著大模型落地的成敗。
Yi-Lightning 已在 LMSYS 等多項(xiàng)國(guó)際權(quán)威評(píng)測(cè)中取得 SOTA 成績(jī),同時(shí)支持極速推理,模型性能已得到驗(yàn)證。而基于 MoE 模型架構(gòu)與零一萬(wàn)物的 AI Infra 優(yōu)勢(shì),Yi-Lightning 的推理成本也降至行業(yè)新低。
目前, Yi-Lightning 已經(jīng)上線(xiàn) Yi 大模型開(kāi)放平臺(tái)(https://platform.lingyiwanwu.com/),每百萬(wàn) token 僅需 0.99 元,直逼行業(yè)最低價(jià),支持開(kāi)發(fā)者與企業(yè)客戶(hù)輕松實(shí)現(xiàn) SOTA 大模型自由。
基于模型性能顯著升級(jí)、推理成本大幅下降、同時(shí)可實(shí)現(xiàn)極速推理的 Yi-Lightning,零一萬(wàn)物可探索的落地場(chǎng)景將會(huì)進(jìn)一步擴(kuò)展。
10月16日,零一萬(wàn)物也首度對(duì)媒體公布了全新 ToB 戰(zhàn)略下的首發(fā)行業(yè)應(yīng)用產(chǎn)品 AI 2.0 數(shù)字人,聚焦零售和電商等場(chǎng)景,將最新版旗艦?zāi)P蛯?shí)踐到行業(yè)解決方案,在彈幕互動(dòng)、商品信息提取、實(shí)時(shí)話(huà)術(shù)生成等環(huán)節(jié),AI 2.0 數(shù)字人已接入 Yi-Lightning。接入 Yi-Lightning 后,數(shù)字人的實(shí)時(shí)互動(dòng)效果更好,話(huà)術(shù)更絲滑,回復(fù)也更準(zhǔn)確;業(yè)務(wù)數(shù)據(jù)方面,在接入 Yi-Lightning 全新加持的數(shù)字人直播后,某酒旅企業(yè)的 GMV 較此前上升 170%。
,時(shí)長(zhǎng)00:46Yi-Lightning數(shù)字人對(duì)比視頻同時(shí), Yi-Lightning 的“極速”不僅體現(xiàn)在模型推理速度,定制模型的交付速度也會(huì)得到極大提升。受益于 MoE 模型的自身特性、在多階段訓(xùn)練方面的技術(shù)積累,零一萬(wàn)物能夠基于客戶(hù)的特殊需求,進(jìn)行高效地針對(duì)性訓(xùn)練,快速交付貼合特定服務(wù)場(chǎng)景、極速推理、成本極低的私有化定制模型。
打造新質(zhì)生產(chǎn)力
進(jìn)入2024年以來(lái),中國(guó)大模型行業(yè)從狂奔進(jìn)入到了“長(zhǎng)跑階段”,從技術(shù)側(cè)和產(chǎn)業(yè)側(cè)都引發(fā)了行業(yè)的進(jìn)一步思考。
從技術(shù)發(fā)展上看,在算力受限的情況下,中國(guó)基座模型的研發(fā)能力處在世界什么身位,如何追趕國(guó)外頂尖大模型等問(wèn)題引發(fā)外界關(guān)注。甚至一度傳出“中國(guó)可以不用再研發(fā)預(yù)訓(xùn)練基座模型”的說(shuō)法。
零一萬(wàn)物此次推出的Yi-Lightning模型一經(jīng)亮相,就在世界權(quán)威的盲測(cè)榜單LMSYS中擊敗了OpenAI今年五月發(fā)布的GPT-4-2024-05-13。中國(guó)大模型首度超越性能極佳的 GPT-4-2024-05-13 對(duì)于我國(guó)人工智能發(fā)展是個(gè)里程碑事件,彰顯了中國(guó)所孕育的強(qiáng)大技術(shù)實(shí)力。
根據(jù)線(xiàn)上成果展示,零一萬(wàn)物的 Yi-Lightning 翻譯莎士比亞的作品,只要 5 秒鐘;其他模型是 Yi-Lightning 的 2 到 3 倍。
這些都彰顯了中國(guó)大模型公司“模型+基礎(chǔ)設(shè)施+應(yīng)用”“三位一體”全棧式布局的必要性和重要性。
GPT-4o 之后,o1 的發(fā)布是一種新技術(shù)范式的開(kāi)始,代表著大模型的重點(diǎn)從預(yù)訓(xùn)練到推理。接下來(lái)零一萬(wàn)物也會(huì)朝著這個(gè)方向去發(fā)展。
AGI 仍在遠(yuǎn)方,現(xiàn)階段更需要讓大模型能力落地應(yīng)用層, 推動(dòng)整個(gè)大模型行業(yè)形成健康的生態(tài)。
在這一階段,零一萬(wàn)物會(huì)堅(jiān)持“模型+AI Infra+應(yīng)用”三位一體的全棧式布局,以國(guó)際 SOTA 的基座模型為基礎(chǔ),積極在 ToB 企業(yè)級(jí)解決方案上探索 TC-PMF,以更從容的姿態(tài)迎接即將到來(lái)的 AI 普惠時(shí)代。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。