2025年第一個月,國產(chǎn)o1類模型開始密集更新,發(fā)布者包括“六小虎”中的月之暗面、階躍星辰,以及獨立于創(chuàng)業(yè)公司格局外的DeepSeek。
1月20日,DeepSeek正式發(fā)布性能對齊OpenAI-o1正式版的DeepSeek-R1,并同步開源模型權(quán)重。
根據(jù)DeepSeek披露的測試結(jié)果,它在數(shù)學、代碼、自然語言推理等任務(wù)上與OpenAI-o1-1217基本持平,尤其在AIME 2024(美國數(shù)學邀請賽)、MATH-500、SWE-Bench Verified(軟件開發(fā)領(lǐng)域測試集)三項測試集上以微弱優(yōu)勢取勝。
作為對R1能力的一種驗證,由660B版本R1蒸餾得到的多個小尺寸模型中,32B和70B兩款模型在多項能力上能夠與OpenAI o1-mini對標。并且,這些蒸餾模型分屬Q(mào)wen系列和Llama系列,其中,14B Qwen系列蒸餾模型,其各項推理類測試集表現(xiàn)已經(jīng)明顯好于QwQ-32B-Preview。
需要指出的是,DeepSeek還同步開源了DeepSeek-R1-Zero,這是一個僅在預(yù)訓練基礎(chǔ)上加入了RL(強化學習)而沒有經(jīng)過SFT(監(jiān)督微調(diào))的成果。
由于沒有人類監(jiān)督數(shù)據(jù)介入,R1-Zero在生成上可能存在可讀性較差、語言混雜的現(xiàn)象,但該模型仍然足以對標OpenAI-o1-0912。此外,它更重要的意義是側(cè)重于探索僅通過強化學習訓練大語言模型以獲得推理能力的技術(shù)可能性,為相關(guān)后續(xù)研究提供了重要基礎(chǔ)。
定價方面,DeepSeek延續(xù)了“AI大模型界拼多多”的身份標簽。DeepSeek-R1 API服務(wù)定價為每百萬輸入tokens 1元(緩存命中)/ 4元(緩存未命中),每百萬輸出tokens為16元。這番價格中,其緩存命中的輸入token價格不足OpenAI o1的2%,緩存未命中的輸入價格及輸出價格也僅為o1的3.6%。
另一個與DeepSeek-R1顯得針鋒相對的推理類模型,是月之暗面于同一天發(fā)布的K1.5。
從去年11月開始,月之暗面已經(jīng)更新了k0-math數(shù)學模型、k1視覺思考模型等加入了強化學習的k系列模型。k1.5按照模態(tài)思路推進,是一個多模態(tài)思考模型。
月之暗面給k1.5的定位是“多模態(tài)o1”。簡單而言,k1.5同時包含多模態(tài)的通用能力和推理能力。
據(jù)官方數(shù)據(jù),其Short-CoT(可理解為短思考)模式下的數(shù)學、代碼、視覺多模態(tài)和通用能力,對標GPT-4o和Claude 3.5 Sonnet;Long-CoT(可理解為長思考)模式下的數(shù)學、代碼、多模態(tài)推理能力,則達到了OpenAI o1正式版水平。
就R1和k1.5的訓練方式而言,二者都采用了強化學習、多階段訓練、思維鏈以及獎勵模型。從公開信息看來,其不同環(huán)節(jié)存在各自的技術(shù)策略。
DeepSeek利用了數(shù)千條長CoT冷啟動數(shù)據(jù),先是對DeepSeek-V3-Base這一基礎(chǔ)模型進行微調(diào)。隨后進行面向推理的大規(guī)模RL訓練,并引入語言一致性獎勵克服語言混雜問題。經(jīng)歷監(jiān)督微調(diào)(SFT)之后,又進行適用于所有場景的強化學習,對推理數(shù)據(jù)和一般數(shù)據(jù)采用不同的獎勵規(guī)則。
另外,R1在強化學習中加入了組相對策略優(yōu)化算法(Group Relative Policy Optimization,GRPO),從效果上來說,它能夠優(yōu)化策略、提高樣本效率和增強算法穩(wěn)定性等。
k1.5一方面將強化學習的上下文窗口擴展到128k,另一方面采用在線鏡像下降的變體進行穩(wěn)健的策略優(yōu)化,兩者相結(jié)合讓k1.5能夠建立一個相對簡潔的強化學習框架,在不加入蒙特卡洛樹搜索、價值函數(shù)和過程獎勵模型等更復雜技術(shù)的情況下,也能夠保證性能。
需要指出的是,k1.5在強化學習中還加入了“長度懲罰”來抑制響應(yīng)長度,即確立一個公式,根據(jù)響應(yīng)長度和確定性來分配獎勵值。此外它還采用了“最短拒絕采用方法”(選擇最短的正確響應(yīng)進行監(jiān)督微調(diào))等方法來抑制響應(yīng)長度。
k1.5的另一個特點是對文本和視覺數(shù)據(jù)進行了聯(lián)合訓練,這使其具備多模態(tài)能力。不過Kimi也承認,由于部分輸入主要支持文本格式,其面對部分幾何圖題的圖形理解能力還不夠強大。
在此之前,階躍星辰也于1月16日上線了Step Reasoner mini(下稱“Step R-mini”)實驗版。這也是一款具備超長推理能力的推理模型。
但它還未完全準備好的是,目前在測試集中主要對標OpenAI o1-preview和o1-mini,而非o1完整版,當然這應(yīng)該也與模型大小和訓練方式有關(guān)。在國內(nèi)對標模型上,其表現(xiàn)與QwQ-32B-Preview相近。
不過,階躍星辰強調(diào)其“文理兼顧”,使用了On-Policy(同策略)強化學習算法,在保證數(shù)學、代碼、邏輯推理能力的同時,也能夠完成文學內(nèi)容創(chuàng)作和日常聊天的任務(wù)。
至此,從去年9月OpenAI以o1模型變革模型訓練范式之后,各家大模型公司開始兌現(xiàn)當時的行業(yè)預(yù)期,形成了一定規(guī)模的國產(chǎn)o1類模型跟進潮。
但在所有玩家密切跟進o1的同時,OpenAI又在去年12月的發(fā)布季上讓o3和o3-mini一同亮相。盡管還沒有正式上線,但從OpenAI披露的數(shù)據(jù)來看,o3的性能相比o1又猛長了一大截。
例如,在SWE-Bench Verified這一軟件開發(fā)測試集中,o3得分71.7%,而o1僅有48.9%;在AIME2024測試集中,o3準確率96.7%,而o1為83.3%。o3的一些表現(xiàn),已經(jīng)開始展現(xiàn)AGI(通用人工智能)的初步特征。
當然,o3也存在自己的問題。一方面,o系列模型普遍更擅長邊界清晰、定義明確的任務(wù),對部分現(xiàn)實世界的工程任務(wù)處理還存在欠缺。另一方面,近期,o3在FrontierMath這項數(shù)學基準測試中,也因OpenAI資助過相關(guān)機構(gòu)而面臨提前獲取真題的真實能力水平質(zhì)疑。
但擺在國內(nèi)大模型公司面前的共同問題仍然是明確的。從技術(shù)上來說,無論是DeepSeek-R1還是k1.5,都還沒有成功加入過程獎勵模型和蒙特卡洛樹搜索等更復雜技術(shù),而這是否是模型進一步提高推理能力的關(guān)鍵方法,我們還無從得知。
另外,從o1到o3,OpenAI公布的間隔時間僅有三個月,這意味著強化學習帶來的推理階段scaling up的技術(shù)范式,顯然比GPT系列模型以年為單位的預(yù)訓練范式的節(jié)奏要快。
這是國內(nèi)大模型公司共同要面對的競爭壓力。OpenAI不僅找到了更明確的技術(shù)路徑,并且有足夠的資源快速驗證并推進。當下,國內(nèi)大模型行業(yè)將比過去更需要加速提效的突破式創(chuàng)新。