春節(jié)前,國(guó)內(nèi)大模型迎來(lái)一波密集更新。
1月20日上午,MiniMax海螺上線了語(yǔ)音功能,同日下午,字節(jié)豆包上線實(shí)時(shí)語(yǔ)音大模型。1月20日晚,DeepSeek發(fā)布了DeepSeek-R1模型,一個(gè)多小時(shí)后,月之暗面Kimi就推出k1.5多模態(tài)思考模型,兩家都稱(chēng)新模型性能對(duì)標(biāo)OpenAI o1正式版。
以上更新既包括追趕OpenAI o1系列推理模型,又包括追趕OpenAI的實(shí)時(shí)語(yǔ)音功能。 1月21日,騰訊則開(kāi)源了混元3D生成大模型2.0,指向另一個(gè)方向3D生成大模型,面向游戲、具身智能等領(lǐng)域的大模型應(yīng)用。同一天,一直強(qiáng)調(diào)應(yīng)用的百度開(kāi)啟“自由畫(huà)布”應(yīng)用的公測(cè),百度副總裁王穎透露,百度文庫(kù)AI功能MAU(月活躍用戶)已突破9000萬(wàn)。更新的同時(shí),一些大模型企業(yè)透露了后續(xù)迭代方向。這些大模型企業(yè)年初釋放的信號(hào)可能指明了今年大模型領(lǐng)域的競(jìng)爭(zhēng)方向。
拉近與OpenAI的差距
一名國(guó)內(nèi)頭部大模型廠商研發(fā)人員看過(guò)Kimi k1.5和DeepSeek-R1的報(bào)告后,告訴第一財(cái)經(jīng)記者,這兩個(gè)模型更新與OpenAI o1系列的長(zhǎng)思維鏈推理方向大致一致,但技術(shù)方案可能不完全相同,畢竟OpenAI沒(méi)有詳細(xì)透露o1的做法。這類(lèi)模型的迭代要點(diǎn)還在于技術(shù)指標(biāo)提升,不在于功能開(kāi)發(fā)。
當(dāng)前,并非所有國(guó)內(nèi)頭部大模型廠商都已經(jīng)追趕上o1的能力,但最新更新的兩個(gè)模型在一些能力上追上了o1。月之暗面稱(chēng),在long-CoT(長(zhǎng)鏈思維)模式下,Kimi k1.5的數(shù)學(xué)、代碼、多模態(tài)推理能力達(dá)到長(zhǎng)思考SOTA(某領(lǐng)域性能最優(yōu)、最先進(jìn))模型o1正式版的水平,這是OpenAI之外的公司首次實(shí)現(xiàn)o1正式版的多模態(tài)推理性能。Kimi是在去年11月發(fā)布k0-math數(shù)學(xué)模型、12月發(fā)布k1視覺(jué)思考模型后再一次更新k系列模型。
DeepSeek則表示,DeepSeek-R1在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上的性能比肩o1正式版,且該模型的API服務(wù)定價(jià)為每百萬(wàn)tokens輸入 1元(緩存命中)、每百萬(wàn)tokens 輸出16元,遠(yuǎn)低于o1的55元、438元。
相對(duì)閉源的OpenAI o1,這兩家大模型公司對(duì)新模型的態(tài)度相對(duì)開(kāi)放。Kimi首次公開(kāi)了模型訓(xùn)練技術(shù)報(bào)告,DeepSeek-R1上線API接口的同時(shí)也開(kāi)源了模型權(quán)重。從發(fā)布時(shí)間看,國(guó)內(nèi)大模型公司與OpenAI的技術(shù)差距可能縮短至1個(gè)多月。當(dāng)?shù)貢r(shí)間2024年12月18日,OpenAI推出了正式版o1模型,取代了去年9月發(fā)布的預(yù)覽版o1-preview,目前距離o1正式版發(fā)布只有1個(gè)多月時(shí)間。
一些學(xué)術(shù)界人士認(rèn)為,新推出的模型代表了業(yè)界先進(jìn)水平。加利福尼亞大學(xué)伯克利分校教授Alex Dimakis表示,跟他交流過(guò)的多數(shù)AI研究人員都對(duì)DeepSeek-R1的性能感到有些震驚,DeepSeek似乎是奔赴OpenAI最初使命的“最佳人選”,其他公司需要迎頭趕上?!拔覀兩钤谶@樣一個(gè)時(shí)代,一家非美國(guó)公司正在讓OpenAI的初衷得以延續(xù),即做真正開(kāi)放、為所有人賦能的前沿研究。DeepSeek-R1可能是第一個(gè)展示了RL(強(qiáng)化學(xué)習(xí))飛輪可發(fā)揮作用且能帶來(lái)持續(xù)增長(zhǎng)的OSS(開(kāi)源軟件)項(xiàng)目?!庇ミ_(dá)高級(jí)研究科學(xué)家Jim Fan表示。
發(fā)布新模型的同時(shí),月之暗面透露了下一步迭代方向,稱(chēng)Kimi會(huì)繼續(xù)升級(jí)k系列強(qiáng)化學(xué)習(xí)模型,帶來(lái)更多模態(tài)、更多領(lǐng)域的能力和更強(qiáng)的通用能力。
語(yǔ)音方面,OpenAI去年5月發(fā)布可實(shí)時(shí)語(yǔ)音交互的4o模型,9月向ChatGPT訂閱用戶開(kāi)放高級(jí)語(yǔ)音模式。MiniMax和字節(jié)豆包的語(yǔ)音功能上線距離OpenAI開(kāi)放高級(jí)語(yǔ)音模式則是近4個(gè)月時(shí)間。
尋找新方向
1月21日下午,騰訊混元開(kāi)源了3D生成大模型2.0版本,該大模型支持文生、圖生3D的能力,混元同時(shí)上線了3D內(nèi)容AI創(chuàng)作平臺(tái)混元3D AI創(chuàng)作引擎。
與OpenAI等大模型廠商在大語(yǔ)言模型領(lǐng)域推進(jìn)長(zhǎng)思維鏈推理、多模態(tài)交互的方向不同,3D生成大模型針對(duì)的是3D資產(chǎn)生成,面向游戲制作、電商廣告、工業(yè)制造、具身智能等領(lǐng)域,騰訊等企業(yè)正在探索這個(gè)方向。據(jù)介紹,混元3D生成能力已用于騰訊內(nèi)部游戲業(yè)務(wù),可讓3D資產(chǎn)制作時(shí)間成本由5~10天級(jí)別下降至分鐘級(jí),同時(shí)也用于騰訊地圖的3D導(dǎo)航車(chē)標(biāo)自定義。
3D生成大模型應(yīng)用后續(xù)可能還會(huì)擴(kuò)大。此前記者了解到,游戲美術(shù)領(lǐng)域AI生成2D資產(chǎn)的技術(shù)較成熟,3D技術(shù)還需要進(jìn)一步成熟。就AI在游戲領(lǐng)域的實(shí)際使用情況,騰訊游戲在研項(xiàng)目制作人王智剛告訴記者,他負(fù)責(zé)的項(xiàng)目在提高AI于制作管線中的滲透率,使用AI輔助后,制作一個(gè)游戲圖標(biāo)的時(shí)間已從一兩天降到幾十秒,成本從幾百元降到幾分錢(qián),目前2D環(huán)節(jié)原畫(huà)都會(huì)用AI生圖,3D生成大模型技術(shù)也在提升3D資產(chǎn)制作效率。目前3D生成大模型技術(shù)可以應(yīng)用到休閑游戲,但他判斷,隨著技術(shù)優(yōu)化,用于偏寫(xiě)實(shí)的游戲項(xiàng)目后續(xù)也將可行。
騰訊混元3D負(fù)責(zé)人郭春超則介紹,很多具身智能機(jī)器人團(tuán)隊(duì)已經(jīng)找到混元,希望獲得接口來(lái)生成機(jī)器人仿真環(huán)境中的3D資產(chǎn),也有一些自動(dòng)駕駛公司希望用3D生成大模型來(lái)生成數(shù)據(jù)。
從技術(shù)可提升空間看,郭春超表示,業(yè)界有關(guān)于大語(yǔ)言模型Scaling Law(縮放定律)是否失效的討論,但3D領(lǐng)域距離Scaling Law觸碰天花板還有很遠(yuǎn),原因在于3D領(lǐng)域數(shù)據(jù)量不多,可能只是千萬(wàn)tokens級(jí)別,而文本領(lǐng)域的數(shù)據(jù)是T(千億)級(jí)別,圖片是百億量級(jí)。
不過(guò),3D生成大模型領(lǐng)域也存在挑戰(zhàn)。郭春超告訴記者,最大的技術(shù)挑戰(zhàn)在于數(shù)據(jù)量不足。從成熟度看,3D和視頻大模型還沒(méi)有到達(dá)充分的拐點(diǎn),仍處于前半賽程。
“就3D大模型技術(shù)發(fā)展的最終形態(tài),業(yè)界分歧非常大,包括世界模型是什么也沒(méi)有明確的定義,目前主要流派包括Sora純視頻生成、谷歌Genie 2可交互視頻生成、World Lab世界模型等,各種流派各有優(yōu)缺點(diǎn)。” 郭春超表示,關(guān)于3D生成大模型下一步往什么方向迭代,團(tuán)隊(duì)一直在思考,方向包括從生成3D人物或物體延伸到生成3D場(chǎng)景等,但至于一年后是何種形態(tài),目前還難以預(yù)料。