3月10日,字節(jié)豆包大模型團隊官宣開源一項針對MoE架構的關鍵優(yōu)化技術,可將大模型訓練效率提升1.7倍,成本節(jié)省40%。
據(jù)悉,該技術已實際應用于字節(jié)的萬卡集群訓練,累計幫助節(jié)省了數(shù)百萬GPU小時訓練算力。
入選頂級會議MLSys 2025
據(jù)了解,MoE是當前大模型的主流架構,但其在分布式訓練中存在大量跨設備通信開銷,嚴重制約了大模型訓練效率和成本。以海外主流模型Mixtral-8x7B為例,其訓練過程中通信時間占比可高達40%。
針對這一難題,字節(jié)在內(nèi)部研發(fā)了COMET計算-通信重疊技術,通過多項創(chuàng)新,大幅壓縮了MoE專家通信空轉(zhuǎn)時間。
相較DeepSeek近期開源的DualPipe等MoE優(yōu)化方案,COMET可以像插件一樣直接接入已有的MoE訓練框架,支持業(yè)界絕大部分主流大模型,無需對訓練框架進行侵入式改動。該工作以5/5/5/4的高分入選全球機器學習系統(tǒng)頂級會議MLSys 2025 ,被認為“在大規(guī)模生產(chǎn)環(huán)境中極具應用潛力”。
COMET與Deepseek研發(fā)的DualPipe方案還可以聯(lián)合使用。在降低MoE通信開銷上,COMET采用了計算-通信融合算子的優(yōu)化方式,DualPipe則通過排布算子來掩蓋通信,兩種方案并不沖突,結合使用或?qū)⒏蠓葔嚎s模型訓練成本。
目前,COMET支持多種MoE并行模式,部署靈活、方便。同時,COMET核心代碼已開源,并向開發(fā)者提供了一套友好的Python API,計劃兼容Triton等編譯生態(tài)。
近期國內(nèi)大模型研發(fā)技術快速獲得突破,相關APP下載量也迅速增長。下載量排名成為外界觀察各家大模型實用能力最直接的窗口。截至發(fā)稿,DeepSeek在中國區(qū)蘋果應用商店免費APP下載排行榜首,第二名是豆包,第三名是騰訊元寶。
最新辟謠
3月10日,寒武紀(688256.SH)股價午后出現(xiàn)拉升,一度漲超5%,收漲3.87%,報779元/股,總市值3252億元。
有市場消息稱,字節(jié)跳動向寒武紀下單4萬顆580芯片,單價2.5萬元,總價值合計10億元。
對此,字節(jié)跳動相關負責人表示,消息不實。
近期一度大火的Manus也傳曾婉拒字節(jié)的投資。
據(jù)報道,開發(fā)出Manus的中國創(chuàng)業(yè)公司——Monica,在2024年年初曾經(jīng)與字節(jié)進行過一輪收購談判。當時字節(jié)出價3000萬美元,但因為遠遠達不到創(chuàng)始人肖弘的心理價位,這次談判最終不歡而散。
接近Monica內(nèi)部的從業(yè)者表示,字節(jié)收購的邏輯是以3000萬美金的價格收購團隊,將其團隊和產(chǎn)品整合到豆包體系中,但是Monica進入字節(jié)后就會跟字節(jié)大模型戰(zhàn)略綁定,就喪失了Monica產(chǎn)品上的獨特優(yōu)勢。這也是肖弘及其團隊不看好這場收購的主要原因。目前Monica估值接近1億美元。
對此,截至目前,字節(jié)跳動并未給予回應。
傳抖音將接入豆包大模型
近期有消息稱,抖音App正在測試接入豆包App的AI能力,為用戶帶來更加豐富多元的智能體驗。
在測試版本中,抖音為豆包App開放了兩個超級入口:一個置于短視頻界面,與點贊、評論、轉(zhuǎn)發(fā)等功能并列;另一個則放在抖音的消息列表內(nèi),使AI技術與社交功能深度融合,進一步強化了用戶互動體驗。
此前,豆包App雖然具備對話、創(chuàng)作及圖像生成等功能,但用戶需要離開抖音App才能使用,這在一定程度上,也限制了豆包大模型的使用頻率。
而通過將豆包直接嵌入抖音的兩個重要入口,抖音App將直接打通豆包大模型中成熟的AI功能,用戶無需跳轉(zhuǎn)即可使用AI服務,這不僅能強化抖音自身的AI能力,實現(xiàn)流量與功能的深度綁定,還能通過抖音龐大的用戶基數(shù)為豆包導流,推動“AI生態(tài)閉環(huán)”的建設。
此外,抖音接入豆包還可以延長用戶在抖音的停留時間,增加流量和用戶粘性,為廣告、電商等傳統(tǒng)業(yè)務提供更大空間。