亚洲小说图片区综合在线,日本公厕撒尿高清视频,国产又黄又湿又刺激网站,少妇自慰毛多水多

李飛飛團(tuán)隊(duì)低成本復(fù)刻DeepSeek-R1模型?算力成本桎梏正在被打破
來源:第一財(cái)經(jīng)作者:陳楊園2025-02-07 13:48

李飛飛團(tuán)隊(duì)嘗試將模型成本“打下來”的背后,開源、數(shù)據(jù)和技術(shù)的突破都是關(guān)鍵環(huán)節(jié)。

近日,有消息稱,華裔科學(xué)家、“AI教母”李飛飛的團(tuán)隊(duì)研究人員以不到50美元的費(fèi)用訓(xùn)練了一個能力比肩DeepSeek-R1的s1模型。記者從相關(guān)人士處了解到,這個s1模型的訓(xùn)練并非從零開始,而是基于阿里云通義千問(Qwen)模型進(jìn)行監(jiān)督微調(diào)。

李飛飛團(tuán)隊(duì)發(fā)表的公開論文顯示,基于 Qwen2.5-32B-Instruct 語言模型進(jìn)行監(jiān)督微調(diào)后的 s1-32B 模型,在競賽數(shù)學(xué)問題上的表現(xiàn)超過了 o1-preview,最高提升了 27%(MATH 和 AIME24), 取得了與OpenAI的o1和DeepSeek的R1等尖端推理模型數(shù)學(xué)及編碼能力相當(dāng)?shù)男Ч_@個過程中,李飛飛團(tuán)隊(duì)主要使用了一個包含 1000 個問題及其推理軌跡的小型數(shù)據(jù)集 s1K并開發(fā)了預(yù)算強(qiáng)制(budget forcing)技術(shù)延長模型思考,以超低成本構(gòu)建了一個高質(zhì)量模型。

如何用最簡單的方法實(shí)現(xiàn)模型測試時擴(kuò)展(即允許人工智能模型在回答問題之前進(jìn)行更多思考)和強(qiáng)大推理性能?李飛飛團(tuán)隊(duì)嘗試將模型成本“打下來”的背后,開源、數(shù)據(jù)和技術(shù)的突破都是關(guān)鍵環(huán)節(jié)。

如何實(shí)現(xiàn)?

從技術(shù)的角度來看,李飛飛團(tuán)隊(duì)證明的是數(shù)據(jù)樣本的高質(zhì)量以及簡單的測試時間擴(kuò)展可能帶來的模型訓(xùn)練效率大幅提升。

根據(jù)公開論文,研究團(tuán)隊(duì)首先構(gòu)建了一個由 1000 個經(jīng)過精心篩選的問題組成的 S1K 數(shù)據(jù)集,這些問題配有從 Gemini Thinking Experimental提煉出的推理過程和答案?;谶@個數(shù)據(jù)集,對Qwen2.5-32B-Instruct 語言模型進(jìn)行監(jiān)督微調(diào),李飛飛團(tuán)隊(duì)僅在 16 個 H100 GPU 上花 26 分鐘完成了模型訓(xùn)練。

事實(shí)上,這僅包含1000個問題的數(shù)據(jù)集遠(yuǎn)低于行業(yè)通常的大模型訓(xùn)練數(shù)據(jù)量,李飛飛團(tuán)隊(duì)印證的是高質(zhì)量、高難度和多樣性數(shù)據(jù)所帶來的強(qiáng)大“張力”。研究人員首先遵循質(zhì)量、難度和多樣性三個原則從16個不同的來源收集來59029個問題,包括現(xiàn)有的數(shù)學(xué)問題數(shù)據(jù)集、以及研究人員自己創(chuàng)建的概率問題集、腦筋急轉(zhuǎn)彎問題集,再進(jìn)行樣本檢查、篩選掉格式不佳的數(shù)據(jù)集,選擇推理鏈路長的問題,才最終創(chuàng)建了這個包含50個不同領(lǐng)域的小數(shù)據(jù)集。

2024年,李飛飛曾在接受媒體采訪時反駁“人工智能模型正在耗盡用于訓(xùn)練的數(shù)據(jù)”這一觀點(diǎn),她認(rèn)為當(dāng)前AI訓(xùn)練數(shù)據(jù)并不存在短缺的問題,仍有大量的差異化的數(shù)據(jù)等待挖掘。她強(qiáng)調(diào)的是,高質(zhì)量數(shù)據(jù)正變得前所未有的重要,創(chuàng)建高質(zhì)量的數(shù)據(jù)集是人工智能研究的核心。

另一方面,李飛飛團(tuán)隊(duì)還在S1模型的訓(xùn)練中開發(fā)了一項(xiàng) “預(yù)算強(qiáng)制” 技術(shù)來控制模型在測試時所花費(fèi)的計(jì)算量,來影響模型的推理深度和最終答案。

簡單來說,這個“預(yù)算強(qiáng)制”分為兩種情況:若模型生成的推理token超過設(shè)定的上限,則強(qiáng)制結(jié)束推理過程,并附加思維結(jié)束(end-of-thinking)token,促使模型進(jìn)入答案生成階段。若希望模型在問題上投入更多測試時計(jì)算資源,則抑制思維結(jié)束token的生成,并在推理軌跡中追加 「Wait」,鼓勵模型進(jìn)行更深入的推理探索。研究團(tuán)隊(duì)表示,他們驗(yàn)證了這種方法還可以使模型重新檢查其答案,通常能修正錯誤的推理步驟,提高推理性能。

目前,s1模型及其訓(xùn)練數(shù)據(jù)和代碼已在GitHub上開源,研究團(tuán)隊(duì)表示,他們希望能夠激發(fā)未來關(guān)于簡單推理的研究。

開源大模型的進(jìn)擊

隨著大模型“燒錢”的降溫,如何用更低的成本訓(xùn)練高性能模型,正在成為業(yè)內(nèi)的關(guān)注重心之一。

與李飛飛團(tuán)隊(duì)所做的“監(jiān)督微調(diào)”不同的是,此前,DeepSeek在發(fā)布DeepSeek-R1時,還通過 DeepSeek-R1 的輸出,蒸餾了 6 個小模型開源給社區(qū)。DeepSeek表示,基于Qwen-32B和Llama-70B蒸餾的模型,在多項(xiàng)能力上實(shí)現(xiàn)了對標(biāo) OpenAI o1-mini 的效果。

一位業(yè)內(nèi)人士對記者表示,無論是李飛飛團(tuán)隊(duì)提煉精華數(shù)據(jù)在Qwen上做監(jiān)督微調(diào),還是DeepSeek的蒸餾,即將DeepSeek-R1 作為教師模型,把Qwen作為學(xué)生模型,將教師模型的能力蒸餾給學(xué)生模型,都實(shí)現(xiàn)了新模型的高性能。這是兩種不同的技術(shù)路線,但都降低了高性能模型的訓(xùn)練成本。

伴隨著DeepSeek的火爆和s1模型基于通義千問監(jiān)督微調(diào)的低成本訓(xùn)練,開源大模型對行業(yè)格局的影響正在加深。根據(jù)開源社區(qū)HuggingFace的數(shù)據(jù)統(tǒng)計(jì),海內(nèi)外開源社區(qū)中Qwen的衍生模型數(shù)量已突破9萬,2024年,僅視覺理解Qwen-VL及Qwen2-VL兩款模型全球下載量就突破3200萬次。大模型開源生態(tài)正在迅速發(fā)展中。

在模型訓(xùn)練“性價比”受關(guān)注的當(dāng)下,開源大模型正在給閉源大模型帶來持續(xù)挑戰(zhàn)。廣發(fā)證券研究指出,隨著DeepSeek全球下載量登頂,基于R1的完全開源,API服務(wù)定價遠(yuǎn)低于OpenAI,海外市場總體認(rèn)為,訓(xùn)練和推理成本下降可能帶來更快的創(chuàng)新、模型的普及,以及更多推理需求。同時,算力的敘事會受到一定影響,開源和閉源模型性能差距的縮小可能對基礎(chǔ)模型開發(fā)公司(閉源)帶來挑戰(zhàn),因?yàn)楦阋说拈_源選項(xiàng)會吞噬市場需求。

而隨著更多開源大模型的發(fā)展以及模型訓(xùn)練技術(shù)、數(shù)據(jù)質(zhì)量提升的探索,行業(yè)的更多玩家也將受到影響。廣發(fā)證券同時提到,未來,大模型成本、效率的提升可能給AI應(yīng)用類公司帶來利好,因?yàn)檫@類公司正在尋求機(jī)會在LLM(大語言模型)以及新模型的基礎(chǔ)上開發(fā)產(chǎn)品,因此成本效率提升會帶來這些公司資本回報率的回升。此外,云廠商間的競爭也在加速關(guān)注DeepSeek等開源大模型的生態(tài)服務(wù),搶食開源大模型算力需求。

在這場大模型技術(shù)“普惠”與技術(shù)升級的多徑賽跑上,更多DeepSeek、s1般的故事正被業(yè)界期待,也將有更多快速迭代、追趕的壓力給到從業(yè)者。

責(zé)任編輯: 李志強(qiáng)
聲明:證券時報力求信息真實(shí)、準(zhǔn)確,文章提及內(nèi)容僅供參考,不構(gòu)成實(shí)質(zhì)性投資建議,據(jù)此操作風(fēng)險自擔(dān)
下載“證券時報”官方APP,或關(guān)注官方微信公眾號,即可隨時了解股市動態(tài),洞察政策信息,把握財(cái)富機(jī)會。
網(wǎng)友評論
登錄后可以發(fā)言
發(fā)送
網(wǎng)友評論僅供其表達(dá)個人看法,并不表明證券時報立場
暫無評論
為你推薦
時報熱榜
換一換
    熱點(diǎn)視頻
    換一換