類似于GPT3里程碑意義的Sora,再度引發(fā)市場對巨大潛力領(lǐng)域的展望。
01
Sora何許人也?
2024年2月16日,OpenAI推出一款展示效果驚艷,創(chuàng)立了視覺模型里程碑文生視頻模型Sora。
Sora根據(jù)文字生成視頻資料來源:Sora官網(wǎng)
視頻生成一直是AI領(lǐng)域的重要方向,先前的許多工作研究了視頻數(shù)據(jù)的生成建模方向,包括循環(huán)網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)、自回歸transformer和擴散模型。這些工作通常關(guān)注一小類視覺數(shù)據(jù)、較短的視頻或固定大小的視頻。
與之不同的是,OpenAI的Sora是視覺數(shù)據(jù)的通用模型,通過一次為模型提供多幀的預(yù)測,解決了一個具有挑戰(zhàn)性的問題,即確保主題即使暫時離開視野也保持不變,具體而言,就是涌現(xiàn)對真實物理的理解力。
OpenAI發(fā)現(xiàn),視頻模型在經(jīng)過大規(guī)模訓(xùn)練后,會表現(xiàn)出許多有趣的新能力。這些能力使Sora能夠模擬物理世界中的人、動物和環(huán)境的某些方面。這些特性的出現(xiàn)沒有任何明確的三維、物體等歸納偏差,純粹是規(guī)?,F(xiàn)象。Sora可以生成動態(tài)攝像機運動的視頻,隨著攝像機的移動和旋轉(zhuǎn),人物和場景元素在三維空間中的移動是一致的,而視頻生成系統(tǒng)面臨的一個重大挑戰(zhàn)正是在對長視頻進行采樣時保持時間一致性。
雖然Sora并不總是能有效地模擬短距離和長距離的依賴關(guān)系,但它在很多時候仍然能做到這一點。例如,即使人、動物和物體被遮擋或離開畫面,Sora模型也能保持它們的存在。同樣,它還能在單個樣本中生成同一角色的多個鏡頭,并在整個視頻中保持其外觀。這些功能表明,視頻模型的持續(xù)擴展是開發(fā)物理和數(shù)字世界以及其中的物體、動物和人的高能力模擬器的一條可能的道路。
資料來源:Sora官網(wǎng)
同時,Sora可以生成不同時長、長寬比和分辨率的視頻和圖像,而且最多可以輸出長達(dá)一分鐘的高清視頻。
由于處理生成視頻內(nèi)容需要消耗大量算力資源,加上內(nèi)容既要時間上連貫,又要符合物理世界規(guī)律,才能保證生成的視頻逼真,而開發(fā)能夠理解復(fù)雜敘述結(jié)構(gòu)和邏輯關(guān)系的文生視頻模型是非常困難的,時間越長,維持這種連貫性和邏輯性就會越難,這就導(dǎo)致過去一年主流AI生成視頻模型所生成的視頻長度最長也僅十余秒。
Sora標(biāo)志了擴散+語言大模型融合路線的成功,未來具有很大的迭代潛力,類似于GPT3的里程碑意義。
02
Sora對應(yīng)的國內(nèi)行業(yè)機遇在哪里?
Sorta模型的推出顯示了大模型的巨大潛力,也對算力的需求和性能提出了更高的要求,半導(dǎo)體行業(yè)又迎來了新一輪的增長曲線。
大模型驅(qū)動下,全球算力規(guī)模保持高速穩(wěn)定增長。復(fù)雜的模型和大規(guī)模的訓(xùn)練需要大規(guī)模的高算力支持,這不僅需要消耗大量計算資源,而且對算力的速度、精度、性能也提出更高要求。在以人工智能、萬物互聯(lián)為特征的智能數(shù)字經(jīng)濟時代背景下,全球數(shù)據(jù)總量和算力規(guī)模繼續(xù)呈現(xiàn)高速增長態(tài)勢。
根據(jù)《中國算力發(fā)展指數(shù)白皮書》,2022年全球計算設(shè)備算力總規(guī)模達(dá)到906EFlops,增速達(dá)到47%,其中基礎(chǔ)算力規(guī)模(FP32)為440EFlops,智能算力規(guī)模(換算為FP32)為451EFlops,超算算力規(guī)模(換算為FP32)為16EFlops。
2022年我國算力總規(guī)模達(dá)到302EFlops,全球占比約為33%,連續(xù)兩年增速超過50%,高于全球增速。基礎(chǔ)算力規(guī)模為120EFlops,增速26%,在我國算力占比為40%;智能算力規(guī)模達(dá)到178.5EFlops,增速72%,占比達(dá)59%,成為算力快速增長的驅(qū)動力。
數(shù)據(jù)來源:中國信息通信研究院,IDC,Gartner
根據(jù)DiT模型創(chuàng)立者謝賽寧博士粗略測算,Sora模型的參數(shù)規(guī)模大約為30億。根據(jù)對可訓(xùn)練數(shù)據(jù)量的研究成果,海外大型視頻網(wǎng)站每分鐘大約上傳500小時視頻內(nèi)容。由此我們測算訓(xùn)練Sora模型需要約7.09萬張H100一個月的訓(xùn)練量。在推理側(cè),根據(jù)相關(guān)研究測算生成一張圖的算力消耗約為256個詞的消耗。由此推算生成一個1分鐘時長短視頻的算力消耗約是生成一次文字對話的千倍以上。中短期算力將持續(xù)處于短缺不能充分滿足推理側(cè)需求。
GPT-4、Dall·E2、Gen2、Sora,主流模型多模態(tài)加速演進資料來源:OpenAI官網(wǎng),Runway官網(wǎng)
根據(jù)目前AI新智界、澎湃新聞等數(shù)據(jù),專業(yè)機構(gòu)假設(shè)SORA應(yīng)用的Transformer架構(gòu)與ChatGPTTransformer架構(gòu)相同,且參數(shù)量相同,同時假設(shè)數(shù)據(jù)數(shù)據(jù)精度為FP16,訓(xùn)練10天,則需要應(yīng)為英偉達(dá)H100卡數(shù)為59500張,即Sora架構(gòu)的訓(xùn)練與傳統(tǒng)大語言模型(LLM)Transformer架構(gòu)的訓(xùn)練算力需求存在近百倍差距。
03
相關(guān)企業(yè)有哪些?
首先,算力需求增長是確定性最強的方向,浪潮信息、中科曙光、神州數(shù)碼、紫光股份、首都在線等企業(yè)都參與其中;同時,算力緊缺大背景下,配套光網(wǎng)絡(luò)持續(xù)升級的需求極強,帶動產(chǎn)業(yè)鏈圍繞尖端算力芯片持續(xù)迭代升級,北美光模塊核心供應(yīng)商的中際旭創(chuàng)、新易盛,及其上游核心供應(yīng)商天孚通信都有望受益。
而在交換機領(lǐng)域,GPU服務(wù)器按照GPU芯片之前的互聯(lián)方式中的常規(guī)服務(wù)器PCIE機型,受限于PCIE的帶寬上限,卡與卡雙向互聯(lián)帶寬低,不滿足大模型訓(xùn)練需求,因此只能通過Nvlink機型,即GPU卡之間通過NVLINK鏈路互聯(lián),相比PCIE帶寬更高,更適合于大模型訓(xùn)練場景,使得交換機國產(chǎn)替代龍頭紫光股份、銳捷網(wǎng)絡(luò),交換機芯片龍頭盛科通信、ICT巨頭中興通訊都有需求增量。
此外,構(gòu)建算力第二極的華為海思昇騰AI芯片,其整個產(chǎn)業(yè)鏈具備較高的關(guān)注價值。
昇騰AI芯片的計算核心主要由AICore構(gòu)成:AICore采用了達(dá)芬奇架構(gòu),它包括了三種基礎(chǔ)計算資源,矩陣計算單元、向量計算單元和標(biāo)量計算單元。這三種計算單元分別對應(yīng)了張量、向量和標(biāo)量三種常見的計算模式,在實際的計算過程中各司其職,形成了三條獨立的執(zhí)行流水線,在系統(tǒng)軟件的統(tǒng)一調(diào)度下互相配合達(dá)到優(yōu)化的計算效率,AICore中的矩陣計算單元目前可以支持INT8、INT4和FP16的計算;向量計算單元目前可以支持FP16和FP32的計算。專業(yè)人士認(rèn)為本質(zhì)上講昇騰芯片屬于專為AI而生的特定域架構(gòu)芯片,根據(jù)和各AI訓(xùn)練卡參數(shù)規(guī)格一覽可知,國產(chǎn)算力華為已具備性價比。
當(dāng)前,華為昇騰計算平臺CANN已經(jīng)實現(xiàn)從0至1突破。2018年9月,CANN1.0華為昇騰AI使能平臺誕生,2020年8月,CANN3.0版本發(fā)布,作為專門面向AI場景的異構(gòu)計算架構(gòu),搭起了上層深度學(xué)習(xí)框架和底層AI硬件平臺的橋梁,目前華為CANN計算平臺已經(jīng)到了7.0版本,其生態(tài)加速繁榮。
華為CANN昇騰AI計算平臺 資料來源:昇騰官網(wǎng)
整個產(chǎn)業(yè)鏈背后,服務(wù)器相關(guān)的有高新發(fā)展、神州數(shù)碼、拓維信息、中國長城等企業(yè);電源相關(guān)的是泰嘉股份;算力一體機相關(guān)的有開普云、云從科技、科大訊飛、安恒信息、新致軟件等;鴻蒙相關(guān)的有九聯(lián)科技、潤和軟件、軟通動力、中軟國際等。