亚洲小说图片区综合在线,日本公厕撒尿高清视频,国产又黄又湿又刺激网站,少妇自慰毛多水多

短視頻的GPT時代!Sora重磅亮相,世界的模擬器或已誕生 | 智庫
來源:新財富雜志作者:吳珺 朱珺2024-03-07 19:43

OpenAI官方發(fā)布的文生視頻模型Sora,可快速生成最多長達(dá)60秒的相應(yīng)視頻內(nèi)容,重新定義了AI生成視頻的技術(shù)突破。在此之前,一些模型已實現(xiàn)了功能的持續(xù)迭代,并初步實現(xiàn)商業(yè)化,例如Pika 1.0免費對公眾開放,Gen-2模型采用套餐包訂閱收費模式,中國大陸的年套餐訂閱價格為998元。

2024年有望迎來AI視頻年。我們可以期待在時機成熟后,Sora模型對全行業(yè)掀起的新一輪革命。不過,Sora仍面臨著一些調(diào)整,一是商業(yè)化需要算力支持,生成成本仍然較高;二是Sora面臨版權(quán)與產(chǎn)權(quán)的挑戰(zhàn);三是Sora底層數(shù)據(jù)的訓(xùn)練需考慮隱私與數(shù)據(jù)保護。

來源:新財富雜志(ID:xcfplus)

作者:朱珺(華泰證券研究所傳媒行業(yè)首席分析師)吳珺(華泰證券研究所傳媒行業(yè)分析師)

2024年2月16日凌晨,OpenAI官方發(fā)布了文生視頻模型Sora。該模型最長可以生成長達(dá)一分鐘的高清視頻,重新定義了AI生成視頻的技術(shù)突破。Sora模型將自然語言處理技術(shù)與視頻生成技術(shù)相結(jié)合,使用大量帶有相應(yīng)文本字幕的視頻進行訓(xùn)練。用戶僅需通過輸入文字描述,Sora即可快速生成最多長達(dá)60秒的相應(yīng)視頻內(nèi)容。

Sora具備生成包括多個角色、特定類型的運動、準(zhǔn)確細(xì)節(jié)的主體和復(fù)雜場景的能力,還能夠創(chuàng)建多個鏡頭,模擬復(fù)雜的攝像機運鏡效果,使生成的視頻更加生動。此外,由于OpenAI將擴散模型與大語言模型(LLM)相結(jié)合,使Sora具備理解和模擬真實世界的能力,所生成的視頻中已經(jīng)可以展現(xiàn)空間以及空間內(nèi)物體之間的真實物理關(guān)系。除了文生視頻功能外,Sora還具備圖生視頻、視頻擴展、視頻拼接、視頻編輯、圖像生成等功能。

01

Sora有何優(yōu)勢?

在視頻質(zhì)量方面,Sora較Pika、Runway具有顯著優(yōu)勢。相較于這些之前的AI文生視頻工具,Sora可以通過多鏡頭等方式生成更加復(fù)雜的視頻,在時長、流暢度以及邏輯性方面表現(xiàn)出顯著的優(yōu)勢。OpenAI認(rèn)為,視頻生成模型是構(gòu)建通用物理世界模擬器的一條有前景的道路,它使人工智能理解和模擬運動中的物理世界,邁向了一個新的高度。Sora的發(fā)布也意味著通用人工智能(AGI)時代有望加速到來,是AGI實現(xiàn)過程中的重大里程碑事件。與其他AI文生視頻模型相比,Sora有四大優(yōu)勢。

圖表1:Sora與其他AI文生視頻模型性能對比

資料來源:OpenAI官網(wǎng)、DataLearner、華泰研究

一是視頻時長及鏡頭切換的突破。其他頭部AI文生視頻工具尚且無法完成鏡頭切換后的銜接,因此作品往往局限于10秒內(nèi)的單一鏡頭視頻。而Sora不僅可以實現(xiàn)不同鏡頭間流暢切換,還能生成60秒超長視頻。

二是視頻尺寸自由?;贠penAI公布的Sora技術(shù)報告,Sora模型可以生成1920x1080與1080x1920之間所有尺寸的視頻。而例如Runway Gen2僅支持特定長寬比的視頻。

三是背景角色穩(wěn)定。過往的AI文生視頻工具通常會出現(xiàn)背景角色不穩(wěn)定的情況,即在背景中有許多物體時,畫面經(jīng)常失真、混亂。以“東京漫步的女士”視頻為例,在Runway中輸入同樣的提示詞后,背景人物會做出一些怪異的走路姿勢,而Sora視頻中背景角色表現(xiàn)非常穩(wěn)定。

四是與真實世界一致。由于Sora初步具備理解和模擬真實世界的能力,生成的視頻通常具備一些新興特征,包括3D一致性、物體持久性、模擬物理交互等。

圖表2:Sora生成的視頻中人物在切換鏡頭后仍保持一致性

資料來源:OpenAI官網(wǎng)、華泰研究

在技術(shù)方面,Sora實現(xiàn)了數(shù)據(jù)處理及底層模型的全面革新。

Sora具備統(tǒng)一視覺數(shù)據(jù)處理功能,可將視覺數(shù)據(jù)轉(zhuǎn)化為“小補丁”(Patches)?;贠penAI技術(shù)報告,LLM通過代碼將多種文本形式進行了統(tǒng)一,Sora從中汲取靈感,將視頻和圖片壓縮成一系列包含原始時間空間信息等物理世界含義的Patches。Sora可以學(xué)習(xí)這些Patches之間的關(guān)系來捕捉運動、顏色變化等復(fù)雜視覺特征,統(tǒng)一不同視覺數(shù)據(jù)的表現(xiàn)形式。

其視頻壓縮網(wǎng)絡(luò)還可降低視覺數(shù)據(jù)維度。OpenAI訓(xùn)練了一個壓縮網(wǎng)絡(luò)和解碼器模型,用于降低視覺數(shù)據(jù)的維度。視頻壓縮網(wǎng)絡(luò)將原始視頻作為輸入、輸出在時間和空間上壓縮的Latent。解碼器則將Latent映射回像素空間。

02

文生視頻大模型進化迭代,2024年迎AI視頻年

回顧文生視頻的發(fā)展史,2023年有多款產(chǎn)品落地,2024年加速邁進AI視頻新時代。

2023年是文生視頻模型的開啟之年。在2023年以前,市面上尚不存在公開的文本生成視頻模型。僅2023一年實際誕生的模型就達(dá)數(shù)十個,全球用戶數(shù)量超過百萬級別。目前市場上有21個重要AI視頻模型已投入使用并取得一定進展。

圖表3:文生視頻AI模型2023發(fā)布時間線

資料來源:OpenAI官網(wǎng)、華泰研究

2024年,各大公司加快了文生視頻模型的研發(fā)步伐,有望迎來AI視頻年。1月2日,以文生圖工具聞名的Midjourney宣布將在未來幾個月加快訓(xùn)練文生視頻模型。1月23日,谷歌公司推出了文生視頻模型Lumiere,可以直接生成全幀率、低分辨率的視頻,具有多個時空尺度。Runway的文生視頻模型Gen-2在2023年年末也完成了一次重要的功能更新,實現(xiàn)了產(chǎn)出視頻質(zhì)量的大幅躍升。字節(jié)跳動和騰訊也分別于2024年1月上旬和下旬公布了視頻模型MagicVideo V2與VideoCrafter2。馬斯克稱2024年將是AI電影元年,AI視頻生成產(chǎn)業(yè)將加速。

圖表4:截至2023.12市場現(xiàn)有的重點關(guān)注文生視頻模型

資料來源:venturetwins、a16z、華泰研究

目前,科技巨頭大多暫未公開其大模型產(chǎn)品,已公開的大多出自初創(chuàng)公司,部分創(chuàng)業(yè)者甚至尚未開發(fā)網(wǎng)站,而且僅能以Discord機器人為載體。除阿里巴巴的多個模型系列選擇在開源平臺Github上公開以外,如Meta的Emu Video、谷歌的VideoPoet和Lumiere、字節(jié)跳動的MagicVideo等行業(yè)巨頭的大模型均未公開,而是發(fā)表大量相關(guān)論文以及對外演示視頻。

Sora模型目前暫未對公眾完全開放,僅提供給部分內(nèi)測用戶使用??紤]到多重風(fēng)險,OpenAI表示暫無計劃向公眾開放使用Sora模型,但目前已向部分專家開放以評估潛在風(fēng)險,也正向部分設(shè)計師、電影制作人、視覺藝術(shù)家等授予訪問權(quán)限以獲得反饋。我們可以期待在時機成熟后,Sora模型將對全行業(yè)掀起新一輪革命。

當(dāng)前具有代表性的文生視頻模型,均實現(xiàn)了功能的持續(xù)迭代,并初步實現(xiàn)商業(yè)化。包括文生視頻Pika 1.0模型、文生視頻Gen-2模型,及文本生成動畫工具包Stable Animation SDK等。

文生視頻Pika 1.0模型由團隊Pika Labs于2023年年底開放免費公測,支持3D動畫、動漫或電影等各種類型內(nèi)容生成。Pika官網(wǎng)給出的功能介紹包含生成和編輯兩個部分。生成功能支持輸入文本、圖像、視頻生成或拓展視頻。而此次發(fā)布更亮點的功能在于Pika 1.0的編輯部分。目前,Pika 1.0免費對公眾開放。

文生視頻Gen-2模型由Runway最早于2023年3月發(fā)布,目前已能生成4k分辨率的長達(dá)18秒視頻。Runway官網(wǎng)給出八種不同的視頻生成方式,包括文、圖像、文字圖像結(jié)合生成視頻的三種基礎(chǔ)功能。結(jié)合由Runway開發(fā)的Motion brush功能,用戶可以選定圖像中的特定區(qū)域確定其運動方式。Gen-2模型發(fā)布于公司官網(wǎng)、App Store和Discord機器人,采用套餐包訂閱收費模式,中國大陸的年套餐訂閱價格為998元。

文本生成動畫工具包Stable Animation SDK由團隊Stability AI在2023年5月發(fā)布,能夠?qū)崿F(xiàn)文本輸出動畫功能。此前,該公司曾以開源文生圖AI模型Stable Diffusion在用戶中取得極高的關(guān)注度。除了支持動畫生成,模型還提供多種風(fēng)格模板,如3D模型、仿真膠片、動漫、電影、像素風(fēng)格等。Stable Animation采用單次收費模式,取決于所需視頻的輸出分辨率和幀數(shù)。生成一支8秒(約100幀)最低分辨率(512*512)視頻收費0.375美元,而一支60秒高清(1024p)分辨率視頻收費1.35美元。

03

Sora將如何改變傳媒各細(xì)分賽道?

影視方面,Sora或可以降低傳統(tǒng)影視制作門檻,IP類資產(chǎn)有望價值放大。

Sora可通過提示詞生成完整且有邏輯的視頻,為創(chuàng)作者提供低成本、高效率的創(chuàng)作方式。對影視行業(yè)的主要影響可能體現(xiàn)在三方面。一是大幅降低制作門檻及成本。在空間上,減少了對場景搭建、場地切換等特定資源的依賴,Sora可以用于生成逼真的特效場景降低制作成本。在時間上,將大幅縮短影視拍攝的流程,讓非專業(yè)團隊制作出具有專業(yè)水準(zhǔn)的視頻內(nèi)容成為可能。二是極大程度豐富影視作品的創(chuàng)造性及風(fēng)格。制作門檻及時間成本的大幅降低將加速影視內(nèi)容的迭代,用戶生產(chǎn)內(nèi)容(UGC)的專家化也將創(chuàng)造新的風(fēng)格與形式,增強影視內(nèi)容的吸引力與豐富度。三是對于具備創(chuàng)意和靈感優(yōu)勢的生產(chǎn)者更為受益,能更容易產(chǎn)出優(yōu)質(zhì)的視頻內(nèi)容。

對于專業(yè)影視內(nèi)容制作公司來說,短期Sora仍將作為工具性產(chǎn)品,助力生產(chǎn)效率提升和成本降低。中長期隨著視頻內(nèi)容制作門檻的降低,生產(chǎn)者供給的競爭格局還有待進一步觀察,未來更注重故事和創(chuàng)意。預(yù)計擁有核心導(dǎo)演及IP資源的公司更受益。Sora的出現(xiàn)或?qū)⒅厮苡耙曅袠I(yè),機會與挑戰(zhàn)并存,預(yù)計影視制作公司將出現(xiàn)分化:一方面,影視作品的“靈魂”來自于創(chuàng)意及情感,Sora作為優(yōu)秀的生成工具將助力優(yōu)質(zhì)的想法和故事落地,文本創(chuàng)作力及導(dǎo)演能力等將成為核心競爭力。擁有核心導(dǎo)演編劇及創(chuàng)意資源的公司競爭力有望提升,低端代工制作公司面臨壓力。另一方面,新的IP及內(nèi)容將海量涌現(xiàn),經(jīng)典IP有望借助Sora加速生成影視化作品及衍生內(nèi)容,持續(xù)擴大影響力。

在營銷方面,廣告視頻制作基礎(chǔ)環(huán)節(jié)有望替代人力,為營銷策劃提供創(chuàng)意。

Sora對營銷行業(yè)的影響也體現(xiàn)在三個方面。一是提升廣告相關(guān)視頻的創(chuàng)造效率。Sora能夠快速生成廣告宣傳視頻及商品演示視頻,大幅降低廣告相關(guān)內(nèi)容的制作成本及時間,有望取代低創(chuàng)造性、可復(fù)制的視頻內(nèi)容,小規(guī)模且缺乏創(chuàng)意人才的廣告公司預(yù)計面臨壓力。二是提供靈感,增強廣告吸引力。Sora有望為廣告策劃環(huán)節(jié)提供靈感,加速創(chuàng)意實現(xiàn)過程。三是更低成本定制化需求。Sora可大批量快速生成定制化的視頻內(nèi)容,以滿足不同用戶群體的需求,提升客戶轉(zhuǎn)化率及留存率。

游戲方面,Sora可以模擬生成游戲視頻,降低生產(chǎn)成本。

Sora可被應(yīng)用于游戲角色創(chuàng)立,場景開發(fā)等過程。游戲是虛擬世界的一種體現(xiàn),Sora對于物理世界的理解和模擬可以與游戲場景開發(fā)高度適配,可以幫助游戲開發(fā)者創(chuàng)立角色或背景故事。OpenAI也在Sora技術(shù)報告中提出,Sora能夠模擬如視頻游戲的數(shù)字化過程,根據(jù)官方視頻演示,Sora能在控制如《Minecraft》的游戲角色進行基本操作的同時,高質(zhì)量動態(tài)渲染游戲世界??梢灶A(yù)見,Sora未來將可能被應(yīng)用生成游戲動畫和場景等,增加游戲情感故事背景,提高可玩性,游戲開發(fā)者的成本將被降低。

04

Sora的挑戰(zhàn):商業(yè)化仍有阻力,法律倫理問題尚待研究

首先,商業(yè)化需要算力支持,其發(fā)展進度仍待觀察。目前生成每支視頻的算力與時間成本仍然較高,商業(yè)化需考慮使用者多次修改所額外誕生的視頻版本。由于ChatGPT高昂的訓(xùn)練和運營成本,目前OpenAI仍有算力瓶頸,考慮到商業(yè)化落地后,部分用戶語言表達(dá)難以一次性準(zhǔn)確描述所需的視頻內(nèi)容,可能會降低視頻生成精度。出于多次修改的可能,一支60秒視頻的成本可能是多次生成后的成本疊加。

其次,Sora面臨版權(quán)與產(chǎn)權(quán)的挑戰(zhàn),以及作品的責(zé)任歸屬。AI作品原創(chuàng)性問題在目前的法律領(lǐng)域尚屬于起步階段,可能讓作者或開發(fā)者、用戶甚至AI本身陷入爭議。美國版權(quán)局在2023年3月發(fā)布了版權(quán)指南,對于AI圖像版權(quán)的歸屬作出了有條件界定,如作品需要由人工控制,AI信息需進行披露,AI圖像不受版權(quán)保護等等。相關(guān)內(nèi)容的商用版權(quán)問題將更加復(fù)雜,涉及到收益分配及相關(guān)的時效性等。此外,不良用戶可能會借助AI生成不法視頻,包含虛假信息、誹謗或煽動性言論、暴力血腥畫面等存在違背社會道德和法律的內(nèi)容等,對社會公眾造成嚴(yán)重?fù)p害。此時責(zé)任歸屬的判定至關(guān)重要,否則會將AI本身及開發(fā)者卷入社會輿論的漩渦。

Sora底層數(shù)據(jù)的訓(xùn)練需考慮隱私與數(shù)據(jù)保護。模型的訓(xùn)練是基于大量數(shù)據(jù)集和素材庫,可能包含個人隱私或者版權(quán)信息,輸出的視頻素材也可能會包含受版權(quán)保護的內(nèi)容,因此訓(xùn)練時需注意相關(guān)內(nèi)容的界定。此外用戶使用時也可能上傳個人敏感信息,模型應(yīng)告知個人數(shù)據(jù)的最終處理去向,采取相關(guān)的安全措施。在不同國家及地區(qū),相關(guān)法律尚未統(tǒng)一。2023年12月8日,歐盟成員國及歐洲議會議員就《人工智能法案》達(dá)成初步協(xié)議。當(dāng)前,法案為不同風(fēng)險程度的人工智能系統(tǒng)施加不同的要求和義務(wù),提出基礎(chǔ)模型提供者還應(yīng)當(dāng)遵守透明度義務(wù),采取足夠的保障措施防止產(chǎn)生違反歐盟法律的內(nèi)容,在不影響國家或歐盟版權(quán)立法的情況下,記錄并公開提供受版權(quán)法保護的訓(xùn)練數(shù)據(jù)使用情況的詳細(xì)摘要。大模型公司如何面對國際社會的不同規(guī)則,避免模型被用于信息安全斗爭,會是將要面臨的一大挑戰(zhàn)。

本文所提及的任何資訊和信息,僅為作者個人觀點表達(dá)或?qū)τ诰唧w事件的陳述,不構(gòu)成推薦及投資建議,不代表本社立場。投資者應(yīng)自行承擔(dān)據(jù)此進行投資所產(chǎn)生的風(fēng)險及后果。

責(zé)任編輯: 高蕊琦
聲明:證券時報力求信息真實、準(zhǔn)確,文章提及內(nèi)容僅供參考,不構(gòu)成實質(zhì)性投資建議,據(jù)此操作風(fēng)險自擔(dān)
下載“證券時報”官方APP,或關(guān)注官方微信公眾號,即可隨時了解股市動態(tài),洞察政策信息,把握財富機會。
網(wǎng)友評論
登錄后可以發(fā)言
發(fā)送
網(wǎng)友評論僅供其表達(dá)個人看法,并不表明證券時報立場
暫無評論
為你推薦
新財富雜志

《新財富》雜志于2001年3月創(chuàng)刊,專注資本市場深耕細(xì)作,“最佳分析師”“金牌董秘”“500創(chuàng)富榜”“最佳上市公司”“最佳投行”等權(quán)威專業(yè)評選和《德隆系》《明天帝國》《收割者》等經(jīng)典研究案例影響深遠(yuǎn)。

新財富雜志社旗下主要新媒體平臺包括:新財富雜志微博、新財富雜志公眾號、新財富雜志視頻號。

地址:深圳福田區(qū)華富街道蓮花一村社區(qū)皇崗路5001號深業(yè)上城T1棟59樓

媒體合作與新聞職業(yè)操守舉報
微信:xincaifuzazhi
時報熱榜
換一換
    熱點視頻
    換一換