我們已經準備好了,你呢(ne)?

2024我們與您攜手共赢,為(wèi)您的(de)企業形象保駕護航!

2024年(nián)伊始,OpenAI再向世界扔了一(yī)枚AI炸彈——視(shì)頻生成模型Sora。


一(yī)如(rú)一(yī)年(nián)前的(de)ChatGPT,Sora被認為(wèi)是AGI(通用人工智能)的(de)又一(yī)個裏程碑時刻。


“Sora意味着AGI實現将從10年(nián)縮短(duǎn)到1年(nián)”,360董事長(cháng)周鴻祎作出預判。


但這個模型如(rú)此轟動,并不隻是因為(wèi)AI生成的(de)視(shì)頻時間更長(cháng)、清晰度更高(gāo),而是OpenAI已經超越過去(qù)所有AIGC的(de)能力,生成了一(yī)個與真實物理(lǐ)世界相關的(de)視(shì)頻內(nèi)容。


無厘頭的(de)賽博朋(péng)克固然酷炫,但真實世界中的(de)一(yī)切如(rú)何讓AI重現才更具意義。


為(wèi)此,OpenAI提出了一(yī)個全新的(de)概念——世界模拟器。


在OpenAI官方出具的(de)技術報告中,對Sora的(de)定位為(wèi)“作為(wèi)世界模拟器的(de)視(shì)頻生成模型”,“我們的(de)研究結果表明,擴展視(shì)頻生成模型是構建物理(lǐ)世界通用模拟器的(de)一(yī)條可(kě)行之路。”


OpenAI認為(wèi),Sora為(wèi)能夠理(lǐ)解和(hé)模拟真實世界的(de)模型奠定了基礎,這将是實現AGI的(de)一(yī)個重要裏程碑。憑借這一(yī)點,就徹底與AI視(shì)頻賽道(dào)的(de)Runway、Pika等公司拉開了一(yī)個段位。


從文字(ChatGPT)到圖片(DALL·E)再到視(shì)頻(Sora),對OpenAI來說,仿佛在搜集一(yī)張張的(de)拼圖,試圖通過影像媒介形态徹底打破虛拟與現實的(de)邊界,成為(wèi)電影“頭号玩家”一(yī)般的(de)存在。


如(rú)果說蘋果Vision Pro是頭号玩家的(de)硬件外顯,那麽一(yī)個能自(zì)動構建仿真虛拟世界的(de)AI系統,才是靈魂。


“語言模型近似人腦,視(shì)頻模型近似物理(lǐ)世界”,愛丁堡大學(xué)的(de)博士生Yao Fu表示。


“OpenAI的(de)野心大得超出了所有人的(de)想象,但好像也隻有它能做(zuò)到”,多位AI創業者對光錐智能感歎道(dào)。


Sora如(rú)何成為(wèi)“世界模拟器”?


OpenAI新發布的(de)Sora模型,一(yī)腳踹開了2024年(nián)AI視(shì)頻賽道(dào)的(de)大門,徹底與2023年(nián)以前的(de)舊(jiù)世界劃出了分界線。


在其一(yī)口氣釋出的(de)48個演示視(shì)頻中,光錐智能發現過去(qù)AI視(shì)頻被诟病的(de)問題大部分得到了解決:更清晰的(de)生成畫面、更逼真的(de)生成效果、更準确的(de)理(lǐ)解能力、更順暢的(de)邏輯理(lǐ)解能力、更穩定和(hé)一(yī)緻性的(de)生成結果等等。


但這一(yī)切也不過是OpenAI顯現出的(de)冰山一(yī)角,因為(wèi)OpenAI從一(yī)開始瞄準的(de)就不是視(shì)頻,而是所有存在的(de)影像。


影像是一(yī)個更大的(de)概念,視(shì)頻是其中的(de)一(yī)個子(zǐ)集,例如(rú)大街上滾動的(de)大屏、遊戲世界的(de)虛拟場景等等。OpenAI要做(zuò)的(de)事情,是要以視(shì)頻為(wèi)切入口,涵蓋一(yī)切影像,模拟、理(lǐ)解現實世界,也就是其強調的(de)“世界模拟器”概念。


正如(rú)AI電影《山海奇境》制作人、星賢文化陳坤告訴光錐智能,“OpenAI在向我們展示它在視(shì)頻方面的(de)能力,但真正的(de)目的(de)在于獲取人們的(de)反饋數據,去(qù)探索、預測人們想要生成的(de)視(shì)頻是什麽樣的(de)。就像大模型訓練一(yī)樣,一(yī)旦工具開放,就相當于全世界的(de)人在為(wèi)其打工,通過不斷标記、錄入,讓其世界模型變得越來越聰明。”


于是我們看到,AI視(shì)頻成為(wèi)了理(lǐ)解物理(lǐ)世界的(de)第一(yī)個階段,主要突出其作為(wèi)“視(shì)頻生成模型”的(de)屬性;發展到第二個階段,才能作為(wèi)“世界模拟器”提供價值。


抓住Sora“視(shì)頻生成”屬性的(de)核心在于——找不同,即Sora和(hé)Runway、Pika的(de)差異性體現在哪裏?這個問題至關重要,因為(wèi)某種程度上解釋了Sora能夠碾壓的(de)原因。


首先的(de)一(yī)點,OpenAI沿用了訓練大語言模型的(de)思路,用大規模的(de)視(shì)覺數據來訓練一(yī)個具備通用能力的(de)生成模型。


這與文生視(shì)頻領域“專人專用”的(de)邏輯完全不同。去(qù)年(nián),Runway也有過類似的(de)計劃,被其稱之為(wèi)“通用世界模型”,思路大緻相似,但沒有後續,這回Sora倒是先一(yī)步完成了Runway的(de)夢想。


據紐約大學(xué)助理(lǐ)教授謝賽甯推算,Sora參數量約為(wèi)30億,雖然對比GPT模型顯得微不足道(dào),但是這個數量級已經遠超了Runway、Pika等一(yī)些公司,可(kě)以稱得上是降維打擊。


萬興科技AI創新中心總經理(lǐ)齊镗泉,評價Sora的(de)成功再次驗證了“大力出奇迹”的(de)可(kě)能性,“Sora依然遵循OpenAI的(de)Scaling Law,靠大力出奇迹,大量數據,大模型和(hé)大量算力。Sora底層采用了遊戲、無人駕駛和(hé)機器人領域驗證的(de)世界模型,構建文生視(shì)頻模型,達到模拟世界的(de)能力。”


其次,在Sora身上第一(yī)次展現了擴散模型與大模型能力的(de)完美融合。


AI視(shì)頻就像一(yī)部電影大片,取決于劇本和(hé)特效兩個重要元素。其中,劇本對應着AI視(shì)頻生成過程中的(de)“邏輯”,特效則對應着“效果”。為(wèi)了實現“邏輯”和(hé)“效果”,背後分化出了兩條技術路徑擴散模型和(hé)大模型。


去(qù)年(nián)年(nián)底,光錐智能就曾預判到,為(wèi)了同時能夠滿足效果和(hé)邏輯,擴散和(hé)大模型兩條路線終将走向融合。沒想到,OpenAI如(rú)此迅速地(dì)就解決了這個難題。


OpenAI在技術報告中畫重點提到:“我們将各種類型的(de)視(shì)覺數據轉化為(wèi)統一(yī)表示法的(de)方法,這種表示法可(kě)用于生成模型的(de)大規模訓練。”


具體來看,OpenAI将視(shì)頻畫面的(de)每一(yī)幀都編碼轉化為(wèi)了一(yī)個個的(de)視(shì)覺補丁(patches),每個補丁都類似于GPT中的(de)一(yī)個token,成為(wèi)了視(shì)頻、圖像中的(de)最小衡量單位,并且可(kě)以随時随地(dì)被打破、被重組。找到了統一(yī)數據的(de)方式,統一(yī)了度量衡,也就找到了打通擴散模型和(hé)大模型的(de)橋梁。


在整個生成的(de)過程中,擴散模型仍在負責生成效果的(de)部分,增加大模型Transformer的(de)注意力機制後,就多了對生成的(de)預測、推理(lǐ)能力,這也就解釋了Sora為(wèi)什麽能夠從現有獲取的(de)靜态圖像中生成視(shì)頻,還能擴展現有視(shì)頻或填充缺失的(de)畫面幀。


發展至今,視(shì)頻模型已經呈現出複合的(de)趨勢,模型走向融合的(de)同時,技術也在走向複合。


把之前沉澱的(de)技術積累運用到視(shì)覺模型上,也成為(wèi)了OpenAI的(de)優勢。在Sora文生視(shì)頻的(de)訓練過程中,OpenAI就引入了DALL-E3和(hé)GPT的(de)語言理(lǐ)解能力。據OpenAI表示,DALL-E3、GPT基礎上進行訓練,能夠使Sora準确地(dì)按照用戶提示生成高(gāo)質量的(de)視(shì)頻。


一(yī)套組合拳下來,結果就是出現了模拟能力,也就構成了“世界模拟器”的(de)基礎。


“我們發現,視(shì)頻模型在進行大規模訓練時,會表現出許多有趣的(de)新興能力。這些能力使Sora能夠模拟物理(lǐ)世界中的(de)人、動物和(hé)環境的(de)某些方面。這些特性的(de)出現并沒有對三維、物體等産生任何明确的(de)歸納偏差——它們純粹是規模現象”,OpenAI表示道(dào)。


“模拟”之所以能夠如(rú)此炸裂,根本的(de)原因在于,用大模型創造出不存在的(de)事物人們已經習以為(wèi)常,但是能夠準确地(dì)理(lǐ)解物理(lǐ)世界運轉邏輯,例如(rú)力是如(rú)何相互作用的(de),摩擦是如(rú)何産生的(de),籃球是如(rú)何打出抛物線的(de)等等,這些都是以前任何模型都無法完成的(de)事情,也是Sora超越視(shì)頻生成層面的(de)根本意義所在。


不過,從demo到實際成品,可(kě)能是驚喜也可(kě)能是驚吓。Meta首席科學(xué)家楊立昆就直接對Sora提出了質疑,他表示:“僅憑能夠根據提示生成逼真的(de)視(shì)頻,并不能說明系統真正理(lǐ)解了物理(lǐ)世界。生成過程與基于世界模型的(de)因果預測不同,生成式模型隻需要從可(kě)能性空間中找到一(yī)個合理(lǐ)的(de)樣本即可(kě),而無需理(lǐ)解和(hé)模拟真實世界的(de)因果關系。”


齊镗泉也表示,雖然OpenAI驗證了基于世界模型的(de)文生視(shì)頻大模型是可(kě)行的(de),但也存在物理(lǐ)交互的(de)準确性難點,盡管Sora能夠模拟一(yī)些基本的(de)物理(lǐ)交互,但它在處理(lǐ)更複雜的(de)物理(lǐ)現象時可(kě)能會遇到困難;長(cháng)期依賴關系的(de)處理(lǐ)存在挑戰,即如(rú)何保持時間上的(de)一(yī)緻性和(hé)邏輯性;空間細節的(de)精确性,處理(lǐ)空間細節方面如(rú)果不夠精确,可(kě)能影響到視(shì)頻內(nèi)容的(de)準确性和(hé)可(kě)信度。


颠覆視(shì)頻,但遠不止視(shì)頻


Sora成為(wèi)世界模拟器或許是很久以後的(de)事情,但是就生成視(shì)頻而言,已經對現在的(de)世界産生了影響。


第一(yī)類就是解決之前技術上面無法突破的(de)問題,推動一(yī)些行業邁向新的(de)階段。


最典型的(de)就是影視(shì)制作行業,Sora這回最具革命性的(de)能力就是最長(cháng)生成視(shì)頻長(cháng)度達到了1分鍾。作為(wèi)參考,大熱門Pika所能生成的(de)長(cháng)度在3秒、Runway的(de)Gen-2生成長(cháng)度在18秒,這意味着有了Sora以後,AI視(shì)頻将能成為(wèi)真正的(de)生産力,實現降本增效。


陳坤告訴光錐智能,在Sora誕生前,其利用AI視(shì)頻工具制作科幻電影的(de)成本已經下降至了一(yī)半,Sora落地(dì)後,更加值得期待。


Sora發布後,令他印象最深刻的(de)是一(yī)個海豚騎車的(de)demo。在那個視(shì)頻中,上半身是海豚,下半身是人的(de)兩條腿,腿上還穿了鞋子(zǐ),在一(yī)種極具詭異性的(de)畫風中,海豚完成了作為(wèi)人騎自(zì)行車的(de)動作。


“這對我們來說簡直太神奇了!這個畫面創造出了一(yī)種又有想象空間,又符合物理(lǐ)定律的(de)荒誕感,既是情理(lǐ)之中又出乎意料,這才是觀衆能發出驚歎的(de)影視(shì)作品”,陳坤道(dào)。


陳坤認為(wèi)Sora會像當年(nián)的(de)智能手機、抖音一(yī)樣,把所有內(nèi)容創作者門檻降低(dī)一(yī)大步,把內(nèi)容創作者呈數量級放大。


“未來內(nèi)容創作者可(kě)能都不需要拍攝,隻需要說一(yī)段話或者一(yī)段詞,就能把腦子(zǐ)裏面獨特的(de)想法表達出來,且可(kě)以被更多人看到。屆時,我覺得還有可(kě)能會出現比抖音更大的(de)新的(de)平台。再往前一(yī)步,或許是Sora能夠了解每個人潛意識的(de)想法,自(zì)動去(qù)生成和(hé)創作內(nèi)容,根本不需要用戶去(qù)主動尋求表達”,陳坤表示道(dào)。


同樣的(de)行業還有遊戲,OpenAI技術報告的(de)結尾是一(yī)個《我的(de)世界》的(de)遊戲視(shì)頻,旁邊寫着這樣一(yī)句話:“Sora可(kě)以通過基本策略同時控制Minecraft中的(de)玩家,同時高(gāo)保真地(dì)呈現世界及其動态。隻需在Sora的(de)提示字幕中提及‘Minecraft’,就能零距離(lí)激發這些功能。”


AI遊戲創業者陳希告訴我們,“任何遊戲從業者看到這句話,都是一(yī)身冷汗!OpenAI毫無保留地(dì)展露了它的(de)野心”。陳希解讀分析認為(wèi),短(duǎn)短(duǎn)的(de)一(yī)句話傳達了兩件事情:Sora能控制遊戲角色,同時能渲染遊戲環境。


“就如(rú)OpenAI所說,Sora是一(yī)個模拟器,一(yī)個遊戲引擎,一(yī)個想象力和(hé)現實世界的(de)轉換接口。未來的(de)遊戲,隻要言之所及,畫面就能被渲染出來。Sora現在學(xué)會了構建一(yī)分鍾的(de)世界,還能生成穩定的(de)角色,再配合自(zì)家的(de)GPT-5,一(yī)個純AI生成的(de)、數千平方公裏、活躍着各色生物的(de)地(dì)圖,聽上去(qù)已經不是異想天開。當然,畫面是否能實時生成,是否支持多人聯機,這些都是很現實的(de)問題。但無論怎麽說,新的(de)遊戲模式已經呼之欲出,至少用Sora生成一(yī)個《完蛋我被美女包圍了》變得毫無問題了”,陳希道(dào)。


第二類是基于模拟世界的(de)能力,在更多領域中創造出新的(de)事物。


愛丁堡大學(xué)的(de)博士生Yao Fu表示:“生成式模型學(xué)習生成數據的(de)算法,而不是記住數據本身。就像語言模型編碼生成語言的(de)算法(在你的(de)大腦中)一(yī)樣,視(shì)頻模型編碼生成視(shì)頻流的(de)物理(lǐ)引擎。語言模型可(kě)以視(shì)為(wèi)近似人腦,而視(shì)頻模型近似物理(lǐ)世界。”


學(xué)會了物理(lǐ)世界中的(de)普遍規律,讓具身智能也更加接近人的(de)智能。


例如(rú)在機器人領域,以前的(de)傳導流程為(wèi),先給到機器人大腦一(yī)個握手的(de)指令,再傳遞到手這個部位,但是由于機器人無法真正理(lǐ)解“握手”的(de)含義,所以隻能把指令轉化為(wèi)“手的(de)直徑縮小為(wèi)多少厘米”。若世界模拟器成為(wèi)現實後,機器人就可(kě)以直接跳過指令轉化的(de)過程,一(yī)步到位理(lǐ)解人的(de)指令需求。


跨維智能創始人、華南理(lǐ)工大學(xué)教授賈奎向光錐智能表示,顯式的(de)物理(lǐ)模拟将來就有可(kě)能應用到機器人領域,“Sora的(de)物理(lǐ)模拟是隐式的(de),它展示出了隻有其內(nèi)部對物理(lǐ)世界理(lǐ)解和(hé)模拟才能生成出來的(de)效果,要對機器人直接有用,我覺得還是顯式的(de)才行。”


“Sora能力還是通過海量視(shì)頻數據,還有recaptioning技術,實現出來的(de),甚至也沒有3D顯式建模,更不用說物理(lǐ)模拟了。雖然其生成出來的(de)效果,已經達到/接近了通過物理(lǐ)模拟實現的(de)效果。但物理(lǐ)引擎能做(zuò)的(de)事情不僅僅是生成視(shì)頻,還有很多訓練機器人必須有的(de)其他要素”,賈奎表示道(dào)。


雖然Sora還有許多局限性,但在虛拟和(hé)現實世界之間已經建立了一(yī)個鏈接,這讓無論是頭号玩家式的(de)虛拟世界,還是機器人更像人類,都充滿了更大的(de)可(kě)能性。


注:文/郝鑫,文章(zhāng)來源:光錐智能(公衆号ID:guangzhui-tech),本文為(wèi)作者獨立觀點。

我們憑借多年(nián)的(de)互聯網運營經驗,堅持以“幫助中小企業實現網絡營銷化”為(wèi)宗旨,累計為(wèi)200多家客戶提供品質建站服務,得到了客戶的(de)一(yī)緻好評。如(rú)果您有電商運營、網站建設、網站改版、域名注冊、主機空間、手機網站建設、網站備案等方面的(de)需求...
請立即點擊咨詢我們或撥打咨詢熱線: 18100732096,我們會詳細為(wèi)你一(yī)一(yī)解答你心中的(de)疑難。項目經理(lǐ)在線

我們已經準備好了,你呢(ne)?

2020我們與您攜手共赢,為(wèi)您的(de)企業形象保駕護航!

在線客服
聯系方式

熱線電話

18100732096

上班時間

周一(yī)到周五

公司電話

0731-85174355

二維碼
微信