詳解Sora 為(wèi)什麽是AGI的(de)又一(yī)個裏程碑時刻？-常見問題-湖南德銘電子(zǐ)商務有限公司-德銘電商

2024年(nián)伊始，OpenAI再向世界扔了一(yī)枚AI炸彈——視(shì)頻生成模型Sora。

一(yī)如(rú)一(yī)年(nián)前的(de)ChatGPT，Sora被認為(wèi)是AGI（通用人工智能）的(de)又一(yī)個裏程碑時刻。

“Sora意味着AGI實現将從10年(nián)縮短(duǎn)到1年(nián)”，360董事長(cháng)周鴻祎作出預判。

但這個模型如(rú)此轟動，并不隻是因為(wèi)AI生成的(de)視(shì)頻時間更長(cháng)、清晰度更高(gāo)，而是OpenAI已經超越過去(qù)所有AIGC的(de)能力，生成了一(yī)個與真實物理(lǐ)世界相關的(de)視(shì)頻內(nèi)容。

無厘頭的(de)賽博朋(péng)克固然酷炫，但真實世界中的(de)一(yī)切如(rú)何讓AI重現才更具意義。

為(wèi)此，OpenAI提出了一(yī)個全新的(de)概念——世界模拟器。

在OpenAI官方出具的(de)技術報告中，對Sora的(de)定位為(wèi)“作為(wèi)世界模拟器的(de)視(shì)頻生成模型”，“我們的(de)研究結果表明，擴展視(shì)頻生成模型是構建物理(lǐ)世界通用模拟器的(de)一(yī)條可(kě)行之路。”

OpenAI認為(wèi)，Sora為(wèi)能夠理(lǐ)解和(hé)模拟真實世界的(de)模型奠定了基礎，這将是實現AGI的(de)一(yī)個重要裏程碑。憑借這一(yī)點，就徹底與AI視(shì)頻賽道(dào)的(de)Runway、Pika等公司拉開了一(yī)個段位。

從文字（ChatGPT）到圖片（DALL·E）再到視(shì)頻（Sora），對OpenAI來說，仿佛在搜集一(yī)張張的(de)拼圖，試圖通過影像媒介形态徹底打破虛拟與現實的(de)邊界，成為(wèi)電影“頭号玩家”一(yī)般的(de)存在。

如(rú)果說蘋果Vision Pro是頭号玩家的(de)硬件外顯，那麽一(yī)個能自(zì)動構建仿真虛拟世界的(de)AI系統，才是靈魂。

“語言模型近似人腦，視(shì)頻模型近似物理(lǐ)世界”，愛丁堡大學(xué)的(de)博士生Yao Fu表示。

“OpenAI的(de)野心大得超出了所有人的(de)想象，但好像也隻有它能做(zuò)到”，多位AI創業者對光錐智能感歎道(dào)。

Sora如(rú)何成為(wèi)“世界模拟器”？

OpenAI新發布的(de)Sora模型，一(yī)腳踹開了2024年(nián)AI視(shì)頻賽道(dào)的(de)大門，徹底與2023年(nián)以前的(de)舊(jiù)世界劃出了分界線。

在其一(yī)口氣釋出的(de)48個演示視(shì)頻中，光錐智能發現過去(qù)AI視(shì)頻被诟病的(de)問題大部分得到了解決：更清晰的(de)生成畫面、更逼真的(de)生成效果、更準确的(de)理(lǐ)解能力、更順暢的(de)邏輯理(lǐ)解能力、更穩定和(hé)一(yī)緻性的(de)生成結果等等。

但這一(yī)切也不過是OpenAI顯現出的(de)冰山一(yī)角，因為(wèi)OpenAI從一(yī)開始瞄準的(de)就不是視(shì)頻，而是所有存在的(de)影像。

影像是一(yī)個更大的(de)概念，視(shì)頻是其中的(de)一(yī)個子(zǐ)集，例如(rú)大街上滾動的(de)大屏、遊戲世界的(de)虛拟場景等等。OpenAI要做(zuò)的(de)事情，是要以視(shì)頻為(wèi)切入口，涵蓋一(yī)切影像，模拟、理(lǐ)解現實世界，也就是其強調的(de)“世界模拟器”概念。

正如(rú)AI電影《山海奇境》制作人、星賢文化陳坤告訴光錐智能，“OpenAI在向我們展示它在視(shì)頻方面的(de)能力，但真正的(de)目的(de)在于獲取人們的(de)反饋數據，去(qù)探索、預測人們想要生成的(de)視(shì)頻是什麽樣的(de)。就像大模型訓練一(yī)樣，一(yī)旦工具開放，就相當于全世界的(de)人在為(wèi)其打工，通過不斷标記、錄入，讓其世界模型變得越來越聰明。”

于是我們看到，AI視(shì)頻成為(wèi)了理(lǐ)解物理(lǐ)世界的(de)第一(yī)個階段，主要突出其作為(wèi)“視(shì)頻生成模型”的(de)屬性；發展到第二個階段，才能作為(wèi)“世界模拟器”提供價值。

抓住Sora“視(shì)頻生成”屬性的(de)核心在于——找不同，即Sora和(hé)Runway、Pika的(de)差異性體現在哪裏？這個問題至關重要，因為(wèi)某種程度上解釋了Sora能夠碾壓的(de)原因。

首先的(de)一(yī)點，OpenAI沿用了訓練大語言模型的(de)思路，用大規模的(de)視(shì)覺數據來訓練一(yī)個具備通用能力的(de)生成模型。

這與文生視(shì)頻領域“專人專用”的(de)邏輯完全不同。去(qù)年(nián)，Runway也有過類似的(de)計劃，被其稱之為(wèi)“通用世界模型”，思路大緻相似，但沒有後續，這回Sora倒是先一(yī)步完成了Runway的(de)夢想。

據紐約大學(xué)助理(lǐ)教授謝賽甯推算，Sora參數量約為(wèi)30億，雖然對比GPT模型顯得微不足道(dào)，但是這個數量級已經遠超了Runway、Pika等一(yī)些公司，可(kě)以稱得上是降維打擊。

萬興科技AI創新中心總經理(lǐ)齊镗泉，評價Sora的(de)成功再次驗證了“大力出奇迹”的(de)可(kě)能性，“Sora依然遵循OpenAI的(de)Scaling Law，靠大力出奇迹，大量數據，大模型和(hé)大量算力。Sora底層采用了遊戲、無人駕駛和(hé)機器人領域驗證的(de)世界模型，構建文生視(shì)頻模型，達到模拟世界的(de)能力。”

其次，在Sora身上第一(yī)次展現了擴散模型與大模型能力的(de)完美融合。

AI視(shì)頻就像一(yī)部電影大片，取決于劇本和(hé)特效兩個重要元素。其中，劇本對應着AI視(shì)頻生成過程中的(de)“邏輯”，特效則對應着“效果”。為(wèi)了實現“邏輯”和(hé)“效果”，背後分化出了兩條技術路徑擴散模型和(hé)大模型。

去(qù)年(nián)年(nián)底，光錐智能就曾預判到，為(wèi)了同時能夠滿足效果和(hé)邏輯，擴散和(hé)大模型兩條路線終将走向融合。沒想到，OpenAI如(rú)此迅速地(dì)就解決了這個難題。

OpenAI在技術報告中畫重點提到：“我們将各種類型的(de)視(shì)覺數據轉化為(wèi)統一(yī)表示法的(de)方法，這種表示法可(kě)用于生成模型的(de)大規模訓練。”

具體來看，OpenAI将視(shì)頻畫面的(de)每一(yī)幀都編碼轉化為(wèi)了一(yī)個個的(de)視(shì)覺補丁（patches），每個補丁都類似于GPT中的(de)一(yī)個token，成為(wèi)了視(shì)頻、圖像中的(de)最小衡量單位，并且可(kě)以随時随地(dì)被打破、被重組。找到了統一(yī)數據的(de)方式，統一(yī)了度量衡，也就找到了打通擴散模型和(hé)大模型的(de)橋梁。

在整個生成的(de)過程中，擴散模型仍在負責生成效果的(de)部分，增加大模型Transformer的(de)注意力機制後，就多了對生成的(de)預測、推理(lǐ)能力，這也就解釋了Sora為(wèi)什麽能夠從現有獲取的(de)靜态圖像中生成視(shì)頻，還能擴展現有視(shì)頻或填充缺失的(de)畫面幀。

發展至今，視(shì)頻模型已經呈現出複合的(de)趨勢，模型走向融合的(de)同時，技術也在走向複合。

把之前沉澱的(de)技術積累運用到視(shì)覺模型上，也成為(wèi)了OpenAI的(de)優勢。在Sora文生視(shì)頻的(de)訓練過程中，OpenAI就引入了DALL-E3和(hé)GPT的(de)語言理(lǐ)解能力。據OpenAI表示，DALL-E3、GPT基礎上進行訓練，能夠使Sora準确地(dì)按照用戶提示生成高(gāo)質量的(de)視(shì)頻。

一(yī)套組合拳下來，結果就是出現了模拟能力，也就構成了“世界模拟器”的(de)基礎。

“我們發現，視(shì)頻模型在進行大規模訓練時，會表現出許多有趣的(de)新興能力。這些能力使Sora能夠模拟物理(lǐ)世界中的(de)人、動物和(hé)環境的(de)某些方面。這些特性的(de)出現并沒有對三維、物體等産生任何明确的(de)歸納偏差——它們純粹是規模現象”，OpenAI表示道(dào)。

“模拟”之所以能夠如(rú)此炸裂，根本的(de)原因在于，用大模型創造出不存在的(de)事物人們已經習以為(wèi)常，但是能夠準确地(dì)理(lǐ)解物理(lǐ)世界運轉邏輯，例如(rú)力是如(rú)何相互作用的(de)，摩擦是如(rú)何産生的(de)，籃球是如(rú)何打出抛物線的(de)等等，這些都是以前任何模型都無法完成的(de)事情，也是Sora超越視(shì)頻生成層面的(de)根本意義所在。

不過，從demo到實際成品，可(kě)能是驚喜也可(kě)能是驚吓。Meta首席科學(xué)家楊立昆就直接對Sora提出了質疑，他表示：“僅憑能夠根據提示生成逼真的(de)視(shì)頻，并不能說明系統真正理(lǐ)解了物理(lǐ)世界。生成過程與基于世界模型的(de)因果預測不同，生成式模型隻需要從可(kě)能性空間中找到一(yī)個合理(lǐ)的(de)樣本即可(kě)，而無需理(lǐ)解和(hé)模拟真實世界的(de)因果關系。”

齊镗泉也表示，雖然OpenAI驗證了基于世界模型的(de)文生視(shì)頻大模型是可(kě)行的(de)，但也存在物理(lǐ)交互的(de)準确性難點，盡管Sora能夠模拟一(yī)些基本的(de)物理(lǐ)交互，但它在處理(lǐ)更複雜的(de)物理(lǐ)現象時可(kě)能會遇到困難；長(cháng)期依賴關系的(de)處理(lǐ)存在挑戰，即如(rú)何保持時間上的(de)一(yī)緻性和(hé)邏輯性；空間細節的(de)精确性，處理(lǐ)空間細節方面如(rú)果不夠精确，可(kě)能影響到視(shì)頻內(nèi)容的(de)準确性和(hé)可(kě)信度。

颠覆視(shì)頻，但遠不止視(shì)頻

Sora成為(wèi)世界模拟器或許是很久以後的(de)事情，但是就生成視(shì)頻而言，已經對現在的(de)世界産生了影響。

第一(yī)類就是解決之前技術上面無法突破的(de)問題，推動一(yī)些行業邁向新的(de)階段。

最典型的(de)就是影視(shì)制作行業，Sora這回最具革命性的(de)能力就是最長(cháng)生成視(shì)頻長(cháng)度達到了1分鍾。作為(wèi)參考，大熱門Pika所能生成的(de)長(cháng)度在3秒、Runway的(de)Gen-2生成長(cháng)度在18秒，這意味着有了Sora以後，AI視(shì)頻将能成為(wèi)真正的(de)生産力，實現降本增效。

陳坤告訴光錐智能，在Sora誕生前，其利用AI視(shì)頻工具制作科幻電影的(de)成本已經下降至了一(yī)半，Sora落地(dì)後，更加值得期待。

Sora發布後，令他印象最深刻的(de)是一(yī)個海豚騎車的(de)demo。在那個視(shì)頻中，上半身是海豚，下半身是人的(de)兩條腿，腿上還穿了鞋子(zǐ)，在一(yī)種極具詭異性的(de)畫風中，海豚完成了作為(wèi)人騎自(zì)行車的(de)動作。

“這對我們來說簡直太神奇了！這個畫面創造出了一(yī)種又有想象空間，又符合物理(lǐ)定律的(de)荒誕感，既是情理(lǐ)之中又出乎意料，這才是觀衆能發出驚歎的(de)影視(shì)作品”，陳坤道(dào)。

陳坤認為(wèi)Sora會像當年(nián)的(de)智能手機、抖音一(yī)樣，把所有內(nèi)容創作者門檻降低(dī)一(yī)大步，把內(nèi)容創作者呈數量級放大。

“未來內(nèi)容創作者可(kě)能都不需要拍攝，隻需要說一(yī)段話或者一(yī)段詞，就能把腦子(zǐ)裏面獨特的(de)想法表達出來，且可(kě)以被更多人看到。屆時，我覺得還有可(kě)能會出現比抖音更大的(de)新的(de)平台。再往前一(yī)步，或許是Sora能夠了解每個人潛意識的(de)想法，自(zì)動去(qù)生成和(hé)創作內(nèi)容，根本不需要用戶去(qù)主動尋求表達”，陳坤表示道(dào)。

同樣的(de)行業還有遊戲，OpenAI技術報告的(de)結尾是一(yī)個《我的(de)世界》的(de)遊戲視(shì)頻，旁邊寫着這樣一(yī)句話：“Sora可(kě)以通過基本策略同時控制Minecraft中的(de)玩家，同時高(gāo)保真地(dì)呈現世界及其動态。隻需在Sora的(de)提示字幕中提及‘Minecraft’，就能零距離(lí)激發這些功能。”

AI遊戲創業者陳希告訴我們，“任何遊戲從業者看到這句話，都是一(yī)身冷汗！OpenAI毫無保留地(dì)展露了它的(de)野心”。陳希解讀分析認為(wèi)，短(duǎn)短(duǎn)的(de)一(yī)句話傳達了兩件事情：Sora能控制遊戲角色，同時能渲染遊戲環境。

“就如(rú)OpenAI所說，Sora是一(yī)個模拟器，一(yī)個遊戲引擎，一(yī)個想象力和(hé)現實世界的(de)轉換接口。未來的(de)遊戲，隻要言之所及，畫面就能被渲染出來。Sora現在學(xué)會了構建一(yī)分鍾的(de)世界，還能生成穩定的(de)角色，再配合自(zì)家的(de)GPT-5，一(yī)個純AI生成的(de)、數千平方公裏、活躍着各色生物的(de)地(dì)圖，聽上去(qù)已經不是異想天開。當然，畫面是否能實時生成，是否支持多人聯機，這些都是很現實的(de)問題。但無論怎麽說，新的(de)遊戲模式已經呼之欲出，至少用Sora生成一(yī)個《完蛋我被美女包圍了》變得毫無問題了”，陳希道(dào)。

第二類是基于模拟世界的(de)能力，在更多領域中創造出新的(de)事物。

愛丁堡大學(xué)的(de)博士生Yao Fu表示：“生成式模型學(xué)習生成數據的(de)算法，而不是記住數據本身。就像語言模型編碼生成語言的(de)算法（在你的(de)大腦中）一(yī)樣，視(shì)頻模型編碼生成視(shì)頻流的(de)物理(lǐ)引擎。語言模型可(kě)以視(shì)為(wèi)近似人腦，而視(shì)頻模型近似物理(lǐ)世界。”

學(xué)會了物理(lǐ)世界中的(de)普遍規律，讓具身智能也更加接近人的(de)智能。

例如(rú)在機器人領域，以前的(de)傳導流程為(wèi)，先給到機器人大腦一(yī)個握手的(de)指令，再傳遞到手這個部位，但是由于機器人無法真正理(lǐ)解“握手”的(de)含義，所以隻能把指令轉化為(wèi)“手的(de)直徑縮小為(wèi)多少厘米”。若世界模拟器成為(wèi)現實後，機器人就可(kě)以直接跳過指令轉化的(de)過程，一(yī)步到位理(lǐ)解人的(de)指令需求。

跨維智能創始人、華南理(lǐ)工大學(xué)教授賈奎向光錐智能表示，顯式的(de)物理(lǐ)模拟将來就有可(kě)能應用到機器人領域，“Sora的(de)物理(lǐ)模拟是隐式的(de)，它展示出了隻有其內(nèi)部對物理(lǐ)世界理(lǐ)解和(hé)模拟才能生成出來的(de)效果，要對機器人直接有用，我覺得還是顯式的(de)才行。”

“Sora能力還是通過海量視(shì)頻數據，還有recaptioning技術，實現出來的(de)，甚至也沒有3D顯式建模，更不用說物理(lǐ)模拟了。雖然其生成出來的(de)效果，已經達到/接近了通過物理(lǐ)模拟實現的(de)效果。但物理(lǐ)引擎能做(zuò)的(de)事情不僅僅是生成視(shì)頻，還有很多訓練機器人必須有的(de)其他要素”，賈奎表示道(dào)。

雖然Sora還有許多局限性，但在虛拟和(hé)現實世界之間已經建立了一(yī)個鏈接，這讓無論是頭号玩家式的(de)虛拟世界，還是機器人更像人類，都充滿了更大的(de)可(kě)能性。

注：文/郝鑫，文章(zhāng)來源：光錐智能(公衆号ID：guangzhui-tech)，本文為(wèi)作者獨立觀點。

上一(yī)篇：2023年(nián)人工智能行業年(nián)度十大事件盤點
下一(yī)篇：沒有了！

我們憑借多年(nián)的(de)互聯網運營經驗，堅持以“幫助中小企業實現網絡營銷化”為(wèi)宗旨，累計為(wèi)200多家客戶提供品質建站服務，得到了客戶的(de)一(yī)緻好評。如(rú)果您有電商運營、網站建設、網站改版、域名注冊、主機空間、手機網站建設、網站備案等方面的(de)需求...
請立即點擊咨詢我們或撥打咨詢熱線： 18100732096，我們會詳細為(wèi)你一(yī)一(yī)解答你心中的(de)疑難。項目經理(lǐ)在線

我們已經準備好了,你呢(ne)？

詳解Sora 為(wèi)什麽是AGI的(de)又一(yī)個裏程碑時刻？

我們已經準備好了,你呢(ne)？

聯系方式

二維碼