OpenAI新增文生視(shì)頻模型Sora：60s、多角度、細節準确-常見問題-湖南德銘電子(zǐ)商務有限公司-德銘電商

2月16日淩晨，OpenAI發布了文生視(shì)頻模型Sora。據介紹，Sora能夠生成具有多個角色、特定運動類型以及主題和(hé)背景的(de)準确細節的(de)複雜場景。該模型不僅了解用戶在提示符中要求的(de)內(nèi)容，還了解這些東西在物理(lǐ)世界中是如(rú)何存在的(de)。

比如(rú)，提示詞：兩艘海盜船在一(yī)杯咖啡中航行時相互戰鬥的(de)逼真特寫視(shì)頻。

再比如(rú)，提示詞：這張維多利亞加冕鴿子(zǐ)的(de)特寫鏡頭展示了其醒目的(de)藍色羽毛和(hé)紅(hóng)色胸部。它的(de)冠狀物由精緻的(de)花邊羽毛制成，而它的(de)眼睛是醒目的(de)紅(hóng)色。鳥的(de)頭略微向一(yī)邊傾斜，給人的(de)印象是它看起來高(gāo)貴而雄偉。背景模糊不清，引起了人們對這隻鳥引人注目的(de)外表的(de)注意。

目前Open AI官網上更新了40多個視(shì)頻demo。

在這些demo中，Sora不僅能準确呈現細節，還能理(lǐ)解物體在物理(lǐ)世界中的(de)存在，并生成具有豐富情感的(de)角色。該模型還可(kě)以根據提示、靜止圖像甚至填補現有視(shì)頻中的(de)缺失幀來生成視(shì)頻。

據介紹，Sora模型對語言有深刻的(de)理(lǐ)解，使其能夠準确解釋提示，并生成表達充滿活力的(de)情感的(de)引人注目的(de)字符。Sora還可(kě)以在單個生成的(de)視(shì)頻中創建多個鏡頭，以準确保留角色和(hé)視(shì)覺風格。

OpenAI關于Sora相關的(de)技術報告：《Video generation models as world simulators | 視(shì)頻生成模型：構建虛拟世界的(de)模拟器》指出，Sora的(de)能力包括：時長(cháng)、分辨率、畫面比例可(kě)變；語言理(lǐ)解能力；可(kě)通過圖像和(hé)視(shì)頻進行提示；圖像生成能力；湧現能力。

時長(cháng)、分辨率、畫面比例可(kě)變：Sora可(kě)以采樣橫屏1920x1080p視(shì)頻、豎屏1080x1920視(shì)頻以及兩者之間的(de)所有內(nèi)容。所以Sora可(kě)以直接以原生寬高(gāo)比為(wèi)不同設備創建內(nèi)容，并且以原生寬高(gāo)比訓練視(shì)頻可(kě)以改善構圖和(hé)取景。

語言理(lǐ)解能力：OpenAI 首先訓練一(yī)個高(gāo)度描述性的(de)字幕模型，然後使用它為(wèi)訓練集的(de)所有視(shì)頻生成文本字幕。訓練高(gāo)度描述性的(de)視(shì)頻字幕可(kě)以提高(gāo)文本的(de)準确性以及視(shì)頻的(de)整體質量。另外，還利用 GPT 将用戶簡短(duǎn)的(de)提示轉化為(wèi)更詳細的(de)描述，并發送給視(shì)頻模型。這使得 Sora 能夠更準确地(dì)按照用戶的(de)提示進行操作。

可(kě)通過圖像和(hé)視(shì)頻進行提示： Sora 不僅可(kě)以使用文本作為(wèi)提示詞，還可(kě)以接受圖片或視(shì)頻作為(wèi)提示，并執行各種圖像和(hé)視(shì)頻編輯任務，例如(rú)創建循環的(de)視(shì)頻，給靜态圖像添加動畫效果，将視(shì)頻向前或向後擴展、視(shì)頻對視(shì)頻的(de)風格轉換、視(shì)頻之間的(de)無縫過渡等等。

圖像生成能力：通過在一(yī)個幀的(de)時間範圍內(nèi)，将高(gāo)斯噪聲 patches 排列在一(yī)個空間網格中來實現這一(yī)點。可(kě)以生成不同尺寸的(de)圖像，最高(gāo)分辨率可(kě)達2048x2048。

Sora的(de)湧現能力包括：3D一(yī)緻性；長(cháng)視(shì)頻的(de)時間一(yī)緻性；與世界互動；模拟數字世界。

3D一(yī)緻性：Sora 可(kě)以生成具有動态攝像機運動的(de)視(shì)頻。随着攝像機的(de)移動和(hé)旋轉，人物和(hé)場景元素在三維空間中保持一(yī)緻移動。

長(cháng)視(shì)頻的(de)時間一(yī)緻性：Sora 通常能夠有效地(dì)建模短(duǎn)程和(hé)長(cháng)程的(de)依賴關系，盡管并非總是如(rú)此。例如(rú)，Sora 可(kě)以在人、動物和(hé)物體被遮擋或離(lí)開畫面時仍然保持它們的(de)存在。同樣，它可(kě)以在一(yī)個樣本中生成同一(yī)角色的(de)多個鏡頭，并在整個視(shì)頻中保持它們的(de)外觀。

與世界互動：Sora 有時可(kě)以模拟對世界狀态産生簡單影響的(de)動作。例如(rú)，畫家可(kě)以在畫布上留下持續一(yī)段時間的(de)新筆(bǐ)觸，或者一(yī)個人可(kě)以吃掉一(yī)個漢堡并留下咬痕。

模拟數字世界：Sora 還能夠模拟人工過程，一(yī)個例子(zǐ)就是視(shì)頻遊戲。Sora 可(kě)以同時使用基本策略控制Minecraft中的(de)玩家，同時以高(gāo)保真度渲染世界及其動态。通過提示Sora 提到“Minecraft”的(de)标題，可(kě)以激發這些能力。

同時，Openi AI提示，目前的(de)模型弱點是，Sora 無法準确模拟許多基本交互的(de)物理(lǐ)效應，比如(rú)玻璃破碎。其他交互，比如(rú)吃東西，也不總是能正确地(dì)改變物體狀态，以及在長(cháng)時間樣本中出現的(de)不連貫性或物體的(de)突然出現等等。

上一(yī)篇：私域近九成留存率千萬用戶大盤如(rú)何從“量變”到“質變”？
下一(yī)篇：魅族公布 All in AI 全新戰略規劃，現有産品正常享有軟硬件維護服務

我們憑借多年(nián)的(de)互聯網運營經驗，堅持以“幫助中小企業實現網絡營銷化”為(wèi)宗旨，累計為(wèi)200多家客戶提供品質建站服務，得到了客戶的(de)一(yī)緻好評。如(rú)果您有電商運營、網站建設、網站改版、域名注冊、主機空間、手機網站建設、網站備案等方面的(de)需求...
請立即點擊咨詢我們或撥打咨詢熱線： 18100732096，我們會詳細為(wèi)你一(yī)一(yī)解答你心中的(de)疑難。項目經理(lǐ)在線

我們已經準備好了,你呢(ne)？

OpenAI新增文生視(shì)頻模型Sora：60s、多角度、細節準确

我們已經準備好了,你呢(ne)？

聯系方式

二維碼