2月16日淩晨,OpenAI發布了文生視(shì)頻模型Sora。據介紹,Sora能夠生成具有多個角色、特定運動類型以及主題和(hé)背景的(de)準确細節的(de)複雜場景。該模型不僅了解用戶在提示符中要求的(de)內(nèi)容,還了解這些東西在物理(lǐ)世界中是如(rú)何存在的(de)。
比如(rú),提示詞:兩艘海盜船在一(yī)杯咖啡中航行時相互戰鬥的(de)逼真特寫視(shì)頻。
再比如(rú),提示詞:這張維多利亞加冕鴿子(zǐ)的(de)特寫鏡頭展示了其醒目的(de)藍色羽毛和(hé)紅(hóng)色胸部。它的(de)冠狀物由精緻的(de)花邊羽毛制成,而它的(de)眼睛是醒目的(de)紅(hóng)色。鳥的(de)頭略微向一(yī)邊傾斜,給人的(de)印象是它看起來高(gāo)貴而雄偉。背景模糊不清,引起了人們對這隻鳥引人注目的(de)外表的(de)注意。
目前Open AI官網上更新了40多個視(shì)頻demo。
在這些demo中,Sora不僅能準确呈現細節,還能理(lǐ)解物體在物理(lǐ)世界中的(de)存在,并生成具有豐富情感的(de)角色。該模型還可(kě)以根據提示、靜止圖像甚至填補現有視(shì)頻中的(de)缺失幀來生成視(shì)頻。
據介紹,Sora模型對語言有深刻的(de)理(lǐ)解,使其能夠準确解釋提示,并生成表達充滿活力的(de)情感的(de)引人注目的(de)字符。Sora還可(kě)以在單個生成的(de)視(shì)頻中創建多個鏡頭,以準确保留角色和(hé)視(shì)覺風格。
OpenAI關于Sora相關的(de)技術報告:《Video generation models as world simulators | 視(shì)頻生成模型:構建虛拟世界的(de)模拟器》指出,Sora的(de)能力包括:時長(cháng)、分辨率、畫面比例可(kě)變;語言理(lǐ)解能力;可(kě)通過圖像和(hé)視(shì)頻進行提示;圖像生成能力;湧現能力。
時長(cháng)、分辨率、畫面比例可(kě)變:Sora可(kě)以采樣橫屏1920x1080p視(shì)頻、豎屏1080x1920視(shì)頻以及兩者之間的(de)所有內(nèi)容。所以Sora可(kě)以直接以原生寬高(gāo)比為(wèi)不同設備創建內(nèi)容,并且以原生寬高(gāo)比訓練視(shì)頻可(kě)以改善構圖和(hé)取景。
語言理(lǐ)解能力:OpenAI 首先訓練一(yī)個高(gāo)度描述性的(de)字幕模型,然後使用它為(wèi)訓練集的(de)所有視(shì)頻生成文本字幕。訓練高(gāo)度描述性的(de)視(shì)頻字幕可(kě)以提高(gāo)文本的(de)準确性以及視(shì)頻的(de)整體質量。另外,還利用 GPT 将用戶簡短(duǎn)的(de)提示轉化為(wèi)更詳細的(de)描述,并發送給視(shì)頻模型。這使得 Sora 能夠更準确地(dì)按照用戶的(de)提示進行操作。
可(kě)通過圖像和(hé)視(shì)頻進行提示: Sora 不僅可(kě)以使用文本作為(wèi)提示詞,還可(kě)以接受圖片或視(shì)頻作為(wèi)提示,并執行各種圖像和(hé)視(shì)頻編輯任務,例如(rú)創建循環的(de)視(shì)頻,給靜态圖像添加動畫效果,将視(shì)頻向前或向後擴展、視(shì)頻對視(shì)頻的(de)風格轉換、視(shì)頻之間的(de)無縫過渡等等。
圖像生成能力:通過在一(yī)個幀的(de)時間範圍內(nèi),将高(gāo)斯噪聲 patches 排列在一(yī)個空間網格中來實現這一(yī)點。可(kě)以生成不同尺寸的(de)圖像,最高(gāo)分辨率可(kě)達2048x2048。
Sora的(de)湧現能力包括:3D一(yī)緻性;長(cháng)視(shì)頻的(de)時間一(yī)緻性;與世界互動;模拟數字世界。
3D一(yī)緻性:Sora 可(kě)以生成具有動态攝像機運動的(de)視(shì)頻。随着攝像機的(de)移動和(hé)旋轉,人物和(hé)場景元素在三維空間中保持一(yī)緻移動。
長(cháng)視(shì)頻的(de)時間一(yī)緻性:Sora 通常能夠有效地(dì)建模短(duǎn)程和(hé)長(cháng)程的(de)依賴關系,盡管并非總是如(rú)此。例如(rú),Sora 可(kě)以在人、動物和(hé)物體被遮擋或離(lí)開畫面時仍然保持它們的(de)存在。同樣,它可(kě)以在一(yī)個樣本中生成同一(yī)角色的(de)多個鏡頭,并在整個視(shì)頻中保持它們的(de)外觀。
與世界互動:Sora 有時可(kě)以模拟對世界狀态産生簡單影響的(de)動作。例如(rú),畫家可(kě)以在畫布上留下持續一(yī)段時間的(de)新筆(bǐ)觸,或者一(yī)個人可(kě)以吃掉一(yī)個漢堡并留下咬痕。
模拟數字世界:Sora 還能夠模拟人工過程,一(yī)個例子(zǐ)就是視(shì)頻遊戲。Sora 可(kě)以同時使用基本策略控制Minecraft中的(de)玩家,同時以高(gāo)保真度渲染世界及其動态。通過提示Sora 提到“Minecraft”的(de)标題,可(kě)以激發這些能力。
同時,Openi AI提示,目前的(de)模型弱點是,Sora 無法準确模拟許多基本交互的(de)物理(lǐ)效應,比如(rú)玻璃破碎。其他交互,比如(rú)吃東西,也不總是能正确地(dì)改變物體狀态,以及在長(cháng)時間樣本中出現的(de)不連貫性或物體的(de)突然出現等等。
請立即點擊咨詢我們或撥打咨詢熱線: 18100732096,我們會詳細為(wèi)你一(yī)一(yī)解答你心中的(de)疑難。項目經理(lǐ)在線