OpenAlSora官方技術(shù)報(bào)告中文版

bravo090 · 發(fā)表于 2024-2-19 09:47:11

OpenA12月16日凌晨發(fā)布了文生視頻大模型Sora，在科技圈引起一連串的震驚和感嘆，在2023年，我們見(jiàn)證了文生文、文生圖的進(jìn)展速度，視頻可以說(shuō)是人類(lèi)被A|攻占最慢的一塊“處女地”。而在2024年開(kāi)年，OpenAl就發(fā)布了王炸文生視頻大模型Sora，它能夠僅僅根據(jù)提示詞，生成60s的連貫視頻，“碾壓”了行業(yè)目前大概只有平均“4s”的視頻生成長(zhǎng)度。
為了方便理解，我們簡(jiǎn)單總結(jié)了這個(gè)模型的強(qiáng)大之處:
1、文本到視頻生成能力:Sora能夠根據(jù)用戶(hù)提供的文本描述生成長(zhǎng)達(dá)60S的視頻，這些視頻不僅保持了視覺(jué)品質(zhì)，而且完整準(zhǔn)確還原了用戶(hù)的提示語(yǔ)。
2、復(fù)雜場(chǎng)景和角色生成能力:Sora能夠生成包含多個(gè)角色、特定運(yùn)動(dòng)類(lèi)型以及主題精確、背景細(xì)節(jié)復(fù)雜的場(chǎng)景。它能夠創(chuàng)造出生動(dòng)的角色表情和復(fù)雜的運(yùn)鏡，使得生成的視頻具有高度的逼真性和敘事效果。
3、語(yǔ)言理解能力:Sora擁有深入的語(yǔ)言理解能力，能夠準(zhǔn)確解釋提示并生成能表達(dá)豐富情感的角色。這使得模型能夠更好地理解用戶(hù)的文本指令，并在生成的視頻內(nèi)容中忠實(shí)地反映這些指令。
4、多鏡頭生成能力:Sora可以在單個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭，同時(shí)保持角色和視覺(jué)風(fēng)格的一致性。這種能力對(duì)于制作電影預(yù)告片、動(dòng)畫(huà)或其他需要多視角展示的內(nèi)容非常有用。
5、從靜態(tài)圖像生成視頻能力:Sora不僅能夠從文本生成視頻，還能夠從現(xiàn)有的靜態(tài)圖像開(kāi)始，準(zhǔn)確地動(dòng)畫(huà)化圖像內(nèi)容，或者擴(kuò)展現(xiàn)有視頻，填補(bǔ)視頻中的缺失幀。
6、物理世界模擬能力:Sora展示了人工智能在理解真實(shí)世界場(chǎng)景并與之互動(dòng)的能力，這是朝著實(shí)現(xiàn)通用人工智能(AGI)的重要一步。它能夠模擬真實(shí)物理世界的運(yùn)動(dòng)，如物體的移動(dòng)和相互作用。
可以說(shuō)，Sora的出現(xiàn)，預(yù)示著一個(gè)全新的視覺(jué)敘事時(shí)代的到來(lái)，它能夠?qū)⑷藗兊南胂罅︕D(zhuǎn)化為生動(dòng)的動(dòng)態(tài)畫(huà)面，將文字的魔力轉(zhuǎn)化為視覺(jué)的盛宴。在這個(gè)由數(shù)據(jù)和算法編織的未來(lái)，Sora正以其獨(dú)特的方式，重新定義著我們與數(shù)字世界的互動(dòng)。一反常態(tài)，OpenAI在模型公布后的不久，就公布了相關(guān)的技術(shù)Paper，我們第一時(shí)間“啃”了這篇技術(shù)報(bào)告，希望能夠幫助大家理解到底有哪些神奇的技術(shù)，讓Sora能夠有如此強(qiáng)大的魔力。

鏈接

https://www.aihub.cn/news/video-generation-models-as-world-simulators/

bravo090 · 發(fā)表于 2024-2-19 14:12:55

天才科學(xué)家謝賽寧說(shuō)的

向上努力 · 發(fā)表于 2024-2-19 10:38:22

Thanks.

第一反應(yīng)，小說(shuō)直接成劇，是不是變?yōu)榱丝赡埽慨?dāng)然復(fù)雜程度很高很高~

第二反應(yīng)，之前AI換臉，在Sora面前就是過(guò)家家啊~

第三反應(yīng)，國(guó)內(nèi)的300+家大模型，突飛猛進(jìn)的發(fā)展著，遙遙領(lǐng)先的進(jìn)步著，差距……又拉大了多少？

bravo090 · 發(fā)表于 2024-2-19 12:34:38

向上努力發(fā)表于 2024-2-19 10:38
Thanks.

第一反應(yīng)，小說(shuō)直接成劇，是不是變?yōu)榱丝赡埽慨?dāng)然復(fù)雜程度很高很高~

國(guó)內(nèi)除了有限的幾家，都是套殼的。畢竟大模型關(guān)鍵在于大，服務(wù)器成本太高了

海中游 · 發(fā)表于 2024-2-19 12:54:31

以后短視頻制作方便了，可以不用拍攝了。不過(guò)一樣是千篇一律，看多了沒(méi)滋味了，如同好萊塢大片、港片。

z424385518 · 發(fā)表于 2024-2-19 14:02:24

好帖我頂

盧Tiger · 發(fā)表于 2024-2-19 17:36:34

我感覺(jué)就是不同場(chǎng)景的AI合成，吹的神乎其神的。

紫衣青衫 · 發(fā)表于 2024-2-20 08:40:26

以后的世界不敢想象

yxp · 發(fā)表于 2024-2-20 09:00:55

未來(lái)在AI界可能有翻天覆地的變化

		自動(dòng)登錄	找回密碼
密碼			注冊(cè)會(huì)員

国产日韩欧美久久久精品图片|国产综合有码无码中文字幕|国产一区二区综合视频|国产亚洲精品电影网站在线观看|国产精品一区在线

OpenAlSora官方技術(shù)報(bào)告中文版

點(diǎn)評(píng)