{首页主词},&

文生視頻大模型Sora引爆網絡，此類模型創新背后有哪些專利布局？

作者：來源：中國知識產權報瀏覽次數：次發布時間：2024-02-29

日前，人工智能研究公司OpenAI繼一年前發布ChatGPT后，再次發布了文生視頻大模型Sora，引起人們的廣泛關注。該模型的出圈，也帶火了相關技術和產業的話題。有消息稱，國內相關創新主體正在推出相關模型，該模型創新的背后有哪些專利布局？

　　文生視頻成為熱點

　　文生視頻是指根據描述文本生成與描述文本語義匹配且連貫的視頻，需要運算模型結合文本信息捕獲視頻的時空運動模式，是一項極具挑戰性的跨模態轉換任務。

　　基于人工智能技術的文生視頻模型雖然是新興技術，但并非前無古人。《瞬息全宇宙》幕后的技術公司Runway于2023年6月發布了視頻編輯工具Gen-2，可以根據提示詞生成視頻。在2023年11月，Stability AI發布Stable Video Diffusion模型；Meta公司推出的Emu Video功能，可以根據純文本、純圖像或組合的文本和圖像輸入來生成視頻。谷歌公司于2023年12月30日發布了零鏡頭視頻生成模型VideoPoet，又于今年1月發布Lumiere，其采用先進的空間時間U-Net架構，實現一次性生成整個視頻。國內大廠也不甘示弱，2024年1月，字節跳動正式發布MagicVideo-V2文生視頻大模型；百度推出了能夠處理文本和圖像組合輸入的UniVG；騰訊發布了VideoCrafter2；阿里有自研的Animate Anyone。每一個產品的公布都會帶來業界的熱烈討論和股市的強烈反應。

　　Sora緣何引爆網絡呢？我們只需輸入一段文字，Sora就能創建一個與真實世界接近的虛擬世界，并且時長可達60秒。Sora還展示出AI對現實物理空間和物體間相互作用關系的想象。在幾段演示視頻中，潛水視頻中改進的取景角度仍然可以使觀眾感受到真實的眩暈感，沖浪視頻中由靜態處理為動態的波濤洶涌能夠產生裸眼3D的效果。

　　在Sora展示的新興仿真功能中，隨著攝像機角度的移動和旋轉，人物和場景元素在三維空間中始終如一地移動，以簡單的方式模擬影響世界狀態的動作。這些性能可以成為數字孿生和虛擬現實技術的基礎。業界專家猜測，Sora還不具備對物理世界自然規律的全面理解，但其蘊含的技術已在觀察學習現實世界、嘗試表現現實世界中踏出了一大步。

　　技術創新前景廣闊

　　從Sora的技術報告中可以看出，Sora采用時空Patch技術和DiT或擴散型Transformer架構。國內業界表示，從技術上來看，目前，國內的研究大部分也基于DiT架構，試圖在技術浪潮中占有一席之地。

　　從專利來看，文生視頻領域的專利申請主要從2023年開始。2023年5月，騰訊提交一種視頻生成方法專利申請，利用視頻的隱式空間而非直接在原始視頻數據上建模去噪網絡，實現更加高效快速和更節省資源的模型計算，方案還探索了兩種應用——VideoLoRA是個性化的視頻生成模型的微調，使得用戶也可以訓練屬于他們的視頻生成模型；VideoControl是加入除了文本之外的條件到視頻生成模型中來，使得視頻生成的結構信息也能夠由用戶控制，解決通用模型視頻生成過程人為控制度不高的問題。

　　2023年8月，百度提交一種基于人工智能的應用于AIGC等場景的內容生成方法專利申請，同月，其關聯公司度小滿科技（北京）有限公司提出一種文生視頻生成方法，該專利通過將視頻壓縮至頻譜隱空間中，在頻譜隱空間中將一個視頻內容壓縮并解耦后的特征可以支持多個特征自由融合，所需的資源遠小于原視頻空間，解決現有模型算力消耗大且生成視頻時長受限的問題。

　　2023年11月，清華大學提交了一種定制化多主體文生視頻方法專利申請，解決現有的文生視頻方法只能生成對單一主體的定制化文本生成對應的視頻，實現多個主體的定制化文本生成在同一畫面的視頻中。

　　阿里巴巴達摩院在視頻生成過程中同時獲取描述文本和參考圖像，將描述文本和參考圖像輸入包含圖像參考分支和視頻生成分支的雙分支的視頻生成模型，通過圖像參考分支提取參考圖像特征，通過視頻生成分支基于參考圖像特征和描述文本的文本特征，生成目標視頻的序列幀，進而生成目標視頻，提升生成視頻的質量。

　　2024年1月，上海巖芯數智發布國內首個非Attention機制的通用自然語言大模型——Yan模型，采用全新自研的“Yan架構”代替Transformer架構，達到計算量更小、難度更低的線性計算，提高了建模效率和訓練速度，效率翻倍的同時實現了成本的降低。

　　文生視頻的應用場景廣闊。鑒于現有文生視頻模型的缺陷，通用模型的定制化、小型化，特定文化背景下文本含義的理解，現有模型架構的重構等均為備受關注的研發方向。