【快播報】可組合擴散模型主打 Any-to-Any 生成:文本、圖像、視頻、音頻全都行
機器之心報道
編輯:陳萍、杜偉
(資料圖片僅供參考)
一種模型統一多種模態實現了。
給定一句話,然后讓你想象這句話在現實場景中的樣子,對于人類來說這項任務過于簡單,比如「一輛進站的火車」,人類可以進行天馬行空的想象火車進站時的樣子,但對模型來說,這可不是一件容易的事,涉及模態的轉換,模型需要理解這句話的含義,然后根據這句話生成應景的視頻、音頻,難度還是相當大的。
現在,來自北卡羅來納大學教堂山分校、微軟的研究者提出的可組合擴散(Composable Diffusion,簡稱 CoDi)模型很好的解決了這個問題。比如,前面提到的「一輛進站的火車」,CoDi 根據這句話生成的效果如下:
與現有的生成式人工智能系統不同,CoDi 可以并行生成多種模態,其輸入不限于文本或圖像等模態。
眾所周知,隨著技術的發展,大模型的能力范圍已經不僅僅局限于一種模態的生成,而是從一種模態生成另一種模態正在變成現實,如我們常見的文本到文本的生成,文本到圖像的生成,以及文本到音頻的生成。
然而,單一模態或一對一模態在應用到現實世界中會受到限制,因為現實世界是多模態的,然而將多種模態串聯在一起難度較大。人們迫切期待開發出一種全面而具有多功能的模型,這種模型可以從一組輸入條件中生成任意組合的模態,無縫地整合來自各種信息源的信息,從而實現強大的人機交互體驗(例如,同時生成連貫的視頻、音頻和文本描述)。
CoDi 就是為了實現這一目標而進行的,可以說這是第一個能夠同時處理和生成任意組合模態的模型。
論文主頁:https://codi-gen.github.io/研究者表示 CoDi 不僅可以從單模態到單模態的生成,還可以接收多個條件輸入,以及多模態聯合生成。舉例來說,在給定文本 prompt 的情況下生成同步的視頻和音頻;或者在給定圖像和音頻 prompt 的情況下生成視頻。下面我們用具體的示例進行展示。首先考察 CoDi 生成圖像的能力。
CoDi 可以將文本 + 音頻作為輸入,然后生成一張圖片:
在這個示例中,文本 prompt 大致為:油畫,恐怖畫風,craig mullins 風格。除了文本 + 音頻,CoDi 還可以以文本 + 圖像作為輸入,然后生成一張圖片:
在這個示例中,輸入 prompt 為:花瓶里的花朵,靜物畫,Albert Williams 風格,以及一張圖片。除此以外,CoDi 還能以三種模態(文本 + 音頻 + 圖片)作為輸入,生成符合要求的圖片。
接下來是展示 CoDi 視頻生成能力。給模型一句 prompt(坐在咖啡桌旁吃東西)+ 熊貓圖片,之后一只活靈活現的大熊貓就動了起來:此外,CoDi 還能輸入單個或多個 prompt,包括視頻,圖像,文本或音頻,以生成多個對齊輸出。
在這個示例中,prompt 包括三部分(文本 + 圖像 + 音頻):文本 prompt 為滑板上的泰迪熊,4k,高分辨率。圖像是一個繁華的街道。語音輸入為嘩嘩的雨聲:生成的視頻如下:
不僅如此,CoDi 還能根據一句話生成視頻和音頻,如:空中綻放的煙花。
視頻 + 音頻效果如下:了解更多展示效果,請參考論文主頁。
方法概覽
潛在擴散模型
擴散模型(DM)是這樣一類生成式模型,它們通過模擬信息隨時間的擴散來學習數據分布 p ( x ) 。在訓練期間,隨機噪聲被迭代地添加到 x,同時模型學習對示例進行去噪。對于推理,擴散模型對從簡單分布(如高斯分布)中采樣的數據點進行去噪。潛在擴散(LDM)學習對應于 x 的潛在變量 z 的分布。通過降低數據維數來顯著降低計算成本。
可組合多模態調節
為了使自己的模型能夠以任何 input/prompt 模態的組合進行調節,研究者對齊文本、圖像、視頻和音頻的 prompt 編碼器(分別用 C_t、C_i、C_v 和 C_a 表示),將來自任何模態的輸入映射到同一個空間。然后通過對每個模態的表示進行插值來實現多模態調節。通過對齊嵌入的簡單加權插值,他們利用單條件(即僅有一個輸入)訓練的模型來執行零樣本多條件(即有多個輸入)。整個過程如下圖 2 ( a ) ( 2 ) 所示。
不過以組合方式同時對四種 prompt 編碼器進行優化具有非常大的計算量,因此需要 O ( n^2 ) 對。此外對于某些雙模態,對齊良好的配對數據集有限或不可用,例如圖像音頻對。
為了解決這些問題,研究者提出了一種簡單有效的方法「橋接對齊(Bridging Alignment)」,以高效地對齊編碼器。如下圖 2 ( a ) ( 1 ) 所示,他們選擇文本模態作為「橋接」模態,因為該模態普遍存在于配對數據中,例如文本圖像對、文本視頻對和文本音頻對。研究者從預訓練文本圖像配對編碼器 CLIP 開始,然后使用對比學習在音頻文本和視頻文本配對數據集上訓練音頻和視頻 prompt 編碼器,同時凍結文本和圖像編碼器權重。
如此一來,所有四種模態在特征空間中對齊。CoDi 可以有效地利用和組合任何模態組合中的互補信息,以生成更準確和全面的輸出。生成質量的高低不受 prompt 模態數量的影響。研究者繼續使用橋接對齊來對齊具有不同模態的 LDM 的潛在空間,以實現聯合多模態生成。可組合擴散
訓練一個端到端的 anything-to-anything 模型需要廣泛學習不同的數據資源,并且需要保持所有合成流的生成質量。為了應對這些挑戰,CoDi 被設計為可組合和集成的,允許獨立構建特定于單一模態的模型,之后實現順利集成。具體地,研究者首先獨立訓練圖像、視頻、音頻和文本 LDM,然后這些擴散模型通過一種新機制「潛在對齊」來有效地學習跨模態的聯合多模態生成。
先看圖像擴散模型。圖像 LDM 遵循與 Stable Diffusion 相同的結構,并用相同的權重進行初始化。重用該權重將在大型高質量圖像數據集上訓練的 Stable Diffusion 的知識和超高生成保真度遷移到 CoDi。
再看視頻擴散模型。為了對視頻時間屬性進行建模的同時保持視頻生成質量,研究者通過擴展具有時間模塊的圖像擴散器來構建視頻擴散器。具體地,他們在殘差塊之前插入偽時間注意力。不過研究者認為偽時間注意力只能將像素(高度和寬度維數)展平為批維數來使視頻幀在全局范圍內彼此關注,從而導致局部像素之間跨幀交互的缺失。
接著是音頻擴散模型。為了在聯合生成中實現靈活的跨模態注意力,音頻擴散器在設計時具有與視覺擴散器相似的架構,其中梅爾頻譜圖可以自然地被視為具有 1 個通道的圖像。研究者使用 VAE 編碼器將音頻的梅爾頻譜圖編碼為壓縮的潛在空間。在音頻合成中,VAW 解碼器將潛在變量映射到梅爾頻譜圖,并且聲碼器從梅爾頻譜圖生成音頻樣本。研究者使用了 [ 33 ] 中的音頻 VAE 和 [ 27 ] 的聲碼器。
最后是文本擴散模型。文本 LDM 中的 VAE 是 OPTIMUS [ 29 ] ,它的編解碼器分別是 [ 9 ] 和 GPT-2 [ 39 ] 。對于去噪 UNet,與圖像擴散不同的是,殘差塊中的 2D 卷積被 1D 卷積取代。
基于潛在對齊的聯合多模態生成
最后一步是在聯合生成中啟用擴散流之間的交叉注意力,即同時生成兩種或多種模態。這通過向 UNet _ θ 添加跨模態注意力子層來實現,詳見圖 2 ( b ) ( 2 ) 。
此外在圖 2 ( b ) ( 3 ) 中,研究者在訓練聯合生成時也遵循了與「橋接對齊」類似的設計,即(1)首先訓練圖像和文本擴散器中的交叉注意力權重以及它們在文本圖像配對數據上的環境編碼器 V。(2)凍結文本擴散器的權重,并在文本音頻配對數據上訓練環境編碼器和音頻擴散器的交叉注意力權重。(3)凍結音頻擴散器及其環境編碼器,并在音頻視頻配對數據上訓練視頻模態的聯合生成。
從結果來看,盡管只接受了三個配對聯合生成任務(文本 + 音頻、文本 + 圖像和視頻 + 音頻)的訓練,但 CoDi 能夠同時生成訓練中未見過的各種模態組合,例如下圖 5 中的聯合圖像 - 文本 - 音頻生成。
實驗結果
表 1 提供了數據集、任務、樣本數量和領域的概覽信息。
下圖 3 展示了各種單模態到單模態的生成示例演示。CoDi 在音頻字幕和音頻生成方面實現了新 SOTA,如表 4 和表 6 所示。在圖像和視頻生成方面,CoDi 的表現與最先進的技術相媲美,如表 2 和表 3 所示。如表 8 所示,CoDi 在給定的輸入模態分組中實現了高質量圖像生成。此外,表 9 表明,CoDi 在給定各種輸入模態組的情況下與真值相似。了解更多內容,請參考原論文。THE END
轉載請聯系本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com
責任編輯:hnmd003
相關閱讀
-
【快播報】可組合擴散模型主打 Any-to-Any 生成:文本、圖像、視頻、音頻全都行
機器之心報道編輯:陳萍、杜偉一種模型統一多種模態實現了。給定一句話,然后讓你想象這句話在現實場景中的
2023-05-23 -
天天即時看!OPPO Reno10 系列暮光紫配色亮相,輕薄趁手盡顯極致優雅
隨著發布會時間的臨近,OPPO官方放出更多關于Reno10系列新品的預熱物料為其造勢。目前除了外觀設計以及影像
2023-05-23
相關閱讀
-
【快播報】可組合擴散模型主打 Any-to-Any 生成:文本、圖像、視頻、音頻全都行
機器之心報道編輯:陳萍、杜偉一種模型統一多種模態實現了。給定一句話,然后讓你想象這句話在現實場景中的
-
除了山寨機,極客用戶如今也成為黑客最愛 世界信息
眾所周知,如今的電腦病毒和黑客攻擊,與十年前、二十年前的情況已經截然不同了。在以前,黑客,病毒制作者
-
2023 市場寒冬依舊 智能手機行業還能怎么卷?
【手機中國】北京時間5月5日,世衛組織宣布:新冠不再為國際關注的突發公共衛生事件,過去三年里令全球市場
-
天天即時看!OPPO Reno10 系列暮光紫配色亮相,輕薄趁手盡顯極致優雅
隨著發布會時間的臨近,OPPO官方放出更多關于Reno10系列新品的預熱物料為其造勢。目前除了外觀設計以及影像
-
谷歌正與多所高校合作,研發 AI 機器人 TidyBot-全球熱聞
品玩5月23日訊,據vice報道,谷歌正在與來自普林斯頓大學、斯坦福大學等高校的研究人員合作,研發一款名為T
-
押準周杰倫的愛瑪電動車,再押注 Z 世代玩的“智能化”,如何跑出新增長? 最新快訊
一家連續吃到紅利的公司,因為大膽押中周杰倫而出圈過,13年之后,在挑剔、愛美、自我的外星人00后Z世代面
-
滬指跌 0.58%,新冠藥概念股逆勢走強;北上資金半日凈流出超 36 億;應急管理部:厘清并壓實氫能等新業態安全監管職責
北京時間5月23日11:30,上證指數早盤下跌19 11點,跌幅為0 58%,報收3277 36點,成交額1951 74億元;深證成
-
中國海油回應“中特估”:強化投資者溝通交流,多平臺、多方式、多渠道開展投資者溝通工作
在中特估概念下,油氣板塊的市值修復備受市場關注。與國際頭部油氣企業相比,國內三桶油的盈利能力并不遜色
-
每日消息!NBA 超級巨星退役!“ 03 黃金一代”僅剩詹姆斯,剛剛 0-4 被橫掃出局…
據央視網,北京時間5月22日,NBA超級巨星卡梅隆·安東尼更新社交媒體,正式對外宣布將退役。圖片來源:...
-
“ 1980 元游新疆 18 天還買 1 送 1 ”,大量游客原地被甩!涉案旅行社有“前科”,最新通報來了|當前觀點
5月22日,新疆文旅投訴公眾號發布了關于近期甩團案件情況的通報。通報中表示,今年4月中旬以來,全疆發生多
-
欠5500元不還!旬陽曝光最新一批失信被執行人!【959擴散】 天天快訊
(本期失信被執行人名單統計截止日期為2023年5月8日)如果你是上述當事人你要盡快聯系辦案法官履行法定義務
-
買白銀去哪里買好?買白銀能保值嗎?
買白銀去哪里買好?買白銀你可以去金融機構或者銀行進行購買,也可以去海黃金交易所、上海期貨交易所進行...
-
借高利貸違法嗎?高利貸違法犯罪的法律依據
借高利貸違法嗎?借高利貸不是違法的行為。民間借貸的利率可以適當高于銀行的利率,各地人民法院可根據本...
-
網絡運營者應當按照網絡安全等級保護制度的要求履行哪些安全保護義務?
保障網絡安全措施如下:制定內部安全管理制度和操作規程,確定網絡安全負責人,落實網絡安全保護責任;采...
-
結息交易是什么意思?農業銀行結息是扣錢嗎?
結息交易是什么意思?農業銀行結息交易的意思是從低息市場中借貸來的資金,然后再次投資于回報率高的貨幣...
-
發生醫療糾紛醫患雙方可以通過哪些途徑解決?發生醫療事故的賠償等民事責任爭議怎么解決?
《醫療糾紛預防和處理條例》第二十二條規定,醫療糾紛的處理途徑如下:1、雙方自愿協商;2、申請人民調解...
-
工行信用卡金卡有什么好處?工行信用卡金卡和普卡的區別?
工行信用卡金卡有什么好處?1 不需要存款即可透支消費,并可享有20-56天的免息期按時還款利息分文不收。...
-
三資企業人員具體指的是什么?三資企業的注冊資本是什么?
一、什么是三資企業人員指的是中外合資企業、中外合作企業和外資企業(即獨資企業)的人員。三資企業是根...
-
養豬貸款需要什么條件?養豬貸款利
養豬貸款需要什么條件?一般要求借款人年滿18周歲,具有完全民事行為能力,在當地有固定居所,身體健康,...
-
道路交通安全法八十七條是什么內容?新交規違章扣分標準是什么?
一、上海新交規違章扣分標準扣1分:1、非攜帶行駛證、駕駛證;2、駕駛未放置有效檢驗合格標志的機動車;3...
-
債券基金怎么選比較好?債權基金的風險級別
債券基金怎么選比較好?首先,就是要根據個人的風險偏好確定合適的債券基金類型。債券基金的風險并非都是...
-
車輛、行人違反交通信號通行的后果是什么?駕駛證的申請條件是什么?
駕駛技能準考證明的有效期是三年。申請人在場地和道路上學習駕駛,應當按規定取得學習駕駛證明。學習駕...
-
養老保險到多少歲才能領???參加基本養老保險的個人累計繳納多少年才能領取?
目前養老保險從達到法定退休年齡并且累計繳費滿十五年的時候開始領,根據《社會保險法》,參加基本養老...
-
中華人民共和國民法典第九百九十一條內容是什么?民事主體的人格權受法律保護嗎?
人格權是民事主體享有的生命權、身體權、健康權、姓名權、名稱權、肖像權、名譽權、榮譽權、隱私權等權...
-
上海黃金交易所怎么開戶交易?上海黃金交易所可以買實物黃金嗎?
上海黃金交易所怎么開戶交易?【1】提供開戶所需資料(兩份復印件并加蓋單位公章):營業執照、組織機構代...
-
外國向中華人民共和國提出的引渡請求必須同時符合哪些條件才能準予引渡?
引渡指的是在外國人不在本國境內,該行為人已經被指控為犯罪或已經被判刑,他國請求該行為人所在國將其...
-
msci是什么意思?msci中國指數有多少只股票?
msci是什么意思?msci是什么意思?MSCI指數的全稱是Morgan Stanley Capital International Index,即...
-
違反交通運輸管理法規因而發生重大事故的怎么判刑?交通運輸肇事后逃逸量刑標準是什么?
肇事逃逸的判定:只有行為已構成交通肇事罪,為了逃避法律追究而脫離現場的行為,才能認定為逃逸脫離現...
-
公積金結息是什么意思?公積金結息怎么計算?
公積金結息是什么意思?住房公積金結息通俗的說就是住房公積金跟存錢一樣開始每年都會核算利息了。公積金...
-
什么是定期存款利率?定期存款利率根據年限的不同利率也不一樣?
大家如果有多余的資金,很多人都會選擇去銀行存款,對于銀行存款來說,銀行存款需要按照銀行存款的一個...
精彩推薦
閱讀排行
精彩推送
- 新華百萬醫療好嗎?怎么投保?
- 每日速看!壽險和百萬醫療哪個重...
- 百萬醫療保的是什么?一年多少錢...
- 養老保險能領多少年?怎么領?
- 陽光百萬醫療怎么樣?保什么?
- 世界最資訊丨OpenAI正探索AI集體...
- 環球熱議:AI前哨|“AI孫燕姿”...
- QuestMobile:外賣月活用戶近2億
- 路特斯被曝將試駕車當新車交付,...
- 基金贖回手續費怎么計算?10萬基...
- 世界快消息!預計10-13萬元 奔...
- 全球觀察:大眾新款途銳預告圖 ...
- 6月5日全球首秀 雷克薩斯LBX預...
- 歐洲股市開盤時間是幾點?歐洲股...
- 金燕卡屬于什么銀行?金燕卡有效...
- 新三板行情在哪里看?新三板股票...
- 什么是信托基金?100萬信托一年...
- 二手房貸款是先過戶還是先放款?...
- 債基凈值異常波動,巨額贖回頻發...
- 杭州今年第四批集中供地攬金138...
- 天然牛黃價格突破百萬 銷售人員...
- 快手漲超4% 上市后首次集團整體盈利
- 兩市融資余額減少8.48億元|每日視訊
- 天天快播:掌上明珠家居《超級搶...
- 當前訊息:芯華章再出手!投資的...
- 車上責任險是什么意思?車上責任...
- 止損止盈是什么意思?止盈止損是...
- 每日快訊!松霖衛浴廈門_松霖衛浴五金
- 東莞個人社保怎么買?東莞個人社...
- 人壽保險救援電話是多少?救援免...