基于擴(kuò)散模型的音頻驅(qū)動說話人生成，云從 & 上交數(shù)字人研究入選 ICASSP 2023 世界最新

2023-06-18 13:26:19來源：ZAKER科技

機(jī)器之心發(fā)布

機(jī)器之心專欄

近日，國際語音及信號處理領(lǐng)域頂級會議 ICASSP2023 在希臘成功舉辦。大會邀請了全球范圍內(nèi)各大研究機(jī)構(gòu)、專家學(xué)者以及等谷歌、蘋果華為、Meta AI、等知名企業(yè)近 4000 人共襄盛會，探討技術(shù)、產(chǎn)業(yè)發(fā)展趨勢，交流最新成果。

(資料圖)

云從科技與上海交通大學(xué)聯(lián)合研究團(tuán)隊的《基于擴(kuò)散模型的音頻驅(qū)動說話人生成》成功入選會議論文，并于大會進(jìn)行現(xiàn)場宣講，獲得多方高度關(guān)注。

論文地址：https://ieeexplore.ieee.org/document/10094937/

ICASSP（International Conference on Acoustics, Speech and Signal Processing）是語音、聲學(xué)領(lǐng)域的頂級國際會議之一， ICASSP 學(xué)術(shù)會議上展示的研究成果，被認(rèn)為代表著聲學(xué)、語音領(lǐng)域的前沿水平與未來發(fā)展方向。

本次入選論文，圍繞 " 基于音頻驅(qū)動的說話人視頻生成 " 這一視覺 - 音頻的跨模態(tài)任務(wù)，將語音與視覺技術(shù)結(jié)合，提出的方法能夠根據(jù)輸入的語音片段技術(shù)，生成自然的頭部動作，準(zhǔn)確的唇部動作和高質(zhì)量的面部表情說話視頻。該項成果在多個數(shù)據(jù)集上，都取得了優(yōu)于過去研究的表現(xiàn)。

此外，在實戰(zhàn)場景中，隨著現(xiàn)實生活中對于數(shù)字人引用的愈來愈廣泛，實現(xiàn)用音頻驅(qū)動的生成與輸入音頻同步的說話人臉視頻的需求也越來越大。本項成果基于擴(kuò)散模型的跨模態(tài)說話人生成技術(shù)，可以推廣到廣泛的應(yīng)用場景，例如虛擬新聞廣播，虛擬演講和視頻會議等等。

簡介

基于音頻驅(qū)動的說話人視頻生成任務(wù)（Audio-driven Talking face Video Generation）：該任務(wù)是根據(jù)目標(biāo)人物的一張照片和任意一段語音音頻，生成與音頻同步的目標(biāo)人物說話的視頻。由于其生成的說話人更自然、準(zhǔn)確的唇形運(yùn)動和保真度更高的頭部姿態(tài)、面部表情，該任務(wù)廣泛應(yīng)用于如數(shù)字人、虛擬視頻會議和人機(jī)交互等領(lǐng)域，作為視覺 - 音頻的跨模態(tài)任務(wù)，基于音頻驅(qū)動的說話人視頻生成也受到了越來越多的關(guān)注。

為了構(gòu)建音頻信號到面部形變的映射，現(xiàn)有方法引入了中間人臉表征，包括 2D 關(guān)鍵點或者 3D morphable face model ( 3DMM ) ，盡管這些方法在音頻驅(qū)動的面部重演任務(wù)上取得了良好的視覺質(zhì)量，但由于中間人臉表征造成的信息損失，可能會導(dǎo)致原始音頻信號和學(xué)習(xí)到的人臉變形之間的語義不匹配。

此外基于 GAN 的方法訓(xùn)練不穩(wěn)定，很容易陷入模型崩塌，往往它們只能生成具有固定分辨率的圖像。針對以上問題，AD-Nerf 引入了神經(jīng)輻射場，將音頻信號直接輸入動態(tài)輻射場的隱式函數(shù)，最后渲染得到逼真的合成視頻。但是基于神經(jīng)輻射場的方法計算量大導(dǎo)致訓(xùn)練耗時長，算力要求高。并且這些工作大多忽略了個性化的人臉屬性，無法準(zhǔn)確的將音頻和唇部運(yùn)動進(jìn)行同步。因此本文的研究者們提出了本方法，通過借助去噪擴(kuò)散模型來高效地優(yōu)化人臉各部分個性化屬性特征，進(jìn)而合成高保真度的高清晰視頻。

方法

該方法首先基于一個關(guān)鍵的直覺：唇部運(yùn)動與語音信號高度相關(guān)，而個性化信息，如頭部姿勢和眨眼，與音頻的關(guān)聯(lián)較弱且因人而異。受到最近擴(kuò)散模型在高質(zhì)量的圖像以及視頻生成方面已經(jīng)取得了快速進(jìn)展的啟發(fā)，因此研究者們基于擴(kuò)散模型重新構(gòu)造音頻驅(qū)動面部重演的新框架，本方法來優(yōu)化說話人臉視頻的生成質(zhì)量和真實度。

本方法一共包含四大部分：（1）人臉屬性解耦；（2）唇 - 音對比同步；（3）動態(tài)連續(xù)性屬性信息建模；（4）基于去噪擴(kuò)散模型的說話人生成

人臉屬性解耦部分中，研究者采用 3DMM 提取源身份圖像的頭部姿態(tài)和表情系數(shù)，然后借鑒之前 DFA-nerf 的工作采用全連接的自編碼器從表情參數(shù)解耦得到唇部運(yùn)動和眨眼動作信息。

唇 - 音對比同步模塊中，研究者通過引入自監(jiān)督跨模態(tài)對比學(xué)習(xí)策略來部署一個確定性模型來同步音頻和唇部運(yùn)動的特征。

動態(tài)連續(xù)性屬性信息建模模塊中，由于頭部姿勢和眨眼等個性化人臉屬性是隨機(jī)的和具有一定概率性的，因此為了對人臉屬性的概率分布進(jìn)行建模并生成長時間序列，研究者提出采用了基于 transformer 的變分自動編碼器（VAE）的概率模型，一是 VAE 可以用于平滑離散的屬性信息并映射為高斯分布，二是利用 Transformer 的注意力機(jī)制充分學(xué)習(xí)時間序列的幀間長時依賴性。

基于去噪擴(kuò)散模型的說話人生成模塊中，研究者生成的個性化人臉屬性序列與同步的音頻嵌入相連接作為擴(kuò)散模型的輸入條件。然后利用條件去噪擴(kuò)散概率模型（DDPM）將這些驅(qū)動條件以及源人臉作為輸入，通過擴(kuò)散生成的方式生成最終的高分辨率說話人視頻。這些個性化人臉屬性序列與同步的音頻嵌入用來豐富擴(kuò)散模型，以保持生成圖像序列的一致性。

實驗結(jié)果

研究者們通過實驗驗證了本方法對于基于音頻驅(qū)動的說話人視頻生成任務(wù)的優(yōu)越性能。

定量比較實驗

研究者將本方法與現(xiàn)有音頻驅(qū)動的人臉視頻生成方法通過定量化分析實驗進(jìn)行比較，采用了峰值信噪比 ( PSNR ) , 結(jié)構(gòu)相似度（SSIM），人臉關(guān)鍵點運(yùn)動偏移（LMD），視聽同步置信度 ( Sync ) 等多個客觀的評估指標(biāo)，具體信息如表 1 所示。

本文所提出的擴(kuò)散生成框架在所有的性能指標(biāo)上都優(yōu)于其他方法，其中 PSNR 和 SSIM 驗證了人臉屬性解耦方案能夠更好地捕捉說話人的頭部姿態(tài)、眨眼等個性化信息。而本方法的 LMD 分?jǐn)?shù)意味著本方法的唇音一致性更強(qiáng)。此外，受益于輸入音頻和唇部運(yùn)動的跨模態(tài)對比學(xué)習(xí)，本方法在 Sync 指標(biāo)上大幅超越其他方法。

定性比較實驗

研究者將本方法與現(xiàn)有音頻驅(qū)動的人臉視頻生成方法進(jìn)行比較。通過個性化屬性的學(xué)習(xí)以及擴(kuò)散模型的優(yōu)化，我們的方法生成具有個性化的頭部運(yùn)動，更加逼真眨眼信息，唇 - 音同步性能更好的人臉視頻。

模型中每個模塊帶來的效益

為了突顯出模型中每個模塊的重要性，研究者們做了消融實驗，如表 2 所示，當(dāng)添加 DDPM 模塊之后，在推理速度和視覺質(zhì)量方面相比于其他模塊的提升是最大的，其次，受益于解耦的人臉屬性信息以及 VAE 的屬性平滑以及動態(tài)連續(xù)性建模的作用，說話人人臉的自然度得到了提高。此外，唇音對比學(xué)習(xí)的模塊通過自監(jiān)督的方式顯著提高了唇部運(yùn)動和與輸入音頻的同步質(zhì)量。

模型的效率

研究者們還展示了模型的可訓(xùn)練參數(shù)量，推理速度以及輸出的分辨率大小，并和之前的 SOTA 模型進(jìn)行了對比，由于使用去噪擴(kuò)散概率模型，該模型利用變分方法而不是對抗性訓(xùn)練，并且不需要部署多個鑒別器，因此極大緩解了訓(xùn)練時模型容易陷入模型坍塌的問題，并且采用了較短的時間步長，推理速度大大提高，效率得到了提升。

結(jié)論

針對基于音頻驅(qū)動的高保真度說話人視頻生成這個任務(wù)，云從 - 上交的聯(lián)合研究團(tuán)隊提出了，基于擴(kuò)散框架的音頻驅(qū)動說話人視頻生成方法，只需要一幀或幾幀身份圖像以及輸入語音音頻，即合成一個高保真度的人臉視頻，實現(xiàn)了最先進(jìn)的合成視頻視覺質(zhì)量。此外利用了跨模態(tài)唇音對比學(xué)習(xí)的方法，從而提升了唇部和音頻的一致性，在公開數(shù)據(jù)集上取得了 SOTA 表現(xiàn)。

THE END

轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

投稿或?qū)で髨蟮溃篶ontent@jiqizhixin.com

關(guān)鍵詞：

責(zé)任編輯：hnmd003