有手就行?把大象 P 轉身只需拖動鼠標,華人一作 DragGAN 爆火_當前觀點
機器之心報道
編輯:蛋醬、小舟
(相關資料圖)
如果甲方想把大象 P 轉身,你只需要拖動 GAN 就好了。
在圖像生成領域,以 Stable Diffusion 為代表的擴散模型已然成為當前占據主導地位的范式。但擴散模型依賴于迭代推理,這是一把雙刃劍,因為迭代方法可以實現具有簡單目標的穩定訓練,但推理過程需要高昂的計算成本。
在 Stable Diffusion 之前,生成對抗網絡(GAN)是圖像生成模型中常用的基礎架構。相比于擴散模型,GAN 通過單個前向傳遞生成圖像,因此本質上是更高效的。但由于訓練過程的不穩定性,擴展 GAN 需要仔細調整網絡架構和訓練因素。因此,GAN 方法很難擴展到非常復雜的數據集上,在實際應用方面,擴散模型比 GAN 方法更易于控制,這是 GAN 式微的原因之一。
當前,GAN 主要是通過手動注釋訓練數據或先驗 3D 模型來保證其可控性,這通常缺乏靈活性、精確性和通用性。然而,一些研究者看重 GAN 在圖像生成上的高效性,做出了許多改進 GAN 的嘗試。
最近,來自馬克斯普朗克計算機科學研究所、MIT CSAIL 和谷歌的研究者們研究了一種控制 GAN 的新方法 DragGAN,能夠讓用戶以交互的方式「拖動」圖像的任何點精確到達目標點。
論文鏈接:https://arxiv.org/abs/2305.10973項目主頁:https://vcai.mpi-inf.mpg.de/projects/DragGAN/
這種全新的控制方法非常靈活、強大且簡單,有手就行,只需在圖像上「拖動」想改變的位置點(操縱點),就能合成你想要的圖像。
例如,讓獅子「轉頭」并「開口」:
還能輕松讓小貓 wink:再比如,你可以通過拖動操縱點,讓單手插兜的模特把手拿出來、改變站立姿勢、短袖改長袖。看上去就像是同一個模特重新拍攝了新照片:如果你也接到了「把大象轉個身」的 P 圖需求,不妨試試:
整個圖像變換的過程就主打一個「簡單靈活」,圖像想怎么變就怎么變,因此有網友預言:「PS 似乎要過時了」。也有人覺得,這個方法也可能會成為未來 PS 的一部分。總之,觀感就是一句話:「看到這個,我腦袋都炸了。」當大家都以為 GAN 這個方向從此消沉的時候,總會出現讓我們眼前一亮的作品:這篇神奇的論文,已經入選了 SIGGRAPH 2023。研究者表示,代碼將于六月開源。那么,DragGAN 是如何做到強大又靈活的?我們來看一下該研究的技術方法。方法概述
該研究提出的 DragGAN 主要由兩個部分組成,包括:
基于特征的運動監督,驅動圖像中的操縱點向目標位置移動;
一種借助判別型 GAN 特征的操縱點跟蹤方法,以控制點的位置。
DragGAN 能夠通過精確控制像素的位置對圖像進行改變,可處理的圖像類型包括動物、汽車、人類、風景等,涵蓋大量物體姿態、形狀、表情和布局,并且用戶的操作方法簡單通用。
GAN 有一個很大的優勢是特征空間具有足夠的判別力,可以實現運動監督(motion supervision)和精確的點跟蹤。具體來說,運動監督是通過優化潛在代碼的移位特征 patch 損失來實現的。每個優化步驟都會導致操縱點更接近目標,然后通過特征空間中的最近鄰搜索來執行點跟蹤。重復此優化過程,直到操縱點達到目標。
DragGAN 還允許用戶有選擇地繪制感興趣的區域以執行特定于區域的編輯。由于 DragGAN 不依賴任何額外的網絡,因此它實現了高效的操作,大多數情況下在單個 RTX 3090 GPU 上只需要幾秒鐘就可以完成圖像處理。這讓 DragGAN 能夠進行實時的交互式編輯,用戶可以對圖像進行多次變換更改,直到獲得所需輸出。
如下圖所示,DragGAN 可以有效地將用戶定義的操縱點移動到目標點,在許多目標類別中實現不同的操縱效果。與傳統的形變方法不同的是,本文的變形是在 GAN 學習的圖像流形上進行的,它傾向于遵從底層的目標結構,而不是簡單地應用扭曲。例如,該方法可以生成原本看不見的內容,如獅子嘴里的牙齒,并且可以按照物體的剛性進行變形,如馬腿的彎曲。研究者還開發了一個 GUI,供用戶通過簡單地點擊圖像來交互地進行操作。此外,通過與 GAN 反轉技術相結合,本文方法還可以作為一個用于真實圖像編輯的工具。
一個非常實用的用途是,即使合影中某些同學的表情管理不過關,你也可以為 Ta 換上自信的笑容:
順便提一句,這張照片正是本篇論文的一作潘新鋼,2021 年在香港中文大學多媒體實驗室獲得博士學位,師從湯曉鷗教授。目前是馬克斯普朗克信息學研究所博士后,并將從 2023 年 6 月開始擔任南洋理工大學計算機科學與工程學院 MMLab 的任助理教授。這項工作旨在為 GAN 開發一種交互式的圖像操作方法,用戶只需要點擊圖像來定義一些對(操縱點,目標點),并驅動操縱點到達其對應的目標點。
這項研究基于 StyleGAN2,基本架構如下:
在 StyleGAN2 架構中,一個 512 維的潛在代碼∈ N(0,)通過一個映射網絡被映射到一個中間潛在代碼∈ R 512 中。的空間通常被稱為 W。然后,被送到生成器,產生輸出圖像 I = ( ) 。在這個過程中,被復制了幾次,并被送到發生器的不同層,以控制不同的屬性水平。另外,也可以對不同層使用不同的,在這種情況下,輸入將是,其中是層數。這種不太受約束的 W^+ 空間被證明是更有表現力的。由于生成器學習了從低維潛在空間到高維圖像空間的映射,它可以被看作是對圖像流形的建模。實驗
為了展示 DragGAN 在圖像處理方面的強大能力,該研究展開了定性實驗、定量實驗和消融實驗。實驗結果表明 DragGAN 在圖像處理和點跟蹤任務中均優于已有方法。
定性評估
圖 4 是本文方法和 UserControllableLT 之間的定性比較,展示了幾個不同物體類別和用戶輸入的圖像操縱結果。本文方法能夠準確地移動操縱點以到達目標點,實現了多樣化和自然的操縱效果,如改變動物的姿勢、汽車形狀和景觀布局。相比之下,UserControllableLT 不能忠實地將操縱點移動到目標點上,往往會導致圖像中出現不想要的變化。
如圖 10 所示,它也不能像本文方法那樣保持未遮蓋區域固定不變圖 6 提供了與 PIPs 和 RAFT 之間的比較,本文方法準確地跟蹤了獅子鼻子上方的操縱點,從而成功地將它拖到了目標位置。真實圖像編輯。使用 GAN inversion 技術,將真實圖像嵌入 StyleGAN 的潛空間,本文方法也可以用來操作真實圖像。圖 5 顯示了一個例子,將 PTI inversion 應用于真實圖像,然后進行一系列的操作來編輯圖像中人臉的姿勢、頭發、形狀和表情:
圖 13 展示了更多的真實圖像編輯案例:定量評估研究者在兩種設置中下對該方法進行了定量評估,包括人臉標記點操作和成對圖像重建。
人臉標記點操作。如表 1 所示,在不同的點數下,本文方法明顯優于 UserControllableLT。特別是,本文方法保留了更好的圖像質量,正如表中的 FID 得分所示。
這種對比在圖 7 中可以明顯看出來,本文方法打開了嘴巴并調整下巴的形狀以匹配目標臉,而 UserControllableLT 未能做到這一點。成對圖像重建。如表 2 所示,本文方法在不同的目標類別中優于所有基線。消融實驗研究者研究了在運動監督和點跟蹤中使用某種特征的效果,并報告了使用不同特征的人臉標記點操作的性能(MD)。如表 3 所示,在運動監督和點跟蹤中,StyleGAN 的第 6 個 block 之后的特征圖表現最好,顯示了分辨率和辨別力之間的最佳平衡。
表 4 中提供了 _1 的效果。可以看出,性能對 _1 的選擇不是很敏感,而 _1=3 的性能略好。討論掩碼的影響。本文方法允許用戶輸入一個表示可移動區域的二進制掩碼,圖 8 展示了它的效果:
Out-of-distribution 操作。從圖 9 可以看出,本文的方法具有一定的 out-of-distribution 能力,可以創造出訓練圖像分布之外的圖像,例如一個極度張開的嘴和一個大的車輪。研究者同樣指出了本文方法現存的局限性:盡管有一些推斷能力,其編輯質量仍然受到訓練數據多樣性的影響。如圖 14(a)所示,創建一個偏離訓練分布的人體姿勢會導致偽影。此外,如圖 14(b)和(c)所示,無紋理區域的操縱點有時會在追蹤中出現更多的漂移。因此,研究者建議盡可能挑選紋理豐富的操縱點。AI+EDA:引領芯片設計新未來5 月 23 日 19:00-21:00,機器之心聯合新思科技與微軟帶來線上分享,來自新思科技資深產品經理莊定錚與微軟全球黑帶 - 數據與人工智能資深技術專家陳景忠將就 AI+EDA 這一行業熱議話題展開討論。
識別海報二維碼,預約直播。
THE END轉載請聯系本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com
責任編輯:hnmd003
相關閱讀
-
有手就行?把大象 P 轉身只需拖動鼠標,華人一作 DragGAN 爆火_當前觀點
機器之心報道編輯:蛋醬、小舟如果甲方想把大象P轉身,你只需要拖動GAN就好了。在圖像生成領域,以StableDi
2023-05-20 -
環球新動態:體驗了聯網 + 插件大升級后的 ChatGPT,我找到了未來互聯網的新入口
大約一個半月前,當ChatGPT首次提出聯網和插件計劃并放出測試Demo的時候,曾著實讓市場驚艷了一把。從當時
2023-05-20 -
當前速看:采用海思 V811 高端“中國芯” 當貝新款旗艦投影當貝 F6 正式發布
近日,IDC發布《2022年第四季度中國投影機市場跟蹤報告》。數據顯示,2022年中國投影機市場總出貨量505萬臺
2023-05-20 -
體驗了聯網 + 插件大升級后的 ChatGPT,我找到了未來互聯網的新入口
大約一個半月前,當ChatGPT首次提出聯網和插件計劃并放出測試Demo的時候,曾著實讓市場驚艷了一把。從當時
2023-05-20 -
長焦人像成就愛意表達,華為 P60 Pro 助力 520 留最美回憶 焦點滾動
隨著520節日的到來,情侶們開始紛紛為這個浪漫的日子做準備,也有很多人會在這天向親愛的家人朋友表達愛意
2023-05-20
相關閱讀
-
有手就行?把大象 P 轉身只需拖動鼠標,華人一作 DragGAN 爆火_當前觀點
機器之心報道編輯:蛋醬、小舟如果甲方想把大象P轉身,你只需要拖動GAN就好了。在圖像生成領域,以StableDi
-
抖音房產要警惕成為安居客 當前動態
作者:孫穎瑩,編輯:劉宇翔,頭圖來自:視覺中國如果幸福來得太突然,那么失去也很快。5月5日,抖音旗下房
-
傅聰弟弟傅敏逝世享年86歲 生前所編《傅雷家書》風行40年
2020年傅敏最后一次編《傅雷家書》(四十周年紀念本)和(父子兩地書),已經由譯林出版社出版。由傅敏先生
-
小冰“數字克隆人”要來了,AI能否攪動直播電商這池春水? 天天新要聞
5月16日,人工智能公司小冰公司宣布啟動“GPT克隆人計劃”,首批征集300人,將根據他們提供的3—5分鐘視...
-
天天百事通!十大汽車保險公司排名是多少?哪一家最好?
據中國保險行業協會發布的數據,截至2023年3月末,十大汽車保險公司排名如下:1 平安保險2 中國太平3 人保
-
“好太太+”背刺好太太
目前市面上究竟有多少“好太太”,恐怕好太太自己也不清楚。近期,全國各地市場監管部門密集查出,各種...
-
生死兩全保險是什么意思?有什么特點? 環球新消息
生死兩全保險是一種特殊的保險產品。 生死兩全保險是一種綜合性的壽險產品,它結合了傳統的壽險和意外險的
-
人民健康保險公司好不好?有哪些優勢?-全球微頭條
人民健康作為一家專注于健康保險的公司,具備諸多優勢和可靠性,值得購買。無論是個人還是企業,都可以根據
-
天天熱文:電動車保險怎么賠償?有哪些流程?
電動車保險的賠償范圍包括以下幾種:1 第三方責任險:保險公司會在被保險人因過失導致第三方財產損失或人身
-
今日最新!人壽大病保險是什么?有什么優點?
人壽大病保險作為一種特殊形式的保險,可以為購買人提供全面的經濟保障。相比于其他類型的保險,人壽大病保
-
Instagram計劃推出與推特競爭的新產品
據媒體報道,Instagram正計劃推出一款基于文本的應用,將與推特展開競爭。根據知情人士透露,該公司目前
-
環球新動態:體驗了聯網 + 插件大升級后的 ChatGPT,我找到了未來互聯網的新入口
大約一個半月前,當ChatGPT首次提出聯網和插件計劃并放出測試Demo的時候,曾著實讓市場驚艷了一把。從當時
-
當前速看:采用海思 V811 高端“中國芯” 當貝新款旗艦投影當貝 F6 正式發布
近日,IDC發布《2022年第四季度中國投影機市場跟蹤報告》。數據顯示,2022年中國投影機市場總出貨量505萬臺
-
體驗了聯網 + 插件大升級后的 ChatGPT,我找到了未來互聯網的新入口
大約一個半月前,當ChatGPT首次提出聯網和插件計劃并放出測試Demo的時候,曾著實讓市場驚艷了一把。從當時
-
我國首座!“海油觀瀾號”并網投產_當前通訊
5月20日,中國海油發布消息,我國首座深遠海浮式風電平臺海油觀瀾號成功并入文昌油田群電網,正式開啟了為
-
中國中化成立中央研究院,下設 21 個專業研究中心!
為踐行科學至上理念,打造科技創新驅動的世界一流綜合性化工企業,近日,中國中化研究決定,成立中國中化中
-
又有高價水果大降價!一斤直降 30 元,商家 3000 多斤一夜賣光
五月的天,剛誕生的夏天。身處在夏日前奏曲中的我們,不知不覺地也迎來了一場水果盛宴,櫻桃、荔枝等…...
-
兒童醫療保險網上繳費流程是什么?還有哪些繳費方式? 當前熱議
兒童醫療保險網上繳費是指家長通過互聯網在線支付平臺進行保費支付的行為。具體操作流程如下:1 登錄保險公
-
事故誤工費保險公司賠嗎?賠付標準是什么?_環球動態
事故誤工費保險賠嗎。要依據不同的保險產品、保單和公司而有所區別。一般來說,保險公司會要求被保險人提供
-
公司保險怎么查詢?一般包括哪些保險?-全球最資訊
查詢公司購買的保險情況可以通過多種途徑,如詢問人力資源部門、查閱工資條或社保繳納單,或直接向保險公司
-
什么是意外保險?值不值得參保?
意外保險是指在被保險人在合同約定范圍內因意外事故而導致身體傷殘或死亡時,由保險公司按照合同規定支付一
-
什么是意外保險的范圍?范圍有哪些? 視訊
意外保險的范圍指的是被保險人可以獲得意外保險公司的保障和賠償的范圍,作為人身保險的一種,對于個人和家
-
三星發布《奇幻夜狂想曲》微電影 用S23 Ultra拍攝
鳳凰網科技訊(作者 閻爍)5月20日,三星在阿那亞電影周首映微電影《奇幻夜狂想曲》,該影片由三星和上海迪
-
每日快看:第四范式「式說」大模型入選北京市首批7家模型伙伴
鞭牛士報道 5月19日,北京市經信局聯合市科委中關村管委會、市發改委共同啟動“北京市通用人工智能產業
-
環球微頭條丨高質量發展調研行丨“大國重器” 駛向全球 跟隨記者探訪江蘇先進造船工廠
江蘇作為制造業大省,不斷實施“產業強鏈補鏈”計劃,實體經濟呈現出良好的發展態勢。
-
世界觀速訊丨叫板微軟!谷歌宣布將正式推出 AI 寫代碼功能
自從去年ChatGPT發布以來,關于生成式AI的話題討論一直都是沸沸揚揚,隔一段時間就有幾家廠商拿著自己的看
-
長焦人像成就愛意表達,華為 P60 Pro 助力 520 留最美回憶 焦點滾動
隨著520節日的到來,情侶們開始紛紛為這個浪漫的日子做準備,也有很多人會在這天向親愛的家人朋友表達愛意
-
環球今頭條!配備 V4 發動機,杜卡迪發布全新大魔鬼 Diavel V4
鈦媒體App5月19日消息,杜卡迪發布了全新巡航車大魔鬼DiavelV4,并在北京國際摩托車展覽會公開亮相。全新杜
-
【獨家焦點】3.5 元買不到了?肥宅快樂水,夏天漲價“警告”!
快樂水不快樂了?在很多人看來,在可口可樂進入中國的40多年里,可口可樂很少漲價,尤其近十幾年,可口可樂
-
騰訊、阿里、抖音都參加的大會,減碳 197 噸_全球最資訊
文|周愚編輯|雪小頑蘇建勛把展廳搬上云端,布置環保會場,一場公益峰會也是一次低碳實踐。5月20日,2023中
精彩推薦
閱讀排行
精彩推送
- 萬達辟謠:網傳萬達大規模裁員消...
- 散文‖夏始未央
- 傳核心團隊解散,格力手機走到夢...
- 阿里組織變革中的人事浮沉,半年...
- 山姆猛開店,瘋狂關賣場的沃爾瑪...
- 世界視點!安盛天平保險公司簡介...
- 天天看點:60歲老人買什么保險最...
- 少兒一生幸福保險97版是什么?好...
- 富德生命人壽保險公司簡介是什么...
- 保險公司能不能倒閉?倒閉了保險...
- 阿里虛擬對話專利可實現共情對話...
- 騰訊專利可發送有聲表情消息
- 蔚來旗下第三品牌螢火蟲申請商標...
- 每日熱文:石頭智能洗地機 A10...
- 天天熱頭條丨格力手機核心團隊已...
- 通訊!虧麻了!38 億買入,如今...
- 每日熱聞!疫情形勢會變化嗎 二...
- 全球熱資訊!平安百萬醫療賠付比...
- 全球富豪涌入迪拜買房,房價三年...
- 百萬醫療險交費表在哪看?有哪些...
- 天天即時看!工銀安盛人壽保險可...
- 百萬醫療保險的弊端有哪些?好處...
- 百萬醫療有保單嗎?在哪里查看?
- 普源精電(688337)5月19日主力...
- 視點!對話唐亮:用科技溫度喚醒...
- 蘋果公布首份 App Store 透明...
- 抖音電商再進化:但比 GMV 增...
- 格力手機核心團隊已解散?格力電...
- 呼和浩特市文化和旅游高質量發展...
- 乘客待在網約車上超 24 小時拒...