2D 到 3D 新突破!深度 AIGC 技術剖析,一文看懂 3D 數據生成的歷史及現狀
(相關資料圖)
AIGC 是否會取代人類?
"
作者|Chengxi
編輯|蔓蔓周
過去 18 個月,AI 內容生成(AIGC)是無疑是硅谷科技創投圈內最火爆、最熱門的話題。
DALL-E(2021 年 1 月推出)
Midjourney(2022 年 7 月推出)
Stable Diffusion(2022 年 8 月推出)
這類 2D 生成式工具,能夠在短短幾秒內將文本提示(prompt)生成藝術風格的圖片。隨著這類 2D AIGC 工具的演化和進步,藝術家、設計師和游戲工作室的創作工作流正在被迅速顛覆革新。
AIGC 的下一個突破口在哪?不少投資者和領域資深人士都給出了預測— 3D 數據生成。
我們注意到 3D AIGC 正在經歷著 2D AIGC 曾經發展過的階段。這篇文章中,我們將更深入地討論 AIGC 在 3D 數據領域的新突破,以及展望生成式 AI 工具如何提高 3D 數據生成的效率和創新。
01
回顧 2D AIGC 的高速發展
2D AIGC 的發展可以簡單概括為以下三個發展階段:
第一階段:智能圖像編輯
早在 2014 年,隨著生成對抗網絡(GAN,典型后續工作 StyleGAN)和變分自編碼器(VAE,典型后續工作 VQVAE,alignDRAW)的提出,AI 模型便開始被廣泛運用到 2D 圖片的智能生成與編輯中。早期的 AI 模型主要被用于學習一些相對簡單的圖像分布或者進行一些圖像編輯,常見的應用包括:人臉生成、圖像風格遷移、圖像超分辨率、圖像補全和可控圖像編輯。
但早期的圖像生成 / 編輯網絡與文本的多模態交互非常有限。此外,GAN 網絡通常較難訓練,常遇到模式坍塌(mode collapse)和不穩定等問題,生成的數據通常多樣性較差,模型容量也決定了可利用數據規模的上限;VAE 則常遇到生成的圖像模糊等問題。
第二階段:文生圖模型的飛躍
隨著擴散生成(diffusion)技術的突破、大規模多模態數據集(如 LAION 數據集)和多模態表征模型(如 OpenAI 發布的 CLIP 模型)的出現與發展,2D 圖像生成領域在 2021 年前后取得重要進展。圖像生成模型開始與文本進行深入的交互,大規模文生圖模型驚艷登場。
當 OpenAI 在 2021 年初發布 DALL-E 時,AIGC 技術開始真正顯現出巨大的商業潛力。DALL-E 可以從任意的文本提示中生成真實和復雜的圖像,并且成功率大大提高。一年之內,大量文生圖模型迅速跟進,包括 DALL-E 2(于 2022 年 4 月升級)和 Imagen(谷歌于 2022 年 5 月發布)。雖然這些技術當時還無法高效幫助藝術創作者產出能夠直接投入生產的內容,但它們已經吸引了公眾的注意,激發了藝術家、設計師和游戲工作室的創造力和生產潛力。
第三階段:從驚艷到生產力
隨著技術細節上的完善和工程優化上的迭代,2D AIGC 得到迅猛發展。到 2022 年下半年,Midjourney、Stable Diffusion 等模型已成為了廣受歡迎的 AIGC 工具。他們通過大規模的訓練數據集的驅動,使得 AIGC 技術在現實世界應用中的性能已經讓媒體、廣告和游戲行業的早期采用者受益。此外,大模型微調技術的出現與發展(如 ControlNet 和 LoRA)也使得人們能夠根據自己的實際需求和少量訓練數據來 " 自定義 " 調整、擴展 AI 大模型,更好地適應不同的具體應用(如二次元風格化、logo 生成、二維碼生成等)。
現在,使用 AIGC 工具進行創意和原型設計很多情況下只需幾小時甚至更短,而不是過去需要的幾天或幾周。雖然大多數專業的圖形設計師仍然會修改或重新創建 AI 生成的草圖,但個人博客或廣告直接使用 AI 生成的圖像的情況越來越普遍。
alignDRAW, DALL-E 2, 和 Midjourney 文本轉圖像的不同效果。除了文本轉圖像,2D AIGC 持續有更多的最新發展。例如,Midjourney 和其他創業公司如 Runway 和 Phenaki 正在開發文本到視頻的功能。此外,Zero-1-to-3 已經提出了一種從物體的單一 2D 圖像生成其在不同視角下對應圖片的方法。
由于游戲和機器人產業對 3D 數據的需求不斷增長,目前關于 AIGC 的前沿研究正在逐漸向 3D 數據生成轉移。我們預計 3D AIGC 會有類似的發展模式。
02
3D AIGC 的 "DALL-E" 時刻
近期在 3D 領域的種種技術突破告訴我們,3D AIGC 的 "DALL-E" 時刻正在到來!
從 2021 年末的 DreamFields 到 2022 年下半年的 DreamFusion 和 Magic3D,再到今年五月的 ProlificDreamer,得益于多模態領域和文生圖模型的發展,學術界文生 3D 模型也得到了不少突破。不少方法都能夠從輸入文本生成高質量的 3D 模型。
然而這些早期探索大多數需要在生成每一個 3D 模型時,都從頭優化一個 3D 表示,從而使得 3D 表示對應的各個 2D 視角都符合輸入和先驗模型的期待。由于這樣的優化通常需要成千上萬次迭代,因此通常非常耗時。例如,在 Magic3D 中生成單個 3D 網格模型可能需要長達 40 分鐘,ProlificDreamer 則需要數小時。此外,3D 生成的一個巨大挑戰便是 3D 模型必須具備從不同角度看物體形狀的一致性。現有的 3D AIGC 方法常遇到雅努斯問題(Janus Problem),即 AI 生成的 3D 對象有多個頭或者多個面。
由于 ProlificDreamer 缺乏 3D 形狀一致性而出現的雅努斯問題。左邊是一只看似正常的藍鳥的正面視圖。右邊是一幅令人困惑的圖像,描繪了一只有雙面的鳥。但另外一方面,一些團隊正在嘗試突破現有的基于優化的生成范式,通過單次前向預測的技術路線來生成 3D 模型,這大大提高了 3D 生成速度和準確度。這些方法包括 Point-E 和 Shap-E(分別于 2022 年和 2023 年由 OpenAI 發布)和 One-2 – 3 – 45(2023 年由加州大學圣地亞哥分校發布)。特別值得注意的是,最近一個月發布的 One-2 – 3 – 45 能夠在僅 45 秒的時間內從 2D 圖像生成高質量和具備一致性的 3D 網格!
對單圖像到 3D 網格方法的比較分析。從左到右,我們可以觀察到,處理時間從超過一個小時大幅度減少到不到一分鐘。Point-E、Shap-E 和 One-2 – 3 – 45 在速度和準確性上都有出色表現。這些 3D AIGC 領域最新的技術突破,不僅大大提高了生成速度和質量,同時讓用戶的輸入也變得更加靈活。用戶既可以通過文本提示進行輸入,也可以通過信息量更加豐富的單張 2D 圖像來生成想要的 3D 模型。這大大擴展了 3D AIGC 在商業應用方面的可能性。
03
AI 革新 3D 生產過程
首先,讓我們了解一下傳統 3D 設計師創建 3D 模型,所需要經歷的工作流程:
1. 概念草圖:概念藝術設計師根據客戶輸入和視覺參考進行頭腦風暴和構思所需的模型。
2.3D 原型制作:模型設計師使用專業軟件創建模型的基本形狀,并根據客戶反饋進行迭代。
3. 模型細化:將細節、顏色、紋理和動畫屬性(如綁定、照明等)添加到粗糙的 3D 模型中。
4. 模型最終定型:設計師使用圖像編輯軟件增強最終的渲染效果,調整顏色,添加效果,或進行元素合成。
這個過程通常需要幾周的時間,如果涉及到動畫,甚至可能需要更長。然而,如果有 AI 的幫助,上述每個步驟都可能會更快。
1. 強大的多視圖圖像生成器(例如,基于 Stable Diffusion 和 Midjourney 的 Zero-1 – to – 3)有助于進行創意頭腦風暴,并生成多視圖圖像草圖。
2. 文本到 3D 或圖像到 3D 技術(例如,One-2 – 3 – 45 或 Shap-E)可以在幾分鐘內生成多個 3D 原型,為設計師提供了廣泛的選擇空間。
3. 利用 3D 模型優化(例如,Magic 3D 或 ProlificDreamer),選定的原型可以在幾小時內自動進行精煉。
4. 一旦精煉的模型準備好,3D 設計師就可以進一步設計并完成高保真模型。
傳統與 AI 驅動的 3D 生產工作流程對比04
3D AIGC 是否會取代人類?
我們的結論是,暫時不會。人仍然是 3D AIGC 環節中不可缺失的一環。
盡管以上提到的 3D 模型生成技術,能在機器人技術、自動駕駛和 3D 游戲中有許多應用,然而目前的生產流程仍然不能滿足廣泛的應用。
為此,硅兔君采訪了來自加州大學圣迭戈分校的蘇昊教授,他是 3D 深度學習(3D Deep Learning)和具身人工智能(Embodied AI)領域的領軍專家,也是 One-2 – 3 – 45 模型的作者之一。蘇昊教授認為,目前 3D 生成模型的主要瓶頸是缺乏大量高質量的 3D 數據集。目前常用的 3D 數據集如 ShapeNet(約 52K 3D 網格)或 Objaverse(約 800K 3D 模型)包含的模型數量和細節質量都有待提升。尤其是比起 2D 領域的大數據集(例如,LAION-5B),它們的數據量仍然遠不夠來訓練 3D 大模型。
蘇昊教授曾師從幾何計算的先驅、美國三院院士Leonidas Guibas 教授,并曾作為早期貢獻者參與了李飛飛教授領導的 ImageNet 項目。受到他們的啟發,蘇昊教授強調廣泛的 3D 數據集在推進技術方面的關鍵作用,為 3D 深度學習領域的出現和繁榮做出了奠基性工作。
此外,3D 模型遠比 2D 圖像的復雜很多,例如 :
1. 部件結構:游戲或數字孿生應用需要 3D 對象的結構化部件(例如,PartNet),而不是單一的 3D 網格;
2. 關節和綁定:與 3D 對象互動的關鍵屬性;
3. 紋理和材料:例如反光率、表面摩擦系數、密度分布、楊氏模量等支持交互的關鍵性質;
4. 操作和操控:讓設計師能夠對 3D 模型進行更有效地交互和操縱。
而以上幾點,就是人類專業知識能夠繼續發揮重要作用的地方。
蘇昊教授認為,在未來,AI 驅動的 3D 數據生成應具有以下特性:
1. 支持生成支撐交互性應用的 3D 模型,這種交互既包括物體與物體的物理交互(如碰撞),也包括人與物體的交互(物理與非物理的交互方式),使得 3D 數據在游戲、元宇宙、物理仿真等場景下能夠被廣泛應用;
2. 支持 AI 輔助的 3D 內容生成,使得建模的生產效率更高;
3. 支持 Human-in-the-loop 的創作過程,利用人類藝術天賦提升生成數據的質量,從而進一步提升建模性能,形成閉環的數據飛輪效應。
類似于過去 18 個月來像 DALL-E 和 ChatGPT 這樣的技術所取得的驚人發展,我們堅信在 3D AIGC 領域即將發生,其創新和應用極有可能會超過我們的預期,硅兔君會持續深入探索和輸出。
文末互動:
你認為 AIGC 會對人類產生哪些深遠影響?
評論區留言告訴我們哦~
別忘了點關注,不迷路啊。食品科技又整新活!連植物都不用,有空氣就能 " 無中生肉 "責任編輯:hnmd003
相關閱讀
相關閱讀
-
2D 到 3D 新突破!深度 AIGC 技術剖析,一文看懂 3D 數據生成的歷史及現狀
AIGC是否會取代人類?作者|Chengxi編輯|蔓蔓周過去18個月,AI內容生
-
今年登革熱病例要破紀錄?《自然》:持續高溫和降雨或是禍首
財聯社7月28日訊(編輯黃君芝)據《自然》雜志報道,今年到目前為止,
-
三大指數均漲超 1%,大金融板塊迎集體爆發
一、【早盤盤面回顧】財聯社7月28日訊,市場早盤低開高走,三大指數均
-
爆料被證實!日本央行“松綁” YCC 日本市場遭遇“股債雙殺”
財聯社7月28日訊(編輯瀟湘)昨日深夜,日媒那則引發全球金融市場動蕩
-
重磅!住建部公開表態松綁樓市政策 一線城市“認房又認貸”有望松動
財聯社7月28日訊(記者李潔)房地產行業政策有望迎來大調整。住建部部
-
陸地巡洋艦8月2日首發預告圖上線,日本人問“普拉多在哪?”
2023年7月26日,豐田突然宣布將舉辦陸地巡洋艦全球首發。日期和時間為2
-
砂漿稠度越大說明什么_砂漿稠度越大越好嗎
各位網友們好,我是編輯小夏,為大家解答砂漿稠度越大說明什么,砂漿稠
-
醫療保險買滿多少年保終身?一年要交多少錢?
醫療保險的購買年限與保終身的關系是一個常見的疑問。事實上,醫療保險
-
學生被車撞了保險公司怎么賠償?賠償多少錢?
首先,保險公司在賠償學生時,會根據事故的責任劃分進行賠償。 如果學
-
五險繳納多少年為止?在哪里繳納?
根據我國現行的社會保障制度,五險的繳納年限并沒有明確的規定。一般來
-
意外險180天后身故是否賠付?賠付需要哪些材料?
不同的保險公司和保險產品可能存在不同的規定。一些保險公司規定,在購
-
買三天的意外險在哪里買?怎么買比較好?
保險公司官網:許多保險公司都有自己的官方網站,可以在網上購買意外險
-
電入佳境 靈感奇遇 純電豪華旗艦跑車Audi e-tron GT正式上市
電入佳境靈感奇遇純電豪華旗艦跑車Audie-tronGT正式上市2023年7月27日
-
福特Q2凈利潤達19億美元,電動車業務虧損進一步加大
福特Q2凈利潤達19億美元,電動車業務虧損進一步加大7月27日,福特汽車
-
港媒:中國搬家師傅用上外骨骼機器人
參考消息網7月28日報道據香港《南華早報》網站7月26日報道,在關于可穿
-
財達證券7月28日快速上漲
以下是財達證券在北京時間7月28日13:32分盤口異動快照:7月28日,財達
-
大運會海外運動員:期待成都成就夢想!
請跟隨新華社前方記者看看海外運動員如何備戰大運會,對中國之行又有什
-
美股總舵主定調:9 月可能還會加息
作者:李佳、黃繹達編輯:鄭懷舟美國當地時間7月26日,美聯儲在7月的議
-
安碩信息7月28日快速上漲
以下是安碩信息在北京時間7月28日13:00分盤口異動快照:7月28日,安碩
-
和田玉白玉鐲子鑒別
辨別和田玉白玉鐲子的方法有以下幾點:1 觀察顏色:和田玉白玉鐲子一般
-
天津醫療保險要交多少年才能享受醫保?每個月要交多少錢呢?
根據天津市人力資源和社會保障局的規定,天津市居民醫療保險的繳費方式
-
被貓抓傷能報意外險嗎?怎么報?
可以的, 首先,我們需要明確被貓抓傷是否屬于意外事件。根據保險公司
-
商業醫療保險牙齒治療可以報銷嗎?報銷幾次呢?
可以。 商業醫療保險是指由商業保險公司提供的醫療保險服務,其報銷范
-
榮華世家終身保險怎么樣?提供什么保障?
還是非常不錯的。新華榮華世家終身壽險是一款增額終身壽險,其最主要的
-
高血壓怎么買重疾險?貴嗎?
1 選擇合適的保險公司:不同的保險公司對高血壓的接受程度不同,因此在
-
嵐圖汽車總部將落戶武漢軍山新城
嵐圖汽車總部將落戶武漢軍山新城7月28日消息,從武漢經開區官方處獲悉
-
榮萬家:擬5015.5萬元收購耿建明旗下萬家智慧環境70%股權
榮萬家生活服務股份有限公司(簡稱:榮萬家,2146 HK)發布關聯交易的
-
B 站這場二次元演唱會,沒打算破圈
最近有兩個Live的搶票難度突破了天際,一個是周杰倫的全國巡演,另一個
-
華碩 16 英寸新款上線 13 代 i9 處理器僅 6499 元
華碩無畏162023筆記本今日上架,售價6499元。該款筆記本搭載了i9-13900
-
妙鴨相機走紅,騰訊大腿拍腫
圖片來源@視覺中國作者|螺旋實驗室,作者|牧歌,編輯|堅果平替海馬體,
精彩推薦
閱讀排行
精彩推送
- 質疑大媽,理解大媽,成為大媽!...
- 招不到人的工廠,走進快手直播間
- 深公司早報|欣旺達計劃投資19.6...
- 見賢思齊 提升實力丨德城區婦幼...
- 用什么可以漂白玉石
- 低功耗UWB(超寬帶)芯片設計公...
- 諾德股份凈利潤連續下滑,控股孫...
- 小孩學校交的保險生病住院可以報...
- 雅本化學二十年砥礪奮進,“2+X...
- 護身符少兒意外險怎么樣?有哪些...
- 上半年中國游戲行業反彈明顯 中...
- 平安100元的意外險可以賠償多少...
- 小米蘋果看了都羨慕!“非洲手機...
- 意外險懷孕可以賠付意外險嗎?理...
- “難上加難”雙面側柱碰試驗 比...
- 汽車意外險是什么意思?是如何賠...
- 通用稱美國排放法規將導致汽車行...
- 周黑鴨:預計中期凈利潤約9000萬...
- 甘李藥業大股東減持 比例由5....
- 宏裕包材北交所IPO:取得64項專...
- OpenAI:安卓版 ChatGPT 現已...
- 杭州市與三六零科技集團簽訂戰略...
- 9 塊 9 的“妙鴨”,飛不了太久
- 華為預熱系統云翻新功能,首發支...
- 聯想小新 Pad Pro 12.7 平板...
- 深夜突發!日媒曝日本央行周五將...
- 暑期旅游旺季火熱開啟 酒店預訂...
- 兩保代似與發行人共同舞弊,對發...
- 東方甄選抖音店鋪被關 3 天,...
- 2023年吉林第一批B段理工農醫類...