首頁 > 新聞 > 智能 > 正文

“不作詩,只做事”的盤古大模型怎么為文娛行業賦能?

2023-07-30 18:29:36來源:ZAKER科技  

酷玩實驗室作品


(資料圖片)

首發于微信號 酷玩實驗室

微信 ID:coollabs

就在昨天(7 月 28 日),全世界最大的數字娛樂展會,ChinaJoy2023 在上海浦東開展。作為科技博主的我,每年去看 cospaly,不,是去看新游戲以及娛樂產業最新的技術。要說今年 CJ 上什么技術最火,肯定是 AIGC(AI 生成式內容)!

從逆水寒的 AI NPC 到 AI 生成游戲概念圖,AIGC 已經變為數字娛樂產業中最重要的關鍵詞。在今年的會場外,CJ 專門召開了 AIGC 大會,會場內,各個展商也抓緊將 AI 部署到自己的產品中:中手游的《仙劍世界》引入 GPT,游戲里的 NPC 對話將變得更加真實和自然;網易更是把 AIGC 開放給更廣的玩家,在年輕人中爆火的《蛋仔派對》,玩家不必使用專業工具,在 AIGC 的幫助下,簡單幾步就可開發出新玩法。

所有的這一切都在顯示,AIGC 已經成為所有數字娛樂開發廠家的共識,而 AIGC 的好壞與否,和躲在背后的大模型擺脫不了關系。目前國產最強大模型當中,華為云 " 盤古 " 肯定是 T0 級別。

在 CJ 的 AIGC 大會舉辦的同一時間同一地點,華為云數字文娛 AI 創新峰會舉辦,首次展示了盤古大模型 3.0 面向數字文娛產業的能力。

盤古大模型具體會對文娛產業帶來多么深遠的影響,或許仍待進一步觀察。不過,盤古大模型在氣象領域的成果,可以作為直觀的參考。

各位可能對盤古氣象大模型發表在《Nature》雜志的研究成果有印象,它在業內第一個做到了,用 AI 模型預測天氣的精度超越了傳統的數值預報方法,超過了之前全球最強的歐洲氣象中心的 IFS 系統。

全球每年會形成大約 80 個臺風,其中平均會有 7 個臺風經過我國。麻煩的是,用原來的預報方法,雖然我們可以提早幾天看到臺風路徑,但因為路徑往往是動態的,可能最終只能提前一天甚至幾個小時才知道具體登陸位置 … 這就造成了防災減災工作的兩難處境:提前投入太大結果臺風不來,不合適;投入太小,臺風可能就會給我們迎頭痛擊。每年臺風給我國造成直接經濟損失超過 100 億元,我記得高中有個暑假我在家里跟同學玩魔獸世界下副本,有個臺州的同學突然說他要下線了,我們正要罵,他補了一句 " 我家屋頂沒了 "。。。

盤古大模型做到了對全球氣象預測 10 秒出結果,預測速度提升了 10000 倍,并且更加精準。

今年上半年,盤古跟國家氣象局合作預測臺風瑪娃的路徑,提前十天就準確預測了它的路徑,這個時間間隔就足夠大家做出充分的準備了,比如把屋頂加固一下。

可以看到這里的藍線是傳統預測方法預測的臺風路徑,紅線是盤古的預測,黑線是臺風的實際走向,很顯然,盤古大模型的預測精度顯著超過了傳統方法。

具體到文娛領域,盤古大模型基于同樣的模型底座,有同樣的驚艷表現。

熟悉我們的朋友都知道,酷玩實驗室在做一個微信電商,做電商很大的一塊工作就是拍圖。

比如我們要上新一批服裝款式,就需要根據款式對應的性別、年齡段,約模特過來,安排一個影棚,架好燈光布置好背景,然后不停地穿拍脫穿拍脫,忙活一天下來終于拍完了 20 套衣服,拍完之后還要 P,最后才能安排上架。

這一套流程一來是成本很高,二來是很累效率提不上來,它經常電商上架最慢的一個環節。

現在我們在美圖公司旗下的" 美圖設計室 "官網,找到一個最新推出的創新功能——AI 模特試衣

用上這個功能之后,整個拍圖流程就會變成這樣:

第一步:我們找個假人模特,批量地先把衣服拍了,這步不用人配合就會很快;

第二步:到這個網站上,可以一鍵生成幾個模特,把衣服給她們穿上去;

第三步:生成照片,大功告成。

這么高效又驚艷的功能,是由華為云盤古大模型與美圖視覺大模型 MiracleVision 共同研發的最新成果。在盤古大模型的加持下,這個衣服不是生硬地往人身上一貼,而是從光影效果到材質細節到模特的動作都配合得很好,可以媲美高質量的實拍(特別是你一般找不到那么好看的模特)。

這樣一來原本一兩天的工作,半個小時之內就可以搞定,這就是生成式 AI 在文創領域帶來的指數級效率提升。

那這一切是如何做到的呢?

因為一旦 AI 要真的應用于產業,就一定會面臨幾個繞不開的問題。文娛產業也是如此。

首先,行業應用需要的是專業的知識而不是泛泛的知識。

比如理論上構建游戲的敘事、世界觀,和游戲里面的人物的 AI 自主對話,都可以說是 NLP 自然語言生成。但一邊背后的知識是游戲、動漫、影視作品的背景設定集,一邊背后的知識是角色的人設和語言風格,可以說完全是兩回事。

二來,行業應用需要 AI 表現出超強的穩定性和可靠性。

比如說你用 AI 文生圖功能去制作游戲的人物原畫,那么同一個游戲里面,原畫的風格需要保持一致,同一個人物的不同造型,臉和關鍵特征需要保持一致,甚至不同人物原話里面,一些游戲架空世界的統一設置也需要保持一致。

再比如,你開一個數字人直播賣貨,別的閑聊氣氛可以不論,但關于貨品的介紹信息必須得是準確的,不然你的數字人在那兒扯淡一波,第二天工商局的罰單來了,一個月白做了。

第三點也非常重要,每個行業都會有自己的專業軟件和工作流程,新的 AI 應用需要無縫對接到專業軟件的數據,嵌入到原本的工作流程當中去。

比如說我們要用 AI 去做大型連鎖品牌的運營數據分析,那你必須生成數據庫標準的 SQL 代碼吧?你得能訪問原本的數據庫吧?你得能生成運營人員看得懂的圖表吧?特別是不同層級的員工肯定有不同的數據訪問權限,你得能分級處理加密數據吧?

第四點當然是,在行業應用領域,各家數據都是他們自己的商業數據,他們需要保密、合規。

這就是用 AI 來做處理真正商業問題時困難的地方。很多 AI 大模型只能 " 作詩 " 而不能 " 做事 ",歸根結底就是他們搞不定這四個點。

實踐出真知,積累足夠經驗和行業知識,才能夠去推進 AI 的行業應用。

華為云作為國內頭部的云服務廠商,深入行業領域耕耘多年,在 AI 領域已經有超過 1000 個項目。

華為云盤古大模型是怎么解決這些問題的呢?首先,他們做了一個 5+N+X 的分層架構。具體到文娛領域,L0 層的多模態大模型,提供了圖像編輯、圖像拓展、以文生圖、以圖生圖、文生 3D、文生視頻、圖生 3D 等基礎功能。L1 層滿足動漫、游戲、影音等等垂直領域的綜合需求。而 L2 層就對應到生成比方說像素游戲,藝術家風格的畫作、電商模特這些功能場景。

如何理解所謂的 L0、L1、L2 分層架構呢?這里不妨引用華為輪值董事長胡厚昆曾經在世界人工智能大會上的形象闡述 :

L0 層對標的是通用大模型,華為云稱之為基礎大模型,可理解為讀萬卷書,就是要做好海量的基礎知識的學習。這一層之上,華為云還打造了 L1 層行業模型和 L2 層場景模型,叫做行萬里路。從讀萬卷書到行萬里路還有很多的挑戰要克服,很關鍵的一點就是要把各行各業的知識與大模型進行充分的匹配和融合,華為正在和各個行業的伙伴一起進行努力。

其中盤古的 L1 和 L2 層模型,是基于 L0 層模型已經學習了上百 TB 文本,數十億張圖像的基礎上,再投喂 5000 多萬條題庫,輔以行業專家的監督學習反饋,打通十多種行業工具,進行完善的數據分層,精調出來的。

比如說你們公司想做一款數字人,當然你可以基于 L0 層的文生圖、文生視頻等多模態能力,自己去搭建一個數字人生產線,再去生成數字人,但這個技術門檻會比較高。比較可行的選項是,直接在 L1 層的數字人大模型上進行微調,輕松構建 L2 層的數字人 AI 生成應用;甚至直接使用別人基于 L2 層場景模型開發好的數字人生成應用,只需要輸入自己個性化的聲音、動作、表情,生成專屬的數字人。華為云盤古大模型可以做到基于你輸入的 5 分鐘歷史視頻,經過 1 個小時的訓練,生成專屬于你的個性化數字人。

比如游戲公司,會對自身角色原畫的風格有統一的要求,做會展的公司,也會對活動主題物料風格有統一的要求,而且很多時候這種風格,不是市面上流行的風格,而是我們公司主創自己的風格。這時候用盤古多模態大模型,通過在模型精調工具中,投喂已有的風格化的圖片,對模型進行二次訓練,就可以靈活地構建自己專屬的生成式 AI 工具。今年上半年,全球新發布的大模型超過 400 個,中國就有超過 80 個。當然我相信所有的大模型,最終的愿景都是實現所謂 AGI 通用人工智能,也就是像鋼鐵俠的 AI 助手賈維斯一樣,一個模型解決所有的問題。但事實是,誰能更早的用起來,就決定了誰的產業能更快的借助這一波 AI 技術革命加速,也決定了誰的 AI 能被更專業的行業數據所訓練,變得更強。

而其中最為關鍵的,當然還有對底層技術的自主掌控。

因為眾所周知的原因,華為云沒法使用目前市面上那套從芯片到云服務到開發框架的最成熟的 AI 基礎設施,但華為全流程搞了一套自己的 AI 生態。

昇騰 AI 芯片,對標英偉達通用 GPU 系列;

MindSpore 開發框架,對應到谷歌的 TensorFlow 和 META 的 Pytorch;

一站式 AI 開發平臺 ModelArts配合華為云,對標谷歌云和微軟的 Azure;

這些是大面兒上的,細節來說,這套生態還包含 AI 數據采集、標注、清洗、管理工具,模型訓練 workflow,提示詞 Prompts 優化工具,內容合規審核等等工具。

這套系統的復雜性我很難用言語來形容。

舉個最簡單的例子,為了支撐這套系統,華為云有自己的數據中心,俗稱機房。為了支撐大模型的超大訓練量,華為云重新設計了機房的液冷總線、電源總線和網絡總線的內嵌機柜結構。在千卡(一千張 GPU 卡)的規模下,用谷歌 Pytorch+Megatron 訓練,最長 1.5 到 2.8 天就會發生一次故障導致訓練停擺,而在華為云天成數據中心,大模型可以無故障訓練一個月以上。

據華為云發布會上的披露,這套系統的AI 訓練效率比業界主流高出 10%,中國有近一半的 AI 大模型已經在用華為的算力服務。

在中美的產業競爭愈演愈烈的大背景下,去年 10 月 7 日的芯片法案,限制了英偉達 A100 以及以上級別的 AI 訓練芯片的對華出口。

雖然英偉達貼心地開發了專供中國的青春版 AI 訓練芯片 A800,但是我們知道,制裁的威力從來不體現在制裁本身,而是在于那種刑不可知而威不可測的權力,美國政府可以選擇性地讓一些中國 AI 公司自由發展,也可以隨時掐斷任何一家中國 AI 公司的芯片,開發框架和云服務的供應,讓它前期的投資全打水漂。

華為云為全中國 AI 公司提供了一種保障," 在外面遇到困難可以隨時遷過來 ",昇騰 AI 云服務支持 Tensorflow,Pytorch 等主流 AI 框架。這些框架中的 90% 算子,都可以從 GPU 平滑遷移到昇騰 AI 云服務。比如美圖僅用 30 天就將 70 個模型遷移到了昇騰。同時華為云和美圖團隊一起,進行了 30 多個算子的優化以及流程并行加速,較原有方案,它的 AI 推理性能提升了 30%。

大模型是一個必然深刻改變社會運轉的全局變量,顯然華為認為這種改變會從 AI 重塑千行百業開始,其中文娛產業必然是最先一批應用升級的產業之一,越 AI 越 FUN!

酷玩實驗室整理編輯

首發于微信公眾號:酷玩實驗室(ID:coollabs)

越 AI 越 FUN!

關鍵詞:

責任編輯:hnmd003

相關閱讀

相關閱讀

推薦閱讀