首頁 > 新聞 > 智能 > 正文

華為的大模型終于來了,我的評價是:相當震撼。

2023-07-08 06:24:14來源:ZAKER科技  

老被人說在大模型競賽中掉隊的華為,這次終于帶著它的家伙事兒來了。

這不,在昨天的華為開發者大會 2023 上,華為就狠狠地秀了一把。

將近三個小時的發布會,還是繼承了華為以往大雜燴的風格,看得世超是眼花繚亂。


【資料圖】

不過,總結下來其實也就突出了一個主題:盤古大模型 3.0 。

其實就在前幾天,當別的大模型還在比各種評分的時候,盤古靠著世界頂級期刊 Nature 認證的金字招牌,以一種別具一格的方式進入了大家的視野。據說,加入了盤古大模型,氣象預測的速度提高了 10000 倍以上,幾秒鐘就能出結果,臺風打哪來,幾點來,啥時候走,都能給你預測得明明白白的。

最主要的是,它的預測精度甚至超過了號稱全球最強的歐洲氣象中心的 IFS 系統,算是頭一個 AI 預測贏了傳統數值預測的產品。

要知道,以往的 AI 氣象預測多是基于 2D 神經網絡開發,但氣象這玩意實在是太復雜了,2D 著實有點兒吃不消。

而且,之前的 AI 模型會在預測的過程當中不斷累計迭代的誤差,容易影響到結果的精確性。

所以 AI 預測方法一直都不咋受待見。

而盤古氣象大模型牛就牛在,他們用了個叫 3DEST 的三維神經網絡來處理氣象數據, 2D 干不了的那就換 3D 來。

3DEST 的網絡訓練和推理策略

針對迭代誤差的問題,模型還用了個 " 層次化時域聚合策略 " 來減少迭代誤差,從而提高預報的精度。

這詞兒雖然聽起來挺容易被唬住的,但其實很好理解。

就比如,之前的 AI 氣象預測模型 FourCastNet ,在臺風來之前,它會提前 6 小時進行預測,在這 6 個小時里,模型會多次計算臺風到底啥時候來。

可能一會兒算出來 5 個小時,一會兒又算出來 4 個半小時,這些結果加到一起誤差就大了。

但盤古氣象大模型想了個法子,訓練了 4 個不同預報間隔的模型,分別是 1 小時迭代 1 次,還有 3 小時、 6 小時和 24 小時迭代 1 次。

再根據具體的氣象預測需求,選擇相應的模型進行迭代。

就比如說,咱們如果要預測未來 7 天的天氣,那就讓 24 小時的模型迭代 7 次;預測 20 個小時就是 6 小時的模型迭代 3 次 +1 小時的迭代 2 次。

迭代次數越少,誤差也就越小。

這波操作,讓天氣預報又邁向了一個新的 level 。

不過,可能有差友開始犯嘀咕了,人家的大模型都是生成圖像和文字,怎么到華為這就變成了天氣預報了?

有一說一啊,這盤古大模型跟咱之前接觸到的 ChatGPT 、 Midjourney 的確不太一樣,人家做的是行業的生意。

簡單來理解,就是盤古大模型咱個人一般用不上。

它并不是大家期待的 ChatGPT" 克星 " ,而是針對平時不太能接觸到的To B 市場。

咱先不提難與不難,至少華為這么多年積累下來的企業客戶資源,確實很容易變現。

而且華為這次的發布會可不止帶來了氣象預測模型這一個狠角色。

40 多年都沒發現新的抗生素,盤古藥物分子大模型一來就找著了超級抗菌藥 Drug X ,而且藥物的研發周期從數年縮短至幾個月,研發成本降低 70% 。

盤古礦山大模型也能深入到采煤的 1000 多個工序之中,而且光是里頭挑選精煤的這一個環節,就能讓精煤回收率提升 0.1% 到 0.2% 。

要知道,一家年產 1000 萬噸焦煤的選煤廠,每提升 0.1% 精煤產率,每年就能多 1000 萬的利潤。

這可都是白花花的銀子啊。。。

事實上,除了上邊兒咱提到的天氣預測、藥物研發和選煤,盤古大模型在很多行業里都已經用起來了。

發布會上,華為云人工智能首席科學家田奇就表示,華為云人工智能項目已經應用在了超過 1000 個項目中,其中 30% 用在客戶的核心生產系統里,平均推動客戶盈利能力提升了 18% 。

而華為能夠量產這些各不相同的行業大模型,要歸功于華為盤古大模型 3.0 的 5+N+X 三層架構。

正是這種結構,讓盤古能夠快速落地到各個行業里。

為什這么說呢?

因為 AI 落地行業,數據是一大難點。

張平安在發布會上就說, " 由于行業數據獲取難,技術與行業結合難,大模型在行業的落地進展較慢。 "

而盤古則很巧妙,通過 5+N+X 的三層架構,直接把這個大難題拆成了 3 個小問題來解決。

首先,是先讓盤古 L0 層的 5 個大模型,學習了上百 TB 的百科知識、文學作品、程序代碼等文本數據,以及數 10 億張帶文本標簽的互聯網圖像。

咱們可以理解為,先讓第一層 L0 的大模型( 自然語言大模型、視覺大模型、多模態大模型、預測大模型、科學計算大模型這 5 個基礎大模型 )建立起基本的認知,也就是有點像咱們大學前的素質教育階段。

然后,在第二層 L1 中的模型,則是讓 L0 中的某一個基礎大模型學習 N 個相關行業的數據形成的。這就像大學的本科階段,需要選擇各種專業去學習。

打個比方,醫院里的 CT 影像檢測跟工廠的圖像質檢雖說用的都是視覺大模型。

但畢竟一個是醫院,一個是工廠,使用場景完全不一樣,光靠基礎大模型那肯定行不通,但如果把行業數據加進去,可能就有驚喜了。

最后的 L2 ,則類似研究生,會在具體行業的基礎上再細化到某個場景。比如在倉儲物流行業里,貨物的運輸、入庫、出庫可能都需要用到不一樣的部署模型。

與此同時呢,華為還在里頭加入一個反饋環節,有點進公司實習內味了。

根據他們的說法,過去開發一個 GPT-3 規模的行業大模型,通常需要 5 個月;而有了這套東西,開發周期能縮短至原來的 1/5 。

同時很多行業數據集小的限制也能被解決。比如造大飛機這種很細很細的行業,也能有大模型。

除了這一套大模型,華為這次還提出了個非常有意思的東西——算力國產化。

眾所周知,咱們在 AI 算力方面,確實是比較尷尬。

一來, AI 行業的核心設備英偉達的 H100/A100 咱們買不到,二來,即使英偉達 " 貼心 " 出了平替 H800 ,但是也有所保留。比如,在傳輸速率上就砍了不少。

在大模型動輒幾個月訓練時間的背景之下,這就很容易被算力更強的國外同行彎道超車。

而這一回,針對這個問題,華為還是掏了些真家伙出來的。

比如,在紙面性能上,華為的昇騰 910 處理器已經夠上了英偉達 A100 。

不過實際應用起來,還是有一些差距的。而且 A100 這也不是英偉達的終極武器。

但是,昇騰已經受到了不少友商的認可。華為甚至在發布會上,直接表示 " 中國一半大模型的算力都是由他們提供的 " 。當然,華為這會兒在算力上的亮點,更像是整個軟件生態帶來的。

比如,根據發布會的說法,算上 AI 昇騰云算力底座、計算框架 CANN 。。。等環節,華為在訓練大模型方面,效率是業界主流 GPU 的 1.1 倍。

還有,他們給用戶制定好了全套的應用套餐。例如,美圖僅用 30 天就將 70 個模型遷移到了華為生態。同時華為還表示,在雙方的努力下,AI 性能較原有方案提升了 30% 。

還是挺可觀的。

而且華為還說,他們現在有近 400 萬的開發者,這個數量,是和英偉達 CUDA 生態對齊了。

這一系列的動作,算是把短板補上了一部分

總的來說,一場華為發布會看下來差評君覺得華為在 AI 方面的布局是很深刻的,他們早就開始思考 "AI 真正能帶給我們什么 " 這個問題了。

過去半年里, AI 行業雖然掌聲雷動,但是真正落到行業層面,多少有些尷尬。

而華為的這一次動作,恰好印證了如任正非說的:

" 未來在 AI 大模型方面會風起云涌的,不只是微軟一家。人工智能軟件平臺公司對人類社會的直接貢獻可能不到 2% , 98% 都是對工業社會、農業社會的促進。 "

AI 領域,真正的大時代還在后頭。

關鍵詞:

責任編輯:hnmd003

相關閱讀

相關閱讀

推薦閱讀