首頁(yè) > 科技 > 正文

IPU 正面挑戰(zhàn) GPU 云端芯片市場(chǎng)或改變

2020-12-29 11:12:23來(lái)源:雷鋒網(wǎng)  

英偉達(dá)在云端 AI 訓(xùn)練芯片市場(chǎng)超九成的市占率讓新入局的競(jìng)爭(zhēng)者們都將槍口指向這家當(dāng)紅 AI 公司。聲稱 AI 性能比英偉達(dá) GPU 的新產(chǎn)品不少,但真正突破英偉達(dá)護(hù)城河的現(xiàn)在仍未看到。

相比在硬件性能上超越英偉達(dá),軟件生態(tài)的趕超難度顯然更大。不過(guò),微軟亞洲研究院的 NNFusion 項(xiàng)目以及阿里云的 HALO 開(kāi)源項(xiàng)目,正努力降低從 GPU 遷移到新的硬件平臺(tái)的難度和成本,再加上在多個(gè)重要 AI 模型上性能超英偉達(dá)最新 A100 GPU 的 IPU,云端 AI 芯片市場(chǎng)的格局未來(lái)幾年可能會(huì)發(fā)生變化。

微軟、阿里云開(kāi)源項(xiàng)目降低遷移出 GPU 的難度

目前 AI 的落地,仍以互聯(lián)網(wǎng)和云計(jì)算為主。因此,科技巨頭們很快發(fā)現(xiàn)遷移到新平臺(tái)不能只看峰值算力。Graphcore 高級(jí)副總裁兼中國(guó)區(qū)總經(jīng)理盧濤表示:“客戶考慮為一個(gè)新的軟硬件平臺(tái)買單時(shí),首先考慮的是能夠獲得多少收益。其次考慮的是需要多少成本,這涉及軟硬件的遷移成本。”

對(duì)于科技巨頭們而言,GPU 確實(shí)是一個(gè)好選擇,但考慮到成本、功耗以及自身業(yè)務(wù)的特點(diǎn),仍然有自研或者遷移到其它高性能芯片的動(dòng)力。此時(shí),軟件成為能否快速、低成本遷移的關(guān)鍵。

將已有的 AI 模型遷移到新的 AI 加速器時(shí),現(xiàn)在普遍的做法是在 TensorFlow 寫(xiě)一些后端集成新硬件,這給社區(qū)和 AI 芯片公司都帶來(lái)了負(fù)擔(dān),也增加了遷移的難度和成本。

微軟亞洲研究院的 NNFusion 以及阿里云的 HALO 開(kāi)源項(xiàng)目,都是希望從 AI 編譯的角度,避免重復(fù)性的工作,讓用戶能夠在 GPU 和其它 AI 加速器之間盡量平滑遷移,特別是 GPU 和 IPU 之間的遷移。

也就是說(shuō),NNFusion 和 HALO 向上跨 AI 框架,既可以集成 TensorFlow 生成的模型,也可以集成 PyTorch 或其他框架生成的模型。向下用戶只要通過(guò) NNFusion 或者 HALO 的接口就可以在不同的 AI 芯片上做訓(xùn)練或者推理。

這種調(diào)度框架在降低遷移難度和成本的同時(shí),還能提升性能。根據(jù) 2020 OSDI(計(jì)算機(jī)學(xué)界最頂級(jí)學(xué)術(shù)會(huì)議之一)發(fā)布的研究結(jié)果,研究者在英偉達(dá)和 AMD 的 GPU,還有 Graphcore IPU 上做了各種測(cè)試后得出結(jié)果,在 IPU 上 LSTM 的訓(xùn)練模型得到了 3 倍的提升。

當(dāng)然,這樣的收益還是需要開(kāi)源社區(qū)與硬件提供方的緊密合作,比如 Graphcore 與微軟亞洲研究院以及阿里云的合作。

增加遷入 IPU 的便捷性

“我們與阿里云 HALO 和微軟 NNFusion 緊密合作,這兩個(gè)項(xiàng)目支持的最主要的平臺(tái)是 GPU 和 IPU。”盧濤表示,“目前在阿里云 HALO 的 GitHub 里已經(jīng)有 IPU 的完整支持代碼 odla_PopArt,下載開(kāi)源代碼就已經(jīng)可以在 IPU 上使用。”

能夠便捷地使用 IPU 也離不開(kāi)主流機(jī)器學(xué)習(xí)框架的支持。Graphcore 本月最新發(fā)布了面向 IPU 的 PyTorch 產(chǎn)品級(jí)版本與 Poplar SDK 1.4。PyTorch 是 AI 研究者社區(qū)炙手可熱的機(jī)器學(xué)習(xí)框架,與 TensorFlow 兩分天下。

PyTorch 支持 IPU 引起了機(jī)器學(xué)習(xí)大神 Yann LeCun 的關(guān)注。之所以引發(fā)廣泛關(guān)注,是因?yàn)檫@個(gè)支持對(duì)于 IPU 的廣泛應(yīng)用有著積極意義。

Graphcore 中國(guó)工程總負(fù)責(zé)人,AI 算法科學(xué)家金琛介紹,“在 PyTorch 的代碼里,我們引入了一個(gè)叫 PopTorch 的輕量級(jí)接口。通過(guò)這個(gè)接口,用戶可以基于他們當(dāng)前的 PyTorch 的模型做輕量級(jí)封裝,之后就可以無(wú)縫的在 IPU 和 CPU 上運(yùn)行這個(gè)模型。”

這也能更好地與 HALO 和 NNFusion 開(kāi)源社區(qū)合作。金琛表示,“不同的框架會(huì)有不同中間表示格式,也就是 IR(Intermediate Representation)。我們希望將不同的 IR 格式轉(zhuǎn)換到我們通用的 PopART 計(jì)算圖上,這也是兼容性中最關(guān)鍵的一點(diǎn)。”

據(jù)悉,IPU 對(duì) TensorFlow 的支持,是像 TPU 一樣,通過(guò) TensorFlow XLA backend 接入到 TensorFlow 的框架,相當(dāng)于把一個(gè) TensorFlow 計(jì)算圖轉(zhuǎn)換成為一個(gè) XLA 的計(jì)算圖,然后再通過(guò)接入 XLA 的計(jì)算圖下沉到 PopART 的計(jì)算圖,通過(guò)編譯,就可以生成可以在 IPU 上執(zhí)行的二進(jìn)制文件。

金琛認(rèn)為,“各個(gè)層級(jí)圖的轉(zhuǎn)換是一個(gè)非常關(guān)鍵的因素,也需要一些定制化工作,因?yàn)槔锩娴囊恍┩ㄓ盟阕右彩腔?IPU 進(jìn)行開(kāi)發(fā)的,這是我們比較特殊的工作。”

除了需要增加對(duì)不同 AI 框架以及 AI 框架里自定義算子的支持,增強(qiáng)對(duì)模型的覆蓋度的支持,也能夠降低遷移成本。

金琛介紹,對(duì)于訓(xùn)練模型的遷移,如果是遷移一個(gè)不太復(fù)雜的模型,一般一個(gè)開(kāi)發(fā)者一周就可以完成,比較復(fù)雜的模型則需要兩周時(shí)間。如果是遷移推理模型,一般只需要 1-2 天就可以完成。

IPU 正面挑戰(zhàn) GPU,云端芯片市場(chǎng)或改變

AI 時(shí)代,軟硬件一體化的重要性更加突顯。盧濤說(shuō):“AI 處理器公司大致可以分為三類,一類公司是正在講 PPT 的公司,一類公司是有了芯片的公司,一類公司是真正接近或者是有了軟件的公司。”

已經(jīng)在軟件方面有進(jìn)展的 Graphcore,硬件的表現(xiàn)能否也讓用戶有足夠的切換動(dòng)力?本月,Graphcore 發(fā)布了基于 MK2 IPU 的 IPU-M2000 的多個(gè)模型的訓(xùn)練 Benchmark,包括典型的 CV 模型 ResNet、基于分組卷積的 ResNeXt、EfficientNet、語(yǔ)音模型、BERT-Large 等自然語(yǔ)言處理模型,MCMC 等傳統(tǒng)機(jī)器學(xué)習(xí)模型。

其中有一些比較大的提升,比如與 A100 GPU 相比,IPU-M2000 的 ResNet50 的吞吐量大概能實(shí)現(xiàn) 2.6 倍的性能提升,ResNeXt101 的吞吐量提升了 3.6 倍,EfficientNet 的吞吐量達(dá)到了 18 倍,Deep Voice 3 達(dá)到了 13 倍。

值得一提的還有 IPU-POD64 訓(xùn)練 BERT-Large 的時(shí)間比 1 臺(tái) DGX-A100 快 5.3 倍,比 3 臺(tái) DGX-A100 快 1.8 倍。1 個(gè) IPU-POD64 和 3 個(gè) DGX-A100 的功率和價(jià)格基本相同。

強(qiáng)調(diào) IPU 訓(xùn)練 BERT-Large 的成績(jī)不僅因?yàn)檫@是英偉達(dá) GPU 和谷歌 TPU 之后第三個(gè)發(fā)布能夠訓(xùn)練這一模型的 AI 芯片,還因?yàn)?BERT-Large 模型對(duì)現(xiàn)在芯片落地的意義。

盧濤說(shuō):“在今天,BERT-Large 模型不管是對(duì)于工業(yè)界,還是對(duì)研究界都是一個(gè)比較好的基準(zhǔn),它在未來(lái)至少一年內(nèi)是一個(gè)上線的模型水準(zhǔn)。”

不過(guò),這一成績(jī)目前并非 MLPerf 發(fā)布的結(jié)果,正式結(jié)果需要等待 Graphcore 在明年上半年正式參與 MLPerf 性能測(cè)試。近期,Graphcore 宣布加入 MLPerf 管理機(jī)構(gòu) MLCommons。

“我覺(jué)得我們加入 MLCommons 和提交 MLPerf 表明,IPU 即將在 GPU 的核心領(lǐng)域里面和 GPU 正面 PK,表明了 IPU 除了能做 GPU 不能做的事情,在 GPU 最擅長(zhǎng)的領(lǐng)域,IPU 也能以更好 TCO 實(shí)現(xiàn)相等,甚至更優(yōu)的表現(xiàn)。”盧濤表示。

微軟亞洲研究院、阿里云、Graphcore 都在共同推動(dòng) GPU 轉(zhuǎn)向 IPU,什么時(shí)候會(huì)迎來(lái)破局時(shí)刻?

責(zé)任編輯:hnmd003

相關(guān)閱讀

推薦閱讀