首頁 > 新聞 > 智能 > 正文

【獨(dú)家焦點(diǎn)】騰訊加入 AI 大戰(zhàn)，首發(fā)國內(nèi)最強(qiáng)顯卡，性能提升 3 倍

2023-04-14 14:16:15來源：ZAKER科技

最近國內(nèi) AI 圈像下過了一場雨，各種 AI 模型如同春筍一樣冒了出來。

根據(jù)金十?dāng)?shù)據(jù)的統(tǒng)計(jì)整理，目前國內(nèi)至少有 15 個(gè)大大小小的 AI 大模型正在研發(fā)。其中，百度的文心一言和阿里的通義千問最受人們關(guān)注。

BAT 其中兩家 AI 大模型已經(jīng)進(jìn)入試用階段，這下壓力來到了騰訊這邊。

(資料圖)

在今天，騰訊也公布了它在 AI 模型和云計(jì)算上面的動(dòng)態(tài)。從公布的內(nèi)容來看，騰訊似乎不僅僅是想趕這場「AI 淘金熱」——它想「給淘金者賣水」。

騰訊云近日推出了新一代高性能計(jì)算集群 HCC，旨在滿足不斷增長的人工智能、科學(xué)研究和工程領(lǐng)域的計(jì)算需求。

眾所周知，訓(xùn)練 AI 大模型需要大量的計(jì)算資源和數(shù)據(jù)進(jìn)行訓(xùn)練。普通個(gè)人或小型公司可能無法承擔(dān)這樣的資源消耗，因?yàn)橘徺I和維護(hù)這些計(jì)算資源的成本非常高。

騰訊推出 HCC 高性能計(jì)算集群，便是面向大規(guī)模 AI 訓(xùn)練，以專用集群方式售賣算力，這就像是給前來 AI 金礦淘金的淘金者們賣水。

新一代 HCC 集群提供了諸多創(chuàng)新技術(shù)和架構(gòu)，包括星星海自研服務(wù)器、星脈自研網(wǎng)絡(luò)、高性能文件存儲(chǔ)和對象存儲(chǔ)架構(gòu)以及國內(nèi)首發(fā)的英偉達(dá) H800 Tensor Core GPU。

經(jīng)過實(shí)測，騰訊云新一代集群的算力性能較前代提升高達(dá) 3 倍，是國內(nèi)性能最強(qiáng)的大模型計(jì)算集群。

先來說說顯卡，HCC 計(jì)算集群采用的英偉達(dá) H800 Tensor Core GPU 是英偉達(dá)新一代基于 Hopper 架構(gòu)的圖形處理器，專為深度學(xué)習(xí)、大型 AI 語言模型、基因組學(xué)和復(fù)雜數(shù)字孿生等任務(wù)而設(shè)計(jì)，性能較前一代 A800 提高了 3 倍。

星星海自研服務(wù)器則采用 6U 超高密度設(shè)計(jì)，上架密度提高了 30%。通過利用并行計(jì)算理念、一體化的 CPU 和 GPU 節(jié)點(diǎn)設(shè)計(jì)，單點(diǎn)算力性能得到顯著提升。

星脈自研網(wǎng)絡(luò)還提供了業(yè)界最高的 3.2T 超高互聯(lián)帶寬，配合高性能文件存儲(chǔ)和對象存儲(chǔ)架構(gòu)，具備 TB 級(jí)吞吐能力和千萬級(jí) IOPS。

這一架構(gòu)能有效解決 AI 訓(xùn)練過程中計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)的「木桶效應(yīng)」，確保運(yùn)算速度不會(huì)因瓶頸而受限。星脈網(wǎng)絡(luò)還采用了 1.6T ETH RDMA 高性能網(wǎng)絡(luò)，為每個(gè)計(jì)算節(jié)點(diǎn)提供 1.6T 的超高通信帶寬，帶來 10 倍以上的通信性能提升。

讓我們從直觀計(jì)算的表現(xiàn)來看。去年 10 月，騰訊完成首個(gè)萬億參數(shù)的 AI 大模型——混元 NLP 大模型訓(xùn)練。在同等數(shù)據(jù)集下，將訓(xùn)練時(shí)間由 50 天縮短到 11 天。如果基于 HCC 計(jì)算集群，訓(xùn)練時(shí)間將進(jìn)一步縮短至 4 天。

HCC 高性能計(jì)算集群應(yīng)用廣泛，包括自動(dòng)駕駛訓(xùn)練、自然語言處理、AI 生成創(chuàng)造（AIGC）大模型訓(xùn)練以及科研計(jì)算。

為了簡化 AI 開發(fā)流程，騰訊云自研了 TACO Kit（Tencent Accelerated Computing Optimizer），包含 TACO Train 和 TACO Infer，幫助用戶快速完成工業(yè)級(jí)的訓(xùn)練或推理部署。

為了進(jìn)一步降低訓(xùn)練大型 AI 模型的成本，騰訊推出了 AngelPTM 訓(xùn)練框架。現(xiàn)在，AngelPTM 已經(jīng)加入了 TACO Train 加速組件，助力大模型訓(xùn)練顯存上限和性能大幅提升。這就像為機(jī)器人安裝了一套強(qiáng)大的學(xué)習(xí)系統(tǒng)，讓其能夠更快地掌握各種技能。

此外，騰訊多款自研芯片已經(jīng)量產(chǎn)。其中，用于 AI 推理的紫霄芯片、用于視頻轉(zhuǎn)碼的滄海芯片已在騰訊內(nèi)部交付使用，性能指標(biāo)和綜合性價(jià)比顯著優(yōu)于業(yè)界。

紫霄采用自研存算架構(gòu)，增加片上內(nèi)存容量并使用更先進(jìn)的內(nèi)存技術(shù)，消除訪存能力不足制約芯片性能的問題，同時(shí)內(nèi)置集成騰訊自研加速模塊，減少與 CPU 握手等待時(shí)間。

目前，紫霄已經(jīng)在騰訊頭部業(yè)務(wù)規(guī)模部署，提供高達(dá) 3 倍的計(jì)算加速性能，和超過 45% 的整體成本節(jié)省。

騰訊云的新一代 HCC 高性能計(jì)算集群結(jié)合了先進(jìn)的硬件和軟件技術(shù)，提供了強(qiáng)大的計(jì)算能力和高度優(yōu)化的系統(tǒng)性能。這些創(chuàng)新將有助于推動(dòng) AI、科研和工程領(lǐng)域的快速發(fā)展，滿足各種行業(yè)在大數(shù)據(jù)和復(fù)雜計(jì)算任務(wù)方面的需求。

騰訊云新一代 HCC 高性能計(jì)算集群通過自研硬件、網(wǎng)絡(luò)、存儲(chǔ)和軟件優(yōu)化等各個(gè)方面的突破，將高性能計(jì)算的能力提升到了一個(gè)新的高度。正如科幻電影中的智能機(jī)器人，新一代 HCC 集群將不斷學(xué)習(xí)、進(jìn)化，為各行各業(yè)提供強(qiáng)大的計(jì)算支持，推動(dòng)國內(nèi)人工智能領(lǐng)域的進(jìn)步。

點(diǎn)擊「在看」

是對我們最大的鼓勵(lì)

關(guān)鍵詞：

責(zé)任編輯：hnmd003