首頁 > 新聞 > 智能 > 正文

數據中心自我革命的時刻到了

2023-04-24 20:18:30來源:ZAKER科技  

ChatGPT 讓所有人意識到了大模型的潛力,一場大模型競賽已經展開。而在驚嘆 AI 進化速度的同時,越來越多的人也意識到這背后每天都在 " 燃燒 " 的算力——與 AI 摧毀人類這種科幻話題相比,如何防止數據中心變成一個個能耗黑洞,可能更加緊迫。

4 月 12 日,在 2023 英特爾可持續發展高峰論壇后,我們與英特爾以及寧暢和新華三的數據中心業務相關負責人進行了交流,聽了聽他們如何看待和參與今天數據中心這場勢在必行的自我革命。


(資料圖片僅供參考)

受訪者分別為:

陳葆立,英特爾數據中心與人工智能集團副總裁兼中國區總經理;莊秉翰,英特爾市場營銷集團副總裁、中國區數據中心銷售總經理兼中國區運營商銷售總經理;秦曉寧,寧暢總裁;劉宏程,新華三集團計算存儲產品線副總裁。

以下為經整理后的問答實錄。

Q:ChatGPT 帶來的算力需求背后,數據中心的能源問題如何解決。

陳葆立:其實 AI 的火爆過去幾年已經出現過好幾次了,近幾個月 ChatGPT 又出現在更多大眾視線中。它背后需要大量不同的 CPU、GPU 來支持 AI 的訓練和推理,計算量正在大幅提升。對英特爾來說,這并不影響我們整個規劃的初衷。從我們的路線圖上可以看到,核數正在飛速增長,從現在第四代至強擁有的 50 個核、60 個核,在一兩年之后,很快會增長到 100 個核、200 個核。所以在同樣一個數據中心的設計當中,它的高密度、核數,以及性能都是大幅度提升的。我們提前與眾多生態伙伴進行包括冷板以及浸沒式液冷的創新和研究,就是因為在算力如此集中的情況下,數據中心的設計勢必要經歷巨大的演進。

秦曉寧:能耗問題的解決,需要在芯片層面、系統層面,甚至于整體機房的結構設計層面進行綜合考慮。例如,從室外機柜散熱的優化,到機柜內側的系統平臺設計,到不管是冷板還是浸沒式液冷,是一套完整的解決方案。

Q:是否會存在短期對算力的追求大過對綠色算力的投入,反而讓數據中心的變革走了回頭路。

莊秉翰:不管是否出現 ChatGPT 的應用,液冷技術對基于新一代處理器的服務器而言是一個發展方向,而且此前曾有數據顯示其會有約 30% 的復合年增長率。同時,ChatGPT 反而會加速液冷的發展,基本上所有 OEM 伙伴都在推出基于液冷的解決方案。

此外,液冷技術本身并不是一個特別新的技術,如何把它產業化是一個關鍵,在這其中英特爾就起到鏈接產業的作用。我們聯合生態伙伴,共同定制諸多標準,通過這些標準可以加速整個市場產業化進程,而加速產業化可以降低成本,只有降低成本之后才能讓基于液冷的數據中心更加普及。傳統風冷數據中心的 PUE 約在 1.4-1.5,如果通過液冷,現在可以做到近 1.1,這對整個能耗的改善有很明顯的作用,同時我們也可以降低數據中心對能源的需求。所以其實 ChatGPT 的火爆有利于進一步推廣液冷技術的應用,因為其加速了整個產業的發展,同時對于新建的數據中心,大家也更有意識地去推出節能減碳的方案。

秦曉寧:我們和英特爾一起合作了浸沒式液冷產品。如果說冷板現在還有很多客戶想去嘗試,那么浸沒式液冷可能對客戶的挑戰就更大了,它的成本增長不止是 10%、20%。但是跟 ChatGPT 的投入比起來,我認為綠色可持續的節能技術,對客戶來說反而是加速了其使用。因為這方面成本的增加與算力增加相比,只是一小部分,但是一旦節能技術運用進去之后,對未來算力的提升和運維的降低是非常巨大的。所以現在來看,不管是冷板技術,或是我們跟英特爾合作的浸沒式液冷技術,在未來的可持續發展當中,不能說絕對領先,但至少是領先業界半步以上的。我們在很多客戶那里嘗試的時候,有了英特爾廣泛的客戶支撐,后續綠色節能和可持續發展技術的落地節奏會更快。

Q:新華三和寧暢如何與英特爾合作?

劉宏程:舉個來看,目前在國內,5G 基站的能耗也是比較突出的問題。基于此,新華三此前和英特爾及運營商合作時提供了創新的節能方案,可以幫助提供運營商的 5G 解決方案整體功耗降低 30%-40%,這也在很大程度上體現出了英特爾的技術領先性。同時,英特爾本身也開放合作,在最新的服務器方面,英特爾創新地推出電源匯流排技術(Power Corridor),通過限流板的方式,針對 CPU 底座進行設計,可以降低整個部件級的能耗。因為有了這些技術的積累,我們和英特爾的長遠合作是一個互利互惠的過程,共同為客戶提供更好的服務。

秦曉寧:英特爾在生態方面的建設也是非常全面的。我們做的這些創新產品,剛開始需要落地,要有一些前瞻性的客戶去選擇它、嘗試它,之后才能逐步在使用過程當中推廣至更多的行業和客戶,而這也是英特爾的優勢,因為它有各行各業標桿性的客戶,愿意去做創新性的技術合作和嘗試。

此外,還有在推動建立行業標準方面的努力。目前,許多冷板產品各個廠商都可以支持,但它的標準是不統一的,甚至快插接口大小、尺寸都不一樣。無論是從成本還是通用性的角度來看,如果沒有一家廠商來牽頭制定標準、統一規范,對于客戶是一件非常困擾的事情。因為每家服務器廠商的產品不同,那么到了客戶的機房甚至都無法使用。這個標準一旦制定出來,我們就可以大幅度優化方案適配的普適性,以及普惠性,并且大幅度降低后續運維的成本。

Q:你們是否觀察到市場上冷板式液冷的成本在降低?

秦曉寧:浸沒式液冷目前多為小批量嘗試,因為其初期成本較高。但今年 3 月 15 日英特爾攜手業界多家生態伙伴剛剛編纂和發布了冷板團體標準,目前冷板的成本逐步下降,而且許多成本與量相關,冷板標準統一后,產量提升會帶來成本的下降。但相關成本的降低,不僅限于單個元器件的采購成本上,如果從前期設計環節就將可替代性、制定標準規范等方面納入考量,未來成本將持續優化。

誠如陳葆立先生此前的分享,CPU 中也有很多可以進行節能降耗的技術,如主板跟 BIOS、BMC 相配合,會在運行過程中根據功耗進行動態調整,對系統的影響也較小。如果這種統一的功耗能夠控制好,將非常有助于控制成本,但現在這個可能是相對不可測算的。因為購買配件時的成本是可以看出來的,但是在動態使用過程當中環溫的控制,包括散熱、CPU 能耗對整個功耗的影響,其實是一個比較隱性的成本。整體而言,在持續使用的情況下,尤其是一個大型數據中心的使用過程當中,是能夠實現可觀的成本控制和節能降耗。

劉宏程:前面提到關于 ChatGPT 的應用是否會讓液冷走回頭路,對于現在這個時間點,現有算力的快速發展,其實反而是促使大多數客戶快速從風冷技術轉向更節能的液冷技術的重要原因。

這個不僅是客戶所面臨的問題,也不僅是可以節能多少的問題,而是在使用過程當中有可能出現巨大空間浪費的情況,因為存量數據中心當中無法容納新的能耗過高的設備。比如 GPU 服務器會導致空間的占用,以及增加數據中心的管理和運營費用。比如在考慮到耗電問題時,還要把管理耗電的費用納入衡量體系,因此也促使更多中國客戶在快速考量更新數據中心整體設計時,轉向更節能、更先進的液冷數據中心的方式來解決能耗和平衡的問題。

這當中就涉及到規模的問題,當用戶需求激增,整體產業規模即呈現在業界所有參與者的面前。盡管用戶規模增大,但依然面臨各自為戰的情況,當由英特爾帶動把液冷所有標準建立之后,實際上產業鏈所有的供應商將用統一標準來實現互連、互操作,這能夠極大降低采購成本以及在未來數據中心的運維成本,讓整體液冷技術在數據中心更容易落地。有了這個標準之后,就可以快速把定制化變成標準件,成本就會快速下降。

所以,當 " 用戶需求激增→標準建立→規模效應體現→整體成本自然下降 " 的循環形成之后,可以加速推動產業從存量的數據中心轉向新型節能的數據中心。

Q:剛提到存量數據中心改造的問題,現在有哪些解決方案?

陳葆立:的確,現在大量的數據中心算力是在存量數據中心中。近期我們把綠色數據中心技術框架升級到 2.0 版本,擁有高能效與高功率密度、先進散熱技術、基礎設施智能化和材料 & 可循環設計四個垂直領域,以及 XPU、服務器、機架、數據中心四個水平方向的共 13 種關于節能減碳的方案。其中有一些是基于新數據中心的建設,比如液冷、浸沒式液冷,但同時也有專門針對存量數據中心的解決方案。

在英特爾與國內運營商于 20 個省的共 420 多個機房里,通過應用英特爾智慧節能解決方案方案,可以把存量數據中心的 PUE 從 1.49 降低到 1.38,并基于此在制冷系統大幅節能,實現了可觀的節省支出。所以,可以看出節能并不一定代表提高成本,節能也是可以幫助降低成本。而這些不僅可以應用于存量數據中心,新的數據中心同樣適用。

Q:冷板和浸沒式液冷對整體解決方案有哪些不同的要求。目前這些液冷方案的普及,除了成本之外還有哪些制約它落地的難點?

陳葆立:我們主要把液冷分為冷板和浸沒式這兩種,抽象一點形容的話,就是天氣熱時,冷板像是 " 鋪一個涼席 ",也就是在很熱的 CPU 上鋪了一層冷板,把熱能通過冷板傳遞出去。而浸沒式液冷是 " 泡澡 ",把所有的部件泡在液體當中,讓溫度可以降低。

除了成本之外,還有如安全、液體漏液等其他的考量。假設管道或液體突然泄漏,整個電子器件產生損耗如何應對?在這個過程當中需要大量的驗證,這是為什么我們和諸如寧暢、新華三等很多業內領先伙伴,一起做了非常多試驗。其實很多廠家也都提供了各種不同的方案,但是我們需要大規模驗證去證明這些應用在液冷中的液體可以真正的安全的使用,并且不影響整個作業和服務。

所以對于英特爾而言,當面對客戶詢問液體是否安全,或當他們使用某款液體時我們的 CPU 是不是依然能提供三年質保,我們會非常有底氣回答,因為這是經過大規模驗證過的,或做過很多仿真試驗的。我們相信它能帶來能耗的優勢是遠遠大于它可能的一些耗損。

莊秉翰:簡單補充一下,具體采用冷板或是浸沒式液冷,是需要根據客戶平衡其對 PUE 和成本需求之后,做出的決策。另外,尤其是浸沒式液冷,其實對器件、和芯片本身也有一些可靠性的影響。英特爾也是第一個基于第三代和第四代至強可擴展處理器,在浸沒式液冷場景下使用,提供一年保修服務的廠家,這也是我們為了加速液冷技術在產業鏈應用所做的努力。

Q:今天各個行業對液冷的使用到了什么階段?

莊秉翰:整體來看,國內幾個服務器使用的頭部行業,如互聯網、運營商、金融行業等,對液冷都已經跳過了 POC 階段,進入到了規模化采用的狀態。

關鍵詞:

責任編輯:hnmd003

相關閱讀

相關閱讀

推薦閱讀