最新資訊：大模型時代，商湯造“工廠”

2023-04-12 10:06:13來源：ZAKER科技

2018 年冬天，臨港成為上海自貿區新片區的時候，特斯拉沒有 Model Y，OpenAI 沒有 ChatGPT。

眼下，這兩塊招牌背后，電動汽車和生成式 AI 已是當下全球產業中最熱鬧的兩件事。甚至前者在 AI 展現的新能力映襯下都顯得有些 " 傳統 " 了。

越來越多的人隱約有一種生活狀態將被顛覆的感覺。電動汽車給埋在發動機旁邊一百多年的油罐做了分離手術，如果越來越多人現在已經習慣了這一點的話，ChatGPT 又扛著新的 AI 大旗說，不止出行方式，整個人類的生產方式——人類如何獲取知識，如何寫代碼和工作方案——都要徹底改變了。

(相關資料圖)

上海臨港悄然站到了這兩場變革的關鍵位置。

現在這里是國內場景最豐富的自動駕駛測試場。特斯拉在美國本土之外的首座超級工廠幾年前落在這里，另一座特斯拉儲能超級工廠幾年后也會在這里落地——同樣的，如果越來越多人現在已經習慣了這些的話——距離特斯拉超級工廠 3 公里外的一座人工智能計算中心（AIDC）則正在愈發引來新的注目。

這個建筑面積接近 20 個足球場大小的空間里，安置了 5000 個服務器機柜和多達 27000 塊 GPU，背后的建造者是商湯科技。

與這個 AIDC 的建造相隔不久，商湯科技在 2019 年第一次推出了自研的 CV（計算機視覺）模型，用 10 億的參數規模實現了當時業界最好的算法效果。兩年之后，商湯開始訓練 30 億參數的多模態大模型 " 書生 "，并在 2022 年開源。

4 月 10 日，商湯科技 CEO 徐立出現在臨港 AIDC 的現場，背后是一張 AI 生成的圖案，畫面上是一個人類宇航員正在走入一個新的科技世界。

這個在復雜而具體的商業場景中成長起來的中國 AI 公司，正式拉開了自己的大模型敘事。

一整套大模型

商湯大模型研究的起點，可以回溯到 4、5 年前。

數據庫 ImageNet 項目中有 1400 萬張手動標注的圖像，是目前世界上最大的視覺數據庫。任何一個 CV（計算機視覺）模型都繞不開它。在利用 ImageNet 訓練 AlexNet 模型時，可以大致衡量一個 CV 大模型的學習能力。

2019 年，商湯科技團隊和新加坡南洋理工大學的研究者一起，用 512 塊 GPU 把在 ImageNet 數據集上訓練 AlexNet 的時間縮短到 90 秒，大幅提升此前騰訊用 1024 塊 GPU 創造的 4 分鐘最短時間。

數據庫 ImageNet 項目中有 1400 萬張手動標注的圖像，是目前世界上最大的視覺數據庫。利用 ImageNet 訓練 AlexNet 模型的耗時，是高性能 AI 訓練和計算的一個衡量尺度，關乎 AI 生產及后續迭代的研發效率。這次性能突破在行業之外并不惹眼，但對商湯科技在大模型研發中的架構能力發展意義重大。

商湯科技從 2018 年開始了 AI 大模型的研發，一年之后已經具備了千卡并行的系統能力。那兩年是商湯在大模型研發的起步。2019 年，商湯自研了一個 10 億參數的 CV 大模型，實現了當時業界最好的算法效果。

這個 10 億參數的模型現在已進一步發展成一個 320 億參數量的、全球最大的 CV 大模型，并且從去年開始在自動駕駛、工業質檢等多個領域發揮作用。而這個 CV 大模型現在只是商湯科技大模型體系中的一個。

4月 10 日的上海臨港 AIDC，商湯科技首次公布了 " 日日新 SenseNova" 的大模型體系。同樣首次公布的，還有在 NLP（自然語言處理）、AIGC（人工智能內容生成）領域的多個 AI 大模型。

圖源：商湯科技

依托于千億級參數的 NLP 模型，商湯科技發布了最新的自研中文語言大模型應用平臺 " 商量 SenseChat"。

如同名字的字面意思，生成式自然語言大模型最重要的能力并不只是問答，在與人的多輪對話中步步逼近精準答案的能力同樣重要。這考驗著大模型在語義理解基礎上的邏輯推演水平。

徐立在現場實時演示了如何用 " 商量 " 來完成童話故事的續寫、邀請函的文本創作和細節修改。在展示中，" 商量 " 已經具備相當的邏輯推理能力，并且在多輪對話中展現了不錯的上下文理解水平。

圖源：商湯科技

商湯科技也展示了語言大模型支持下的幾項創新應用，比如幫助開發者更高效地編寫和調試代碼，或者為用戶提供個性化的醫療建議。值得一提的是，" 商量 " 在短時間內完成了對一整部《專利法》的理解，并且能夠順利的從中提取和概括信息來回答問題，答案準確。這顯示這個語言大模型也具備了一定的對超長文本的理解能力。

圖源：商湯科技

基于這個大語言模型，商湯科技發布了包括 AI 文生圖創作、2D/3D 數字人生成、大場景 / 小物體生成等一系列自研的生成式 AI 應用。

文生圖創作平臺 " 秒畫 SenseMirage" 展現了光影真實、細節豐富、風格多變的強大文生圖能力，可支持 6K 高清圖的生成；客戶還可根據自身需求訓練生成模型；AI 數字人視頻生成平臺 " 如影 SenseAvatar" 僅需一段 5 分鐘的真人視頻素材，就可以生成出來聲音及動作自然、口型準確、多語種精通的數字人分身。

圖源：商湯科技

" 瓊宇 SenseSpace" 和 " 格物 SenseThings" 則是兩個 3D 內容生成平臺?；谏窠涊椛鋱黾夹g（NeRF），" 瓊宇 SenseSpace" 具備城市級大尺度的空間重建生成能力，只需要 2 天即可完成 100 平方公里的空間生成（算力為 1200 TFLOPS 的標準下），建模效率相當于傳統人工建模的 500 人水平；" 格物 SenseThings" 可實現各品類物體，包括光照和材質維度在內的細致還原，并且支持如航天器模型、室內盆栽等復雜結構物體的復刻。兩套平臺生成的各類 3D 內容都能夠進行再編輯再創作。

圖源：商湯科技

從 " 秒畫 SenseMirage"、" 如影 SenseAvatar" 到 " 瓊宇 SenseSpace" 和 " 格物 SenseThings"，可被視為一個完整的視頻內容的制作和生成工具平臺。人、物到空間的數字化閉環都包含在這套生成式 AI 應用矩陣里。將為未來短視頻、直播產業帶來生產力的提升。

這些都歸于商湯科技 " 日日新 SenseNova" 的大模型體系之下。

徐立表示，這個名字取自《大學》的第三章中，湯之《盤銘》的一句 " 茍日新、日日新、又日新 "。商湯科技也希望商湯大模型體系的迭代速度及處理問題的能力上可以日日更新。

做大模型，也做流水線工廠

一個大模型里，參數量與處理數據量的乘積，就是所需要的計算量。

Meta 在今年 2 月發布了語言模型 LLaMA，這個僅有 130 億參數的語言模型在性能表現上超過了擁有十倍于它（1750 億）參數的 GPT-3，這或許是一個新的趨勢。

當計算量由于有限的可調用資源而被設定出一個上限時，大模型的迭代開始變成一個參數量與數據量的分配問題。大量權重會給到數據，因此現實場景中的垂直領域大模型，其參數量不能肆無忌憚的增長。

從一個通用的千億（甚至萬億）大模型里追求智能涌現，然后蒸餾出百億或者數十億級參數規模的大模型，以此為垂直領域大模型的訓練起點，這是目前 AI 領域大模型落地的研發思路。因此對于最終意在服務于具體場景的商湯科技來說，一個通用、全修的大模型是必須的。

但這只是基礎。

從生產方式上，此前人類歷史上閃耀的算法模型，從谷歌、抖音的信息流算法，甚至到 Bert 與 GPT-3，某種程度上都仍然出自小模型時代模型的生產方法。

在 ChatGPT 劈開紅海后，關于大模型最曲折的一段共識道路已經走完。當大模型開始規模化的成為一種生產力工具，其批量生產所需要的算力以及資源效率需要一個新的生產范式。

這意味著大模型的研發已經從一場思維競賽，過渡到一個數據獲取和算力調配的效率競賽。

" 很多人認為，只要買了這么多 GPU，就可以去搭建超大規模的訓練集群，這是很大的誤區。其實訓練人工智能大模型，造超級 AI 計算機去完成任務，我認為是工程的奇跡。" 陳宇恒表示。

過去 5 年，超大參數 AI 大模型的參數量幾乎每一年提升一個數量級。過往的 10 年，最好的 AI 算法對于算力的需求增長超過了 100 萬倍。但算力并不只是 GPU 數量的正相關。上萬張 GPU 的并行效率背后是系統架構和網絡架構設計的復雜工程。否則，雖然 1 萬張卡和 1000 張卡理論來說是有 10 倍的訓練速度，但實際上可能 1 萬張卡只能有 1000 張卡 2 倍的訓練效率。

集群框架的設計，數據存儲等因素都是修煉大模型時需要前置的問題。換句話說，大模型的修煉開始普遍成為一個工程學問題。

如何讓大模型的生產范式從小作坊轉變到流水線工廠——湯科技希望臨港 AIDC 能成為那個工程學答案。

為什么是商湯

臨港 AIDC ——或者叫做 "SenseCore AI 大裝置 " ——正是為此而搭建的。這是一個巨大的算力中心，也是一個融合了 " 大模型 + 大算力 " 體系的研發實體。

臨港 AIDC 圖源：新民晚報

臨港 AIDC 在算力規模、并行訓練能力以及穩定性方面的基礎素質，使其可以為大模型研發提供強大的驅動力。

SenseCore 商湯 AI 大裝置目前包含 27,000 塊 GPU，可輸出 5000 Petaflops 算力，是亞洲最大的智能計算平臺之一。

以巨大算力規模為基礎，SenseCore AI 大裝置目前可支持 20 個千億參數量的超大模型同時訓練，并提供涵蓋數據、訓練工具、推理部署、性能優化一條龍的大模型基礎設施服務體系，并提供涵蓋數據、訓練工具、推理部署、性能優化一條龍的大模型基礎設施服務體系。

在 AI 大模型時代，衡量算力能力和核心指標不是簡單的數字，其一是多卡并行狀態下的有效利用率，即能夠支撐大模型訓練的實際算力；其二是系統能夠持續穩定運行的時長。

SenseCore AI 大裝置擁有出色的并行計算能力，能夠以最大 4000 卡規模集群進行單任務訓練，并可做到七天以上不間斷的穩定訓練。SenseCore AI 大裝置在 2022 年已支持了超過 10 個大模型訓練項目，其中不僅有商湯自身的大模型訓練項目，也包含了一些其他企業自定義的模型訓練任務。在 4000 卡規模集群的訓練關鍵指標達到世界領先之后，SenseCore AI 大裝置將為商湯科技未來萬億級參數規模的大模型訓練提供基礎。

算力層、以及平臺層和算法層的三層結構組成了 SenseCore 商湯 AI 大裝置的整體架構?；?AI 大裝置和 " 日日新 SenseNova" 大模型體系，商湯科技也將面向客戶提供涵蓋自動化數據標注、大模型推理部署、大模型并行訓練、大模型增量訓練、開發者效率提升等多種大模型即服務（Model-as-a-Service）。

圖源：商湯科技

某種程度上，大模型算法本身是大模型在實際場景落地中那個最容易跨越的環節，更多的矛盾集中在后續的工程能力，以及成本控制上。垂直領域大模型近年在技術上已經開始越過工業紅線，但它的成本仍然太高。換句話說，AI 已經證明了 " 能不能 " 的問題，接下來的問題是 " 夠不夠便宜 "。

這些都是 SenseCore 商湯 AI 大裝置在數據標注效率、模型部署成本等環節希望解決的問題。

" 它不單是說在 AI 的生產上做了產品的殼，它是提供了一整套工具和產品以及解決方案，把人工智能大模型的新的生產范式去做整體的商業化，以及對外的服務，去推進人工智能領域的整個商業化的發展。" 陳宇恒這樣描述 SenseCore 商湯 AI 大裝置的角色定位。

換個角度，SenseCore 商湯 AI 大裝置是一套 IaaS+PaaS 的產品體系。

從每個模型單獨標注數據、單獨訓練的模式的 " 小作坊 " 模式，過渡到由少數大模型不斷生產、迭代進化，由大模型支撐領域模型升級，再通過精調等手段，生產行業及場景模型，迅速達到應用標準的 " 流水線 " 模式。商湯科技需要這樣一個大模型生產 " 工廠 "，在未來大量新的 AI 大模型的研發過程中盡早和產業場景做結合，從研發端開始壓縮這條技術鏈路。

這決定了大模型研發降本增效的程度，AI 在生產和應用端的成本降低會引導出新的商業模式，這最終會縮短 AI 與現實的距離。

一位國內自然語言公司的從業者曾對品玩表示，" 技術和場景，一家 AI 公司好只選一頭 "。這句話的背景是 2016 年左右人工智能在國內激起的第一波浪潮，言下之意，彼時一窮二白的人工智能初創公司，需要集中精力先生存。

商湯科技也是在那一次浪潮中涌現出來的人工智能公司，但卻是其中少有最終完成上市的一個?，F在新的大模型浪潮涌動，作為一家人工智能平臺型公司的商湯科技，面臨的局面也今時不同往日。

當下大模型競爭的重要參與者，微軟、Google 包括近日推出 Segment 的 Meta，大模型的背后都是堅實的場景支撐，并且兩者會在很早期就開始融合。商湯的處境相似，一家人工智能公司要長久保持技術活力。需要在技術和場景兩端同時建立脈絡。

" 技術和商業要齊頭并進 "，陳宇恒表達了類似的判斷。這既是說大模型要盡早的進入現實環境中去自我優化，也可以理解為未來大模型的研發過程本身就要盡早放入相應的產業語境里來完成，以產品的形式來形成用戶反饋的閉環。

而已經走入智慧汽車、智慧城市等領域產業深處的商湯科技，需要承擔起這個未來大模型生產方式變革中的基礎設施角色。

最新資訊：大模型時代，商湯造“工廠”

相關閱讀

相關閱讀

精彩推薦

閱讀排行

精彩推送

推薦閱讀

最新資訊：大模型時代，商湯造“工廠”