最新資訊:大模型時代,商湯造“工廠”
2018 年冬天,臨港成為上海自貿區新片區的時候,特斯拉沒有 Model Y,OpenAI 沒有 ChatGPT。
眼下,這兩塊招牌背后,電動汽車和生成式 AI 已是當下全球產業中最熱鬧的兩件事。甚至前者在 AI 展現的新能力映襯下都顯得有些 " 傳統 " 了。
越來越多的人隱約有一種生活狀態將被顛覆的感覺。電動汽車給埋在發動機旁邊一百多年的油罐做了分離手術,如果越來越多人現在已經習慣了這一點的話,ChatGPT 又扛著新的 AI 大旗說,不止出行方式,整個人類的生產方式——人類如何獲取知識,如何寫代碼和工作方案——都要徹底改變了。
(相關資料圖)
上海臨港悄然站到了這兩場變革的關鍵位置。
現在這里是國內場景最豐富的自動駕駛測試場。特斯拉在美國本土之外的首座超級工廠幾年前落在這里,另一座特斯拉儲能超級工廠幾年后也會在這里落地——同樣的,如果越來越多人現在已經習慣了這些的話——距離特斯拉超級工廠 3 公里外的一座人工智能計算中心(AIDC)則正在愈發引來新的注目。
這個建筑面積接近 20 個足球場大小的空間里,安置了 5000 個服務器機柜和多達 27000 塊 GPU,背后的建造者是商湯科技。
與這個 AIDC 的建造相隔不久,商湯科技在 2019 年第一次推出了自研的 CV(計算機視覺)模型,用 10 億的參數規模實現了當時業界最好的算法效果。兩年之后,商湯開始訓練 30 億參數的多模態大模型 " 書生 ",并在 2022 年開源。
4 月 10 日,商湯科技 CEO 徐立出現在臨港 AIDC 的現場,背后是一張 AI 生成的圖案,畫面上是一個人類宇航員正在走入一個新的科技世界。
這個在復雜而具體的商業場景中成長起來的中國 AI 公司,正式拉開了自己的大模型敘事。一整套大模型
商湯大模型研究的起點,可以回溯到 4、5 年前。
數據庫 ImageNet 項目中有 1400 萬張手動標注的圖像,是目前世界上最大的視覺數據庫。任何一個 CV(計算機視覺)模型都繞不開它。在利用 ImageNet 訓練 AlexNet 模型時,可以大致衡量一個 CV 大模型的學習能力。
2019 年,商湯科技團隊和新加坡南洋理工大學的研究者一起,用 512 塊 GPU 把在 ImageNet 數據集上訓練 AlexNet 的時間縮短到 90 秒,大幅提升此前騰訊用 1024 塊 GPU 創造的 4 分鐘最短時間。
數據庫 ImageNet 項目中有 1400 萬張手動標注的圖像,是目前世界上最大的視覺數據庫。利用 ImageNet 訓練 AlexNet 模型的耗時,是高性能 AI 訓練和計算的一個衡量尺度,關乎 AI 生產及后續迭代的研發效率。這次性能突破在行業之外并不惹眼,但對商湯科技在大模型研發中的架構能力發展意義重大。
商湯科技從 2018 年開始了 AI 大模型的研發,一年之后已經具備了千卡并行的系統能力。那兩年是商湯在大模型研發的起步。2019 年,商湯自研了一個 10 億參數的 CV 大模型,實現了當時業界最好的算法效果。
這個 10 億參數的模型現在已進一步發展成一個 320 億參數量的、全球最大的 CV 大模型,并且從去年開始在自動駕駛、工業質檢等多個領域發揮作用。而這個 CV 大模型現在只是商湯科技大模型體系中的一個。
4月 10 日的上海臨港 AIDC,商湯科技首次公布了 " 日日新 SenseNova" 的大模型體系。同樣首次公布的,還有在 NLP(自然語言處理)、AIGC(人工智能內容生成)領域的多個 AI 大模型。
圖源:商湯科技依托于千億級參數的 NLP 模型,商湯科技發布了最新的自研中文語言大模型應用平臺 " 商量 SenseChat"。
如同名字的字面意思,生成式自然語言大模型最重要的能力并不只是問答,在與人的多輪對話中步步逼近精準答案的能力同樣重要。這考驗著大模型在語義理解基礎上的邏輯推演水平。
徐立在現場實時演示了如何用 " 商量 " 來完成童話故事的續寫、邀請函的文本創作和細節修改。在展示中," 商量 " 已經具備相當的邏輯推理能力,并且在多輪對話中展現了不錯的上下文理解水平。
圖源:商湯科技商湯科技也展示了語言大模型支持下的幾項創新應用,比如幫助開發者更高效地編寫和調試代碼,或者為用戶提供個性化的醫療建議。值得一提的是," 商量 " 在短時間內完成了對一整部《專利法》的理解,并且能夠順利的從中提取和概括信息來回答問題,答案準確。這顯示這個語言大模型也具備了一定的對超長文本的理解能力。
圖源:商湯科技基于這個大語言模型,商湯科技發布了包括 AI 文生圖創作、2D/3D 數字人生成、大場景 / 小物體生成等一系列自研的生成式 AI 應用。
文生圖創作平臺 " 秒畫 SenseMirage" 展現了光影真實、細節豐富、風格多變的強大文生圖能力,可支持 6K 高清圖的生成;客戶還可根據自身需求訓練生成模型;AI 數字人視頻生成平臺 " 如影 SenseAvatar" 僅需一段 5 分鐘的真人視頻素材,就可以生成出來聲音及動作自然、口型準確、多語種精通的數字人分身。
圖源:商湯科技" 瓊宇 SenseSpace" 和 " 格物 SenseThings" 則是兩個 3D 內容生成平臺?;谏窠涊椛鋱黾夹g(NeRF)," 瓊宇 SenseSpace" 具備城市級大尺度的空間重建生成能力,只需要 2 天即可完成 100 平方公里的空間生成(算力為 1200 TFLOPS 的標準下),建模效率相當于傳統人工建模的 500 人水平;" 格物 SenseThings" 可實現各品類物體,包括光照和材質維度在內的細致還原,并且支持如航天器模型、室內盆栽等復雜結構物體的復刻。兩套平臺生成的各類 3D 內容都能夠進行再編輯再創作。
圖源:商湯科技從 " 秒畫 SenseMirage"、" 如影 SenseAvatar" 到 " 瓊宇 SenseSpace" 和 " 格物 SenseThings",可被視為一個完整的視頻內容的制作和生成工具平臺。人、物到空間的數字化閉環都包含在這套生成式 AI 應用矩陣里。將為未來短視頻、直播產業帶來生產力的提升。
這些都歸于商湯科技 " 日日新 SenseNova" 的大模型體系之下。
徐立表示,這個名字取自《大學》的第三章中,湯之《盤銘》的一句 " 茍日新、日日新、又日新 "。商湯科技也希望商湯大模型體系的迭代速度及處理問題的能力上可以日日更新。
做大模型,也做流水線工廠
一個大模型里,參數量與處理數據量的乘積,就是所需要的計算量。
Meta 在今年 2 月發布了語言模型 LLaMA,這個僅有 130 億參數的語言模型在性能表現上超過了擁有十倍于它(1750 億)參數的 GPT-3,這或許是一個新的趨勢。
當計算量由于有限的可調用資源而被設定出一個上限時,大模型的迭代開始變成一個參數量與數據量的分配問題。大量權重會給到數據,因此現實場景中的垂直領域大模型,其參數量不能肆無忌憚的增長。
從一個通用的千億(甚至萬億)大模型里追求智能涌現,然后蒸餾出百億或者數十億級參數規模的大模型,以此為垂直領域大模型的訓練起點,這是目前 AI 領域大模型落地的研發思路。因此對于最終意在服務于具體場景的商湯科技來說,一個通用、全修的大模型是必須的。
但這只是基礎。
從生產方式上,此前人類歷史上閃耀的算法模型,從谷歌、抖音的信息流算法,甚至到 Bert 與 GPT-3,某種程度上都仍然出自小模型時代模型的生產方法。
在 ChatGPT 劈開紅海后,關于大模型最曲折的一段共識道路已經走完。當大模型開始規模化的成為一種生產力工具,其批量生產所需要的算力以及資源效率需要一個新的生產范式。
這意味著大模型的研發已經從一場思維競賽,過渡到一個數據獲取和算力調配的效率競賽。
" 很多人認為,只要買了這么多 GPU,就可以去搭建超大規模的訓練集群,這是很大的誤區。其實訓練人工智能大模型,造超級 AI 計算機去完成任務,我認為是工程的奇跡。" 陳宇恒表示。
過去 5 年,超大參數 AI 大模型的參數量幾乎每一年提升一個數量級。過往的 10 年,最好的 AI 算法對于算力的需求增長超過了 100 萬倍。但算力并不只是 GPU 數量的正相關。上萬張 GPU 的并行效率背后是系統架構和網絡架構設計的復雜工程。否則,雖然 1 萬張卡和 1000 張卡理論來說是有 10 倍的訓練速度,但實際上可能 1 萬張卡只能有 1000 張卡 2 倍的訓練效率。
集群框架的設計,數據存儲等因素都是修煉大模型時需要前置的問題。換句話說,大模型的修煉開始普遍成為一個工程學問題。
如何讓大模型的生產范式從小作坊轉變到流水線工廠——湯科技希望臨港 AIDC 能成為那個工程學答案。
為什么是商湯
臨港 AIDC ——或者叫做 "SenseCore AI 大裝置 " ——正是為此而搭建的。這是一個巨大的算力中心,也是一個融合了 " 大模型 + 大算力 " 體系的研發實體。
臨港 AIDC 圖源:新民晚報臨港 AIDC 在算力規模、并行訓練能力以及穩定性方面的基礎素質,使其可以為大模型研發提供強大的驅動力。
SenseCore 商湯 AI 大裝置目前包含 27,000 塊 GPU,可輸出 5000 Petaflops 算力,是亞洲最大的智能計算平臺之一。
以巨大算力規模為基礎,SenseCore AI 大裝置目前可支持 20 個千億參數量的超大模型同時訓練,并提供涵蓋數據、訓練工具、推理部署、性能優化一條龍的大模型基礎設施服務體系,并提供涵蓋數據、訓練工具、推理部署、性能優化一條龍的大模型基礎設施服務體系。
在 AI 大模型時代,衡量算力能力和核心指標不是簡單的數字,其一是多卡并行狀態下的有效利用率,即能夠支撐大模型訓練的實際算力;其二是系統能夠持續穩定運行的時長。
SenseCore AI 大裝置擁有出色的并行計算能力,能夠以最大 4000 卡規模集群進行單任務訓練,并可做到七天以上不間斷的穩定訓練。SenseCore AI 大裝置在 2022 年已支持了超過 10 個大模型訓練項目,其中不僅有商湯自身的大模型訓練項目,也包含了一些其他企業自定義的模型訓練任務。在 4000 卡規模集群的訓練關鍵指標達到世界領先之后,SenseCore AI 大裝置將為商湯科技未來萬億級參數規模的大模型訓練提供基礎。
算力層、以及平臺層和算法層的三層結構組成了 SenseCore 商湯 AI 大裝置的整體架構?;?AI 大裝置和 " 日日新 SenseNova" 大模型體系,商湯科技也將面向客戶提供涵蓋自動化數據標注、大模型推理部署、大模型并行訓練、大模型增量訓練、開發者效率提升等多種大模型即服務(Model-as-a-Service)。
圖源:商湯科技某種程度上,大模型算法本身是大模型在實際場景落地中那個最容易跨越的環節,更多的矛盾集中在后續的工程能力,以及成本控制上。垂直領域大模型近年在技術上已經開始越過工業紅線,但它的成本仍然太高。換句話說,AI 已經證明了 " 能不能 " 的問題,接下來的問題是 " 夠不夠便宜 "。
這些都是 SenseCore 商湯 AI 大裝置在數據標注效率、模型部署成本等環節希望解決的問題。
" 它不單是說在 AI 的生產上做了產品的殼,它是提供了一整套工具和產品以及解決方案,把人工智能大模型的新的生產范式去做整體的商業化,以及對外的服務,去推進人工智能領域的整個商業化的發展。" 陳宇恒這樣描述 SenseCore 商湯 AI 大裝置的角色定位。
換個角度,SenseCore 商湯 AI 大裝置是一套 IaaS+PaaS 的產品體系。
從每個模型單獨標注數據、單獨訓練的模式的 " 小作坊 " 模式,過渡到由少數大模型不斷生產、迭代進化,由大模型支撐領域模型升級,再通過精調等手段,生產行業及場景模型,迅速達到應用標準的 " 流水線 " 模式。商湯科技需要這樣一個大模型生產 " 工廠 ",在未來大量新的 AI 大模型的研發過程中盡早和產業場景做結合,從研發端開始壓縮這條技術鏈路。
這決定了大模型研發降本增效的程度,AI 在生產和應用端的成本降低會引導出新的商業模式,這最終會縮短 AI 與現實的距離。
一位國內自然語言公司的從業者曾對品玩表示," 技術和場景,一家 AI 公司好只選一頭 "。這句話的背景是 2016 年左右人工智能在國內激起的第一波浪潮,言下之意,彼時一窮二白的人工智能初創公司,需要集中精力先生存。
商湯科技也是在那一次浪潮中涌現出來的人工智能公司,但卻是其中少有最終完成上市的一個?,F在新的大模型浪潮涌動,作為一家人工智能平臺型公司的商湯科技,面臨的局面也今時不同往日。
當下大模型競爭的重要參與者,微軟、Google 包括近日推出 Segment 的 Meta,大模型的背后都是堅實的場景支撐,并且兩者會在很早期就開始融合。商湯的處境相似,一家人工智能公司要長久保持技術活力。需要在技術和場景兩端同時建立脈絡。
" 技術和商業要齊頭并進 ",陳宇恒表達了類似的判斷。這既是說大模型要盡早的進入現實環境中去自我優化,也可以理解為未來大模型的研發過程本身就要盡早放入相應的產業語境里來完成,以產品的形式來形成用戶反饋的閉環。
而已經走入智慧汽車、智慧城市等領域產業深處的商湯科技,需要承擔起這個未來大模型生產方式變革中的基礎設施角色。
責任編輯:hnmd003
相關閱讀
-
環球熱文:首屆開源鴻蒙 OpenHarmony 開發者大會 2023 定檔 4 月 19 日
品玩4月12日訊,據OpenAtomOpenHarmony官方宣布,OpenHarmony開發者大會2023將于4月19日在北京召開。據...
2023-04-12 -
華為鴻蒙 OS 真不是安卓!全球第三大系統全速增長 首屆開源鴻蒙開發者大會來了_環球關注
快科技4月12日消息,首屆開源鴻蒙OpenHarmony開發者大會終于要來了,4月19日正式就行,而大會的戰略伙伴...
2023-04-12 -
【新要聞】97 版三兄弟代言!《天龍八部 2:飛龍戰天》4 月 14 日公測:完美世界發行
快科技4月12日消息,《天龍八部2:飛龍戰天》官方已宣布,將于2023年4月14日上午9:00正式開啟公測。此次...
2023-04-12
相關閱讀
-
最新資訊:大模型時代,商湯造“工廠”
2018年冬天,臨港成為上海自貿區新片區的時候,特斯拉沒有ModelY,OpenAI沒有ChatGPT。眼下,這兩塊招牌...
-
環球熱文:首屆開源鴻蒙 OpenHarmony 開發者大會 2023 定檔 4 月 19 日
品玩4月12日訊,據OpenAtomOpenHarmony官方宣布,OpenHarmony開發者大會2023將于4月19日在北京召開。據...
-
警惕冒充公檢法詐騙!騙子發來“逮捕令” 呼市一市民被騙一百多萬元......
呼市公安局反詐中心趙書銳:“第一步就是獲取我們的信任,詐騙分子應該是通過一些非法渠道獲取到了李女...
-
快報:緊盯春耕備耕生產關鍵節點 嚴打制售假劣農資犯罪 我區破獲農資領域刑事案件13起 涉案金額6069萬元
據了解,今年初,內蒙古公安廳將嚴厲打擊農資領域犯罪列為2023年全區公安工作的一項重要內容部署各地推...
-
天天觀熱點:警方偵破一起冒充領導重特大電信詐騙案涉案金額達198萬余元
針對這起重特大電信詐騙案,反詐民警提醒:如遇到自稱領導的人通過短信、微信、QQ等聊天工具添加好友,...
-
什么是釣魚網站?釣魚網站如何獲取個人信息的?
什么是釣魚網站?釣魚網站是指欺騙用戶的虛假網站。釣魚網站的頁面與真實網站界面基本一致,欺騙消費者或...
-
美股反彈難續?富國銀行:未來 3-6 個月內標普 500 將回調 10% 熱文
財聯社4月12日訊(編輯黃君芝)富國銀行(WellsFargo&Co )旗下證券部門股票策略主管ChrisHarvey周二表...
-
微資訊!包頭市多點發力推進“無廢城市”建設
近年來,包頭市深入推進“無廢城市”建設,從政策引導、標準制定、監督管理和科技創新四方面發力,持續...
-
大超預期!3 月社融新增超 5.3 萬億,債市為何無視利空?80 家房企融資環比增長超 4 成:焦點關注
債市要聞【3月社融大超預期,為何債市無視利空?通縮或是核心關切】據財聯社報道,4月11日,央行公布的...
-
包頭:口袋公園裝滿百姓美好生活:環球今日報
近年來,包頭市綠化建設充分體現以人民為中心的城市建設理念,通過建設一批小微綠地、口袋公園等,推進...
-
頭條:巴菲特又賣出比亞迪!伯克希爾哈撒韋持股比例降至 10.9%
財聯社4月11日訊(編輯周新旸)巴菲特旗下伯克希爾·哈撒韋減持比亞迪的步伐還未停止。根據港交所4月11...
-
全球要聞:包頭:北方股份公司晉級自治區科技領軍企業
日前,內蒙古自治區科技廳發布2022年度科技領軍企業名單,北重集團北方股份公司榜上有名。-內蒙古財經網
-
世界快看點丨包頭市青山區:感受一場貫通古今的婚俗文化盛宴
4月8日,包頭市青山區第六屆“知往鑒來·知儀鑒禮”時代秀集體婚禮、第六屆“甜蜜鹿城·青春有約”青年...
-
全球新動態:今年一季度 西藏旅游總收入超20億元
進入4月,西藏開始柳綠花紅,各地旅游市場加速回暖,各景區、鄉村旅游景點迎來游客熱潮。
-
西藏經營主體總體發展態勢較好 總量達44.89萬戶 當前信息
近日,記者從西藏自治區市場監督管理局獲悉,截至3月底,全區經營主體總體發展態勢較好,總量達到44 89...
-
當前動態:西藏阿里地區第二屆網絡影像節頒獎典禮舉行
近日,“天上西藏·秘境阿里”第二屆網絡影像節頒獎典禮在西藏自治區阿里地區舉行,為廣大網絡影像愛好...
-
2022年西藏樟木口岸農產品出口貿易值達2.25億元 環球聚焦
近日,記者從拉薩海關獲悉,2022年西藏自治區樟木口岸農產品出口貿易值達2 25億元、貿易量達2 96萬噸...
-
今年西藏將繼續實施“播雨”行動計劃_世界時訊
利用科技手段干預天氣,可增加雨雪、防止冰雹災害等,造福人類。
-
olt設備是什么意思?olt設備和交換機的區別
olt設備是什么意思?olt是光線路終端的簡稱,是用于連接光纖干線的一種終端設備。OLT設備是重要的中央局...
-
jar是什么文件?jar文件用什么打開方式?
jar是什么文件?在軟件領域,JAR文件(Java歸檔,英語:Java Archive)是一種軟件包文件格式,通常用于聚...
-
ps路徑是什么?ps路徑怎么填充顏色?
ps路徑是什么?路徑(PATHS)是PS中的重要工具,其主要用于進行光滑圖像選擇區域及輔助摳圖,繪制光滑線條...
-
我心中的那一曲長生殿作文怎么寫?我心中的那一曲長生殿作文范文? 環球今熱點
我心中的那一曲長生殿作文愛是長生殿。《長生殿》是一首昆曲,如其他昆曲,咿咿呀呀個半天,所以歌詞我...
-
2023司機個人年終工作總結怎么寫?2023司機個人年終工作總結文稿?|報資訊
2023司機個人年終工作總結(精選13篇)時間如流水,轉眼間我們又將迎來了新的一年,回望過去一年的工作...
-
全球資訊:感恩老師滿分作文400字怎么寫?感恩老師滿分作文400字范文?
感恩老師滿分作文400字蒼鷹、小鳥感恩藍天,是因為藍天給了他們一個溫暖的家,我感恩老師,是因為老師給...
-
微笑著面對優秀作文怎么寫?微笑著面對優秀作文范文?
微笑著面對優秀作文光陰似箭,日月如梭。在時空的隧道,人生只是一瞬間。在這短短的瞬間,任何人都有過...
-
每日速讀!感恩節的作文怎么寫?感恩節的作文范文?
有關感恩節的作文(通用32篇)在學習、工作乃至生活中,大家最不陌生的就是作文了吧,作文可分為小學作...
-
描寫春天景色的作文怎么寫?描寫春天景色的作文范文?
描寫春天景色的作文【熱】在平時的學習、工作或生活中,大家或多或少都會接觸過作文吧,寫作文是培養人...
-
珍惜生命作文怎么寫?珍惜生命作文范文?_觀焦點
珍惜生命作文(精選7篇)在日常學習、工作和生活中,大家都經??吹阶魑牡纳碛鞍桑魑氖侨藗儼延洃浿兴?..
-
《秦兵馬俑》教案設計怎么寫?《秦兵馬俑》教案設計范文?
《秦兵馬俑》教案設計篇一:秦兵馬俑教學設計及反思《秦兵馬俑》教學設計:四、教學過程:一、師導入:在...
-
當前關注:怎樣選擇網球拍?選擇網球拍主要看哪幾方面?
怎樣選擇網球拍導語:網球拍是生活中很常見的,它的打網球的工具,在對它選擇上,都是不能隨意的進行,...
精彩推薦
閱讀排行
精彩推送
- 錯過的風景作文怎么寫?錯過的風...
- 什么是html語言?html語言標記區...
- 圖片透明度越高越透明嗎?ppt如...
- 長相伴太平洋保險靠譜嗎?多少錢...
- 頭條:長相伴慶典版終身壽險的特...
- 香港保險分紅實現率是多少?怎么...
- 人壽保險的國壽福終身壽險好不好...
- 招商人壽仁和保險靠譜嗎?客服電...
- 天天通訊!香型爭霸戰:醬酒不再...
- 充電線中6A是什么意思?充電線中...
- 東方甄選獎勵154人8.83億港元,...
- 環球熱點!馬斯克被曝暗中購買上...
- 消息稱前理想AI芯片一號位驕旸加...
- 環球熱推薦:小鵬汽車智能化的思...
- 環球微速訊:辦稅大廳來了“小小...
- 檢察機關能動履職 企業安享優質...
- 190余幅作品亮相昆區師生書法作品展
- 【環球速看料】文明實踐在行動|...
- 達茂旗清潔能源企業一季度發電量...
- a1530是蘋果什么型號手機?A1530...
- 網絡電纜是哪一根?網絡電纜被拔...
- gsm網絡是什么?gsm網絡由幾部分...
- 驅動器中沒有磁盤怎么解決?驅動...
- 巴西總統盧拉將于4月12日至15日...
- “五個一百”,用主旋律奏響凝心...
- 每日觀察!開局之春話經濟丨規模...
- 世界速遞!消博會有多好逛?八大...
- 華為鴻蒙 OS 真不是安卓!全球...
- 選擇一加 11 木星巖限定版的 ...
- 快訊:持續加碼云平臺,申港證券...