首頁 > 股票 > 正文

GPT 能為自動(dòng)駕駛帶來什么?毫末給出了答案

2023-04-16 16:08:56來源:ZAKER財(cái)經(jīng)  

" 在 AI 技術(shù)生態(tài)上,生成式大模型已成為自動(dòng)駕駛系統(tǒng)進(jìn)化的關(guān)鍵,基于 Transformer 大模型訓(xùn)練的感知、認(rèn)知算法,將逐步在車端進(jìn)行落地部署。"

在最新的毫末 AI DAY 上,毫末智行董事長張凱給出了這一判斷,并基于這一判斷發(fā)布業(yè)內(nèi)首個(gè)自動(dòng)駕駛生成式大模型 DriveGPT,中文名 " 雪湖 · 海若 "。

自去年年末以來, GPT 的熱度一直高漲不下,尤其是 ChatGPT 的大火更是引發(fā)全行業(yè)關(guān)注。此前,GPT 多應(yīng)用于文本生成、代碼生成或是搜索領(lǐng)域,但由于缺乏數(shù)據(jù)支撐,GPT 在自動(dòng)駕駛行業(yè)這一垂類的應(yīng)用并不高。

截至目前,業(yè)內(nèi)也僅有毫末一家率先將 GPT 應(yīng)用到自動(dòng)駕駛領(lǐng)域,即 DriveGPT 雪湖 · 海若。


【資料圖】

DriveGPT 能為智能駕駛做什么?

GPT 的全稱是生成式預(yù)訓(xùn)練 Transformer 模型,本質(zhì)上是在求解下一個(gè)詞出現(xiàn)的概率。即根據(jù)輸入的前序文本,模型會(huì)輸出可能出現(xiàn)的下一個(gè)字的幾率分布,再從中取樣出幾率較高的字。如此循環(huán)往復(fù),直到完整地寫完下文。

據(jù)官方介紹,DriveGPT 雪湖 · 海若的底層模型采用 GPT(Generative Pre-trained Transformer)生成式預(yù)訓(xùn)練大模型,與 ChatGPT 使用自然語言進(jìn)行輸入與輸出不同,DriveGPT 輸入是感知融合后的文本序列,輸出是自動(dòng)駕駛場(chǎng)景文本序列,即將自動(dòng)駕駛場(chǎng)景 Token 化,形成 "Drive Language"。

Drive Language 基于毫末的 CSS 場(chǎng)景庫理論,將駕駛空間進(jìn)行離散化處理,每一個(gè) Token 都表征場(chǎng)景的一小部分,相當(dāng)于許多個(gè)可能在未來出現(xiàn)的平行宇宙,最終完成自車的決策規(guī)控、障礙物預(yù)測(cè)以及決策邏輯鏈的輸出等任務(wù)。截至目前,毫末從真實(shí)駕駛場(chǎng)景庫中提取的 token 序列,規(guī)模達(dá)到 50 萬個(gè)。

有了 Drive Language,毫末就可以用人類駕駛的數(shù)據(jù)對(duì)模型進(jìn)行預(yù)訓(xùn)練。

首先,在預(yù)訓(xùn)練階段通過引入量產(chǎn)駕駛數(shù)據(jù),訓(xùn)練初始模型,再通過引入駕駛接管 Clips 數(shù)據(jù)完成反饋模型(Reward Model)的訓(xùn)練,然后再通過強(qiáng)化學(xué)習(xí)的方式,使用反饋模型去不斷優(yōu)化迭代初始模型,形成對(duì)自動(dòng)駕駛認(rèn)知決策模型的持續(xù)優(yōu)化。

同時(shí),DriveGPT 雪湖 · 海若會(huì)根據(jù)輸入端的提示語以及毫末 CSS 自動(dòng)駕駛場(chǎng)景庫的決策樣本去訓(xùn)練模型,讓模型學(xué)習(xí)推理關(guān)系,從而將完整駕駛策略拆分為自動(dòng)駕駛場(chǎng)景的動(dòng)態(tài)識(shí)別過程,完成可理解、可解釋的推理邏輯鏈生成。

毫末智行 CEO 顧維灝表示,毫末 DriveGPT 雪湖 · 海若通過引入駕駛數(shù)據(jù)建立 RLHF(人類反饋強(qiáng)化學(xué)習(xí))技術(shù),對(duì)自動(dòng)駕駛認(rèn)知決策模型進(jìn)行持續(xù)優(yōu)化。據(jù)毫末方面的說法,在 RLHF 的加持下,Hard Case 通過率提升了 48%。

目前,毫末 DriveGPT 雪湖 · 海若實(shí)現(xiàn)了模型架構(gòu)與參數(shù)規(guī)模的升級(jí),參數(shù)規(guī)模達(dá) 1200 億,預(yù)訓(xùn)練階段引入 4000 萬公里量產(chǎn)車駕駛數(shù)據(jù),RLHF 階段引入 5 萬段人工精選的困難場(chǎng)景接管 Clips。

毫末方面表示,DriveGPT 雪湖 · 海若現(xiàn)階段主要用于解決自動(dòng)駕駛的認(rèn)知決策問題。" 在感知到了周圍的世界之后,怎么樣把車開得更安全,把車開得更順滑,怎么樣跟周圍的交通參與者互相博弈。" 顧維灝說道。

毫末判斷,DriveGPT 雪湖 · 海若還將在城市 NOH、智能陪練、駕駛捷徑推薦、脫困場(chǎng)景中得到應(yīng)用,最終目標(biāo)是要實(shí)現(xiàn)端到端自動(dòng)駕駛

毫末在 AI DAY 上宣布,DriveGPT 雪湖 · 海若將在即將量產(chǎn)上市的新摩卡 DHT-PHEV 首發(fā)。

毫末基于 GPT 技術(shù)的探索,毫末衍生出服務(wù)于業(yè)界的能力和新的商業(yè)模式,即向業(yè)界開放 DriveGPT 的能力,4 月 11 日開放單幀自動(dòng)標(biāo)注服務(wù),可降低標(biāo)注成本,之后還將陸續(xù)開放駕駛行為驗(yàn)證、困難場(chǎng)景脫困等功能。

DriveGPT 背后的支持

事實(shí)上,DriveGPT 雪湖 · 海若的訓(xùn)練和落地,離不開算力的支持。

今年 1 月,毫末和火山引擎共同發(fā)布了其自建智算中心 " 毫末雪湖 · 綠洲 MANA OASIS"。毫末表示,OASIS 的算力高達(dá) 67 億億次 / 秒,存儲(chǔ)帶寬 2T / 秒,通信帶寬達(dá)到 800G / 秒。

不過,只有算力還不夠,還需要訓(xùn)練和推理框架的支持,由此毫末進(jìn)行了三方面升級(jí)——

一是訓(xùn)練穩(wěn)定性優(yōu)化。毫末在大模型訓(xùn)練框架的基礎(chǔ)上,與火山引擎共同建立了全套訓(xùn)練保障框架,可以通過集群調(diào)度器實(shí)時(shí)獲取服務(wù)器異常,將異常節(jié)點(diǎn)從訓(xùn)練 Task group 中刪除,再結(jié)合 CheckPoint 功能,利用 VePFS 高性能存儲(chǔ)和 RDMA 網(wǎng)絡(luò)高效分發(fā),以保障 DriveGPT 雪湖 · 海若大模型訓(xùn)練的穩(wěn)定性。

二是彈性調(diào)度資源的升級(jí)。毫末構(gòu)建了一個(gè)大模型持續(xù)學(xué)習(xí)系統(tǒng),數(shù)據(jù)以動(dòng)態(tài)數(shù)據(jù)流的形式結(jié)合增量學(xué)習(xí),持續(xù)不斷地將量產(chǎn)回傳和篩選的存量數(shù)據(jù),傳入認(rèn)知和感知 Pretrain 大模型。

三是吞吐效率的升級(jí)。在 Transformer 的大矩陣計(jì)算上,毫末通過對(duì)內(nèi)外循環(huán)的數(shù)據(jù)拆分,盡量保持?jǐn)?shù)據(jù)在 SRAM 中提升計(jì)算的效率;在傳統(tǒng)的訓(xùn)練框架中,通過引入火山引擎提供的 Logo 核心算子庫實(shí)現(xiàn)融合,端到端吞吐提升 84%。

另外,毫末表示,自動(dòng)駕駛數(shù)據(jù)智能體系 MANA 架構(gòu)已迎來全線升級(jí)。截至 2023 年 4 月, MANA 學(xué)習(xí)時(shí)長超 56 萬小時(shí),相當(dāng)于人類司機(jī) 6.8 萬年。

在 MANA 發(fā)布迭代一年后,在本次 AI DAY 也迎來升級(jí),具體包括:

首先,MANA 感知和認(rèn)知相關(guān)大模型能力統(tǒng)一整合到 DriveGPT 雪湖 · 海若中;

其次,MANA 計(jì)算基礎(chǔ)服務(wù)針對(duì)大模型訓(xùn)練在參數(shù)規(guī)模、穩(wěn)定性和效率方面做了專項(xiàng)優(yōu)化,并集成到 OASIS 中;

第三,增加了使用 NeRF 技術(shù)的數(shù)據(jù)合成服務(wù),降低 Corner Case 數(shù)據(jù)的獲取成本;

最后,針對(duì)多種芯片和多種車型的快速交付難題優(yōu)化了異構(gòu)部署工具和車型適配工具。

在視覺感知能力上,毫末對(duì)視覺自監(jiān)督大模型做了一次架構(gòu)升級(jí),將預(yù)測(cè)環(huán)境的三維結(jié)構(gòu),速度場(chǎng)和紋理分布融合到一個(gè)訓(xùn)練目標(biāo)里面,強(qiáng)迫模型練好內(nèi)功,使其能從容應(yīng)對(duì)各種具體任務(wù)。目前毫末視覺自監(jiān)督大模型的數(shù)據(jù)集超過 400 萬 Clips,感知性能提升 20%。

顧維灝舉例稱,在泊車場(chǎng)景下,毫末將魚眼相機(jī)也引入到視覺 BEV 的感知框架當(dāng)中,魚眼圖像通過 2D backbone 提取出視覺特征,經(jīng)過空間轉(zhuǎn)換映射至 BEV 空間,并在該空間下對(duì)于障礙物的輪廓邊界進(jìn)行識(shí)別和測(cè)量,目前可做到在 15 米范圍內(nèi)達(dá)測(cè)量精度 30cm,2 米內(nèi)精度高于 10cm。

除了用自監(jiān)督大模型練內(nèi)功,毫末還公開了在純視覺三維重建方面的一些進(jìn)展。

毫末對(duì) NeRF 做了升級(jí),將視覺感知結(jié)果轉(zhuǎn)化為可用于 BEV 模型訓(xùn)練的帶 3D 標(biāo)注的真值數(shù)據(jù),目前可以做到重建誤差小于 10cm。

單趟重建有時(shí)會(huì)受到遮擋的影響,不能完整地還原三維空間,因此毫末嘗試了多趟重建的方式——即將同一地點(diǎn)不同車輛在不同時(shí)間經(jīng)過的數(shù)據(jù)合并做多趟重建,由此提升場(chǎng)景還原度,重建效率可提升 5 倍。

重建之后,MANA 可以編輯場(chǎng)景合成難以收集的 Corner Case。毫末表示,近期訓(xùn)練了一個(gè)可以在靜態(tài)場(chǎng)景做虛擬動(dòng)態(tài)物體編輯的模型,可以控制虛擬物體在場(chǎng)景中按照設(shè)定的軌跡運(yùn)動(dòng),由此合成各種 hardcase,例如近距離回車,行人、電動(dòng)車交互行為等。

2023 年將是智駕產(chǎn)品大考之年

"2023 年智駕產(chǎn)品進(jìn)入全線爆發(fā)期。" 毫末智行董事長張凱在活動(dòng)上表示。

張凱判斷,城市導(dǎo)航輔助駕駛產(chǎn)將在 2023 年將圍繞量產(chǎn)上車發(fā)力,主要玩家的城市導(dǎo)航輔助駕駛產(chǎn)品進(jìn)入到真實(shí)用戶覆蓋和多城市落地的比拼。

其次,行泊一體和末端物流自動(dòng)配送產(chǎn)業(yè)商業(yè)化將成為自動(dòng)駕駛公司深耕的重點(diǎn)。在乘用車領(lǐng)域,搭載行泊一體功能的智駕產(chǎn)品將迎來前裝量產(chǎn)潮;在末端物流自動(dòng)配送領(lǐng)域,末端物流自動(dòng)配送車在商超、快遞等場(chǎng)景迎來爆發(fā),2023 年將在這些場(chǎng)景實(shí)現(xiàn)可持續(xù)商業(yè)化閉環(huán)。

在 AI DAY 上,毫末表示其城市 NOH 已在北京、保定、上海等城市開啟泛化測(cè)試,即將量產(chǎn)上車。張凱表示,到 2024 年,毫末城市 NOH 將有序落地 100 城。

一年之內(nèi),從三座城市擴(kuò)張至百城,毫末給出的目標(biāo)可以說十分激進(jìn)。

截至目前,毫末三代乘用車產(chǎn)品搭載車型近 20 款,毫末輔助駕駛用戶行駛里程突破 4000 萬公里,HPilot2.0 日均里程使用率 12.6%。

毫末智行透露,目前已與 3 家主機(jī)廠(包括長城)簽署定點(diǎn)合同,相關(guān)項(xiàng)目正在交付中。

結(jié)合毫末往屆 AI DAY 的動(dòng)態(tài)來看,從發(fā)布中國首個(gè)數(shù)據(jù)智能體系 MANA,到建設(shè)智算中心雪湖 · 綠洲,再在其基礎(chǔ)上訓(xùn)練出參數(shù)規(guī)模達(dá) 1200 億作為 DriveGPT 雪湖 · 海若模型,毫末的閉環(huán)思維始終貫徹其技術(shù)始末,并逐漸形成數(shù)據(jù)驅(qū)動(dòng)的閉環(huán)。

正如毫末所言,2023 年將是智能駕駛沖刺之年、大考之年。這對(duì)毫末來說,這也是長久技術(shù)布局走向落地應(yīng)用的關(guān)鍵時(shí)期;畢竟,毫末要在 2025 年實(shí)現(xiàn)城市 NOH 落地 100 城,這并不是一個(gè)簡單的事情。

(本文首發(fā)鈦媒體 App,作者 | 肖漫,編輯 | 張敏)

關(guān)鍵詞:

責(zé)任編輯:hnmd003

相關(guān)閱讀

相關(guān)閱讀

精彩推送

推薦閱讀