什么樣的方案,奪得了 CVPR 自動駕駛挑戰(zhàn)賽冠軍?
機(jī)器之心報(bào)道
編輯:小舟
【資料圖】
自動駕駛中的三維占用預(yù)測難題,一場比賽給出了解決方案。
道路錯綜復(fù)雜、交通工具形態(tài)各異、行人密集,這是當(dāng)前城市道路交通的現(xiàn)狀,也是自動駕駛領(lǐng)域面臨的現(xiàn)實(shí)挑戰(zhàn)。為了應(yīng)對這一挑戰(zhàn),感知和理解三維環(huán)境至關(guān)重要。
在傳統(tǒng)的三維物體檢測任務(wù)中,前景物體通常由三維邊界框表示。然而,這種方法存在一些弊端,一方面,現(xiàn)實(shí)世界的物體幾何形狀非常復(fù)雜,無法用簡單的三維框表示;另一方面,這種方法容易忽略背景元素的感知。對于實(shí)現(xiàn)全面的 L4/L5 自動駕駛,傳統(tǒng)的三維感知方法是遠(yuǎn)遠(yuǎn)不夠的。
最近,端到端自動駕駛研討會 ( End-to-End Autonomous Driving Workshop ) 聯(lián)合視覺中心自動駕駛研討會 ( Vision-Centric Autonomous Driving Workshop ) 在 CVPR 2023 上舉辦了自動駕駛挑戰(zhàn)賽,其中就包括三維占用預(yù)測(3D occupancy prediction)賽道。
圖 1 CVPR2023 自動駕駛挑戰(zhàn)賽三維占用預(yù)測是自動駕駛領(lǐng)域的新興任務(wù),要求對車輛行駛場景進(jìn)行細(xì)粒度建模,對于實(shí)現(xiàn)自動駕駛的通用感知能力有著重要意義。比賽提供基于 nuScenes 數(shù)據(jù)集的大規(guī)模占用預(yù)測評估基準(zhǔn),對三維空間進(jìn)行體素化表示,并在三維占用任務(wù)的基礎(chǔ)上結(jié)合兩項(xiàng)新任務(wù):估計(jì)三維空間中體素的占據(jù)狀態(tài)和語義信息。整個任務(wù)旨在在給定多視角圖像的情況下對三維空間進(jìn)行密集預(yù)測。
本次比賽是三維占用感知領(lǐng)域的首個國際頂尖權(quán)威賽事,吸引了業(yè)界和學(xué)界的廣泛關(guān)注。比賽共有 149 個團(tuán)隊(duì)參與角逐,其中包括來自小米汽車,華為,42dot,海康威視的業(yè)界團(tuán)隊(duì),也有來自北京大學(xué),浙江大學(xué),中國科學(xué)院等科研院所的學(xué)術(shù)界團(tuán)隊(duì)。
最終,來自英偉達(dá) ( NVIDIA ) 和南京大學(xué)的團(tuán)隊(duì)在激烈的競爭中脫穎而出,同時贏得了三維占用預(yù)測任務(wù)的冠軍和最佳創(chuàng)新獎兩個重磅獎項(xiàng)。下面我們來看一下冠軍團(tuán)隊(duì)的獲獎方案。
冠軍方案
不同于以往比賽對于數(shù)據(jù)利用方面的限制,本次自動駕駛比賽允許參賽者使用額外的開源數(shù)據(jù)或者模型進(jìn)行數(shù)據(jù)驅(qū)動算法的探索。因此在本次比賽中,英偉達(dá)和南大的研究人員在設(shè)計(jì)高效的模型結(jié)構(gòu)的基礎(chǔ)上,也在大模型的訓(xùn)練方面進(jìn)行了探索,將模型參數(shù)擴(kuò)展到 10 億量級,達(dá)到過去常用 3D 感知模型的 10 倍以上。
憑借先進(jìn)的模型結(jié)構(gòu)設(shè)計(jì)和大模型強(qiáng)大的表征能力,該團(tuán)隊(duì)提出的方案 FB-OCC 實(shí)現(xiàn)了單模型 50+% mIoU 的出色性能,并最終取得了 54.19% mIoU 的最佳成績。
網(wǎng)絡(luò)架構(gòu)
FB-OCC 的主要創(chuàng)新在于使用了前向和后向投影相結(jié)合的三維空間建模方式。
如圖 2 所示,在前向投影過程中,參考 LSS 投影范式,F(xiàn)B-OCC 會根據(jù)每個像素的深度分布生成場景對應(yīng)的三維體素 ( 3D voxel ) 表征。同時,由于 LSS 范式生產(chǎn)的特征傾向于稀疏且不均勻,F(xiàn)B-OCC 引入反向投影機(jī)制來優(yōu)化稀疏的場景特征。
圖 2 網(wǎng)絡(luò)架構(gòu)圖此外,考慮到計(jì)算負(fù)擔(dān),F(xiàn)B-OCC 在方向投影的過程中會將場景特征壓縮為鳥瞰圖 ( BEV ) 表征,最后將三維體素表征和鳥瞰圖表征相結(jié)合。結(jié)合后得到的三維體素特征在后續(xù)還會經(jīng)過額外的體素編碼器 ( Voxel encoder ) 來增強(qiáng)特征感受野。
大規(guī)模模型探索
增加模型參數(shù)量是提升模型精度的最便捷的方式,但在三維視覺感知領(lǐng)域,研究人員發(fā)現(xiàn)更大規(guī)模的模型更容易產(chǎn)生過擬合現(xiàn)象,而現(xiàn)有主流感知模型的參數(shù)仍在 100M 量級。
在本次比賽中,F(xiàn)B-OCC 模型嘗試使用 10 億參數(shù)量級的 InternImage 主干網(wǎng)絡(luò),模型總體參數(shù)量是現(xiàn)有常用模型的十倍以上。大模型訓(xùn)練通常需要大數(shù)據(jù)與之匹配,但受限于自動駕駛數(shù)據(jù)采集標(biāo)注的高昂成本,開源的三維感知數(shù)據(jù)集并不足以支撐 10 億參數(shù)規(guī)模的模型。
針對這個痛點(diǎn),F(xiàn)B-OCC 使用了多輪預(yù)訓(xùn)練機(jī)制。由于可獲取的二維感知數(shù)據(jù)集遠(yuǎn)遠(yuǎn)豐富于三維感知數(shù)據(jù),F(xiàn)B-OCC 首先在大規(guī)模開源數(shù)據(jù)集 Objects365 上進(jìn)行通用目標(biāo)檢測預(yù)訓(xùn)練。然后,如圖 3 所示,F(xiàn)B-OCC 引入深度和語義聯(lián)合預(yù)訓(xùn)練來建立二維感知和三維感知的橋梁。
圖 3 深度和語義聯(lián)合預(yù)訓(xùn)練為了生成語義分割標(biāo)簽,F(xiàn)B-OCC 還使用 Meta 的 SAM 模型來進(jìn)行自動標(biāo)注,分別使用框提示和點(diǎn)提示來生成不同類別的語義。經(jīng)過多輪預(yù)訓(xùn)練后,大規(guī)模模型在占用感知任務(wù)上可以避免嚴(yán)重的過擬合問題。
實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)在實(shí)驗(yàn)中證明了 FB-OCC 的出色性能。如表 1 所示,F(xiàn)B-OCC 在 ResNet-50 主干網(wǎng)絡(luò)以及 256x704 分辨率的輸入圖像下,借助時序融合、深度監(jiān)督等技術(shù),模型性能從最初的 23.12% mIoU 增長至 42.06% mIoU。
表 1 小規(guī)模模型的消融實(shí)驗(yàn)結(jié)果為了獲得更好的精度,F(xiàn)B-OCC 使用了更大參數(shù)量的模型。如表 2 所示,在 400M 的模型規(guī)模下,F(xiàn)B-OCC 獲得了單模型 50+% mIoU 的效果。借助 InternImage 主干網(wǎng)絡(luò),10 億參數(shù)量級的模型進(jìn)一步取得了 52.79% 的極佳效果。
表 2 不同模型規(guī)模下的效果最終,F(xiàn)B-OCC 多個模型的集成結(jié)果取得了目前測試集上最高的準(zhǔn)確率 —— 54.19%,贏得了比賽的冠軍并被授予最佳創(chuàng)新獎。FB-OCC 為自動駕駛中復(fù)雜的三維占用預(yù)測問題貢獻(xiàn)了新的思路。
THE END
轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)
投稿或?qū)で髨?bào)道:content@jiqizhixin.com
責(zé)任編輯:hnmd003
相關(guān)閱讀
-
8.7 億元!華為成立新公司,所屬行業(yè)的中國產(chǎn)銷規(guī)模處全球之首 焦點(diǎn)熱門
華為的業(yè)務(wù)涵蓋了電信設(shè)備、消費(fèi)者業(yè)務(wù)、企業(yè)業(yè)務(wù)和云服務(wù)等多個領(lǐng)域。
2023-06-19 -
ROG 掌機(jī)震撼發(fā)布,多項(xiàng)全能搭配顯示器,解鎖超多玩法-世界今頭條
6月13日,華碩ROG玩家國度召開了夏季新品發(fā)布會。本次發(fā)布會以盡掌控·
2023-06-19 -
蘋果股價重返歷史高位,能否保持“避風(fēng)港”屬性取決于業(yè)績的持續(xù)性
紅周刊本刊編輯部|張一雪2023蘋果全球開發(fā)者大會(WWDC)結(jié)束一周后,
2023-06-19
相關(guān)閱讀
-
什么樣的方案,奪得了 CVPR 自動駕駛挑戰(zhàn)賽冠軍?
機(jī)器之心報(bào)道編輯:小舟自動駕駛中的三維占用預(yù)測難題,一場比賽給出了
-
聚焦:馬云非公開會議內(nèi)容首次曝光:“淘天”架構(gòu)要扁平化,誰有阻力我來搞定
回歸淘寶、回歸用戶、回歸互聯(lián)網(wǎng)。文丨祝穎麗編輯丨高洪浩《晚點(diǎn)LatePo
-
銀行人的“存款保衛(wèi)戰(zhàn)”:利率一降再降,拉存款難上加難|今亮點(diǎn)
本文來源:時代周報(bào)作者:阿力米熱不論是線上還是線下,銀行理財(cái)經(jīng)理瘋
-
當(dāng)前最新:樓陽生到省地質(zhì)研究院調(diào)研
6月19日,省委書記樓陽生到省地質(zhì)研究院,調(diào)研地質(zhì)科學(xué)創(chuàng)新、事業(yè)單位
-
wtkj是什么意思 天天熱議
歡迎來到本次問答,我將為大家詳細(xì)解答“wtkj到底代表什么”的問題。科
-
銀行人的“存款保衛(wèi)戰(zhàn)”:利率一降再降,拉存款難上加難-速訊
不論是線上還是線下,銀行理財(cái)經(jīng)理瘋狂開啟了攬客模式,激情營銷。“三
-
當(dāng)前短訊!年金保險需要健康告知嗎?到期后可取出來嗎?
在購買年金保險時,通常需要填寫健康告知表或進(jìn)行健康問詢。 健康告知
-
抖音Vs美團(tuán):生活服務(wù)之戰(zhàn)“醉翁之意不在酒” 世界快資訊
圖片來源@視覺中國生活服務(wù)賽道的雙雄對決,激戰(zhàn)正酣。日前,據(jù)《晚
-
環(huán)球快看點(diǎn)丨小米折戟印度,九年白干了?
“進(jìn)印趕考”快十年,人們似乎習(xí)慣了小米在印度市場的高歌猛進(jìn)。所
-
新華全媒+|新疆裕民:夏糧收購“錢等糧”保豐收
近期,新疆多地夏糧收購在即,中國農(nóng)業(yè)發(fā)展銀行新疆分行充分發(fā)揮糧食收
-
海南椰島法定代表人變更段守奇接替王曉晴|世界熱門
近日,海南椰島(600238)發(fā)生工商變更,法定代表人由王曉晴變更為段守
-
全球即時:賈躍亭“9年詐騙”計(jì)劃:薛定諤的220萬豪車,與被“割”的央視大樓設(shè)計(jì)師家族
從FF屢次延期交付的背后,是巨大的資金問題的投射,如果未來賈老板不能
-
訊息:卷王極兔,快遞中間商難賺差價
圖片來源@視覺中國文|商業(yè)數(shù)據(jù)派,作者|劉俊宏近日,極兔速運(yùn)(以下稱
-
極星成立戰(zhàn)略合資企業(yè) 持續(xù)加速中國市場發(fā)展
2023年6月19日,上海——全球豪華純電高性能汽車品牌Polestar極星(納
-
8.7 億元!華為成立新公司,所屬行業(yè)的中國產(chǎn)銷規(guī)模處全球之首 焦點(diǎn)熱門
華為的業(yè)務(wù)涵蓋了電信設(shè)備、消費(fèi)者業(yè)務(wù)、企業(yè)業(yè)務(wù)和云服務(wù)等多個領(lǐng)域。
-
ROG 掌機(jī)震撼發(fā)布,多項(xiàng)全能搭配顯示器,解鎖超多玩法-世界今頭條
6月13日,華碩ROG玩家國度召開了夏季新品發(fā)布會。本次發(fā)布會以盡掌控·
-
蘋果股價重返歷史高位,能否保持“避風(fēng)港”屬性取決于業(yè)績的持續(xù)性
紅周刊本刊編輯部|張一雪2023蘋果全球開發(fā)者大會(WWDC)結(jié)束一周后,
-
長江、珠江流域或現(xiàn)超警以上洪水 水利部針對10省區(qū)啟動水旱災(zāi)害防御Ⅳ級應(yīng)急響應(yīng)
中國能源新聞網(wǎng)是由國家能源局主管,中國電力報(bào)社、中電傳媒股份有限公
-
環(huán)球熱點(diǎn)評!華住與法國雅高合作的兩家杭州酒店開業(yè) 宜必思3年內(nèi)將達(dá)500家店
據(jù)華住集團(tuán)方面透露,截至2023年3月,雙方合作在營酒店472家,待開業(yè)酒
-
養(yǎng)老年金和養(yǎng)老保險一樣嗎?沖突嗎?|天天新資訊
不一樣。 雖然養(yǎng)老年金和養(yǎng)老保險都與養(yǎng)老有關(guān),但它們在概念和運(yùn)作方
-
世界觀焦點(diǎn):養(yǎng)老保險是企業(yè)年金嗎?怎么買最劃算?
不是。 養(yǎng)老保險和企業(yè)年金雖然都與養(yǎng)老有關(guān),但并不完全相同。養(yǎng)老保
-
每日快報(bào)!太平洋鑫享福年金保險怎么樣?怎么領(lǐng)取?
太平洋鑫享福年金保險是一款長期儲蓄型養(yǎng)老保險,具有以下幾個突出特點(diǎn)
-
安聯(lián)安享豐年年金保險怎么樣?怎么買? 環(huán)球快播報(bào)
安聯(lián)安享豐年年金保險是一款備受認(rèn)可的養(yǎng)老保險。 它提供了穩(wěn)定的長期
-
國泰航空公布改善舉措:決定招聘內(nèi)地空乘!8月起內(nèi)地航班均有普通話廣播_環(huán)球最新
據(jù)媒體報(bào)道,6月19日,國泰航空(00293 HK)行政總裁林紹波向全體員工
-
全球焦點(diǎn)!職業(yè)年金和養(yǎng)老保險一樣嗎?退休時能拿回嗎?
不一樣。 1、性質(zhì)不同:職業(yè)年金補(bǔ)充養(yǎng)老保障制度,養(yǎng)老保險是國家和社
-
續(xù)航620km 上汽通用別克E4將今日上市
續(xù)航620km上汽通用別克E4將今日上市日前,車質(zhì)網(wǎng)從上汽通用別克官方獲
-
天津擬調(diào)整公積金貸款上限:首套房最高可貸100萬元
近日,天津市住房公積金管理中心發(fā)布公告,對個人住房公積金貸款、提取
-
央視曝光原神動漫計(jì)劃,中國影視之夜提前爆料
央視在中國影視之夜上揭幕:《原神》動漫將于2023年上映。
-
【熱聞】蘋果:將升級 iPhone 15 硬件,積極為頭顯鋪路
6月19日消息,知名分析師郭明錤剛剛發(fā)文指出,蘋果將積極升級硬件產(chǎn)品
-
環(huán)球微頭條丨大模型 2.0 時代的優(yōu)化與突破
貝克街探案官作者車行運(yùn)大模型可以讓無人駕駛更智能今年6月份,各大廠
精彩推薦
閱讀排行
精彩推送
- 機(jī)構(gòu):人們對生成式人工智能欠缺...
- 喜馬拉雅申請 AI 開放平臺商標(biāo)...
- 理想汽車負(fù)責(zé)人:我們在 ChatGP...
- 每日快訊!618,我為什么不買了?
- 三大股指放量收跌,AI 概念逆勢...
- 全球快消息!頭部券商交易系統(tǒng)出...
- 世界視訊!不負(fù)期待 珠山塾院...
- 朔州市平魯區(qū)李林中學(xué)(關(guān)于朔州...
- 新資訊:吳三桂為什么反清失敗_...
- 太平財(cái)富年金保險條款是什么?怎...
- 【新視野】被騙買了理財(cái)保險怎么...
- 中融其樂融融年金險保障怎樣?優(yōu)...
- 獨(dú)生子女年金保險怎么樣?怎么領(lǐng)...
- 福享連連年金保險是真的嗎?怎么...
- 實(shí)時焦點(diǎn):北京京西大悅城6月18...
- 小鵬汽車法務(wù)部曬立案書_全球?qū)崟r
- “雙星”合并,極星汽車與星紀(jì)魅...
- 錢還不夠用?法拉第未來繼續(xù)延遲...
- 每日短訊:我國資本市場雙向開放...
- 卓誼生物擬沖刺深交所主板IPO上...
- 持續(xù)高溫,小心熱射病!常見癥狀...
- 每日消息!OPPO K11x 綜合體驗(yàn)...
- 新資訊:華為高級副總裁:有眼力...
- 市場消息:土耳其反壟斷委員會開...
- MacBook Air 15 分析解讀:這...
- 夏日炎炎如何為設(shè)備安全供電?你...
- 去年因“打雞血”言論出圈的國泰...
- 此輪存款“降息”緣何又快又急?...
- 三大平臺“王炸”紛飛 暑期檔電...
- 每日聚焦:實(shí)驗(yàn)艙、神舟、天舟、...