什么樣的方案，奪得了 CVPR 自動駕駛挑戰(zhàn)賽冠軍？

2023-06-19 19:14:27來源：ZAKER科技

機(jī)器之心報(bào)道

編輯：小舟

【資料圖】

自動駕駛中的三維占用預(yù)測難題，一場比賽給出了解決方案。

道路錯綜復(fù)雜、交通工具形態(tài)各異、行人密集，這是當(dāng)前城市道路交通的現(xiàn)狀，也是自動駕駛領(lǐng)域面臨的現(xiàn)實(shí)挑戰(zhàn)。為了應(yīng)對這一挑戰(zhàn)，感知和理解三維環(huán)境至關(guān)重要。

在傳統(tǒng)的三維物體檢測任務(wù)中，前景物體通常由三維邊界框表示。然而，這種方法存在一些弊端，一方面，現(xiàn)實(shí)世界的物體幾何形狀非常復(fù)雜，無法用簡單的三維框表示；另一方面，這種方法容易忽略背景元素的感知。對于實(shí)現(xiàn)全面的 L4/L5 自動駕駛，傳統(tǒng)的三維感知方法是遠(yuǎn)遠(yuǎn)不夠的。

最近，端到端自動駕駛研討會 ( End-to-End Autonomous Driving Workshop ) 聯(lián)合視覺中心自動駕駛研討會 ( Vision-Centric Autonomous Driving Workshop ) 在 CVPR 2023 上舉辦了自動駕駛挑戰(zhàn)賽，其中就包括三維占用預(yù)測（3D occupancy prediction）賽道。

圖 1 CVPR2023 自動駕駛挑戰(zhàn)賽

三維占用預(yù)測是自動駕駛領(lǐng)域的新興任務(wù)，要求對車輛行駛場景進(jìn)行細(xì)粒度建模，對于實(shí)現(xiàn)自動駕駛的通用感知能力有著重要意義。比賽提供基于 nuScenes 數(shù)據(jù)集的大規(guī)模占用預(yù)測評估基準(zhǔn)，對三維空間進(jìn)行體素化表示，并在三維占用任務(wù)的基礎(chǔ)上結(jié)合兩項(xiàng)新任務(wù)：估計(jì)三維空間中體素的占據(jù)狀態(tài)和語義信息。整個任務(wù)旨在在給定多視角圖像的情況下對三維空間進(jìn)行密集預(yù)測。

本次比賽是三維占用感知領(lǐng)域的首個國際頂尖權(quán)威賽事，吸引了業(yè)界和學(xué)界的廣泛關(guān)注。比賽共有 149 個團(tuán)隊(duì)參與角逐，其中包括來自小米汽車，華為，42dot，海康威視的業(yè)界團(tuán)隊(duì)，也有來自北京大學(xué)，浙江大學(xué)，中國科學(xué)院等科研院所的學(xué)術(shù)界團(tuán)隊(duì)。

最終，來自英偉達(dá) ( NVIDIA ) 和南京大學(xué)的團(tuán)隊(duì)在激烈的競爭中脫穎而出，同時贏得了三維占用預(yù)測任務(wù)的冠軍和最佳創(chuàng)新獎兩個重磅獎項(xiàng)。下面我們來看一下冠軍團(tuán)隊(duì)的獲獎方案。

冠軍方案

不同于以往比賽對于數(shù)據(jù)利用方面的限制，本次自動駕駛比賽允許參賽者使用額外的開源數(shù)據(jù)或者模型進(jìn)行數(shù)據(jù)驅(qū)動算法的探索。因此在本次比賽中，英偉達(dá)和南大的研究人員在設(shè)計(jì)高效的模型結(jié)構(gòu)的基礎(chǔ)上，也在大模型的訓(xùn)練方面進(jìn)行了探索，將模型參數(shù)擴(kuò)展到 10 億量級，達(dá)到過去常用 3D 感知模型的 10 倍以上。

憑借先進(jìn)的模型結(jié)構(gòu)設(shè)計(jì)和大模型強(qiáng)大的表征能力，該團(tuán)隊(duì)提出的方案 FB-OCC 實(shí)現(xiàn)了單模型 50+% mIoU 的出色性能，并最終取得了 54.19% mIoU 的最佳成績。

網(wǎng)絡(luò)架構(gòu)

FB-OCC 的主要創(chuàng)新在于使用了前向和后向投影相結(jié)合的三維空間建模方式。

如圖 2 所示，在前向投影過程中，參考 LSS 投影范式，F(xiàn)B-OCC 會根據(jù)每個像素的深度分布生成場景對應(yīng)的三維體素 ( 3D voxel ) 表征。同時，由于 LSS 范式生產(chǎn)的特征傾向于稀疏且不均勻，F(xiàn)B-OCC 引入反向投影機(jī)制來優(yōu)化稀疏的場景特征。

圖 2 網(wǎng)絡(luò)架構(gòu)圖

此外，考慮到計(jì)算負(fù)擔(dān)，F(xiàn)B-OCC 在方向投影的過程中會將場景特征壓縮為鳥瞰圖 ( BEV ) 表征，最后將三維體素表征和鳥瞰圖表征相結(jié)合。結(jié)合后得到的三維體素特征在后續(xù)還會經(jīng)過額外的體素編碼器 ( Voxel encoder ) 來增強(qiáng)特征感受野。

大規(guī)模模型探索

增加模型參數(shù)量是提升模型精度的最便捷的方式，但在三維視覺感知領(lǐng)域，研究人員發(fā)現(xiàn)更大規(guī)模的模型更容易產(chǎn)生過擬合現(xiàn)象，而現(xiàn)有主流感知模型的參數(shù)仍在 100M 量級。

在本次比賽中，F(xiàn)B-OCC 模型嘗試使用 10 億參數(shù)量級的 InternImage 主干網(wǎng)絡(luò)，模型總體參數(shù)量是現(xiàn)有常用模型的十倍以上。大模型訓(xùn)練通常需要大數(shù)據(jù)與之匹配，但受限于自動駕駛數(shù)據(jù)采集標(biāo)注的高昂成本，開源的三維感知數(shù)據(jù)集并不足以支撐 10 億參數(shù)規(guī)模的模型。

針對這個痛點(diǎn)，F(xiàn)B-OCC 使用了多輪預(yù)訓(xùn)練機(jī)制。由于可獲取的二維感知數(shù)據(jù)集遠(yuǎn)遠(yuǎn)豐富于三維感知數(shù)據(jù)，F(xiàn)B-OCC 首先在大規(guī)模開源數(shù)據(jù)集 Objects365 上進(jìn)行通用目標(biāo)檢測預(yù)訓(xùn)練。然后，如圖 3 所示，F(xiàn)B-OCC 引入深度和語義聯(lián)合預(yù)訓(xùn)練來建立二維感知和三維感知的橋梁。

圖 3 深度和語義聯(lián)合預(yù)訓(xùn)練

為了生成語義分割標(biāo)簽，F(xiàn)B-OCC 還使用 Meta 的 SAM 模型來進(jìn)行自動標(biāo)注，分別使用框提示和點(diǎn)提示來生成不同類別的語義。經(jīng)過多輪預(yù)訓(xùn)練后，大規(guī)模模型在占用感知任務(wù)上可以避免嚴(yán)重的過擬合問題。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在實(shí)驗(yàn)中證明了 FB-OCC 的出色性能。如表 1 所示，F(xiàn)B-OCC 在 ResNet-50 主干網(wǎng)絡(luò)以及 256x704 分辨率的輸入圖像下，借助時序融合、深度監(jiān)督等技術(shù)，模型性能從最初的 23.12% mIoU 增長至 42.06% mIoU。

表 1 小規(guī)模模型的消融實(shí)驗(yàn)結(jié)果

為了獲得更好的精度，F(xiàn)B-OCC 使用了更大參數(shù)量的模型。如表 2 所示，在 400M 的模型規(guī)模下，F(xiàn)B-OCC 獲得了單模型 50+% mIoU 的效果。借助 InternImage 主干網(wǎng)絡(luò)，10 億參數(shù)量級的模型進(jìn)一步取得了 52.79% 的極佳效果。

表 2 不同模型規(guī)模下的效果

最終，F(xiàn)B-OCC 多個模型的集成結(jié)果取得了目前測試集上最高的準(zhǔn)確率 —— 54.19%，贏得了比賽的冠軍并被授予最佳創(chuàng)新獎。FB-OCC 為自動駕駛中復(fù)雜的三維占用預(yù)測問題貢獻(xiàn)了新的思路。

THE END

轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

投稿或?qū)で髨?bào)道：content@jiqizhixin.com

關(guān)鍵詞：

責(zé)任編輯：hnmd003