【全球熱聞】人類被 AI “毀滅”,一定是從教它玩《我的世界》開(kāi)始的

2023-06-03 12:06:37來(lái)源:ZAKER科技  

上周,幾乎是前后腳,英偉達(dá)和國(guó)內(nèi)幾家科研機(jī)構(gòu)分別發(fā)布了兩份內(nèi)容相似的論文。

首先是英偉達(dá)宣布開(kāi)發(fā)出了一個(gè)全新的游戲 AI 智能體 "VOYAGER",將 AI 大模型 GPT-4 接入了《我的世界》(Minecraft)游戲。基于 GPT-4,VOYAGER 能夠在《我的世界》里擴(kuò)充著自己的物品和裝備,完成諸如建造房屋、挖礦、收集仙人掌和狩獵等基本生存技能;也能獨(dú)立進(jìn)行開(kāi)放式探索,去到不同的城市和地點(diǎn),甚至是自己搭建傳送門。

英偉達(dá)稱 VOYAGER 在《我的世界》里獲得的物品增加了 3.3 倍,旅行距離增加了 2.3 倍,解鎖關(guān)鍵技能樹(shù)的速度也比之前的方法快了 15.3 倍。

接著就是商湯科技聯(lián)合清華大學(xué)、上海人工智能實(shí)驗(yàn)室等機(jī)構(gòu)發(fā)布了通才 AI 智能體 "Ghost in the Minecraft(GITM)"。


(資料圖)

同樣是將大語(yǔ)言模型(LLM)整合進(jìn)《我的世界》,GITM 在《我的世界》內(nèi)主世界的所有技術(shù)挑戰(zhàn)上實(shí)現(xiàn)了 100% 的任務(wù)覆蓋率(成功通關(guān)解鎖了完整的科技樹(shù)),而此前所有智能體的總和只能覆蓋 30%;另外在 " 獲取鉆石 " 任務(wù)上,GITM 成功率達(dá) 67.5%,同樣相比于此前的最佳成績(jī)—— OpenAI 的 VPT 方法大幅提高了 47.5%。

GITM 在《我的世界》的任務(wù)覆蓋率遠(yuǎn)高于現(xiàn)有 AI 智能體

直白點(diǎn)說(shuō),他們都選擇了《我的世界》這款游戲來(lái)訓(xùn)練 AI,并且 AI 都實(shí)現(xiàn)了真人玩家能夠完成的幾乎所有游戲任務(wù),堪比是能以假亂真的效果(這放在幾個(gè)月前還是不可能的事)。

我們先拋開(kāi)看起來(lái)艱澀的技術(shù)細(xì)節(jié)不談,為啥他們不約而同都迷上了拿《我的世界》做實(shí)驗(yàn)?

《我的世界》就是個(gè)大型 AI 試驗(yàn)場(chǎng)

要說(shuō)起在《我的世界》里訓(xùn)練過(guò)的 AI,那可就太多了。

著名的莫拉維克悖論是這么說(shuō)的:一些任務(wù)對(duì)于人類而言很困難,例如下棋,但對(duì) AI 來(lái)說(shuō)很簡(jiǎn)單;而像《我的世界》這樣開(kāi)放世界中與環(huán)境交互、進(jìn)行規(guī)劃和決策等對(duì)人類來(lái)說(shuō)較為簡(jiǎn)單的事情,對(duì) AI 來(lái)說(shuō)卻是巨大挑戰(zhàn)。

正因?yàn)檫@種情況的存在,在 AI 還不像現(xiàn)在這么發(fā)達(dá)的早幾年,科學(xué)家們最初只是在《我的世界》里用 AI 完成一些簡(jiǎn)單的指令。

比如在 2019 年,F(xiàn)acebook 研發(fā)過(guò)一款《我的世界》AI 助手 "craftassist bot",這是一個(gè)智能協(xié)作式的助理機(jī)器人,可以執(zhí)行人類玩家指定的各種任務(wù),如馴服馬匹、建造城市、與村民會(huì)面及交易等。

也是在 2019 年,卡內(nèi)基 · 梅隆大學(xué)、微軟、DeepMind 和 OpenAI,聯(lián)合機(jī)器學(xué)習(xí)頂級(jí)會(huì)議 NeurIPS 共同舉辦了一個(gè)叫做 "MineRL" 的專門針對(duì)《我的世界》游戲的 AI 比賽,到 2022 年一共舉辦了四屆。

這個(gè)比賽同樣見(jiàn)證了 AI 在《我的世界》中的應(yīng)用由簡(jiǎn)單到復(fù)雜的過(guò)程。

比如第一屆 MineRL 比的東西還很簡(jiǎn)單:看哪個(gè)研究團(tuán)員能夠創(chuàng)造出可以在《我的世界》中成功開(kāi)采鉆石的 AI。不過(guò)很慘,最后參加的 900 多個(gè)全球頂尖團(tuán)隊(duì)沒(méi)有一個(gè)能完成挑戰(zhàn),一些 AI 擼掉木材卻不會(huì)合成,一些 AI 造出了熔爐卻不會(huì)冶煉,一些 AI 知道去地下挖礦,但卻選擇了垂直挖……

后來(lái)到了第三屆,比賽內(nèi)容就變成了看誰(shuí)能訓(xùn)練出樣本高效的《我的世界》AI 智能體。這一屆的冠軍是以 76.970 分的絕對(duì)優(yōu)勢(shì)奪冠的騰訊 AI Lab" 絕悟 "。

各種公司、機(jī)構(gòu)密集開(kāi)始在《我的世界》中訓(xùn)練 AI 其實(shí)也是最近五年的事。

美國(guó)國(guó)防高級(jí)研究計(jì)劃局(DARPA)在 2020 年 8 月啟動(dòng)了自適應(yīng)分布式概率任務(wù)分配(ADAPT)項(xiàng)目,以期在戰(zhàn)場(chǎng)空間中利用 AI 協(xié)助指揮官進(jìn)行決策,該項(xiàng)目的承包商 Aptima 公司用到的就是《我的世界》來(lái)訓(xùn)練 AI 與人類的互動(dòng)能力。

2021 年哥本哈根信息技術(shù)大學(xué)、紐約大學(xué)和上海大學(xué)的研究者也創(chuàng)建過(guò)一個(gè)使用 3D 神經(jīng)元胞自動(dòng)機(jī)(Neural Cellular Automata,NCA)的系統(tǒng),并將該系統(tǒng)部署在了《我的世界》里,這個(gè)時(shí)候的 NCA 已經(jīng)可以建造毛毛蟲(chóng)、城堡、公寓樓和樹(shù)等復(fù)雜的實(shí)體。

比較出圈的一次實(shí)驗(yàn)是在去年。

OpenAI 去年宣布由他們訓(xùn)練的 AI 已經(jīng)做到了熟練游玩《我的世界》。通過(guò)引入一種新穎且便捷的 AI 訓(xùn)練法 " 視頻預(yù)訓(xùn)練(Video PreTraining)",在向 AI" 投喂 " 了 7 萬(wàn)小時(shí)從相關(guān)合作方處獲取的《我的世界》演示視頻以及與視頻配套的鍵盤鼠標(biāo)操作記錄后,OpenAI 旗下的 AI 的操作已經(jīng)相當(dāng)傳神,掌握了只有人類才能領(lǐng)悟的高階玩法。

OpenAI 在《我的世界》中的實(shí)操演示

此外,DeepMind 也在今年年初開(kāi)發(fā)出了能夠媲美 OpenAI 成果的名叫 "DreamerV3" 的 AI 智能體。DreamerV3 在沒(méi)有任何人工數(shù)據(jù)輔助的情況下,被丟進(jìn)《我的世界》里摸爬滾打了 17 天,驚人地學(xué)會(huì)了如何從 0 開(kāi)始挖鉆石,成了世界上第一個(gè)純靠自己摸索,就能在《我的世界》里速挖鉆石的 AI 智能體。

當(dāng)時(shí) MineRL 比賽的發(fā)起人之一 William Guss 都忍不住第一時(shí)間發(fā)來(lái)賀電:4 年了," 鉆石挑戰(zhàn) " 終于被攻克了!

沒(méi)有誰(shuí)比《我的世界》更合適了

《我的世界》面世 12 年,已經(jīng)成為世界上最受歡迎的一款游戲,被許多玩家形容為電子版的樂(lè)高。早在 2019 年,《我的世界》就超過(guò)《俄羅斯方塊》成為全球銷量最高的游戲。

《我的世界》" 開(kāi)放世界 " 的游戲?qū)傩宰屗闪丝茖W(xué)家們訓(xùn)練 AI 的絕佳場(chǎng)所。

不同于 LOL 和王者榮耀等單一的戰(zhàn)略對(duì)戰(zhàn)游戲,《我的世界》并不預(yù)先設(shè)定目標(biāo),僅有的兩個(gè)模式是 " 生存 " 和 " 創(chuàng)造 "。" 生存 " 模式中,玩家要造好房子并收集東西,保證活下來(lái),即使是用來(lái)?yè)敉私┦椭┲氲膭σ残枰婕矣媚静暮丸F礦來(lái)鍛造;" 創(chuàng)造 " 模式則更加自由,玩家使用各種功能的立方體,自由構(gòu)建建筑物和物體,而且游戲永遠(yuǎn)不會(huì)結(jié)束。

如果說(shuō) LOL、王者榮耀或是很多棋類游戲因?yàn)楹?jiǎn)單的規(guī)則和游戲機(jī)制,可以讓 AI 以極快的速度學(xué)習(xí)并超越戰(zhàn)勝人類,《我的世界》游戲過(guò)程的復(fù)雜程度就幾乎是在挑戰(zhàn) AI 的極限。

極度多樣的環(huán)境、完全靠隨機(jī)種子生成的地圖、長(zhǎng)決策序列與復(fù)雜的技能學(xué)習(xí)、高自由度玩法帶來(lái)的海量策略偏好,都增加了《我的世界》AI 研究的難度。

比如,為了讓 AI 在 15 分鐘內(nèi)找到鉆石,AI 需要經(jīng)歷徒手采集原木、合成木板、木棍與木鎬,采集到鐵礦,經(jīng)過(guò)一系列加工才能合成鉆石,看似只是一件小事,但對(duì)于 AI 來(lái)說(shuō),卻需要掌握其中復(fù)雜的邏輯關(guān)系——這還只是《我的世界》游戲的一部分,除了制造工具,AI 還需要給自己制定目標(biāo),學(xué)著在游戲世界里探索,直到解鎖所有的游戲任務(wù)。

《我的世界》中找鉆石的步驟

而如果只是學(xué)下棋或是打 LOL,AI 只用知道怎么贏就行了。

是不是覺(jué)得,《我的世界》訓(xùn)練出來(lái)的 AI,要比靠下棋、玩 LOL 訓(xùn)練出來(lái)的 AI 高級(jí)多了(雖然學(xué)習(xí)速度可能慢了點(diǎn))?

事實(shí)上在當(dāng)前的 AI 研究中,科學(xué)家們會(huì)越來(lái)越追求通用人工智能(AGI)的研究,追求打造更通用的 AI 智能體,也就是發(fā)展 AI 智能體能夠掌握廣泛的技能,適應(yīng)各種環(huán)境變化,更深入地模擬和應(yīng)對(duì)人類在復(fù)雜問(wèn)題上的能力,像人一樣的進(jìn)行感知、理解和交互(而不是只會(huì)回答簡(jiǎn)單問(wèn)題、下棋能贏人類那種 " 小打小鬧 " 的 AI)。

這就意味著要訓(xùn)練通用 AI,《我的世界》模擬的環(huán)境是非常合適的。

不過(guò),開(kāi)放世界游戲那么多,為什么又偏偏是《我的世界》呢?

有網(wǎng)友在推特向參與開(kāi)發(fā)了 VOYAGER 的英偉達(dá)首席科學(xué)家 Jim Fan 發(fā)問(wèn)說(shuō),既然 VOYAGER 是為開(kāi)放世界而生,那為什么沒(méi)有選擇在《塞爾達(dá)》或者是《艾爾登法環(huán)》這樣看上去更加宏大的開(kāi)放世界游戲中作 AI 訓(xùn)練?

Jim Fan 的回答是,這中間的主要難點(diǎn)其實(shí)并不是算法,而是因?yàn)椤度麪栠_(dá)》和《艾爾登法環(huán)》這樣的游戲運(yùn)用了 " 緩慢且難以以編程方式控制高端控制臺(tái) ",并且 " 需要一個(gè)好的編碼 API 來(lái)控制角色 "。相較之下,《我的世界》的技術(shù)門檻要更低,在目標(biāo)和玩法類似的情況下,《我的世界》實(shí)際也為 AI 訓(xùn)練降低了難度。

另外,《我的世界》對(duì)開(kāi)發(fā)者也很友好。許多用于構(gòu)建《我的世界》的代碼庫(kù)都是開(kāi)源的,所以人們可以很容易修改。并且該游戲也允許研究人員記錄和學(xué)習(xí)人們是如何一起完成任務(wù)的,然后觀察他們將如何與 AI 智能體一起工作。

從這些意義上說(shuō),沒(méi)有誰(shuí)比《我的世界》來(lái)訓(xùn)練 AI 更合適的了。

這次《我的世界》里的 AI 有什么特別?

此次英偉達(dá)開(kāi)發(fā)的 VOYAGER,和商湯科技聯(lián)合清華大學(xué)、上海人工智能實(shí)驗(yàn)室等機(jī)構(gòu)開(kāi)發(fā)的 GITM,與過(guò)去基于《我的世界》訓(xùn)練的 AI 智能體最大的不同在于,引入了大語(yǔ)言模型(LLM)作為 AI 訓(xùn)練的核心方法。

以往在《我的世界》中訓(xùn)練 AI 用到的主流方法則是,模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

即便是此前 OpenAI 和 DeepMind 開(kāi)發(fā)出的最先進(jìn)的《我的世界》AI 智能體,用到的訓(xùn)練方法也是模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

打個(gè)比方,如果想讓 AI 在《我的世界》里學(xué)會(huì)挖礦,模擬學(xué)習(xí)要做的就是先喂給 AI 上萬(wàn)個(gè)游戲視頻,讓它分析學(xué)習(xí)為什么要擼樹(shù),如何利用工作臺(tái)進(jìn)行分解合成,如何做出第一把鎬子,如何冶煉鐵錠,制作鐵鎬,獲取鉆石,如何避免落入巖漿,如何戰(zhàn)斗等等挖礦的必要步驟。

等到投喂學(xué)習(xí)結(jié)束,AI 接下來(lái)就要接受強(qiáng)化學(xué)習(xí),也就是把 AI 小人扔進(jìn)《我的世界》,讓它去 " 真正 " 執(zhí)行挖礦的任務(wù),通過(guò)反復(fù)實(shí)驗(yàn)來(lái)發(fā)現(xiàn)和解決問(wèn)題,從而真正學(xué)會(huì)挖礦這一技能。

但在大語(yǔ)言模型的訓(xùn)練方法下,AI 的學(xué)習(xí)邏輯是被完全重構(gòu)的。

依然拿挖礦來(lái)說(shuō),AI 智能體自身會(huì)首先根據(jù) " 盡可能多發(fā)現(xiàn)不同的東西來(lái)幫助挖礦 " 的總體目標(biāo)去提問(wèn)、自動(dòng)生成許多小任務(wù),通過(guò)去存儲(chǔ)有助于成功解決某個(gè)任務(wù)的行動(dòng)程序(比如擼掉樹(shù)木再去進(jìn)行合成被驗(yàn)證是正確的,造出了熔爐就要去冶煉也是正確的),AI 就會(huì)逐漸建立起一個(gè)如何正確挖礦的技能庫(kù)。而往后如果再遇到挖礦任務(wù),AI 就可以根據(jù)其描述的嵌入在技能庫(kù)中進(jìn)行檢索。

大語(yǔ)言模型訓(xùn)練方法下的 GITM

也就是說(shuō),大語(yǔ)言模型的訓(xùn)練方法下,AI 是可以自主驅(qū)動(dòng)探索并掌握廣泛技能的,這就使得大語(yǔ)言模型方法更能幫助 AI 成為一個(gè)終身學(xué)習(xí)者,能在較長(zhǎng)的時(shí)間跨度內(nèi)逐步獲得、更新、積累和遷移知識(shí),同時(shí)緩解了其他持續(xù)學(xué)習(xí)方法中的 " 災(zāi)難性遺忘 "。

VOYAGER 探索物品量高于其他許多 AI 智能體

有點(diǎn)像是一直讓 AI 呆在學(xué)校里讀書(shū)實(shí)習(xí),還是讓 AI 一開(kāi)始就在社會(huì)里摸爬滾打的區(qū)別。

總而言之,用大語(yǔ)言模型方法在《我的世界》訓(xùn)練出來(lái)的 AI 更像一個(gè)真實(shí)的人了。

我們知道,一個(gè)理想的 AI 應(yīng)該具有與人類類似的能力。《我的世界》里的 AI 不管是根據(jù)其當(dāng)前的技能水平和世界狀態(tài)提出合適的任務(wù)(如果發(fā)現(xiàn)自己處于沙漠而不是森林,就會(huì)在打鐵前學(xué)會(huì)獲取沙子和仙人掌),根據(jù)環(huán)境反饋完善技能并將掌握的技能存入記憶(比如打僵尸和打蜘蛛的技能類似),還是不斷探索世界,以自驅(qū)動(dòng)的方式尋找新任務(wù),其實(shí)都已經(jīng)和現(xiàn)實(shí)世界中人類的決策過(guò)程和行為方式非常相近。

說(shuō)《我的世界》已經(jīng)是一個(gè)縮小版的現(xiàn)實(shí)世界也許一點(diǎn)也不夸張。

而讓人細(xì)思極恐的是,隨著 VOYAGER 和 GITM 的研究成果發(fā)布,AI 現(xiàn)在已經(jīng)能通關(guān)《我的世界》了。

這不禁讓人猜想,AI 是不是很快就能在現(xiàn)實(shí)世界里如魚(yú)得水,它能像人一樣生活,會(huì)做飯、會(huì)用手機(jī)、知道怎么穿衣服、怎么養(yǎng)寵物、怎么坐公交地鐵……更不可思議的是,它還能像人一樣有自己的想法,知道穿哪件衣服好看,怎么做飯能更好吃,電話應(yīng)該打給誰(shuí)……沒(méi)準(zhǔn)在不久的將來(lái),我們?cè)谏钪杏龅降降?" 人 ",都無(wú)法分辨它是不是 AI。

既然都能通關(guān)《我的世界》了,AI 過(guò)上人的生活從技術(shù)上來(lái)講也不是不能實(shí)現(xiàn)。

人類又會(huì)如何選擇呢?

關(guān)鍵詞:

責(zé)任編輯:hnmd003

相關(guān)閱讀

相關(guān)閱讀

精彩推送

推薦閱讀