【全球熱聞】人類被 AI “毀滅”，一定是從教它玩《我的世界》開(kāi)始的

2023-06-03 12:06:37來(lái)源：ZAKER科技

上周，幾乎是前后腳，英偉達(dá)和國(guó)內(nèi)幾家科研機(jī)構(gòu)分別發(fā)布了兩份內(nèi)容相似的論文。

首先是英偉達(dá)宣布開(kāi)發(fā)出了一個(gè)全新的游戲 AI 智能體 "VOYAGER"，將 AI 大模型 GPT-4 接入了《我的世界》（Minecraft）游戲。基于 GPT-4，VOYAGER 能夠在《我的世界》里擴(kuò)充著自己的物品和裝備，完成諸如建造房屋、挖礦、收集仙人掌和狩獵等基本生存技能；也能獨(dú)立進(jìn)行開(kāi)放式探索，去到不同的城市和地點(diǎn)，甚至是自己搭建傳送門。

英偉達(dá)稱 VOYAGER 在《我的世界》里獲得的物品增加了 3.3 倍，旅行距離增加了 2.3 倍，解鎖關(guān)鍵技能樹(shù)的速度也比之前的方法快了 15.3 倍。

接著就是商湯科技聯(lián)合清華大學(xué)、上海人工智能實(shí)驗(yàn)室等機(jī)構(gòu)發(fā)布了通才 AI 智能體 "Ghost in the Minecraft（GITM）"。

(資料圖)

同樣是將大語(yǔ)言模型（LLM）整合進(jìn)《我的世界》，GITM 在《我的世界》內(nèi)主世界的所有技術(shù)挑戰(zhàn)上實(shí)現(xiàn)了 100% 的任務(wù)覆蓋率（成功通關(guān)解鎖了完整的科技樹(shù)），而此前所有智能體的總和只能覆蓋 30%；另外在 " 獲取鉆石 " 任務(wù)上，GITM 成功率達(dá) 67.5%，同樣相比于此前的最佳成績(jī)—— OpenAI 的 VPT 方法大幅提高了 47.5%。

GITM 在《我的世界》的任務(wù)覆蓋率遠(yuǎn)高于現(xiàn)有 AI 智能體

直白點(diǎn)說(shuō)，他們都選擇了《我的世界》這款游戲來(lái)訓(xùn)練 AI，并且 AI 都實(shí)現(xiàn)了真人玩家能夠完成的幾乎所有游戲任務(wù)，堪比是能以假亂真的效果（這放在幾個(gè)月前還是不可能的事）。

我們先拋開(kāi)看起來(lái)艱澀的技術(shù)細(xì)節(jié)不談，為啥他們不約而同都迷上了拿《我的世界》做實(shí)驗(yàn)？

《我的世界》就是個(gè)大型 AI 試驗(yàn)場(chǎng)

要說(shuō)起在《我的世界》里訓(xùn)練過(guò)的 AI，那可就太多了。

著名的莫拉維克悖論是這么說(shuō)的：一些任務(wù)對(duì)于人類而言很困難，例如下棋，但對(duì) AI 來(lái)說(shuō)很簡(jiǎn)單；而像《我的世界》這樣開(kāi)放世界中與環(huán)境交互、進(jìn)行規(guī)劃和決策等對(duì)人類來(lái)說(shuō)較為簡(jiǎn)單的事情，對(duì) AI 來(lái)說(shuō)卻是巨大挑戰(zhàn)。

正因?yàn)檫@種情況的存在，在 AI 還不像現(xiàn)在這么發(fā)達(dá)的早幾年，科學(xué)家們最初只是在《我的世界》里用 AI 完成一些簡(jiǎn)單的指令。

比如在 2019 年，F(xiàn)acebook 研發(fā)過(guò)一款《我的世界》AI 助手 "craftassist bot"，這是一個(gè)智能協(xié)作式的助理機(jī)器人，可以執(zhí)行人類玩家指定的各種任務(wù)，如馴服馬匹、建造城市、與村民會(huì)面及交易等。

也是在 2019 年，卡內(nèi)基 · 梅隆大學(xué)、微軟、DeepMind 和 OpenAI，聯(lián)合機(jī)器學(xué)習(xí)頂級(jí)會(huì)議 NeurIPS 共同舉辦了一個(gè)叫做 "MineRL" 的專門針對(duì)《我的世界》游戲的 AI 比賽，到 2022 年一共舉辦了四屆。

這個(gè)比賽同樣見(jiàn)證了 AI 在《我的世界》中的應(yīng)用由簡(jiǎn)單到復(fù)雜的過(guò)程。

比如第一屆 MineRL 比的東西還很簡(jiǎn)單：看哪個(gè)研究團(tuán)員能夠創(chuàng)造出可以在《我的世界》中成功開(kāi)采鉆石的 AI。不過(guò)很慘，最后參加的 900 多個(gè)全球頂尖團(tuán)隊(duì)沒(méi)有一個(gè)能完成挑戰(zhàn)，一些 AI 擼掉木材卻不會(huì)合成，一些 AI 造出了熔爐卻不會(huì)冶煉，一些 AI 知道去地下挖礦，但卻選擇了垂直挖……

后來(lái)到了第三屆，比賽內(nèi)容就變成了看誰(shuí)能訓(xùn)練出樣本高效的《我的世界》AI 智能體。這一屆的冠軍是以 76.970 分的絕對(duì)優(yōu)勢(shì)奪冠的騰訊 AI Lab" 絕悟 "。

各種公司、機(jī)構(gòu)密集開(kāi)始在《我的世界》中訓(xùn)練 AI 其實(shí)也是最近五年的事。

美國(guó)國(guó)防高級(jí)研究計(jì)劃局（DARPA）在 2020 年 8 月啟動(dòng)了自適應(yīng)分布式概率任務(wù)分配（ADAPT）項(xiàng)目，以期在戰(zhàn)場(chǎng)空間中利用 AI 協(xié)助指揮官進(jìn)行決策，該項(xiàng)目的承包商 Aptima 公司用到的就是《我的世界》來(lái)訓(xùn)練 AI 與人類的互動(dòng)能力。

2021 年哥本哈根信息技術(shù)大學(xué)、紐約大學(xué)和上海大學(xué)的研究者也創(chuàng)建過(guò)一個(gè)使用 3D 神經(jīng)元胞自動(dòng)機(jī)（Neural Cellular Automata，NCA）的系統(tǒng)，并將該系統(tǒng)部署在了《我的世界》里，這個(gè)時(shí)候的 NCA 已經(jīng)可以建造毛毛蟲(chóng)、城堡、公寓樓和樹(shù)等復(fù)雜的實(shí)體。

比較出圈的一次實(shí)驗(yàn)是在去年。

OpenAI 去年宣布由他們訓(xùn)練的 AI 已經(jīng)做到了熟練游玩《我的世界》。通過(guò)引入一種新穎且便捷的 AI 訓(xùn)練法 " 視頻預(yù)訓(xùn)練（Video PreTraining）"，在向 AI" 投喂 " 了 7 萬(wàn)小時(shí)從相關(guān)合作方處獲取的《我的世界》演示視頻以及與視頻配套的鍵盤鼠標(biāo)操作記錄后，OpenAI 旗下的 AI 的操作已經(jīng)相當(dāng)傳神，掌握了只有人類才能領(lǐng)悟的高階玩法。

OpenAI 在《我的世界》中的實(shí)操演示

此外，DeepMind 也在今年年初開(kāi)發(fā)出了能夠媲美 OpenAI 成果的名叫 "DreamerV3" 的 AI 智能體。DreamerV3 在沒(méi)有任何人工數(shù)據(jù)輔助的情況下，被丟進(jìn)《我的世界》里摸爬滾打了 17 天，驚人地學(xué)會(huì)了如何從 0 開(kāi)始挖鉆石，成了世界上第一個(gè)純靠自己摸索，就能在《我的世界》里速挖鉆石的 AI 智能體。

當(dāng)時(shí) MineRL 比賽的發(fā)起人之一 William Guss 都忍不住第一時(shí)間發(fā)來(lái)賀電：4 年了，" 鉆石挑戰(zhàn) " 終于被攻克了！

沒(méi)有誰(shuí)比《我的世界》更合適了

《我的世界》面世 12 年，已經(jīng)成為世界上最受歡迎的一款游戲，被許多玩家形容為電子版的樂(lè)高。早在 2019 年，《我的世界》就超過(guò)《俄羅斯方塊》成為全球銷量最高的游戲。

《我的世界》" 開(kāi)放世界 " 的游戲?qū)傩宰屗闪丝茖W(xué)家們訓(xùn)練 AI 的絕佳場(chǎng)所。

不同于 LOL 和王者榮耀等單一的戰(zhàn)略對(duì)戰(zhàn)游戲，《我的世界》并不預(yù)先設(shè)定目標(biāo)，僅有的兩個(gè)模式是 " 生存 " 和 " 創(chuàng)造 "。" 生存 " 模式中，玩家要造好房子并收集東西，保證活下來(lái)，即使是用來(lái)?yè)敉私┦椭┲氲膭σ残枰婕矣媚静暮丸F礦來(lái)鍛造；" 創(chuàng)造 " 模式則更加自由，玩家使用各種功能的立方體，自由構(gòu)建建筑物和物體，而且游戲永遠(yuǎn)不會(huì)結(jié)束。

如果說(shuō) LOL、王者榮耀或是很多棋類游戲因?yàn)楹?jiǎn)單的規(guī)則和游戲機(jī)制，可以讓 AI 以極快的速度學(xué)習(xí)并超越戰(zhàn)勝人類，《我的世界》游戲過(guò)程的復(fù)雜程度就幾乎是在挑戰(zhàn) AI 的極限。

極度多樣的環(huán)境、完全靠隨機(jī)種子生成的地圖、長(zhǎng)決策序列與復(fù)雜的技能學(xué)習(xí)、高自由度玩法帶來(lái)的海量策略偏好，都增加了《我的世界》AI 研究的難度。

比如，為了讓 AI 在 15 分鐘內(nèi)找到鉆石，AI 需要經(jīng)歷徒手采集原木、合成木板、木棍與木鎬，采集到鐵礦，經(jīng)過(guò)一系列加工才能合成鉆石，看似只是一件小事，但對(duì)于 AI 來(lái)說(shuō)，卻需要掌握其中復(fù)雜的邏輯關(guān)系——這還只是《我的世界》游戲的一部分，除了制造工具，AI 還需要給自己制定目標(biāo)，學(xué)著在游戲世界里探索，直到解鎖所有的游戲任務(wù)。

《我的世界》中找鉆石的步驟

而如果只是學(xué)下棋或是打 LOL，AI 只用知道怎么贏就行了。

是不是覺(jué)得，《我的世界》訓(xùn)練出來(lái)的 AI，要比靠下棋、玩 LOL 訓(xùn)練出來(lái)的 AI 高級(jí)多了（雖然學(xué)習(xí)速度可能慢了點(diǎn)）？

事實(shí)上在當(dāng)前的 AI 研究中，科學(xué)家們會(huì)越來(lái)越追求通用人工智能（AGI）的研究，追求打造更通用的 AI 智能體，也就是發(fā)展 AI 智能體能夠掌握廣泛的技能，適應(yīng)各種環(huán)境變化，更深入地模擬和應(yīng)對(duì)人類在復(fù)雜問(wèn)題上的能力，像人一樣的進(jìn)行感知、理解和交互（而不是只會(huì)回答簡(jiǎn)單問(wèn)題、下棋能贏人類那種 " 小打小鬧 " 的 AI）。

這就意味著要訓(xùn)練通用 AI，《我的世界》模擬的環(huán)境是非常合適的。

不過(guò)，開(kāi)放世界游戲那么多，為什么又偏偏是《我的世界》呢？

有網(wǎng)友在推特向參與開(kāi)發(fā)了 VOYAGER 的英偉達(dá)首席科學(xué)家 Jim Fan 發(fā)問(wèn)說(shuō)，既然 VOYAGER 是為開(kāi)放世界而生，那為什么沒(méi)有選擇在《塞爾達(dá)》或者是《艾爾登法環(huán)》這樣看上去更加宏大的開(kāi)放世界游戲中作 AI 訓(xùn)練？

Jim Fan 的回答是，這中間的主要難點(diǎn)其實(shí)并不是算法，而是因?yàn)椤度麪栠_(dá)》和《艾爾登法環(huán)》這樣的游戲運(yùn)用了 " 緩慢且難以以編程方式控制高端控制臺(tái) "，并且 " 需要一個(gè)好的編碼 API 來(lái)控制角色 "。相較之下，《我的世界》的技術(shù)門檻要更低，在目標(biāo)和玩法類似的情況下，《我的世界》實(shí)際也為 AI 訓(xùn)練降低了難度。

另外，《我的世界》對(duì)開(kāi)發(fā)者也很友好。許多用于構(gòu)建《我的世界》的代碼庫(kù)都是開(kāi)源的，所以人們可以很容易修改。并且該游戲也允許研究人員記錄和學(xué)習(xí)人們是如何一起完成任務(wù)的，然后觀察他們將如何與 AI 智能體一起工作。

從這些意義上說(shuō)，沒(méi)有誰(shuí)比《我的世界》來(lái)訓(xùn)練 AI 更合適的了。

這次《我的世界》里的 AI 有什么特別？

此次英偉達(dá)開(kāi)發(fā)的 VOYAGER，和商湯科技聯(lián)合清華大學(xué)、上海人工智能實(shí)驗(yàn)室等機(jī)構(gòu)開(kāi)發(fā)的 GITM，與過(guò)去基于《我的世界》訓(xùn)練的 AI 智能體最大的不同在于，引入了大語(yǔ)言模型（LLM）作為 AI 訓(xùn)練的核心方法。

以往在《我的世界》中訓(xùn)練 AI 用到的主流方法則是，模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

即便是此前 OpenAI 和 DeepMind 開(kāi)發(fā)出的最先進(jìn)的《我的世界》AI 智能體，用到的訓(xùn)練方法也是模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

打個(gè)比方，如果想讓 AI 在《我的世界》里學(xué)會(huì)挖礦，模擬學(xué)習(xí)要做的就是先喂給 AI 上萬(wàn)個(gè)游戲視頻，讓它分析學(xué)習(xí)為什么要擼樹(shù)，如何利用工作臺(tái)進(jìn)行分解合成，如何做出第一把鎬子，如何冶煉鐵錠，制作鐵鎬，獲取鉆石，如何避免落入巖漿，如何戰(zhàn)斗等等挖礦的必要步驟。

等到投喂學(xué)習(xí)結(jié)束，AI 接下來(lái)就要接受強(qiáng)化學(xué)習(xí)，也就是把 AI 小人扔進(jìn)《我的世界》，讓它去 " 真正 " 執(zhí)行挖礦的任務(wù)，通過(guò)反復(fù)實(shí)驗(yàn)來(lái)發(fā)現(xiàn)和解決問(wèn)題，從而真正學(xué)會(huì)挖礦這一技能。

但在大語(yǔ)言模型的訓(xùn)練方法下，AI 的學(xué)習(xí)邏輯是被完全重構(gòu)的。

依然拿挖礦來(lái)說(shuō)，AI 智能體自身會(huì)首先根據(jù) " 盡可能多發(fā)現(xiàn)不同的東西來(lái)幫助挖礦 " 的總體目標(biāo)去提問(wèn)、自動(dòng)生成許多小任務(wù)，通過(guò)去存儲(chǔ)有助于成功解決某個(gè)任務(wù)的行動(dòng)程序（比如擼掉樹(shù)木再去進(jìn)行合成被驗(yàn)證是正確的，造出了熔爐就要去冶煉也是正確的），AI 就會(huì)逐漸建立起一個(gè)如何正確挖礦的技能庫(kù)。而往后如果再遇到挖礦任務(wù)，AI 就可以根據(jù)其描述的嵌入在技能庫(kù)中進(jìn)行檢索。

大語(yǔ)言模型訓(xùn)練方法下的 GITM

也就是說(shuō)，大語(yǔ)言模型的訓(xùn)練方法下，AI 是可以自主驅(qū)動(dòng)探索并掌握廣泛技能的，這就使得大語(yǔ)言模型方法更能幫助 AI 成為一個(gè)終身學(xué)習(xí)者，能在較長(zhǎng)的時(shí)間跨度內(nèi)逐步獲得、更新、積累和遷移知識(shí)，同時(shí)緩解了其他持續(xù)學(xué)習(xí)方法中的 " 災(zāi)難性遺忘 "。

VOYAGER 探索物品量高于其他許多 AI 智能體

有點(diǎn)像是一直讓 AI 呆在學(xué)校里讀書(shū)實(shí)習(xí)，還是讓 AI 一開(kāi)始就在社會(huì)里摸爬滾打的區(qū)別。

總而言之，用大語(yǔ)言模型方法在《我的世界》訓(xùn)練出來(lái)的 AI 更像一個(gè)真實(shí)的人了。

我們知道，一個(gè)理想的 AI 應(yīng)該具有與人類類似的能力。《我的世界》里的 AI 不管是根據(jù)其當(dāng)前的技能水平和世界狀態(tài)提出合適的任務(wù)（如果發(fā)現(xiàn)自己處于沙漠而不是森林，就會(huì)在打鐵前學(xué)會(huì)獲取沙子和仙人掌），根據(jù)環(huán)境反饋完善技能并將掌握的技能存入記憶（比如打僵尸和打蜘蛛的技能類似），還是不斷探索世界，以自驅(qū)動(dòng)的方式尋找新任務(wù)，其實(shí)都已經(jīng)和現(xiàn)實(shí)世界中人類的決策過(guò)程和行為方式非常相近。

說(shuō)《我的世界》已經(jīng)是一個(gè)縮小版的現(xiàn)實(shí)世界也許一點(diǎn)也不夸張。

而讓人細(xì)思極恐的是，隨著 VOYAGER 和 GITM 的研究成果發(fā)布，AI 現(xiàn)在已經(jīng)能通關(guān)《我的世界》了。

這不禁讓人猜想，AI 是不是很快就能在現(xiàn)實(shí)世界里如魚(yú)得水，它能像人一樣生活，會(huì)做飯、會(huì)用手機(jī)、知道怎么穿衣服、怎么養(yǎng)寵物、怎么坐公交地鐵……更不可思議的是，它還能像人一樣有自己的想法，知道穿哪件衣服好看，怎么做飯能更好吃，電話應(yīng)該打給誰(shuí)……沒(méi)準(zhǔn)在不久的將來(lái)，我們?cè)谏钪杏龅降降?" 人 "，都無(wú)法分辨它是不是 AI。

既然都能通關(guān)《我的世界》了，AI 過(guò)上人的生活從技術(shù)上來(lái)講也不是不能實(shí)現(xiàn)。

人類又會(huì)如何選擇呢？

關(guān)鍵詞：

責(zé)任編輯：hnmd003

【全球熱聞】人類被 AI “毀滅”，一定是從教它玩《我的世界》開(kāi)始的

相關(guān)閱讀

相關(guān)閱讀

精彩推薦

閱讀排行

精彩推送

推薦閱讀