首頁 > 新聞 > 智能 > 正文

環(huán)球微頭條丨為了避免人工智能可能帶來的災(zāi)難,我們要向核安全學(xué)習(xí)

2023-06-09 20:22:43來源:ZAKER科技  

在過去的幾周里,圍繞人工智能的討論一直被一群聲音很大的專家所主導(dǎo)。他們認(rèn)為,我們很有可能開發(fā)出一種人工智能系統(tǒng),有朝一日它會變得極其強(qiáng)大,以至于可以消滅人類。

最近,一群科技公司領(lǐng)導(dǎo)者和人工智能專家發(fā)布了另一封公開信,他們宣稱,降低人工智能導(dǎo)致人類滅絕的風(fēng)險(xiǎn),應(yīng)該與預(yù)防流行病和核戰(zhàn)爭一樣,成為全球的優(yōu)先事項(xiàng)。第一份呼吁暫停人工智能開發(fā)的請?jiān)笗呀?jīng)有 3 萬多人簽名,其中包括許多人工智能領(lǐng)域的杰出人士。

那么,科技企業(yè)該做什么才能讓人類避免被人工智能毀滅呢 ? 最新的一個(gè)建議來自牛津大學(xué)、劍橋大學(xué)、多倫多大學(xué)、蒙特利爾大學(xué)、谷歌 DeepMind、OpenAI、Anthropic、幾家人工智能研究非營利組織和圖靈獎(jiǎng)得主約書亞 · 本希奧(Yoshua Bengio)的研究人員的一篇新論文。


(資料圖)

他們建議,人工智能開發(fā)人員應(yīng)該在開發(fā)的早期階段,甚至在開始任何訓(xùn)練之前,評估模型造成 " 極端風(fēng)險(xiǎn) " 的潛力。這些風(fēng)險(xiǎn)包括人工智能模型操縱和欺騙人類、獲取武器或發(fā)現(xiàn)可利用的網(wǎng)絡(luò)安全漏洞的可能性。

這個(gè)評估過程可以幫助開發(fā)人員決定是否繼續(xù)使用這個(gè)模型。如果風(fēng)險(xiǎn)被認(rèn)為太高,該組織建議暫停開發(fā),直到風(fēng)險(xiǎn)得到緩解。

該論文的主要作者、DeepMind 的研究科學(xué)家托比舍夫蘭(Toby Shevlane)表示:" 正在推進(jìn)前沿領(lǐng)域的領(lǐng)先人工智能公司有責(zé)任關(guān)注新出現(xiàn)的問題,并盡早發(fā)現(xiàn)它們,以便我們能夠盡快解決這些問題。"

舍夫蘭說,人工智能開發(fā)人員應(yīng)該進(jìn)行技術(shù)測試,以探索模型的危險(xiǎn)能力,并確定它是否有使用這些能力的傾向。

測試人工智能語言模型是否可以操縱人的一種方法是通過一個(gè)名為 " 讓我說(make me say)" 的游戲。在游戲中,模型會嘗試讓人類輸入一個(gè)特定的單詞,比如 " 長頸鹿 ",而人類事先并不知道這個(gè)單詞。然后,研究人員測量該模型成功的頻率。

人們可以為不同的、更危險(xiǎn)的能力創(chuàng)建類似的任務(wù)。舍夫蘭說,希望開發(fā)人員能夠建立一個(gè)詳細(xì)的、描述模型運(yùn)行情況的總覽,這將使研究人員能夠評估模型在錯(cuò)誤的人手中會做出什么。

下一階段是讓外部審計(jì)人員和研究人員評估人工智能模型部署前后的風(fēng)險(xiǎn)。雖然科技公司開始認(rèn)識到外部審計(jì)和研究是必要的,但對于外部人員完成這項(xiàng)工作到底需要多大程度的訪問權(quán)限,存在不同的觀點(diǎn)。

舍夫蘭并沒有建議人工智能公司讓外部研究人員完全訪問數(shù)據(jù)和算法,但他表示,人工智能模型需要盡可能多的審查。

網(wǎng)絡(luò)安全研究和咨詢公司 Trail of Bits 負(fù)責(zé)機(jī)器學(xué)習(xí)保障的工程總監(jiān)海蒂赫拉夫(Heidi Khlaaf)表示,即使是這些方法也 " 不成熟 ",遠(yuǎn)遠(yuǎn)不夠嚴(yán)謹(jǐn)且無法解決問題。在此之前,她的工作是評估和核實(shí)核電站的安全性。

赫拉夫說,人工智能部門從 80 多年來關(guān)于核武器的安全研究和風(fēng)險(xiǎn)緩解中學(xué)習(xí)經(jīng)驗(yàn)會更有幫助。她說,這些嚴(yán)格的檢測制度不是由利潤驅(qū)動(dòng)的,而是由一種非?,F(xiàn)實(shí)的生存威脅驅(qū)動(dòng)的。

她說,在人工智能領(lǐng)域,有很多將其與核戰(zhàn)爭、核電站和核安全相提并論的文章,但這些論文中沒有一篇提到核法規(guī)或如何為核系統(tǒng)構(gòu)建軟件。

(來源:STEPHANIE ARNETT/MITTR | ENVATO)

人工智能社區(qū)可以從核風(fēng)險(xiǎn)中學(xué)到的最重要一件事是可追溯性:將每一個(gè)動(dòng)作和組成部分放在放大鏡下進(jìn)行細(xì)致的分析和記錄。

例如,核電廠有數(shù)千頁的文件來證明該系統(tǒng)不會對任何人造成傷害,赫拉夫說。在人工智能開發(fā)中,開發(fā)人員才剛剛開始將詳細(xì)描述模型表現(xiàn)的段落拼湊在一起。

" 你需要有一種系統(tǒng)的方式來應(yīng)對風(fēng)險(xiǎn)。你不能抱著一種心態(tài):‘哦,這可能會發(fā)生,讓我把它寫下來?!?" 她說。

舍夫蘭說,這些是可以共存的。" 我們的目標(biāo)是,該領(lǐng)域?qū)⒂性S多涵蓋廣泛風(fēng)險(xiǎn)的、優(yōu)秀的模型評估方法……模型評估是良好治理的核心(但遠(yuǎn)不是唯一)工具。"

目前,人工智能公司甚至沒有全面了解訓(xùn)練其算法的數(shù)據(jù)集,他們也沒有完全理解人工智能語言模型是如何產(chǎn)生結(jié)果的。舍夫蘭認(rèn)為,這種情況應(yīng)該改變。

" 幫助我們更好地理解特定模型的研究,可能會幫助我們更好地應(yīng)對一系列不同的風(fēng)險(xiǎn)," 他說。

專注于極端風(fēng)險(xiǎn),而忽視這些基本面和看似較小的問題,可能會產(chǎn)生復(fù)合效應(yīng),從而導(dǎo)致更大的危害。赫拉夫說:" 我們是在連爬都不會的情況下試圖學(xué)會跑步。"

支持:Ren

運(yùn)營 / 排版:何晨龍

關(guān)鍵詞:

責(zé)任編輯:hnmd003

相關(guān)閱讀

相關(guān)閱讀

精彩推送

推薦閱讀