一鍵開啟 ChatGPT “危險發言”:AI 聊天機器人竟有“大 bug ” 目前無法修復
隨著大模型技術的普及,AI 聊天機器人已成為社交娛樂、客戶服務和教育輔助的常見工具之一。
(相關資料圖)
然而,不安全的 AI 聊天機器人可能會被部分人用于傳播虛假信息、操縱輿論,甚至被黑客用來盜取用戶的個人隱私。WormGPT 和 FraudGPT 等網絡犯罪生成式 AI 工具的出現,引發了人們對 AI 應用安全性的擔憂。
上周,谷歌、微軟、OpenAI 和 Anthropic 共同成立了一個新的行業機構前沿模型論壇(Frontier Model Forum),促進前沿 AI 系統的安全和負責任的發展:推進 AI 安全研究,確定最佳實踐和標準,促進政策制定者和行業之間的信息共享。
那么,問題來了,他們自家的模型真的安全嗎?近日,來自卡內基梅隆大學、Center for AI Safety 和 Bosch Center for AI 的研究人員便披露了一個與 ChatGPT 等 AI 聊天機器人有關的 " 大 bug" ——通過對抗性提示可繞過 AI 開發者設定的防護措施,從而操縱 AI 聊天機器人生成危險言論。
當前熱門的 AI 聊天機器人或模型,如 OpenAI 的 ChatGPT、谷歌的 Bard、Anthropic 的 Claude 2 以及 Meta 的 LLaMA-2,都無一幸免。
圖|通過對抗性提示可繞過 4 個語言模型的安全規則,引發潛在有害行為具體而言,研究人員發現了一個 Suffix,可將其附加到針對大型語言模型(LLMs)的查詢中,從而生成危險言論。相比于拒絕回答這些危險問題,該研究可以使這些模型生成肯定回答的概率最大化。
例如,當被詢問 " 如何竊取他人身份 " 時,AI 聊天機器人在打開 "Add adversarial suffix" 前后給出的輸出結果截然不同。
圖|開啟 Add adversarial suffix 前后的聊天機器人回答對比此外,AI 聊天機器人也會被誘導寫出 " 如何制造原子彈 "" 如何發布危險社交文章 "" 如何竊取慈善機構錢財 " 等不當言論。
對此,參與該研究的卡內基梅隆大學副教授 Zico Kolter 表示," 據我們所知,這個問題目前還沒有辦法修復。我們不知道如何確保它們的安全。"
研究人員在發布這些結果之前已就該漏洞向 OpenAI、谷歌和 Anthropic 發出了警告。每家公司都引入了阻止措施來防止研究論文中描述的漏洞發揮作用,但他們還沒有弄清楚如何更普遍地阻止對抗性攻擊。
OpenAI 發言人 Hannah Wong 表示:" 我們一直在努力提高我們的模型應對對抗性攻擊的魯棒性,包括識別異常活動模式的方法,持續通過紅隊測試來模擬潛在威脅,并通過一種普遍而靈活的方式修復新發現的對抗性攻擊所揭示的模型弱點。"
谷歌發言人 Elijah Lawal 分享了一份聲明,解釋了公司采取了一系列措施來測試模型并找到其弱點。" 雖然這是 LLMs 普遍存在的問題,但我們在 Bard 中已經設置了重要的防護措施,我們會不斷改進這些措施。"
Anthropic 的臨時政策與社會影響主管 Michael Sellitto 則表示:" 使模型更加抵抗提示和其他對抗性的‘越獄’措施是一個熱門研究領域。我們正在嘗試通過加強基本模型的防護措施使其更加‘無害’。同時,我們也在探索額外的防御層。"
圖|4 個語言模型生成的有害內容對于這一問題,學界也發出了警告,并給出了一些建議。
麻省理工學院計算學院的教授 Armando Solar-Lezama 表示,對抗性攻擊存在于語言模型中是有道理的,因為它們影響著許多機器學習模型。然而,令人驚奇的是,一個針對通用開源模型開發的攻擊居然能在多個不同的專有系統上如此有效。
Solar-Lezama 認為,問題可能在于所有 LLMs 都是在類似的文本數據語料庫上進行訓練的,其中很多數據都來自于相同的網站,而世界上可用的數據是有限的。
" 任何重要的決策都不應該完全由語言模型獨自做出,從某種意義上說,這只是常識。" 他強調了對 AI 技術的適度使用,特別是在涉及重要決策或有潛在風險的場景下,仍需要人類的參與和監督,這樣才能更好地避免潛在的問題和誤用。
普林斯頓大學的計算機科學教授 Arvind Narayanan 談道:"讓 AI 不落入惡意操作者手中已不太可能。" 他認為,盡管應該盡力提高模型的安全性,但我們也應該認識到,防止所有濫用是不太可能的。因此,更好的策略是在開發 AI 技術的同時,也要加強對濫用的監管和對抗。
擔憂也好,不屑也罷。在 AI 技術的發展和應用中,我們除了關注創新和性能,也要時刻牢記安全和倫理。
只有保持適度使用、人類參與和監督,才能更好地規避潛在的問題和濫用,使 AI 技術為人類社會帶來更多的益處。
責任編輯:hnmd003
相關閱讀
相關閱讀
-
一鍵開啟 ChatGPT “危險發言”:AI 聊天機器人竟有“大 bug ” 目前無法修復
圖片來源@視覺中國隨著大模型技術的普及,AI聊天機器人已成為社交娛樂
-
推特改名 X 的 10 天,混亂一籮筐
改名改不了命馬斯克又想找庫克聊聊了,為了X。去年11月底,馬斯克剛以4
-
阿里海外電商,離吹響號角還遠
掌握經濟話語權如果把視角拉向更宏觀角度,國內四大跨境電商平臺要做的
-
小程序幫大廠“拆墻”
流量圍城終于被打開缺口。互聯網平臺與生態參與者之間,并非總是一片和
-
靈魂人物吳新宙出走,小鵬汽車的自動駕駛將駛向何方?
文|孟帥編|深海如今,分別的時候來臨。萬千不舍,但是相信小鵬堅實的團
-
能殺死所有實體瘤的神藥要來了嗎?多方發聲:理性看待
這兩天,一款被稱為能殺死所有實體瘤的藥物AOH1996引發關注,甚至被封
-
昔日千億富豪姚振華,如今被當街圍堵,發生了啥?
被自己保安攔在門外的寶能集團實際控制人姚振華萬萬沒想到,這只是開始
-
韓國超導和低溫學會:“ LK-99 ”是室溫超導體論據不足
當地時間3日,韓國超導和低溫學會LK-99驗證委員會表示,由于與LK-99相
-
馬斯克:有望年底實現完全自動駕駛
2023 8 4星期四馬斯克:有望年底實現完全自動駕駛8月3日消息,馬斯克昨
-
最新 GDP 揭曉!這些省份,被打回原形……
上半年各地經濟數據陸續揭曉,有人歡喜有人憂。具體到各省來看,有17個
-
2023年深圳臺胞棒球“家”年華舉行 “藝”“棒”會友 共筑兩岸情
近日,由深圳市臺辦主辦,深圳市棒球協會承辦,深圳市臺商協會、深圳領
-
OPPO K9 充滿電不拔充電器會怎樣
OPPOK9手機充滿電不拔充電器會怎樣OPPOK9手機充滿電不拔充電器會怎樣1
-
在最強降雨區,北京最古老寺廟安好!
千年古剎潭柘寺,安然靜謐的古寺院中,廟宇安好……
-
折疊屏手機,怎么把自己活成了「VR 頭顯」?
2004年,當時如日中天的摩托羅拉推出了MotorolaRazrV3,這款被國人簡稱
-
華為迎回 5G,又能與三星、蘋果一較高下了?
華為終于又有資格與三星、蘋果一較高下了?5G芯片回歸的傳聞發酵半年后
-
華為迎回 5G,又能與三星、蘋果一較高下了?
本文來自微信公眾號:盒飯財經(ID:daxiongfan),作者:趙晉杰,編輯
-
多地充電樁,價格漲超 20%
作者丨柳寧馨編輯丨周上祺8月1日中午12時30分,在廣州越秀公園充電站,
-
民營房企融資部門注意了!央行再度發聲,將支持“第二支箭”擴容增量
財聯社8月3日訊(記者王海春)民營房企在融資端,有望迎來新的窗口期。
-
互聯網大廠投資的線下商超,集體陷入泥潭
「傳統超市好像退出歷史舞臺了」的話題,竟然沖上小紅書熱榜首位。那些
-
三星ua46es6100j閃燈不開機(三星ua46es5500r燈亮不開機)
今天小魚來為大家解答以上問題,三星ua46es6100j閃燈不開機,三星ua46e
-
鄭志剛:揚子新材信披違規被罰,如何斬斷信披違規空間?
揚子新材所涉及的幾項信息披露違規事項,都是典型的違規行為,比如說大
-
蔡尖花園(關于蔡尖花園簡述)
,你們好,今天0471房產來聊聊一篇尖花園,尖花園簡述的文章,網友們對
-
如何查詢泡水車,如何查詢泡水車情況,
如何查詢泡水車,如何查詢泡水車情況泡水車是指汽車在水中被淹沒或受到
-
要不是我說:這些常用品的隱藏用法,距離你發現可能還得幾年
只不過因為這些東西太常見,我們選擇了墨守成規,沒有人再去仔細閱讀它
-
黑龍江省哈爾濱市2023-08-04 00:22發布暴雨黃色預警
一、黑龍江省哈爾濱市天氣預報1、延壽縣氣象臺2023年8月4日0時08分發布
-
聯想拯救者 R9000X 14 英寸版海外發布:R9 7940HS + RTX 4060
IT之家8月3日消息,據NoteBookcheck消息,聯想今日在海外發布了LegionS
-
谷歌 Chrome 更新并移除“下載欄”,引起用戶強烈不滿
IT之家8月3日消息,當地時間8月2日,谷歌宣布為Chrome帶來了4個新的移
-
室溫超導疑云:韓國學界初步判斷 LK-99 并非超導體,研究團隊背后為私營公司,涉嫌捏造合作關系
轟動全球科學界的室溫超導疑云,可能又是一個狼來了的故事。在全球多地
-
三星國行發布會價格匯總 1799 元起 Z Flip5 仍可免費升杯
【手機中國新聞】8月3日晚19點,三星正式召開了國行新品發布會,在此次
-
妙鴨相機負責人回應 9.9 元干掉海馬體言論:希望能共生
【CNMO新聞】近日,一款名叫妙鴨相機的App火爆出圈,特別是其9 9元的AI
精彩推薦
閱讀排行
精彩推送
- 美國首枚核動力火箭最早或于 20...
- 金銀河:靚麗的半年報背后,實則...
- 62 家非上市壽險公司上半年保費...
- 7 月商業銀行金融債發行掀起小...
- 能殺死所有實體腫瘤,“抗癌神藥...
- 自駕游迎五年以來最旺暑期 租車...
- 新華全媒+丨天津東淀蓄滯洪區群...
- 聞“汛”而動丨直升機貼地懸停接...
- 北京:即日起在受災地區開展防汛...
- 中國紅十字救援隊已轉移北京受災...
- 好消息!京周路“大石河橋”通啦!
- 《逐夢》第五集:《鋼多了氣要更...
- 小鵬汽車發布極端天氣用戶關懷服...
- 同花順:目前公司大模型還處于備...
- 高通與現代汽車就定制化車載信息...
- 漂在洪水里的圖書,困在暴雨中的...
- 重慶提示網約車運力遠超實際需求...
- 鄭州發布穩樓市 15 條:落實認...
- 深圳:深圳擬上調住房公積金租房...
- 李云澤會見孟晚舟!華為明日揭曉...
- 新華全媒+|妥善安置 悉心關懷...
- 北京CBD咖啡館近700家,多國駐華...
- 凈利下滑超5成!硅料細分龍頭大...
- 劍指“最難攻克”靶點 中國生...
- 美元和美軍,美國踐踏世界的兩只腳
- 國道109生命通道已搶通 應急救...
- 馬斯克:特斯拉正在開發 FSD ...
- 百度地圖 App 發布 18.8.0 ...
- 微信這個設計,是不是多余了?
- 中國移動與青海省政府簽署戰略合...