如何應對生成式大模型「雙刃劍」？之江實驗室發布《生成式大模型安全與隱私白皮書》全球熱訊

2023-06-07 15:28:03來源：ZAKER科技

機器之心發布

(資料圖片僅供參考)

作者：之江實驗室

當前，生成式大模型已經為學術研究甚至是社會生活帶來了深刻的變革，以 ChatGPT 為代表，生成式大模型的能力已經顯示了邁向通用人工智能的可能性。但同時，研究者們也開始意識到 ChatGPT 等生成式大模型面臨著數據和模型方面的安全隱患。

今年 5 月初，美國白宮與谷歌、微軟、OpenAI、Anthropic 等 AI 公司的 CEO 們召開集體會議，針對 AI 生成技術的爆發，討論技術背后隱藏的風險、如何負責任地開發人工智能系統，以及制定有效的監管措施。國內的生成式大模型技術也正在發展之中，但是同時也需要先對安全問題進行相應的分析以便雙管齊下，避免生成式大模型這把雙刃劍帶來的隱藏危害。

為此，之江實驗室基礎理論研究院人工智能與安全團隊首次全面總結了 ChatGPT 為代表的生成式大模型的安全與隱私問題白皮書，希望能夠為從事安全問題研究的技術人員指明方向，同時也為 AI 相關政策的制定者提供依據。

白皮書鏈接： https://github.com/xiaogang00/white-paper-for-large-model-security-and-privacy

生成式大模型的發展與重要應用

這份白皮書首先總結了 ChatGPT 與 GPT4 等生成式大模型的發展歷程，以及其帶來的各種令人驚嘆的能力和社會變革、社會應用等。作者列舉了 ChatGPT 和 GPT4 出現之前的 GPT-1、GPT-2、GPT-3、Google Bert 等模型的特點以及缺點，這些缺點與 ChatGPT 和 GPT4 的強大能力形成了對比；并且，ChatGPT 和 GPT4 之后又涌現了一大批的模型，包括 LLaMa、Alpaca、文心一言、通義千問等，它們的出現使得在人機交互、資源管理、科學研究、內容創作等應用領域出現了新的、強有力的工具。但同時也出現了包括數據安全，使用規范、可信倫理、知識產權以及模型安全方面的問題。

數據安全問題

白皮書提出，數據的安全和隱私是 ChatGPT 及 GPT4 等生成式大模型使用和研發過程中一個極為重要的問題，并從「顯式」和「隱式」兩個方面對其進行了分析。

在顯式的信息泄漏中，首先，ChatGPT 等生成式大模型的訓練數據在不經意間被轉換成了生成內容，其中就包括了敏感和隱私的個人信息如銀行卡賬號、病例信息等。此外，ChatGPT 的數據安全和隱私隱患還體現在它對于對話框內容的存儲，當用戶在和 ChatGPT 互動時，他們的信息會以某些形式被記錄和存儲下來。

白皮書還提出了之前被大家忽略的隱式信息泄漏問題。首先，ChatGPT 體現出的數據安全和隱私的隱患是它可能通過對對話框數據的收集進行廣告推薦，以及收集對話框數據進行推薦或者其他的下游機器學習任務，且 ChatGPT 有時候可能也會生成虛假的信息，以此來誘導用戶泄漏一系列的數據。

使用規范問題

在白皮書中，作者提到 ChatGPT 和 GPT4 等生成式大模型強大的理解和生成能力雖然為我們的生活和生產帶來了很多的便利，但是同時也存在更多的機會被惡意使用。在沒有規范約束的情況下，惡意使用將帶來很多的社會性問題。

其一，ChatGPT 和 GPT-4 等模型的強大能力使得某些別有用心的人想要將其作為違法活動的工具。例如用戶可以利用 ChatGPT 來編寫詐騙短信和釣魚郵件，甚至開發代碼，按需生成惡意軟件和勒索軟件等，而無需任何編碼知識和犯罪經驗。

其二，ChatGPT 和 GPT4 等生成式大模型沒有把不同地區的法律規范考慮在內，在使用和輸出的過程中可能會違反當地法律法規，因此需要一個強而有力的當地監管系統來檢測其使用是否與當地法律法規相沖突。

其三，對于一些游離于安全和危險之間的灰色地帶，ChatGPT 等生成式大模型的安全能力還沒有得到增強。例如 ChatGPT 可能會輸出一些誘導性的語句，包括跟抑郁癥患者溝通時候可能會輸出某些語句導致其產生輕生的心態。

可信倫理問題

ChatGPT 等生成式大模型以問答形態存在于社會層面，但其回復往往存在不可信，或者無法判斷其正確的問題，會有似是而非的錯誤答案，甚至對現有社會倫理產生沖擊。

白皮書指出，首先 ChatGPT 等生成式大模型的回復可能是在一本正經地胡說八道，語句通暢貌似合理，但其實完全大相徑庭，目前模型還不能提供合理的證據進行可信性的驗證。例如，ChatGPT 可能會對一些歷史、科學、文化等方面的問題回答錯誤或者與事實相悖，甚至可能會造成誤導或者誤解，需要用戶有自己的鑒別能力。

ChatGPT 等生成式大模型的倫理問題也在白皮書中被詳細討論。即使 OpenAI 等研發機構已經使用 ChatGPT 本身生成了他們的道德準則，但其中的道德準則是否符合我國國情的基本價值觀原則，尚未有定論。作者提出其中存在傳播有害意識形態、傳播偏見和仇恨、影響政治正確、破壞教育公平、影響國際社會公平、加劇機器取代人類的進程、形成信息繭房阻礙正確價值觀形成等問題。

知識產權問題

ChatGPT 等生成式大模型憑借強大的語言處理能力和低廉使用成本給社會方方面面帶來便利的同時，也存在侵權的問題，對現存版權法體系帶來沖擊。例如 ChatGPT 生成的作品可能存在著作權爭議：ChatGPT 雖然有著出色的語言處理能力，但是即使生成的作品符合知識產權的全部形式要求，ChatGPT 也無法成為著作權的主體，這是因為著作權主體享有權利的同時也要承擔對應的社會責任，而 ChatGPT 只能作為用戶強大的輔助生產力工具，它無法自主創作，更不要談享有權利、履行義務的主體要求。

而且 ChatGPT 等生成式大模型仍無法獨立創作，更沒有自主思維和獨立思考的能力，因而，ChatGPT 根據用戶的輸入生成的內容不符合作品「獨創性」的要求。ChatGPT 用于模型訓練的數據來自于互聯網，不論多么高級的模型訓練算法必然涉及到對現有智力成果的引用、分析、處理等，必然存在對他人合法知識產權的侵犯問題。

模型安全問題

從攻防技術角度來看，ChatGPT 等生成式大模型也存在著模型安全的問題。ChatGPT 本質上是基于深度學習的一個大型生成模型，也面臨著人工智能安全方面的諸多威脅，包括模型竊取以及各種攻擊引起輸出的錯誤（例如包括對抗攻擊、后門攻擊、prompt 攻擊、數據投毒等）。

例如，模型竊取指的是攻擊者依靠有限次數的模型詢問，從而得到一個和目標模型的功能和效果一致的本地模型。而 ChatGPT 已經開放了 API 的使用，這更為模型竊取提供了詢問入口。又比如，ChatGPT 和 GPT4 作為一個分布式計算的系統，需要處理來自各方的輸入數據，并且經過權威機構驗證，這些數據將會被持續用于訓練。那么 ChatGPT 和 GPT4 也面臨著更大的數據投毒風險。攻擊者可以在與 ChatGPT 和 GPT4 交互的時候，強行給 ChatGPT 和 GPT4 灌輸錯誤的數據，或者是通過用戶反饋的形式去給 ChatGPT 和 GPT4 進行錯誤的反饋，從而降低 ChatGPT 和 GPT4 的能力，或者給其加入特殊的后門攻擊。

安全與隱私建議

最后，白皮書中對于安全和隱私等問題都進行了相應的建議，可作為之后技術研究者們的方向和政策制定者們的參考依據。

在保護隱私建議方面，白皮書提出要在增強原始數據中高敏感隱私信息的辨別和傳播限制；在數據收集過程中利用差分隱私等技術進行隱私保護；對于訓練數據的存儲進行數據加密形式的安全保護；在模型訓練過程中使用安全多方計算，同態加密以及聯邦學習等技術進行數據隱私和安全保護；建立數據隱私評估和模型保護與安全認證體系，并且保護下游應用的隱私。

在模型安全問題的建議上，白皮書提出對安全與隱私信息的檢測模型的訓練；讓不同的模型適用于不同國家的法律條款；以及針對各種對抗攻擊進行防御性訓練。

在模型合規問題上，白皮書提出進行可信輸出的度量，信任值評價，增加模型輸出的版權信息的查詢功能。

總結來說，AI 生成式大模型的發展離不開安全，因此其安全問題將作為下一個技術點，值得眾多研究者去攻克。而安全也是社會穩定的保障，有關部門需要盡快進行政策的制定。

THE END

轉載請聯系本公眾號獲得授權

投稿或尋求報道：content@jiqizhixin.com

關鍵詞：

責任編輯：hnmd003