首頁 > 新聞 > 智能 > 正文

瘋狂污染互聯網，人類比 AI 擅長多了

2023-06-23 18:28:20來源：ZAKER科技

人們最擔心的事情還是發生了。

一位網友在提問 New Bing 時，答案出現了事實性錯誤，他點開參考鏈接時發現，作為引用源的知乎回答，居然也是 AI 生成的。

回看這個知乎賬號，遣詞造句盡顯 AI 風味，答題速度迅雷不及掩耳，目前已經被禁言了。

(相關資料圖)

被看到的冰山一角，指向了一個惡性循環：AI 生成錯誤信息，這些信息又被喂給更多的 AI，導致互聯網的信息質量越來越差。

但硬要較真，AI 污染互聯網，不全是 AI 的鍋。

AI 造假，神乎其技

生成式 AI 有概率輸出錯誤信息，這是刻進 DNA 的頑疾，聯網能夠緩解部分癥狀，因為可以參考多個信息源，但沒想到這么快，我們因此陷入了新的混沌，正如古早的計算機格言：

garbage in, garbage out（垃圾進，垃圾出）。

AI 正在悄悄創作越來越多的「假冒偽劣」，說不定你在沖浪的時候就遇到過。

國內外已經發生了好幾起 AI 假新聞事件。

今年 4 月，多達 21 個賬號同時發布了一條駭人聽聞的消息：甘肅一火車撞上修路工人，致 9 人死亡。

網警初步判斷信息不實，鎖定了深圳某自媒體公司，經過取證后發現，犯罪嫌疑人在全網搜索近幾年社會熱點新聞，并通過 ChatGPT 修改編輯，再將內容多次上傳。

國外知名科技媒體 CNET，也在年初被曝光用 AI 偷偷生成文章，其中 77 篇存在不少錯誤。

新聞可信度評級機構 NewsGuard 甚至發現，涉及 7 種語言的 49 個新聞網站，內容大部分或完全由 AI 生成。

它們「師出同門」但各有千秋，有的杜撰虛假信息，有的重寫其他媒體報道，其中產量高的每天發出數百篇文章。

最有趣的來了，NewsGuard 是通過搜索「As an AI language model」等 AI 常用短語發現這些網站的。連 AI 的口頭禪都不刪去，臟活也做得太過粗糙。

若在社交媒體和點評網站查找類似內容，你也會發現無腦復制 AI 的賬號已經大行其道。

亞馬遜一款吸塵器的虛假評價不遮不掩：「作為一個 AI 語言模型，我沒有親自使用過這個產品，但根據它的功能和用戶評論，我可以自信地給它打 5 星。」AI 騙人這么誠實，背后原因令人暖心。

不只文本，圖片和視頻的深度造假也越發爐火純青。

穿著羽絨服的教皇，被視作第一個真正大規模的 AI 虛假信息案例，當時在 Twitter 的瀏覽量達到 2600 多萬次。「AI 生成圖片」的說明，后來才補充在圖片下方。

更多的模仿隨之而來。特朗普下鄉再就業，在街頭拉黃包車；異形體驗生活，上了一天的班然后深夜買醉 …… 更有甚者，用 AI 生成「新聞圖片」，對不存在的歷史言之鑿鑿。

TikTok 上的「湯姆 · 克魯斯」，以假亂真的程度，本人看了也得犯迷糊。

風險與你不一定隔著屏幕，也可能已經蟄伏身邊。

今年 4 月，技術專欄作家 Joanna Stern 做了一項實驗，錄制 30 分鐘的視頻和 2 個小時的音頻，然后用 AI 克隆了自己，它甚至騙過了銀行和她的家人。

AI 讓我們對那些曾經不容置疑的事物，也抱有基本的警惕心。

當你連接到互聯網，你和 AI 都會消費 AI 生成的內容，這個時刻已經到來。

AI 污染不僅影響現在，也可能帶偏未來

以上這些是 AI 污染互聯網的現狀，往后的發展可能更讓人不安。

讓人類中招的同時，回旋鏢也將打在 AI 身上。

一項英國和加拿大的研究發現，當人類越來越多地通過 AI 生成內容，它們會大量進入在線數據庫，被用來訓練未來的 AI，如果一代又一代地延續下去，最終將導致「模型崩潰」。

具體來說，隨著時間的推移，AI 生成的錯誤會復合，造成從中學習的下一代 AI 更加錯誤地感知現實，并迅速忘記大部分原始數據，無法區分事實和虛構。研究人員打了一個生動的比喻：

就像用塑料垃圾散布海洋、用二氧化碳攻占大氣，我們即將用廢話填滿互聯網。

作為結果，通過抓取互聯網數據訓練新模型，將變得更加困難。

雪上加霜的是，內容平臺們打算筑起城墻，讓免費的、高質量的公開數據有了門檻。

前段時間，「美國貼吧」Reddit 計劃對 API 進行收費，原因是他們的內容正在被白嫖給 AI 訓練，ChatGPT 和 Google Bard 之前都爬過 Reddit 的數據。

Reddit CEO 表示，Reddit 的語料庫非常有價值，他們不想把這些內容免費提供給巨頭。

Reddit 的 API 收費，對 OpenAI、Google 等家底深厚的玩家影響不大，但 AI 初創公司獲取數據更難了。那些長期依附 Reddit 的第三方應用，更是在這次變革中被牽連，帶頭宣布倒下。

在商言商， Reddit 可能是在自救，之前盈利主要靠廣告投放，AI 反而挖掘了 Reddit 數據的商業價值，其他 UGC 內容平臺說不定也在打算盤，這對很多 AI 初創公司來說不是好事。

公開數據還不是唯一的挑戰，不少 AI 初創公司想在金融、醫療等領域構建垂直的 AI 模型，然而獲取專有的訓練數據集并不容易。

擁有這些數據的企業們，更愿意和大型科技公司建立合作關系，因為巨頭的可信度更高，處理數據的方式更好，更能保障數據安全。

高質量數據是 AI 模型的護城河，獲取數據卻或多或少地成了一場利益的博弈，將互聯網劃分為孤島，或者干脆排資論輩上演軍備競賽。

一方面，互聯網的內容本就參差不齊，另一方面，互聯網又趨向封閉。未來各家的 AI 要如何接收優質內容訓練和微調，成了一個懸而不決的問題。

至少在互聯網數據這塊，AI 還真可能「自給自足」。劍橋大學教授 Ross Anderson 指出，目前，大多數在線文本都由人類編寫，但它們已經被用來訓練 GPT-3.5 和 GPT-4，未來，越來越多的文本將由大語言模型編寫。

那么，如何避免 AI 生成內容質量下降，一代不如一代？英國和加拿大團隊提出了兩種方法。

一是保留原始數據集的副本，并避免它被 AI 生成的數據污染，然后可以基于這些數據，定期重新訓練或者從頭刷新模型。

二是將新的、干凈的、人類生成的數據集，重新引入到模型訓練中。然而，前提是存在某種可行的方式，區分 AI 和人類生成的內容。

ChatGPT 的數據源截至 2021 年 9 月，在那之前的互聯網可能是最后一片凈土。

從此以后我們踏進了暗流涌動的世界，困境擺在眼前，應對措施懸在空中。

被用來制造垃圾的 AI，本該提高互聯網的下限

不過，互聯網被污染的鍋，不該全由 AI 來擔。

事實上，AI 本該用來提高互聯網內容的下限，在 ChatGPT 前身 GPT-3 的時代，已經有人將它作為寫作工具了。

AI 從新鮮的玩具變成提升生產力的工具是必然的趨勢，因為它學習了海量知識，擅長寫出有板有眼的文章和代碼，如果再由人力審核和編輯，其實已經比不少「內容農場」的質量要高。

「內容農場」指的是那些快速生產內容、從而賺取流量和廣告費的網站。

這類網站通常找不到作者，摻雜大量廣告，搶占搜索頁面的前排，內容多半缺乏原創且無法保證真實性，很可能是盜取或拼湊他人文章，有來源不明、質量低劣、翻譯不準等問題。

現在，AI 卻被拿來制造新的內容農場，這是人類出于利益的選擇。除了各種假新聞和假圖片，電子書網站、科幻雜志投稿等，也被 AI 批量生產的垃圾充斥。

軟件工程師 Chris Cowell 花了一年多的時間，編寫了一本技術指南。結果在這本書發行前，亞馬遜已經出現了相同主題的、由 AI 生成的電子書。

他擔心的不是銷量，而是這種低質量、低價格、省時省力的 AI 寫作，會讓同樣打算編寫小眾書籍的人類產生「寒蟬效應」，降低寫作熱情，不愿意再發出聲音。

AI 初創公司 Hugging Face 的首席倫理科學家 Margaret Mitchell 警告，隨著 AI 生成的內容越來越多，我們可能讀到大量不符事實的內容，但又無法追溯真相。

這就像是一個 AI 主導的「后真相世界」。

「后真相」指的是，客觀事實在塑造公眾輿論方面的影響力，反而低于訴諸情感和個人信仰的內容。它被《牛津詞典》評為 2016 年年度詞匯，至今依然適用。

前段時間，知名外媒一項針對 9.3 萬多名成年人的調查發現，用 TikTok 看新聞的年輕人越來越多了。至于內容有多可信，那就得打個問號。

最近，TikTok 流傳著泰坦尼克號從未沉沒的說法，有理有據也就罷了，卻只見張口就來的陰謀論。有人用魔法打敗魔法，制作辟謠視頻，關注度并不低，但沒有謠言出圈。

一位研究泰坦尼克號 60 年的專家感嘆：「看到這么多垃圾出現，讓人有點泄氣。」

更讓他擔心的是，這類內容的受眾里有很多青少年，他們使用 TikTok 的時間越長，就越相信自己所看到的，然后算法推薦更多相關內容，應接不暇地激發快感，將他們徹底包圍。

更多類似的趨勢在上演。

斷章取義、支離破碎的片段式消息流轉于社交媒體，但嚴肅內容又可能被評論「太長不看」。

制作粗糙的短視頻，促使新的「黃色新聞」興起。或是家長里短的擺拍，或是沒有營養的奇聞逸事，讓人想罵一句「沒有新聞可以不發」。

5 分鐘的小帥小美式電影解說，則是適合下飯的「電子榨菜」，空鏡和轉場什么的不重要，將人物標簽化，選取最獵奇或懸疑的情節講解就好。

所以，在 ChatGPT 之前，互聯網已經內容降級，它不止關乎具體內容，更關乎用戶的媒介使用習慣，如果 AI 被用來加速這個過程，然后再被這些數據訓練，那么人類將更加無法抵擋污染。

嚴肅和通俗內容都有受眾，也都值得生產，問題的核心并不在這里。尼爾 · 波茲曼在電視時代就提出警告，媒介社會面臨的最大問題，不是電視為人們提供娛樂性的內容，而是所有的內容都以娛樂的形式表現出來。

相比印刷媒介的嚴肅與有序，電視等大眾媒介瞬間傳遞信息，如果沉溺于技術營造的視覺快感，受眾可能會漸漸失去獨立思考的能力。

互聯網時代不外如是。

對視覺化、簡短化、情緒化內容的生產和消費傾向，為 AI 污染互聯網塑造了肥沃土壤，甚至讓人們對虛假信息的抵抗能力降低。

所以，AI 污染互聯網不全是 AI 的鍋，它可以用來完成更好的事，也可以讓現狀持續。先是人類選擇想要怎樣的世界，然后 AI 負責放大它。

瘋狂污染互聯網，人類比 AI 擅長多了

相關閱讀

相關閱讀

精彩推薦

閱讀排行

精彩推送

推薦閱讀