馬斯克硬剛 OpenAI，用戶慘遭池魚之殃

2023-07-04 18:20:08來源：ZAKER科技

只聽說過社交媒體想方設(shè)法讓用戶多停留的，沒聽說過主動給人加個上限的。如今開眼了，埃隆 · 馬斯克正在給所有推特用戶加 " 未成年人保護 "，而這一切，居然是被 AI 逼的？

如今推特用戶每天最多能瀏覽多少推特，不取決于手速或者舍不舍得熬夜，而是有一個明確的數(shù)字：已驗證（也就是付費的 " 藍鳥 " 服務(wù)）賬戶 10000 條、未驗證賬戶 1000 條，而新注冊的未驗證賬戶只有 500 條。

(資料圖片)

就這，還是馬斯克面對憤怒的用戶，兩次提高后的標準。至于原因，是 " 為了解決極端水平的數(shù)據(jù)抓取和系統(tǒng)操縱問題 "。

他指的正是 AI 公司們，為了訓(xùn)練模型，這些企業(yè)需要大量數(shù)據(jù)作為喂養(yǎng)的飼料。去年 12 月，馬斯克切斷了與 OpenAI 的數(shù)據(jù)聯(lián)系，今年 4 月又指責(zé)微軟非法使用推特的數(shù)據(jù)。

在馬斯克為阻止數(shù)據(jù)抓取采取激進措施的同時，OpenAI 正在面臨一項集體訴訟。訴訟的原告有 16 名，都是個人，換句話說，都是普通的互聯(lián)網(wǎng)沖浪人。他們指控 OpenAI 秘密地 " 從互聯(lián)網(wǎng)抓取了 3000 億字詞 "，未經(jīng)允許從互聯(lián)網(wǎng)那個用戶那里竊取 " 大量私人信息 "，以培訓(xùn) ChatGPT。

一邊是互聯(lián)網(wǎng)用戶和多年來積累大量 UGC 內(nèi)容的平臺，另一面是新興的 AIGC 企業(yè)，一場圍繞數(shù)據(jù)抓取、隱私安全的戰(zhàn)爭已經(jīng)打響。

周五周五，敲鑼打鼓。好不容易要周末了，推特的用戶卻傻了，屏幕上顯示報錯信息，提醒其已經(jīng)超過了 " 速率限制 "，違反了推特的規(guī)則，查看了過多推文。

人們壓根不知道這是什么意思，推特老板馬斯克站了出來，表示的確是有速率限制，而且宣布：為了解決極端水平的數(shù)據(jù)抓取和系統(tǒng)操縱問題，已驗證、未驗證、新注冊未驗證賬戶每天的瀏覽上限是 6000、600 和 300 條推文。

在此之前，馬斯克剛宣布推特開始禁止未登錄的用戶瀏覽內(nèi)容，用戶尚且能接受。限制實錘，用戶麻了，繼而看著這驗證與否的區(qū)別對待，眉毛挑起來了：你個老六該不會是想用這招推行 " 藍鳥訂閱 " 吧？在評論區(qū)，不止一位用戶評論：" 現(xiàn)在得用錢制勝了？"

不滿的聲音很大，推特的競品 Hive、Mastodon、Tumblr 等出現(xiàn)在熱門話題里，一張推特墓碑的梗圖被大量使用。爭議聲中，馬斯克兩次提高標準至驗證用戶 10000 條瀏覽、未驗證用戶 1000 條。

一個馬斯克的高仿號調(diào)侃道：" 我設(shè)置限制，是因為你們這些推特成癮者需要出去走走。我這是在為世界做好事啊 "。這種上價值的思路好，馬斯克反手就是一個轉(zhuǎn)發(fā)，自己還單獨發(fā)了條 " 去拜訪下你的朋友和家人吧 "。不過玩笑歸玩笑，馬斯克為自己的這次 " 測試 " 給出了明確的解釋：應(yīng)對數(shù)據(jù)爬取。用戶的不滿，也在于限流的做法是否有效，而不在數(shù)據(jù)爬取的問題上。

AI 初創(chuàng)公司跑來推特 " 扒數(shù)據(jù) " 的情況有多嚴重呢？馬斯克在一條推文中說，流量激增，推特不得不啟用備用服務(wù)器：" 在緊急情況下啟用大量在線服務(wù)器，僅僅是為了給某些 AI 初創(chuàng)公司高得離譜的估值幫忙，這太令人惱火了。"

在限流風(fēng)波的前一天，Epic Games 的 CEO 蒂姆（Tim Sweeney）還發(fā)推抱怨推特也在建墻，馬斯克回復(fù)：" 數(shù)百個（甚至更多）阻止正在極其激進地爬取推特數(shù)據(jù)，到了影響用戶體驗的地步。我們應(yīng)該怎么做？我對所有想法都保持開放。"

剛才還在抱怨的蒂姆，很快就給出了認真的建議，如在推特的服務(wù)條款中加入禁止數(shù)據(jù)爬取、以信息安全工程保護平臺，以及針對大規(guī)模濫用推特的公司采取法律行動。

值得注意的是，馬斯克在回復(fù)中提到，" 絕對 " 會對那些竊取數(shù)據(jù)的人采取法律行動："（樂觀地說）從現(xiàn)在起 2 到 3 年，期待在法庭上看到他們。"

不管 " 為付費訂閱添柴 " 的猜想是不是以小人之心度了馬斯克之腹，馬斯克高舉用戶隱私大旗之外，多少有可能抱有私心。4 月，馬斯克被傳出成立 X.AI 新人工智能公司，要對抗 ChatGPT。如果真的要訓(xùn)練大語言模型，推特的用戶數(shù)據(jù)，當然是只給自己用最好。

不論如何，主動給平臺限流都做得出來，馬斯克已經(jīng)做好準備，要和 AI 初創(chuàng)公司們硬剛到底了。

就在馬斯克重拳出擊給全平臺限流的時候，這場 AICG 熱潮的 " 始作俑者 "、ChatGPT 的造物主 OpenAI，正卷入一場集體訴訟中。

這起訴訟在美國加州北區(qū)地方法院發(fā)起，原告 16 人，均為匿名，均為個人。訴狀很長，足足有 157 頁，以斯蒂芬 · 霍金的一句話作為開頭：" 強大人工智能的崛起，要么是人類有史以來最好的事，要么是最糟的。" 被告除了 OpenAI，還有為其注資上百億美元的微軟。

核心指控是，ChatGPT 使用從互聯(lián)網(wǎng)上收集的數(shù)據(jù)來 " 訓(xùn)練其技術(shù) " 時，侵犯了 " 無數(shù)人的版權(quán)和隱私。"

起訴書中稱，OpenAI 從互聯(lián)網(wǎng)上秘密抓取 3000 億字詞，竊聽了 " 書籍、文章、網(wǎng)站和帖子，包括未經(jīng)同意獲得的個人信息 "，違反了隱私法。其中就提到了 OpenAI 爬取大量網(wǎng)絡(luò)數(shù)據(jù)，包括社交媒體中的數(shù)據(jù)。

他們還指出 OpenAI 有個專有 AI 語料庫，積累了大量個人數(shù)據(jù)，包括從 Reddit 帖子及其鏈接到網(wǎng)站中獲取的數(shù)據(jù)。

這是訓(xùn)練模型方面的指控，此外，原告還稱用戶與 OpenAI 的產(chǎn)品的互動、在產(chǎn)品中的私人信息，也都被 OpenAI 非法訪問、大規(guī)模盜用。

這已經(jīng)不是 OpenAI 第一次在美國面臨集體訴訟。去年 11 月，就有 Github 程序員對 Github、OpenAI 和微軟發(fā)起集體訴訟的事件，指控 OpenAI 涉嫌違反開源許可，使用他們貢獻的代碼訓(xùn)練專有 AI 工具 GitHub Copilot。

彼時 ChatGPT 還沒有上線，如今回頭看，AI 訓(xùn)練的問題那時就已經(jīng)暴露。如今，最新的集體訴訟針對的是用戶更為廣泛、被侵犯人群也更加廣泛（基本上就是全員受害）的 ChatGPT，更重要的是，在 AIGC 的狂潮之下，任何法律先例都可能影響未來。

代理該案的克拉克森公益律師事務(wù)所（Clarkson）在一封聲明中，將這次的集體訴訟稱作 " 里程碑式 " 的聯(lián)邦案件，是對整個人工智能的警告。

從這個角度看，OpenAI 肩上的擔(dān)子的確很重。

OpenAI 因數(shù)據(jù)抓取和隱私安全已經(jīng)惹上諸多麻煩，平臺上鎖、用戶翻臉都只是冰山一角。

在歐洲，OpenAI 已經(jīng)遭到了多個國家的調(diào)查，甚至在今年 4 月，意大利擔(dān)心 ChatGPT 會違反歐洲數(shù)據(jù)保護法，暫時封禁過 ChatGPT。

針對整個人工智能領(lǐng)域的監(jiān)管正在推進。法國于 5 月推出人工智能行動計劃，其中在 AIGC 方面，法國隱私監(jiān)管機構(gòu)特別關(guān)注一些 AI 模型從互聯(lián)網(wǎng)上搜集數(shù)據(jù)、建立數(shù)據(jù)集，用來訓(xùn)練大語言模型的做法。

最重磅的是歐盟人工智能監(jiān)管法案（EU AI Act），目前已經(jīng)走向收尾階段。該法案將有可能成為全球 AI 治理的范本。

平臺、用戶、監(jiān)管，三股力量已經(jīng)形成合圍之勢，誓要盡早給 AIGC 立立規(guī)矩，并且要從大模型訓(xùn)練這個起點開始。

一方面，時間緊迫，AIGC 發(fā)展得太快。

馬斯克說 " 估值高得離譜的 AI 初創(chuàng)公司 " 指的是誰，咱也不知道。但這話一出，中箭的確實不少，畢竟現(xiàn)在 AIGC 領(lǐng)域融資一波接一波，全是熱錢。

在初創(chuàng)公司里，OpenAI 估值近 300 億美元，融資總規(guī)模 113 億美元，是 AIGC 里最有錢的；然后是 Anthropic，第二有錢，估值超過 40 億美元。而前幾天才以 13 億美元融資震驚硅谷的 Inflection，估值也已經(jīng)有 40 億美元，而它成立不過一年多。

大的可能還在后頭。Inflection 用的是自家的大語言模型，這次 13 億美元到手，宣布要搞 2.2 萬張英偉達 H100 芯片，做全球最大的人工智能集群。如此大規(guī)模算力，目標參數(shù)量和數(shù)據(jù)集勢必也是驚人的。

另一方面，ChatGPT 橫空出世，等它暴露出問題時，想 " 修補 " 并不是那么容易。OpenAI 的幾代大語言模型，GPT-2 數(shù)據(jù)集有 40GB 文本，GPT-3（也就是 ChatGPT 發(fā)布時用的模型）訓(xùn)練數(shù)據(jù)有 570GB，至于今年才發(fā)布的 GPT-4，數(shù)據(jù)集大小壓根沒透露。

海量的數(shù)據(jù)并沒有從一開始就做好記錄。谷歌前研究科學(xué)家尼西亞 · 桑巴斯萬曾在采訪中表示，科技公司不會記錄它們是如何收集或注釋 AI 訓(xùn)練數(shù)據(jù)的，甚至不知道數(shù)據(jù)集中到底有什么。

木已成舟的 ChatGPT 就像一個黑匣子，而且是一個打造在密室里的黑匣子，如今要做透明化、隱私保護，比如羅列到底爬取了哪些數(shù)據(jù)、闡釋使用過程中會如何使用這些數(shù)據(jù)、應(yīng)用戶要求刪除某條數(shù)據(jù)，其實很難。

互聯(lián)網(wǎng)沖浪人和監(jiān)管死咬 OpenAI 們，還有一個不容忽視的原因——在社媒發(fā)展壯大的那些年，對個人網(wǎng)絡(luò)數(shù)據(jù)保護的意識還在襁褓中，待要抗衡時，發(fā)現(xiàn)已錯過太遠。

當扎克伯格 2018 年首次坐上國會聽證席時，他的社交媒體平臺 Facebook 已經(jīng)推出了 14 年。彼時 Facebook 身陷 " 劍橋丑聞 "，公司首席技術(shù)官稱有 8700 萬用戶受影響。那也是一次因數(shù)據(jù)抓取釀成的大錯。

等到今年 5 月阿爾特曼坐上美國國會聽證席，議員頻頻表達著在社媒時代行動不足的悔恨，意思很明了：這一次，就算不能超前，也至少要跟上 AIGC 的腳步。

一個接一個的大模型仍然在訓(xùn)練當中，數(shù)據(jù)抓取是一根線頭，攥住它才有望理清 AIGC 的糊涂賬。

參考資料：

1、新浪科技：《馬斯克跟微軟杠上了？Twitter 稱微軟非法使用其數(shù)據(jù)》

2、黑馬程序員：《這些程序員把 GitHub 告了！要求索賠 649 億》

3、界 - 面新聞：《歐盟 AI 法案出爐，OpenAI 等公司可打幾分，核心爭議點有哪些？》

4、騰訊科技：《對數(shù)據(jù)的渴求正反傷 OpenAI？多國指控其違反數(shù)據(jù)保護法》

5、網(wǎng)易科技：《ChatGPT 在意大利恢復(fù)上線但 OpenAI 的監(jiān)管麻煩才剛剛開始》