首頁 > 新聞 > 智能 > 正文

再讓 AI 大廠這么“偷”下去，咱可能就看不到免費的網(wǎng)站了。。。

2023-07-12 06:22:50來源：ZAKER科技

幾天前，谷歌突然更新了隱私政策，明確表示要用網(wǎng)上所有的公開數(shù)據(jù)，來訓(xùn)練自家的 AI 模型。

(資料圖片僅供參考)

也就是說，根據(jù)新政策，你在網(wǎng)上公開發(fā)布的任何信息都有可能被谷歌抓取，包括但不限于你發(fā)的帖子、搜索的關(guān)鍵詞以及看過的視頻。

這不妥妥互聯(lián)網(wǎng)裸奔嗎！

OpenAI 前腳剛被起訴數(shù)據(jù)侵權(quán)還沒多久，谷歌就馬上著急來撞槍口。

在這個節(jié)骨眼上整這么一出，大概率跟數(shù)據(jù)收費脫不了關(guān)系，谷歌再不薅這波免費的羊毛，之后很有可能就薅不到咯。

這事兒啊，自打 ChatGPT 爆火后再也沒消停過。

世超先給大家伙兒捋捋時間線。

今年 3 月的時候呢，馬斯克帶頭打響了數(shù)據(jù)收費第一槍，宣稱推特的 API 接口不再免費了。

緊接著，美版貼吧 Reddit 也按耐不住了。

上個月 Reddit 鬧得沸沸揚揚的 " 停電 " 運動，就是為了抗議官方的 API 收費政策。

之前世超寫這事兒的時候還在猜測， Reddit 官方最后會不會作出讓步。

從現(xiàn)在的后續(xù)看來，大多第三方軟件已經(jīng)確認(rèn)關(guān)停， Reddit 是鐵了心要數(shù)據(jù)收費。

再到這段時間，推特又整了限流的幺蛾子，沒有花錢認(rèn)證的帳號每天就只能閱讀 600 條貼文，目的呢也是為了防止機器人抓取用戶數(shù)據(jù)。

難道數(shù)據(jù)就這么值錢嗎？

世超覺著啊，還是AI 的鍋。

AI 大模型要想變得更聰明，就需要源源不斷的數(shù)據(jù)去 " 喂養(yǎng) " 。

現(xiàn)在能做大模型的，要不就是自己家有數(shù)據(jù)，像百度、阿里和騰訊；要不就是爬人家的數(shù)據(jù)，這里點名 OpenAI 。

因為很多網(wǎng)站都開放有免費的 API 接口，才給了微軟、 OpenAI 這些巨頭可乘之機。

但今時不同往日， AI 在重新賦予數(shù)據(jù)價值以后，有籌碼在手上的平臺當(dāng)然不樂意被白嫖了。

甚至于 Reddit 的 CEO 霍夫曼都把話搬上明面兒了：就是不想免費提供數(shù)據(jù)給巨頭們。

所以， OpenAI 被起訴估計也是平臺們聯(lián)合起來想要 " 殺雞儆猴 "，治一治 AI 的這股歪風(fēng)邪氣。

不過，法律這次會不會站在 OpenAI 這邊，還真不好說。

因為數(shù)據(jù)版權(quán)涉及到 3 個關(guān)鍵的問題：

1. 數(shù)據(jù)爬蟲的行為本身是否是合法的？

2. 數(shù)據(jù)是否受到版權(quán)的保護(hù)？

3. 用數(shù)據(jù)生成的作品是否受到版權(quán)保護(hù)？

首先第一個問題，要獲取數(shù)據(jù)，無非就是付費購買，或者收集網(wǎng)上公開的數(shù)據(jù)。

但需要注意的是，公開的數(shù)據(jù)并不能等同于授權(quán)使用，而且還要看網(wǎng)站是不是有相關(guān)的條款對數(shù)據(jù)爬蟲行為做出了限制。

要是直接越過版權(quán)方的同意，或者繞過了網(wǎng)站限制強行獲取數(shù)據(jù)，那就是妥妥的非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪。

即使 OpenAI 聲稱爬的是公開網(wǎng)站的數(shù)據(jù)，數(shù)據(jù)爬蟲行為本身是否合法，還要看版權(quán)方是不是給了授權(quán)。

其次，關(guān)于數(shù)據(jù)本身是否受到版權(quán)保護(hù)。

根據(jù)美國的版權(quán)法，如果 AI 模型訓(xùn)練所用的數(shù)據(jù)符合 " 合理使用 " 的范圍，那就不會構(gòu)成侵權(quán)。

但問題就出在這 " 合理使用" 上。

" 合理使用 " 的構(gòu)成要件包括是否涉及商用、作品本身是否受版權(quán)法保護(hù)、所使用部分的數(shù)量以及使用之后對作品本身造成的影響這四個標(biāo)準(zhǔn)。

像什么新聞報道、學(xué)術(shù)研究，適當(dāng)引用是完全 ok 的。

可 AI 模型上億萬級別的數(shù)據(jù)使用量、已經(jīng)商業(yè)化的 AI 軟件，還能算作 " 合理使用 " 嗎？

因為訓(xùn)練數(shù)據(jù)版權(quán)理不清， AI 生成的內(nèi)容自然也會存在版權(quán)爭議。前幾天， Steam 還下架了一款使用了 AIGC 生成的游戲，理由就是版權(quán)有問題。

咱就拿 AI 繪畫舉例子，圖像生成相當(dāng)于一個拆分又重組的過程，雖然最后的結(jié)果是完全 " 新 " 的，但仍然會保留訓(xùn)練圖像的某些特征。

但這種情況到底算不算侵權(quán)，各國的說法現(xiàn)在也是眾說紛紜。

因為訓(xùn)練數(shù)據(jù)是人家的，美國版權(quán)局認(rèn)定 AI 生成的作品不受版權(quán)法保護(hù)，甚至還可能侵犯著作權(quán)。

而日本政府的態(tài)度則截然不同，表示日本法律不保護(hù) AI 訓(xùn)練所用數(shù)據(jù)的版權(quán)。

至少在現(xiàn)行的法律框架下，上面這些問題很難得到一個統(tǒng)一的答案。

既然監(jiān)管不給力，那版權(quán)方就只有提刀自己干了，該收費的收費，該追償?shù)囊糙s緊追償。

▼ OpenAI 被起訴的文件

可以預(yù)見，在推特和 Reddit 之后，可能還會有更多的內(nèi)容版權(quán)方豎起高墻。

這事兒呢，對于平臺來說，當(dāng)然是個掙錢的新路子，科技巨頭再不濟也就是多砸點兒錢。

但對于整個互聯(lián)網(wǎng)來說，可算不上一件好事兒。

當(dāng)年，互聯(lián)網(wǎng)就是帶著開放共享的基因出生的，像什么維基百科、推特，之前常年免費提供 API 接口，開發(fā)者調(diào)用數(shù)據(jù)很方便。

但現(xiàn)在如果讓數(shù)據(jù)收費這么一搞，結(jié)果會怎么樣還真不好說。

畢竟，小開發(fā)者沒有支付巨額數(shù)據(jù)費的能力，如果創(chuàng)新只在巨頭里發(fā)生，這不就是純純搞壟斷了？

最主要的是，可能很多現(xiàn)在免費能看到的網(wǎng)站之后就要花錢才能看了，這才是對咱們這種普通用戶的真實暴擊。

其實吧，數(shù)據(jù)收費這事兒也不能全怪平臺，實在是讓 AI 巨頭給 " 搶 " 怕了，算是一種自保的無奈之舉。

雖然這次谷歌有 " 隱私政策 " 護(hù)體，但結(jié)果如何還真不好說。

所以，關(guān)鍵還要是看監(jiān)管的大錘什么時候能落下。

厘清數(shù)據(jù)版權(quán)，是 AI 要發(fā)展始終繞不過去的一道坎兒，而現(xiàn)在，似乎也同樣關(guān)乎著互聯(lián)網(wǎng)的未來走向。

不知道 AI 這艘船，會將我們推向一個更開放，還是更封閉的時代？

關(guān)鍵詞：

責(zé)任編輯：hnmd003

再讓 AI 大廠這么“偷”下去，咱可能就看不到免費的網(wǎng)站了。。。

相關(guān)閱讀

相關(guān)閱讀

精彩推薦

閱讀排行

精彩推送

推薦閱讀