AI 大模型的語言不平等：英語訓(xùn)練費(fèi)用最便宜，漢語訓(xùn)練費(fèi)用是英語的 2 倍

2023-08-01 21:16:33來源：ZAKER科技

近日，X（原 Twitter）用戶 @Dylan Patel 展示了一份來自牛津大學(xué)的研究：通過對 GPT-4 和大多數(shù)其他常見 LLM 的語言進(jìn)行研究，研究發(fā)現(xiàn) LLM（大語言模型）推理的成本差異很大。

其中英語輸入和輸出要比其他語言便宜得多，簡體中文的成本大約是英語的 2 倍，西班牙語的成本是英語的 1.5 倍，而緬甸撣語則是英語的 15 倍。

(資料圖片僅供參考)

究其原理，可以追溯到今年 5 月份牛津大學(xué)在 arXiv 上刊印的一篇的論文。

詞元是將自然語言文本轉(zhuǎn)換成詞元（token）序列的過程，是語言模型處理文本的第一步。在 LLM 計(jì)算力成本的核算中，詞元越多，耗費(fèi)計(jì)算力的成本越高。

毫無疑問，在生成式 AI 商業(yè)化的趨勢下，計(jì)算力的耗費(fèi)成本也會(huì)嫁接給用戶，當(dāng)下許多 AI 服務(wù)也正是按照需要處理的詞元數(shù)量來計(jì)費(fèi)。

論文顯示，研究者通過分析 17 種詞元化方法后，發(fā)現(xiàn)同一文本被轉(zhuǎn)換成不同語言詞元序列時(shí)長度差異巨大，即使是宣稱支持多語言的詞元化方法，也無法做到詞元序列長度完全公平。

例如，根據(jù) OpenAI 的 GPT3 tokenizer，倘若給「你的愛意」詞元化，英語只需兩個(gè)詞元，而在簡體中文中則需要八個(gè)詞元。即使簡體中文文本只有 4 個(gè)字符，而英文文本有 14 個(gè)字符。

從 X 用戶 @Dylan Patel 曝光的圖片也可以直觀看到，讓 LLM 處理一句英語需要 17 個(gè)詞元（tokens），而讓 LLM 處理同樣意思的一句緬語，則需要 198 個(gè)詞元（tokens）。這意味著緬語的處理成本將達(dá)到英語的 11 倍。

類似的情況也有很多，Aleksandar Petrov 的網(wǎng)站中提供了許多相關(guān)的圖標(biāo)和數(shù)據(jù)，感興趣的朋友不妨點(diǎn)擊「https://aleksandarpetrov.github.io/tokenization-fairness/」進(jìn)去查看語言之間的差異。

在 OpenAI 的官網(wǎng)上也有著類似的頁面，解釋了 API 是如何對一段文本進(jìn)行詞元化，以及顯示該文本的詞元總數(shù)。官網(wǎng)也提到，一個(gè)詞元通常對應(yīng)英語文本的約 4 個(gè)字符，100 個(gè)詞元約等于 75 個(gè)單詞。

得益于英語詞元序列長度短的優(yōu)勢，在生成式人工智能預(yù)訓(xùn)練的成本效益方面，英語可謂是最大贏家，將其他語言使用者遠(yuǎn)遠(yuǎn)地甩在身后，間接產(chǎn)生了一種不公平的局面。

除此之外，這種詞元序列長度的差異也會(huì)導(dǎo)致處理延遲不公平（某些語言處理同樣內(nèi)容需要更多時(shí)間）和長序列依賴性建模不公平（部分語言只能處理更短的文本）。

簡單點(diǎn)理解，就是某些語言的用戶需要支付更高的成本，承受更大的延遲，獲得更差的性能，從而降低了他們公平地訪問語言技術(shù)的機(jī)會(huì)，也就間接導(dǎo)致了英語使用者和世界其他語言使用之間形成了 AI 鴻溝。

僅從輸出的成本來看，簡體中文的成本是英語的兩倍。伴隨著 AI 領(lǐng)域的深層次發(fā)展，總是「差一步」的簡體中文顯然并不友好。在成本等各方面疊加因素的權(quán)衡下，非英語母語的國家也紛紛嘗試開發(fā)自己的母語語言大模型。

以中國為例，作為國內(nèi)最早一批探索 AI 的巨頭，2023 年 3 月 20 日，百度正式上線生成式 AI 文心一言。

隨后阿里巴巴的通義千問大模型、華為的盤古大模型等一批批優(yōu)秀大模型也陸續(xù)涌現(xiàn)出來。

在這當(dāng)中，華為盤古大模型中的 NLP 大模型更是行業(yè)內(nèi)首個(gè)千億參數(shù)中文大模型，擁有 1100 億密集參數(shù)，經(jīng)過 40TB 的海量數(shù)據(jù)訓(xùn)練而成。

正如聯(lián)合國常務(wù)副秘書長阿米娜 · 穆罕默德曾經(jīng)在聯(lián)合國大會(huì)上警告說，如果國際社會(huì)不采取果斷行動(dòng)，數(shù)字鴻溝將成為「不平等的新面孔」。

同理，伴隨著生成式 AI 的狂飆突進(jìn)，AI 鴻溝也很有可能成為新一輪值得關(guān)注的「不平等的新面孔」。

所幸的是，平時(shí)「慘遭嫌棄」的國內(nèi)的科技巨頭已然采取了行動(dòng)。

關(guān)鍵詞：

責(zé)任編輯：hnmd003

精彩推薦

遠(yuǎn)離河道！永定河開閘泄洪盧溝新橋已封閉

閱讀排行

精彩推送

簽署《互不挖人公約》不到兩個(gè)月...
起亞二季度營業(yè)利潤超特斯拉，中...
塞內(nèi)加爾主要反對黨被勒令解散，...
重車壓梁保安全！93輛大型車輛駛...
平安壽險(xiǎn)在哪里可以查詢？查詢不...
商業(yè)醫(yī)療保險(xiǎn)怎么選擇？怎么用？
保險(xiǎn)公司可以單獨(dú)買百萬醫(yī)療險(xiǎn)嗎...
五險(xiǎn)交多久生孩子可以報(bào)銷？多久...
學(xué)生險(xiǎn)出院后報(bào)銷時(shí)效多長時(shí)間？...
完美世界游戲CEO魯曉寅：數(shù)智技...
東北誕生“醫(yī)美面膜第一股”，敷...
世紀(jì)華通被立案：百億收購后，開...
7月重磅合資合作一覽：吉利再與...
蔚來7月交付超2萬臺，全新ES6成主力
小鵬銷量破萬，7月交付11008臺新車
嵐圖汽車7月銷量3412輛，同比上漲90%
足壇巨星梅西成為赤水河酒代言人...
海底撈在演唱會(huì)門口“撈人”，為...
比亞迪公布極端天氣客戶關(guān)懷：含...
“蔚小理”披露 7 月交付數(shù)據(jù)
智能門鎖 vs 智能門鈴：哪種是...
隋唐西市何時(shí)對外開放？洛陽市軌...
中國平安: 中國平安H股公告
龍芯中科研制成功新一代處理器
湖南工業(yè)大學(xué)舉辦“科普育人、材...
太平洋壽險(xiǎn)退保能退多少？怎么退？
五險(xiǎn)一金買多少年？一年要多少錢？
萬能型終身壽險(xiǎn)能避稅避債嗎？有...
大學(xué)生沒有畢業(yè)證可以交五險(xiǎn)一金...
城鄉(xiāng)居民醫(yī)療保險(xiǎn)交多少年不用交...

AI 大模型的語言不平等：英語訓(xùn)練費(fèi)用最便宜，漢語訓(xùn)練費(fèi)用是英語的 2 倍

相關(guān)閱讀

相關(guān)閱讀

精彩推薦

閱讀排行

精彩推送

推薦閱讀