首頁 > 新聞 > 智能 > 正文

AI 大模型的語言不平等:英語訓(xùn)練費(fèi)用最便宜,漢語訓(xùn)練費(fèi)用是英語的 2 倍

2023-08-01 21:16:33來源:ZAKER科技  

近日,X(原 Twitter)用戶 @Dylan Patel 展示了一份來自牛津大學(xué)的研究:通過對 GPT-4 和大多數(shù)其他常見 LLM 的語言進(jìn)行研究,研究發(fā)現(xiàn) LLM(大語言模型)推理的成本差異很大。

其中英語輸入和輸出要比其他語言便宜得多,簡體中文的成本大約是英語的 2 倍,西班牙語的成本是英語的 1.5 倍,而緬甸撣語則是英語的 15 倍。


(資料圖片僅供參考)

究其原理,可以追溯到今年 5 月份牛津大學(xué)在 arXiv 上刊印的一篇的論文。

詞元是將自然語言文本轉(zhuǎn)換成詞元(token)序列的過程,是語言模型處理文本的第一步。在 LLM 計(jì)算力成本的核算中,詞元越多,耗費(fèi)計(jì)算力的成本越高。

毫無疑問,在生成式 AI 商業(yè)化的趨勢下,計(jì)算力的耗費(fèi)成本也會(huì)嫁接給用戶,當(dāng)下許多 AI 服務(wù)也正是按照需要處理的詞元數(shù)量來計(jì)費(fèi)。

論文顯示,研究者通過分析 17 種詞元化方法后,發(fā)現(xiàn)同一文本被轉(zhuǎn)換成不同語言詞元序列時(shí)長度差異巨大,即使是宣稱支持多語言的詞元化方法,也無法做到詞元序列長度完全公平。

例如,根據(jù) OpenAI 的 GPT3 tokenizer,倘若給「你的愛意」詞元化,英語只需兩個(gè)詞元,而在簡體中文中則需要八個(gè)詞元。即使簡體中文文本只有 4 個(gè)字符,而英文文本有 14 個(gè)字符。

從 X 用戶 @Dylan Patel 曝光的圖片也可以直觀看到,讓 LLM 處理一句英語需要 17 個(gè)詞元(tokens),而讓 LLM 處理同樣意思的一句緬語,則需要 198 個(gè)詞元(tokens)。這意味著緬語的處理成本將達(dá)到英語的 11 倍。

類似的情況也有很多,Aleksandar Petrov 的網(wǎng)站中提供了許多相關(guān)的圖標(biāo)和數(shù)據(jù),感興趣的朋友不妨點(diǎn)擊「https://aleksandarpetrov.github.io/tokenization-fairness/」進(jìn)去查看語言之間的差異。

在 OpenAI 的官網(wǎng)上也有著類似的頁面,解釋了 API 是如何對一段文本進(jìn)行詞元化,以及顯示該文本的詞元總數(shù)。官網(wǎng)也提到,一個(gè)詞元通常對應(yīng)英語文本的約 4 個(gè)字符,100 個(gè)詞元約等于 75 個(gè)單詞。

得益于英語詞元序列長度短的優(yōu)勢,在生成式人工智能預(yù)訓(xùn)練的成本效益方面,英語可謂是最大贏家,將其他語言使用者遠(yuǎn)遠(yuǎn)地甩在身后,間接產(chǎn)生了一種不公平的局面。

除此之外,這種詞元序列長度的差異也會(huì)導(dǎo)致處理延遲不公平(某些語言處理同樣內(nèi)容需要更多時(shí)間)和長序列依賴性建模不公平(部分語言只能處理更短的文本)。

簡單點(diǎn)理解,就是某些語言的用戶需要支付更高的成本,承受更大的延遲,獲得更差的性能,從而降低了他們公平地訪問語言技術(shù)的機(jī)會(huì),也就間接導(dǎo)致了英語使用者和世界其他語言使用之間形成了 AI 鴻溝。

僅從輸出的成本來看,簡體中文的成本是英語的兩倍。伴隨著 AI 領(lǐng)域的深層次發(fā)展,總是「差一步」的簡體中文顯然并不友好。在成本等各方面疊加因素的權(quán)衡下,非英語母語的國家也紛紛嘗試開發(fā)自己的母語語言大模型。

以中國為例,作為國內(nèi)最早一批探索 AI 的巨頭,2023 年 3 月 20 日,百度正式上線生成式 AI 文心一言。

隨后阿里巴巴的通義千問大模型、華為的盤古大模型等一批批優(yōu)秀大模型也陸續(xù)涌現(xiàn)出來。

在這當(dāng)中,華為盤古大模型中的 NLP 大模型更是行業(yè)內(nèi)首個(gè)千億參數(shù)中文大模型,擁有 1100 億密集參數(shù),經(jīng)過 40TB 的海量數(shù)據(jù)訓(xùn)練而成。

正如聯(lián)合國常務(wù)副秘書長阿米娜 · 穆罕默德曾經(jīng)在聯(lián)合國大會(huì)上警告說,如果國際社會(huì)不采取果斷行動(dòng),數(shù)字鴻溝將成為「不平等的新面孔」。

同理,伴隨著生成式 AI 的狂飆突進(jìn),AI 鴻溝也很有可能成為新一輪值得關(guān)注的「不平等的新面孔」。

所幸的是,平時(shí)「慘遭嫌棄」的國內(nèi)的科技巨頭已然采取了行動(dòng)。

關(guān)鍵詞:

責(zé)任編輯:hnmd003

相關(guān)閱讀

相關(guān)閱讀

精彩推送

推薦閱讀