AI 大模型的語言不平等:英語訓(xùn)練費(fèi)用最便宜,漢語訓(xùn)練費(fèi)用是英語的 2 倍
其中英語輸入和輸出要比其他語言便宜得多,簡體中文的成本大約是英語的 2 倍,西班牙語的成本是英語的 1.5 倍,而緬甸撣語則是英語的 15 倍。
(資料圖片僅供參考)
究其原理,可以追溯到今年 5 月份牛津大學(xué)在 arXiv 上刊印的一篇的論文。
詞元是將自然語言文本轉(zhuǎn)換成詞元(token)序列的過程,是語言模型處理文本的第一步。在 LLM 計(jì)算力成本的核算中,詞元越多,耗費(fèi)計(jì)算力的成本越高。毫無疑問,在生成式 AI 商業(yè)化的趨勢下,計(jì)算力的耗費(fèi)成本也會(huì)嫁接給用戶,當(dāng)下許多 AI 服務(wù)也正是按照需要處理的詞元數(shù)量來計(jì)費(fèi)。
論文顯示,研究者通過分析 17 種詞元化方法后,發(fā)現(xiàn)同一文本被轉(zhuǎn)換成不同語言詞元序列時(shí)長度差異巨大,即使是宣稱支持多語言的詞元化方法,也無法做到詞元序列長度完全公平。
例如,根據(jù) OpenAI 的 GPT3 tokenizer,倘若給「你的愛意」詞元化,英語只需兩個(gè)詞元,而在簡體中文中則需要八個(gè)詞元。即使簡體中文文本只有 4 個(gè)字符,而英文文本有 14 個(gè)字符。
從 X 用戶 @Dylan Patel 曝光的圖片也可以直觀看到,讓 LLM 處理一句英語需要 17 個(gè)詞元(tokens),而讓 LLM 處理同樣意思的一句緬語,則需要 198 個(gè)詞元(tokens)。這意味著緬語的處理成本將達(dá)到英語的 11 倍。
類似的情況也有很多,Aleksandar Petrov 的網(wǎng)站中提供了許多相關(guān)的圖標(biāo)和數(shù)據(jù),感興趣的朋友不妨點(diǎn)擊「https://aleksandarpetrov.github.io/tokenization-fairness/」進(jìn)去查看語言之間的差異。
在 OpenAI 的官網(wǎng)上也有著類似的頁面,解釋了 API 是如何對一段文本進(jìn)行詞元化,以及顯示該文本的詞元總數(shù)。官網(wǎng)也提到,一個(gè)詞元通常對應(yīng)英語文本的約 4 個(gè)字符,100 個(gè)詞元約等于 75 個(gè)單詞。
得益于英語詞元序列長度短的優(yōu)勢,在生成式人工智能預(yù)訓(xùn)練的成本效益方面,英語可謂是最大贏家,將其他語言使用者遠(yuǎn)遠(yuǎn)地甩在身后,間接產(chǎn)生了一種不公平的局面。除此之外,這種詞元序列長度的差異也會(huì)導(dǎo)致處理延遲不公平(某些語言處理同樣內(nèi)容需要更多時(shí)間)和長序列依賴性建模不公平(部分語言只能處理更短的文本)。
簡單點(diǎn)理解,就是某些語言的用戶需要支付更高的成本,承受更大的延遲,獲得更差的性能,從而降低了他們公平地訪問語言技術(shù)的機(jī)會(huì),也就間接導(dǎo)致了英語使用者和世界其他語言使用之間形成了 AI 鴻溝。
僅從輸出的成本來看,簡體中文的成本是英語的兩倍。伴隨著 AI 領(lǐng)域的深層次發(fā)展,總是「差一步」的簡體中文顯然并不友好。在成本等各方面疊加因素的權(quán)衡下,非英語母語的國家也紛紛嘗試開發(fā)自己的母語語言大模型。
以中國為例,作為國內(nèi)最早一批探索 AI 的巨頭,2023 年 3 月 20 日,百度正式上線生成式 AI 文心一言。隨后阿里巴巴的通義千問大模型、華為的盤古大模型等一批批優(yōu)秀大模型也陸續(xù)涌現(xiàn)出來。
在這當(dāng)中,華為盤古大模型中的 NLP 大模型更是行業(yè)內(nèi)首個(gè)千億參數(shù)中文大模型,擁有 1100 億密集參數(shù),經(jīng)過 40TB 的海量數(shù)據(jù)訓(xùn)練而成。
正如聯(lián)合國常務(wù)副秘書長阿米娜 · 穆罕默德曾經(jīng)在聯(lián)合國大會(huì)上警告說,如果國際社會(huì)不采取果斷行動(dòng),數(shù)字鴻溝將成為「不平等的新面孔」。
同理,伴隨著生成式 AI 的狂飆突進(jìn),AI 鴻溝也很有可能成為新一輪值得關(guān)注的「不平等的新面孔」。
所幸的是,平時(shí)「慘遭嫌棄」的國內(nèi)的科技巨頭已然采取了行動(dòng)。
責(zé)任編輯:hnmd003
相關(guān)閱讀
-
AI 大模型的語言不平等:英語訓(xùn)練費(fèi)用最便宜,漢語訓(xùn)練費(fèi)用是英語的 2 倍
近日,X(原Twitter)用戶@DylanPatel展示了一份來自牛津大學(xué)的研究:
2023-08-01 -
消息稱 Meta 最早下月推出 AI 聊天機(jī)器人,著力增強(qiáng)用戶留存率
品玩8月1日訊,據(jù)新浪科技消息,Meta計(jì)劃最早于9月推出一系列能呈現(xiàn)不
2023-08-01
相關(guān)閱讀
-
AI 大模型的語言不平等:英語訓(xùn)練費(fèi)用最便宜,漢語訓(xùn)練費(fèi)用是英語的 2 倍
近日,X(原Twitter)用戶@DylanPatel展示了一份來自牛津大學(xué)的研究:
-
不再「遙遙領(lǐng)先」的問界,要造百萬級 MPV
6月共售出432臺,這是問界M7給出的月度答卷。這個(gè)數(shù)據(jù),實(shí)在是談不上「
-
奧迪“神車”跌入專車檔
撰文|趙晉杰編輯|王靖來源|盒飯財(cái)經(jīng)(ID:daxiongfan)奧迪CEO杜思曼到
-
每次升級都精準(zhǔn)切中用戶需求,2024款GS8真的太會(huì)了
當(dāng)今車市,就像魷魚干上鐵板——卷得不能再卷。合資價(jià)格一再下探,
-
《浮石之旅》攻略解析大全!詳細(xì)攻略!
集會(huì)所>農(nóng)場,有木材,優(yōu)先升級集會(huì)所,魔導(dǎo)技>鐵匠鋪>倉庫,浮石柱
-
馬云相中的福州大佬,體檢狂攬100億
來源:21世紀(jì)商業(yè)評論“持股550天,還虧著20%。”投資者李林曬出持股的
-
暴雨沖毀北京頂奢酒店大堂,房價(jià)最貴超萬元,官方回應(yīng)“在店賓客已轉(zhuǎn)移”
罕見強(qiáng)降雨席卷北京,號稱京城最貴酒店的悉曇酒店也被殃及。圖片來源:
-
2023年IPO被否:文依電氣營收激增,發(fā)明專利僅一項(xiàng),疑似踩線申報(bào)
來源|時(shí)代商學(xué)院作者|彭晨雨編輯|鄭少娜今年2月17日,證監(jiān)會(huì)發(fā)布全面實(shí)
-
直擊北京暴雨|門頭溝水峪嘴村有村民被困,救援正在進(jìn)行中
從昨天開始,北京人防浩天救援隊(duì)深入水峪嘴村展開營救,今天早上6時(shí)許
-
直擊北京暴雨|門頭溝一老人被淤泥掩埋,消防員兩小時(shí)成功救出
消防救援人員前往途中電話聯(lián)系報(bào)警人了解到,現(xiàn)場是一處半地下室結(jié)構(gòu),
-
村民被困房頂一夜 救援隊(duì)轉(zhuǎn)移房山區(qū)石樓鎮(zhèn)17位受災(zāi)群眾
龍口市蛟龍公益應(yīng)急救援隊(duì)一行共23人,接到救援任務(wù)后帶著4艘救援艇,
-
星火成炬 | 軍營正當(dāng)時(shí)
衛(wèi)國戍邊,用使命守護(hù)國泰民安。枕戈待旦,時(shí)刻保持戰(zhàn)斗姿態(tài),這就是中
-
消息稱 Meta 最早下月推出 AI 聊天機(jī)器人,著力增強(qiáng)用戶留存率
品玩8月1日訊,據(jù)新浪科技消息,Meta計(jì)劃最早于9月推出一系列能呈現(xiàn)不
-
百城新房均價(jià)連跌三月 政策頻出利好背景下樓市企穩(wěn)有望
財(cái)聯(lián)社8月1日訊(記者王海春)7月的房地產(chǎn)市場成交表現(xiàn)低于市場預(yù)期。
-
河南 3 名金融機(jī)構(gòu)高管任職資格獲批
8月1日消息,日前,河南3名金融機(jī)構(gòu)高管任職資格獲核準(zhǔn)。其中,國家金
-
京津冀等地遭遇極端強(qiáng)降雨 河北省11座大型水庫超汛限
強(qiáng)降雨對河北造成的影響依然在持續(xù),目前河北的防汛形勢如何?河北省11
-
大S終于可以安安穩(wěn)穩(wěn)地過日子了,兩個(gè)孩子終于回到了她的身邊
大S終于可以安安穩(wěn)穩(wěn)地過日子了,兩個(gè)孩子終于回到了她的身邊,大s,張?zhí)m
-
增額終身壽險(xiǎn)怎么算收益?一般是多少?
增額終身壽險(xiǎn)的收益主要包括兩部分:保險(xiǎn)金和現(xiàn)金價(jià)值。 具體來說,增
-
五險(xiǎn)幾歲交最合適?繳納要注意什么?
我們需要明確的是,五險(xiǎn)的繳納年齡并沒有一個(gè)固定的標(biāo)準(zhǔn)。根據(jù)國家規(guī)定
-
商業(yè)醫(yī)療保險(xiǎn)怎么賠付?有次數(shù)限制嗎?
商業(yè)醫(yī)療保險(xiǎn)的賠付方式通常分為兩種:直付和報(bào)銷。 首先是直付:在選
-
什么是終身壽險(xiǎn)?值得購買嗎?
終身壽險(xiǎn)是一種保險(xiǎn)產(chǎn)品,它提供了一種終身保障,無論被保險(xiǎn)人何時(shí)去世
-
個(gè)人如何購買補(bǔ)充商業(yè)醫(yī)療保險(xiǎn)?好處有哪些?
首先,個(gè)人可以通過保險(xiǎn)公司購買補(bǔ)充商業(yè)醫(yī)療保險(xiǎn)。保險(xiǎn)公司通常會(huì)提供
-
蔚小理又能一起玩了?蔚來7月交付量首破2萬輛,埃安、理想受困產(chǎn)能
8月1日,國內(nèi)多家造車新勢力品牌公布7月汽車交付量或銷量。其中,埃安
-
手機(jī)租賃被質(zhì)疑是高利貸?5個(gè)平臺手機(jī)租賃費(fèi)用對比,換算利率竟超50%
在共享經(jīng)濟(jì)蓬勃發(fā)展的背景下,手機(jī)租賃平臺如雨后春筍般冒起。更有平臺
-
《熱搜》閉幕FIRST青年電影展首次公開放映,先導(dǎo)預(yù)告曝光周冬雨變身自媒體主編
影片曝光一支先導(dǎo)預(yù)告,短短十幾秒的鏡頭信息含量頗多。周冬雨飾演的自
-
河北涿州全域停水 需要船只轉(zhuǎn)移群眾 基本情況講解
大家好,今日關(guān)于【河北涿州全域停水需要船只轉(zhuǎn)移群眾】迅速上了的熱搜
-
兩部門緊急預(yù)撥1.1億元支持京津冀地區(qū)防汛救災(zāi)
7月31日,財(cái)政部撥付8 42億元農(nóng)業(yè)防災(zāi)減災(zāi)和水利救災(zāi)資金,支持河北等1
-
投資多家漁業(yè)公司,馬云要去海上“淘寶”?
圖片來源:視覺中國天眼查顯示,近日馬云實(shí)控公司接連參投了一米八海洋
-
All in AI 之后,美圖為什么沒能做出妙鴨
圖片來源@視覺中國文|AI藍(lán)媒匯,作者|閆燁妙鴨AI相機(jī)的出圈仿佛是在一
-
下一代 Switch 或在明年推出,開發(fā)套件已交付
2017年3月3日,任天堂Switch正式發(fā)售。不到一天時(shí)間,各個(gè)首發(fā)國家或地
精彩推薦
閱讀排行
精彩推送
- 簽署《互不挖人公約》不到兩個(gè)月...
- 起亞二季度營業(yè)利潤超特斯拉,中...
- 塞內(nèi)加爾主要反對黨被勒令解散,...
- 重車壓梁保安全!93輛大型車輛駛...
- 平安壽險(xiǎn)在哪里可以查詢?查詢不...
- 商業(yè)醫(yī)療保險(xiǎn)怎么選擇?怎么用?
- 保險(xiǎn)公司可以單獨(dú)買百萬醫(yī)療險(xiǎn)嗎...
- 五險(xiǎn)交多久生孩子可以報(bào)銷?多久...
- 學(xué)生險(xiǎn)出院后報(bào)銷時(shí)效多長時(shí)間?...
- 完美世界游戲CEO魯曉寅:數(shù)智技...
- 東北誕生“醫(yī)美面膜第一股”,敷...
- 世紀(jì)華通被立案:百億收購后,開...
- 7月重磅合資合作一覽:吉利再與...
- 蔚來7月交付超2萬臺,全新ES6成主力
- 小鵬銷量破萬,7月交付11008臺新車
- 嵐圖汽車7月銷量3412輛,同比上漲90%
- 足壇巨星梅西成為赤水河酒代言人...
- 海底撈在演唱會(huì)門口“撈人”,為...
- 比亞迪公布極端天氣客戶關(guān)懷:含...
- “蔚小理”披露 7 月交付數(shù)據(jù)
- 智能門鎖 vs 智能門鈴:哪種是...
- 隋唐西市何時(shí)對外開放?洛陽市軌...
- 中國平安: 中國平安H股公告
- 龍芯中科研制成功新一代處理器
- 湖南工業(yè)大學(xué)舉辦“科普育人、材...
- 太平洋壽險(xiǎn)退保能退多少?怎么退?
- 五險(xiǎn)一金買多少年?一年要多少錢?
- 萬能型終身壽險(xiǎn)能避稅避債嗎?有...
- 大學(xué)生沒有畢業(yè)證可以交五險(xiǎn)一金...
- 城鄉(xiāng)居民醫(yī)療保險(xiǎn)交多少年不用交...