環球短訊!跑分達 ChatGPT 的 99%,人類難以分辨!開源「原駝」爆火,iPhone 都能微調大模型了
自動測試分數達到ChatGPT 的 99.3%,人類難以分辨兩者的回答……
(資料圖片僅供參考)
這是開源大模型最新成果,來自羊駝家族的又一重磅成員——華盛頓大學原駝(Guanaco)。
更關鍵的是,與原駝一起提出的新方法QLoRA把微調大模型的顯存需求從 >780GB 降低到 <48GB。開源社區直接開始狂歡,相關論文成為 24 小時內關注度最高的 AI 論文。
以 Meta 的美洲駝 LLaMA 為基礎,得到原駝650 億參數版只需要 48GB 顯存單卡微調 24 小時,330 億參數版只需要 24GB 顯存單卡微調 12 小時。24GB 顯存,也就是一塊消費級 RTX3090 或 RTX4090 顯卡足以。
不少網友在測試后也表示,更喜歡它而不是 ChatGPT。
英偉達科學家 Jim Fan 博士對此評價為:大模型小型化的又一里程碑。先擴大規模再縮小,將成為開源 AI 社區的節奏。
而新的高效微調方法 QLoRA 迅速被開源社區接受,HuggingFace 也在第一時間整合上線了相關代碼。GPT-4 做裁判,原駝得分達到 ChatGPT 的 99.3%論文中,團隊對原駝總共做了三項測試,自動評估、隨機匹配和人類評估。
測試數據來自小羊駝 Vicuna 和 Open Assistant。
自動評估由大模型天花板 GPT-4 當裁判,對不同模型的回答進行打分,以 ChatGPT(GPT3.5)的成績作為 100%。
最終原駝 650 億版得分達到 ChatGPT 的 99.3%,而 GPT-4 自己的得分是 114.5%,谷歌 Bard 是 94.8%。
隨機匹配,采用棋類專業比賽和電子競技同款的 Elo 記分機制,由 GPT-4 和人類共同做裁判。原駝 650 億和 330 億版最終得分超過 ChatGPT(GPT3.5)。
人類評估,則是把原駝 650 億版的回答和 ChatGPT 的回答匿名亂序放在一起,人類來盲選哪個最好。論文共同一作表示,研究團隊里的人都很難分辨出來,并把測試做成了一個小游戲放在 Colab 上,開放給大家挑戰。
這里節選其中一個問題(附中文翻譯),你能分辨出哪個是 ChatGPT 回答的嗎?問題:How can I improve my time management skills?(如何提高時間管理技能?)
(完整測試地址在文末)總的來說,原駝的優勢在于不容易被問題中的錯誤信息誤導,比如能指出地球從來沒有被科學界認為是平的。
以及擅長心智理論(Theory of Mind),也就是能推測理解他人的心理狀態。但原駝也并非沒有弱點,團隊發發現它不太擅長數學,以及容易用提示注入攻擊把要求保密的信息從它嘴里套出來。也有網友表示,雖然一個模型能在某個數據集上無限接近 ChatGPT,但像 ChatGPT 那樣通用還是很難的。全新方法 QLoRA,iPhone 都能微調大模型了原駝論文的核心貢獻是提出新的微調方法QLoRA。
其中 Q 代表量化(Quantization),用低精度數據類型去逼近神經網絡中的高精度浮點數,以提高運算效率。
LoRA 是微軟團隊在 2021 年提出的低秩適應(Low-Rank Adaptation)高效微調方法,LoRA 后來被移植到 AI 繪畫領域更被大眾熟知,但最早其實就是用于大語言模型的。
通常來說,LoRA 微調與全量微調相比效果會更差,但團隊將 LoRA 添加到所有的線性層解決了這個問題。
具體來說,QLoRA 結合了 4-bit 量化和 LoRA,以及團隊新創的三個技巧:新數據類型 4-bit NormalFloat、分頁優化器(Paged Optimizers)和雙重量化(Double Quantization)。最終 QLoRA 讓4-bit的原駝在所有場景和規模的測試中匹配 16-bit 的性能。
QLoRA 的高效率,讓團隊在華盛頓大學的小型 GPU 集群上每天可以微調 LLaMA 100 多次……最終使用 Open Assistant 數據集微調的版本性能勝出,成為原駝大模型。
Open Assistant 數據集來自非盈利研究組織 LAION(訓練 Stable Diffusion 的數據集也來自這里),雖然只有 9000 個樣本但質量很高,經過開源社區的人工仔細驗證。
這 9000 條樣本用于微調大模型,比 100 萬條指令微調(Instruction Finetune)樣本的谷歌 FLAN v2 效果還好。
研究團隊也據此提出兩個關鍵結論:
數據質量 >> 數據數量
指令微調有利于推理,但不利于聊天
最后,QLoRA 的高效率,還意味著可以用在手機上,論文共同一作 Tim Dettmers 估計以iPhone 12 Plus 的算力每個晚上能微調 300 萬個單詞的數據量。
這意味著,很快手機上的每個 App 都能用上專用大模型。
論文:https://arxiv.org/abs/2305.14314
GitHub:
https://github.com/artidoro/qlora
與 ChatGPT 對比測試:
https://colab.research.google.com/drive/1kK6xasHiav9nhiRUJjPMZb4fAED4qRHb
330 億參數版在線試玩:
https://huggingface.co/spaces/uwnlp/guanaco-playground-tgi
參考鏈接:
[ 1 ] https://twitter.com/Tim_Dettmers/status/1661379376225697794
[ 2 ] https://huggingface.co/blog/4bit-transformers-bitsandbytes
責任編輯:hnmd003
相關閱讀
-
環球短訊!跑分達 ChatGPT 的 99%,人類難以分辨!開源「原駝」爆火,iPhone 都能微調大模型了
自動測試分數達到ChatGPT的99 3%,人類難以分辨兩者的回答……這是開源大模型最新成果,來自羊駝家族的...
2023-05-25 -
比 ChatGPT 大 5 倍!英特爾官宣 1 萬億參數 AI 大模型,計劃 2024 年完成
整理|鄭麗媛出品|CSDN(ID:CSDNnews)眼看著ChatGPT持續爆火了幾個月,期間微軟、谷歌、Meta等科技巨頭接
2023-05-25 -
天天最資訊丨iOS 17 要來了 蘋果 WWDC23 大會日程出爐:6 月 6 日開幕
【TechWeb】5月25日消息,據外媒報道,周二,蘋果公司正式公布了年度開發者大會(WWDC23)的日程,包括主題
2023-05-25 -
熱消息:“大家都在搶我們的芯片!”英偉達發布強勁財報,股價飆升至歷史新高
這一波AI浪潮的大火,讓全球AI算力龍頭英偉達的股價再一次噌噌地坐上了火箭。英偉達今天發布了截至2023年4
2023-05-25
相關閱讀
-
環球短訊!跑分達 ChatGPT 的 99%,人類難以分辨!開源「原駝」爆火,iPhone 都能微調大模型了
自動測試分數達到ChatGPT的99 3%,人類難以分辨兩者的回答……這是開源大模型最新成果,來自羊駝家族的...
-
不薅血虧!榮耀手機推出免費貼膜活動 換屏最低打 3 折-全球消息
【手機中國新聞】對于智能手機用戶而言,貼膜帶殼屬于最基本的操作,但膜和殼畢竟不耐用,因此需要頻繁更換
-
理想智駕提速:感知換帥,芯片提速,高層赴美招人 環球觀熱點
品玩5月25日訊,據36氪報道,近期理想汽車一些核心高管如理想汽車高級副總裁范皓宇、智能駕駛副總裁郎咸朋
-
比 ChatGPT 大 5 倍!英特爾官宣 1 萬億參數 AI 大模型,計劃 2024 年完成
整理|鄭麗媛出品|CSDN(ID:CSDNnews)眼看著ChatGPT持續爆火了幾個月,期間微軟、谷歌、Meta等科技巨頭接
-
小鵬汽車,等待拐點
圖片來源@視覺中國文|深途,作者|黎明,編輯|艾小佳正處于自我變革中的小鵬汽車,發布了2023年一季度財報。
-
環球快看點丨堪比光刻機的冷凍電鏡,采購量年年提升,何時才能國產化?
圖片來源@視覺中國文|vb動脈網冷凍電鏡+清華大學=CNS?在網絡上時常能看見冷凍電鏡+清華大學=CNS(Cell+Nat
-
今日訊!日系車,正在被時代拋棄
圖片來源@視覺中國文|鋅財經,作者|路世明,編輯|大風省油、耐用、保值,這是中國消費者對日系車多年以來的
-
新能源“下沉”,打不起“價格戰”
圖片來源@視覺中國文|科技新知站在北上廣等一線城市的高架橋上,放眼望去,十輛汽車中最少有一半都是綠牌;
-
環球訊息:合生創展舊改“野心”難以實現?多個項目 10 年仍未動工
「核心要點」在廣東地產圈,合生創展曾經是華南五虎之一。與其他四家開發商的風格不一樣,合生創展不搞快周
-
iphone13運行內存多少?運行內存越大手機越流暢嗎?
iphone13運行內存多少?iphone13的運行內存為4GB。蘋果13系列中,iPhone13 mini和iPhone13的內存為4GB,...
-
什么是ppt?ppt怎么讓圖片一張一張出來?
什么是ppt?PPT是由微軟公司推出的一款圖形演示文稿軟件,全稱為PowerPoint,,大家都喜歡說成英文PPT,...
-
蘭州金城中心董事長(劉鈺 蘭州金城扛把子信息科技有限公司總經理)
當前大家對于劉鈺蘭州金城扛把子信息科技有限公司總經理都是頗為感興趣的,大家都想要了解一下劉鈺蘭州金城
-
iphone12是雙卡嗎?蘋果12第二個卡槽在哪?
iphone12是雙卡嗎?iphone12是雙卡雙待手機,iPhone 12全系列包括iPhone 12、iPhone 12 Pro、iPhone 12 Pro Max,iPhone 12 mini、
-
微信旁邊有個小雨傘是什么意思?微信小雨傘怎么關?
微信旁邊有個小雨傘是什么意思?這是微信的青少年模式。微信青少年模式開啟后便會顯示小雨傘,使用者將會...
-
長城舉報比亞迪污染物排放不達標!長城新能源和比亞迪新能源哪個好?
長城舉報比亞迪污染物排放不達標!長城汽車舉報比亞迪。5月25日,長城汽車發布聲明,4月11日,長城汽車向...
-
微信二維碼怎么用?微信二維碼怎么改圖案?
微信二維碼怎么用?我們打開微信。點擊右下角的我點擊支付按鈕,在最上邊有一個收付款,我們點開。這個時...
-
理財起息是什么意思?理財起息日當天還能購買嗎?
理財起息是什么意思?理財起息指的是購買理財產品后開始計算利息的時間。因為理財產品上市之后一般都有產...
-
支付寶提現時間多久到賬?支付寶提現怎么免手續費?
支付寶提現時間多久到賬?1、一般有三種到賬模式,分別是預計2小時內到賬、預計當日24點前到賬以及預計明...
-
富德生命百萬醫療怎么樣?如何投保?
富德生命百萬醫療保險是一款非常好的保險產品,因為它提供了全面的保障,包括住院醫療、門診醫療、重疾保障
-
時訊:百萬醫療保險怎樣買?有必要買嗎?
有必要。百萬醫療保險作為醫療保險中的一種,其主要目的是為被保險人提供百萬元以上的醫療保障。在現如今醫
-
速騰保險一年多少錢?購買速騰車保險要注意什么?
速騰車型的保險費用取決于多個因素,包括被保險人的性別、年齡、駕齡、車型、車齡等。如果您選擇投保速騰車
-
今日熱訊:百萬醫療多少可以報銷?如何報銷?
一般來說,不同保險公司的百萬醫療保險合同中規定的報銷金額也不盡相同。在國內市場上,百萬醫療保險的報銷
-
平安百萬醫療的優缺點是什么?如何購買?-環球即時
1 優點(1)保障全面:平安百萬醫療保險是一款全面覆蓋的醫療保險產品,可以為被保險人提供住院、手術、門
-
SID 2023:京東方獨占“C位”精彩
當60歲的SID展會遇見30歲的京東方,會擦出怎樣的火花。這對全球半導體顯示行業的“黃金組合”,以相互致...
-
當前熱文:AI前哨|ChatGPT捧紅OpenAI創始人:追隨者仰慕 抗議者怒斥其詐騙
鳳凰網科技訊《AI前哨》北京時間5月25日消息,ChatGPT的火爆儼然讓OpenAICEO薩姆·阿爾特曼成了一位大明星
-
熱點評!刷掌支付“試水”交通場景應用 大范圍推廣仍待時日
日前,“微信刷掌支付接入北京大興機場線”的話題一度沖上熱搜。記者注意到,對于這類生物識別支付方式...
-
iOS 17要來了 蘋果WWDC23大會日程出爐:6月6日開幕_焦點熱訊
【TechWeb】5月25日消息,據外媒報道,周二,蘋果公司正式公布了年度開發者大會(WWDC23)的日程,包括主題
-
百度何俊杰:用AI原生思維“刷新”百度APP、搜索、文庫、電商等產品 環球最資訊
【TechWeb】5月25日消息,在2023萬象·百度移動生態大會上,百度集團資深副總裁、百度移動生態事業群組(ME
-
現貨黃金如何交易?現貨黃金是誰來控制價格的?
現貨黃金如何交易?現貨黃金交易的方式為漲跌雙向操作,保證金,T+0制度,不需要使用100%的資金,現在很...
-
股票配售是好是壞?股票配售的可轉債怎么申購?
股票配售是好是壞?股票配售是股票行業的術語,配股是指上市公司在獲得必要的批準后,向其現有股東提出配...
精彩推薦
閱讀排行
精彩推送
- 招商銀行一卡通屬于幾類卡?招商...
- 股票生命線是幾日線?股票生命線...
- 瓜熟蒂落近義詞成語_瓜熟蒂落近...
- 未決賠款準備金是什么?未決賠款...
- 民生銀行積分怎么獲得?民生銀行...
- 鄭州市上街區打造養老服務“上街...
- 天天最資訊丨iOS 17 要來了 ...
- 熱消息:“大家都在搶我們的芯片...
- 榮耀逆周期:一次搶灘、一場加碼...
- 環球觀焦點:張文宏,有新身份!
- 35 萬的寶馬直降 10 萬!這個...
- 世界速遞!中國出海“四小龍”想...
- 比亞迪回應長城汽車舉報:檢測報...
- 贏得互聯網出海的第三次勝利,中...
- 招商銀行信用貸款需要什么條件?...
- 不到300的半入耳主動降噪耳機!i...
- 百萬醫療有稅優識別碼嗎?在哪里?
- 百萬醫療和重疾有什么區別?靠譜...
- 百萬醫療險陷阱是真的嗎?值得買...
- 如e康悅百萬醫療c款怎么樣?靠譜...
- 腦腸軸再添力證,調節腸道菌群或...
- 平安百萬醫療保險對比其他醫療保...
- Stellantis或減少向美國出口汽油車型
- 北京制定工作指南,明確養老志愿...
- 天天亮點!小米業績超預期!Q1凈...
- 全球熱推薦:波音:正利用 AI ...
- BatLoader 在路過式網絡攻擊中...
- 索尼:持續加大在中國的研發投入...
- 世界速訊:Reno 交融了 Find,...
- AI 行情不是泡沫!研究機構和美...