基于 Transformer 的大模型是如何運行的?Meta 從全局和上下文學習揭秘|世界看熱訊
機器之心報道
編輯:馬梓文
本文旨在更好地理解基于 Transformer 的大型語言模型(LLM)的內部機制,以提高它們的可靠性和可解釋性。
(相關資料圖)
隨著大型語言模型(LLM)在使用和部署方面的不斷增加,打開黑箱并了解它們的內部工作原理變得越來越重要。更好地理解這些模型是如何做出決策的,這對改進模型和減輕其故障(如幻覺或推理錯誤)至關重要。
眾所周知,最近 LLM 成功的一個重要因素是它們能夠從上下文中學習和推理。LLM 對這些上下文的學習能力通常歸功于 Transformer 架構,特別是自注意力塊的使用,其能夠仔細選擇輸入序列,進而推理出可信的下一個 token。此外,預測可能需要全局知識,如語法規則或一般事實,這些可能不會出現在上下文中,需要存儲在模型中。
我們不禁會疑問,為什么基于 Transformer 的模型非常擅長使用它們的上下文來預測新的 token,這種能力是如何在訓練中產生的?帶著這些問題,來自 Meta AI 的研究者進行了深入的研究。他們通過研究合成設置下 Transformer 的學習機制,揭示了其全局和上下文學習的平衡,并將權重矩陣解釋為聯想記憶,為理解和優化 Transformer 提供了基礎。
論文地址:https://arxiv.org/pdf/2306.00802.pdf首先要了解的是在訓練過程中 Transformer 是如何發現這些能力的。為此,該研究引入了一個合成數據集,該數據集由二元語言模型生成的序列組成。然后,模型需要依靠上下文學習來對特定的二元序列進行良好的預測,而全局二元可以根據當前 token 的全局統計數據進行猜測。雖然單層的 Transformer 無法可靠地預測上下文二元,但該研究發現通過開發感應頭(induction head)機制的雙層 Transformer 取得了成功,即擁有兩個注意力頭的 circuit,其允許 Transformer 從上下文 [ , a, b,, a ] 中預測 b,并且在 Transformer 語言模型中似乎無處不在。這種感應頭(induction head)機制在 Transformer 語言模型中是普遍存在的,并且取得了成功。
更進一步的,為了更好的了解上下文機制是怎樣出現在訓練過程中的,該研究在隨機初始化時凍結了一些層(包括嵌入和值矩陣)來進一步簡化模型架構。這樣一來研究重點轉移到注意力和前饋機制,同時避免了學習表征的困難。與此同時,這種簡化還為單個權重矩陣引入了一個自然模型作為聯想記憶。自然模型可以通過它們的外積存儲輸入 - 輸出或鍵 - 值對嵌入。隨機高維嵌入由于其接近正交性而特別適合這種觀點。
總結而言,該研究的貢獻可概括為:
本文引入了一種新的合成設置來研究全局和上下文學習:序列遵循二元語言模型,其中一些二元在序列中變化,而另一些不會。
本文將 Transformer 的權重矩陣視為學習存儲特定嵌入對的聯想記憶,并以此為任務推導出一個簡化但更可解釋的模型。
本文對訓練動態進行了細致的實證研究:首先學習全局二元,然后以自上而下的方式學習適當的記憶,形成感應頭。
本文給出了訓練動力學的理論見解,展示了如何通過在噪聲輸入中找到信號,在種群損失上進行一些自上而下的梯度步驟來恢復所需的聯想記憶。
方法介紹
接著該研究介紹了合成數據設置,這樣能夠仔細研究感應頭機制在訓練過程中的發展以及 Transformer 如何學習利用上下文信息的。
雙元數據模型:模型序列由一個通用的雙元語言模型(即馬爾可夫鏈)組成,每個序列的生成方式如下:
下圖 2 可視化了測試序列上的注意力圖,這表明該模型已經學習了感應頭機制。接著該研究介紹了 Transformer 聯想記憶觀點:因為幾乎正交的嵌入,權重矩陣表現為聯想記憶,將成對的嵌入存儲為其外積的加權和。研究引入了一個具有固定隨機嵌入的簡化 Transformer 模型,將用這種想法產生對學習動力學的精確理解。此外,該研究提出了一個有用的觀點,將 Transformer 中的模型權重視為高維嵌入向量的聯想記憶。感應頭機制可以通過以下外積矩陣作為記憶來獲得,而其他所有權重則固定為隨機初始化狀態:
實驗圖 3 研究了在迭代 300 次之前凍結不同層對訓練動態的影響。
全局 vs 上下文學習。從圖 4(左 / 右)可以看出,當聯合訓練所有層時,全局二元統計的學習速度往往比感應頭更快,這可以從早期迭代中的 loss 和 KL 的快速下降中看出。此外,從圖 4(左)中看到,數據分布的變化會對上下文機制的學習速度產生重大影響。該研究觀察到以下情況可能會使上下文學習減慢: ( i ) 較少數量的觸發器 K, ( ii ) 僅使用少有的固定觸發器,以及 ( iii ) 使用隨機觸發器而不是固定觸發器。
該研究還在圖 4(中間)中顯示,在訓練時將輸出 token 分布更改為二元分布會降低準確率,這表明,使用更多樣化的訓練分布可以產生具有更好泛化準確率的模型,并且只需少量的額外訓練成本。
更多研究內容,請參考原論文。THE END
轉載請聯系本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com
責任編輯:hnmd003
相關閱讀
相關閱讀
-
基于 Transformer 的大模型是如何運行的?Meta 從全局和上下文學習揭秘|世界看熱訊
機器之心報道編輯:馬梓文本文旨在更好地理解基于Transformer的大型語
-
ResponsibleTA 提升 LLM 可靠性,任務完成更安全、更高效 即時看
機器之心專欄機器之心編輯部AI智能助手照進現實。近幾個月,ChatGPT、G
-
大地震下如何存活,蘋果三份 1986 年文檔公開(附下載地址)_即時看
IT之家6月22日消息,蘋果公司在主推iPhone和Mac的過程中,也制造了很多
-
信息:佳能即將發布 V100 相機,主打 vlog 市場?
根據網絡上的最新傳聞,佳能即將擴展其V系列視頻記錄相機。目前產品線
-
小長假第1天,A股迎來2個利好!節后的方向定了?|新動態
行情,沒有好壞,只有節奏,不要盯著大盤指數了,雖然我知道大多數人都
-
端午臨近 市場消費升溫
傳統習俗帶動端午花束熱賣,用艾草葉、玉簪葉、菖蒲葉等組成的裝飾花、
-
【世界新視野】氫穩富氫水杯 H1 華為商城開啟眾測 快速科技制氫
【宅秘新聞】近日,氫穩富氫水杯H1在華為商城開啟眾測活動,正式發售價
-
環球速訊:內地買家攪動香港樓市,馮小剛離場凈賺 6000 萬港元,豪宅成交量大漲
本文來源:時代財經作者:林心林內地豪客再次攪動了香港樓市。圖片來源
-
全球今熱點:全國首部漸凍人康復系列片之《言語障礙康復》在崇川首發
交匯點訊6月16日下午,凝聚了崇川區幸福街道暖“凍”愛心聯盟所有成員
-
針對中國,一場“瘋狂騙局”在澳上演
在政府、右翼智庫、軍火工業和操縱公眾思維的媒體的共同壓制下,異見聲
-
iPhone SE 4 遙遙無期,平價 5G 蘋果手機或絕跡?_今熱點
巴克萊銀行分析師布萊恩柯蒂斯(BlayneCurtis)和湯姆奧馬利(TomO & 039;Malle
-
聚焦:白色手機消失了?安啦,數量不多,但還是有的
手機的配色越來越豐富,各種顏色和材質的搭配讓手機變得更加個性化和時
-
諾蘭專訪:AI 不是原子彈,但將其捧上神壇最危險
這可能是英國著名導演克里斯托弗·諾蘭,發布新片最好的時機,沒有之一
-
河北格力旗艦店 618 盛大開業 充分展現了渠道改革下的市場活力-今日觀點
關注雷科技(leitech),這里有深扒爆料,這里有酷玩評測,還有良心家電I
-
天天新動態:特斯拉的美國友商們入華,會被中國新勢力“卷”回老家嗎?
圖片來源@視覺中國文|電車通瘦田無人耕,耕開有人爭。繼本月初曝出美國
-
每日資訊:只買百萬醫療險有意義嗎?一年交多少錢?
有意義。雖然百萬醫療險在提供醫療保障方面具有一定的價值,夠買百萬醫
-
團體意外險怎么購買?多少錢?
購買團體意外險通常需要以下幾個步驟:選擇保險公司:首先,您需要選擇
-
扎克伯格不服馬斯克嘲諷,兩大科技領袖將上演籠斗大戲|消息
IT之家6月22日消息,在埃隆馬斯克最近在推特上發文說他愿意和扎克伯格
-
微軟確認 Xbox Series X 和 XGP 訂閱服務即將漲價
鈦媒體App6月22日消息,當地時間周三,微軟全球傳播主管KariPerez在向
-
對話藍晶微生物:科學家建工廠,要做 game changer 就別無選擇
訪、文|凌梓郡衛詩婕編輯|衛詩婕江蘇鹽城濱海區矗立著高大的白色風車
-
推特恢復向谷歌支付云服務費用 每日速訊
鈦媒體App6月22日消息,據市場消息,推特已經恢復向谷歌云支付服務費用
-
高盛上調日本股市目標位,預計半年度財報可能有驚喜 熱資訊
高盛上調日本股市目標位,稱對于日本企業改革的預期以及相對于海外市場
-
全球熱訊:蘋果宣布推出 visionOS 軟件開發包,開發者下月可在 Vision Pro 硬件上測試 app
蘋果公司北京時間6月22日宣布推出visionOS軟件開發包(SDK),支持開發
-
視焦點訊!微軟在香港正式推出 Bing 聊天機器人
6月22日,據《香港經濟日報》報道,微軟在香港正式推出Bing聊天機器人
-
美股牛市不穩?高盛:若美經濟步入衰退 標普 500 料大跌 23%|全球滾動
財聯社6月22日訊(編輯黃君芝)高盛(GoldmanSachs)在最新報告中表示
-
《秀我中國 | 新時代中國鄉村志(第四集):千年梯田 十年新生》
松花江網,是經國家互聯網信息辦公室批準的國家一類新聞網站,吉林省重
-
華貴人壽保險可信嗎?怎么買? 天天時訊
可信。監管合規性:華貴人壽保險嚴格遵守監管機構的規章制度,按照法律
-
增額終身壽險定義是什么?有什么用?-焦點觀察
增額終身壽險是一種壽險,它與傳統的終身壽險相比,在保障的基礎上增加
-
太平百萬醫療優缺點有哪些?一年交多少錢?-環球速訊
優點:全面保障:太平百萬醫療保險提供了全面的醫療保障,覆蓋住院醫療
-
環球看熱訊:泰康健康有約終身重大疾病保險H款怎么樣?靠譜嗎?
泰康健康有約終身重大疾病保險H款是一款特定類型的重大疾病保險產品。
精彩推薦
閱讀排行
精彩推送
- 商業意外險的賠償范圍有哪些?一...
- 天璣曲面屏之王!vivo X90s 上...
- 谷歌幽默新廣告嘲笑 iPhone 過...
- 全球球精選!保護中國海外投資利...
- 天天信息:賈躍亭發文致歉!
- 天天快資訊丨微軟在香港正式推出...
- “超市界海底撈”董事長宣布退休...
- 高新區召開危化品重大事故隱患專...
- 每日消息!美國文學亨利詹姆斯課...
- 最新:百萬醫療保險購買流程是什...
- 速訊:泰康人壽逸安衛年金險亮點...
- 平安百萬醫療電話是多少?電話投...
- 福祿康瑞2018重疾險20年后可以拿...
- 世界速讀:國壽康寧終身重大疾病...
- 周浩 在創新路上奮勇前行
- 今日播報!電力微網格織出居民“...
- 世界最資訊丨端午出游好去處,OP...
- 環球熱點!通用機器人里程碑?谷...
- 通訊!中國柔性 OLED 市占首超...
- 福特 CEO 嘲諷特斯拉 Cybertr...
- 三年虧損 614 億,東航“玩不...
- 理想吹響城市 NOA 號角:激光...
- 共享按摩椅,我一秒鐘都不想坐|...
- 每日看點!華為爆出大動作!將有...
- “中國天眼”發現迄今軌道周期最...
- 哪種百萬醫療險保證續保?續保流...
- 泰康人壽逸安衛有什么投保規則?...
- tomo放療百萬醫療可以報銷嗎?百...
- 少兒百萬醫療保險推薦?有必要買...
- 每日資訊:水滴百萬醫療險保障范...