Transformer 六周年:在它之前世界平淡,在它之后世界地覆天翻
一直以來,人工智能領域的學者和工程師們都試圖讓機器學習人類的語言和說話方式,但進展始終不大。
因為人類的語言太復雜,太多樣,而組成它背后的機制,往往又充滿著不可名狀的規律。
過去人們在自然語言處理中多采用 RNN 循環神經網絡,它十分類似于人類邏輯上對語言的理解——強調上下文順序、前后文邏輯關系。
【資料圖】
但是這種順序方式讓 RNN 無法實現并行計算,也就是說,它的速度十分緩慢,而規模也很難擴大。
直到 2017 年 6 月 12 日,一篇名為 Attention is All You Need 的論文被提交到預印論文平臺 arXiv 上。
一切從此改變。
Transformer 的提出直接導致導致了現在生成式 AI 風暴。機器好像在一瞬間就學會了如何與人類自如交流。
在 Transformer 提出前,人們討論的是如何讓智能音箱聽懂你的提問,而 Transformer 之后,人們討論的重點變成了該如何防范 AGI 通用智能對人類造成的危險。
Attention is All You Need 這篇論文的重要性可見一斑,剛剛過去的 12 號正是它六周歲生日。
Transformer 這個名字據說來自論文聯合作者之一的 Llion Jones,原因無它,因為 attention (注意力)這個詞聽上去實在是有點不酷。
Llion Jones 也是目前八個論文聯合作者中唯一一個還在谷歌上班的人。剩下的七個人都紛紛離職創業。最有名的大概是 Character AI,創始人是論文作者之一的 Noam Shazeer,他之前在谷歌工作了 20 年,負責構建了 LaMDA。
那么 Transformer 究竟有什么點石成金的魔力呢?我們盡量用通俗易懂的話來解釋。
Transformer 徹底拋棄了前面提到的 RNN 循環神經網絡這套邏輯,它完全由自注意力機制組成。
大家都有過這樣的經驗,打亂個一子句中字詞序順的多很時候不并響影對你句子的解理。比如上面這句。
這是因為人腦在處理信息時會區分權重,也就是說,我們的注意力總是被最重要的東西吸引走,次要的細節則被忽略。
Transformer 模仿了這一點,它能夠自動學習輸入的序列中不同位置之間的依賴關系并計算其相關性(而不是對整個輸入進行編碼)。這讓針對序列的建模變得更加容易和精準。
在深度學習中引入這種機制,產生了兩個明顯好處。
一方面,并行計算得以實現,基于 Transformer 架構的模型可以更好地利用 GPU 進行加速。由此,Transformer 為預訓練模型的興起奠定了基礎,隨著模型的規模越來越大,神經網絡開始出現所謂 " 智能涌現 ",這正是人們認為像 GPT 這樣的大模型打開了 AGI 通用人工智能大門的原因。
另一方面,盡管最開始 Transformer 的提出是被用來解決自然語言,更準確地說,機器翻譯問題,但很快人們就發現,這種注意力機制可以推廣到更多領域——比如語音識別和計算機視覺。基于 Transformer 的深度學習方法實際上適用于任何序列——無論是語言還是圖像,在機器眼中它們不過是一個個帶規律的向量。
在這兩種優點的共同作用下,人工智能領域迎來了前所未有的爆發,后面的故事我們都知道了。
下面是關于 Transformer 的幾個 fun facts。前面三個來自英偉達 AI 科學家 Jim Fan 慶祝 Transformer 架構被提出六周年的推文。1、注意力機制不是 Transformer 提出的。
注意力機制是深度學習三巨頭之一的 Yoshua Bengio 于 2014 年提出的。這篇名為 Neural Machine Translation by Jointly Learning to Align and Translate 的論文中首次提出了注意力機制。堪稱自然語言處理里程碑級的論文。在那之后許多人都投身于對注意力機制的研究,但直到 Transformer 論文的出現大家才明白——相對別的因素而言,只有注意力機制本身才是重要的。
2、Transformer 和注意力機制最初都只為了解決機器翻譯問題。
未來人們回溯 AGI 的起源,說不定要從谷歌翻譯開始。盡管注意力機制幾乎可以用在深度學習的所有領域,但一開始不管是 Yoshua Bengio 的論文還是 Transformer 架構,都單純是為了提高機器翻譯的效果。
3、Transformer 一開始并未引人注意,至少對 NeurIPS 來說如此。
NeurIPS 2017 上一共有 600 多篇論文被接受,Transformer 是其中之一,但也僅此而已了。諷刺的是當年 NeurIPS 上的三篇最佳論文聯合起來的引用次數只有五百多次。
4、OpenAI 在 Transformer 發布的第二天就 all in 。
雖然很多人一開始并沒有意識到 Transformer 的威力,但這其中顯然不包括 OpenAI。他們在 Transformer 甫一發布就迅速意識到了這意味著什么,并迅速決定完全投入其中。
實際上,GPT 中的 T 正是 Transformer。
5、Transformer 幾乎立刻取代了 LSTM 的地位。
在 Transformer 提出之前,自然語言處理使用廣泛的是名叫長短期記憶網絡 LSTM 的序列生成模型,它的一大缺陷是對輸入內容的先后順序敏感,因此無法大規模使用并行網絡計算。
然而在 Transformer 被提出之前,許多人都認為 LSTM 將在很長一段時間內容主導 NLP 的發展。
責任編輯:hnmd003
相關閱讀
相關閱讀
-
Transformer 六周年:在它之前世界平淡,在它之后世界地覆天翻
理解了人類的語言,就理解了世界。一直以來,人工智能領域的學者和工程
-
索尼發布 FX6 和 CineAltaV 2 固件升級預告|全球信息
2023年6月9日,索尼(中國)有限公司發布關于兩款電影攝影機產品固件升
-
英偉達、甲骨文聯手投資的 AI 獨角獸,能否戰勝 OpenAI?-全球聚焦
白宮、歐盟、中國、日本,這不是某國政要的出訪行程,而是近期大熱公司
-
環球視訊!利安人壽鑫享人生年金保險怎么樣?有什么保障?
還是不錯的。鑫享人生保險計劃在猶豫期10天結束后即可領取生存金,給付
-
【熱聞】央行年內首次降息!市場早有預期,穩增長政策加碼
圖片來源:圖蟲創意10個月按兵不動后,央行宣布7天逆回購利率下降10個
-
天天熱推薦:國華真愛養老年金保險(萬能型)可靠嗎?特點有哪些?
可靠。作為國內知名的金融保險公司,國華人壽在行業內具有非常高的聲譽
-
年金保險按照給付方式可分為哪幾種?年金保險有什么功能?_全球新資訊
可以分為定期生存年金、終身年金和兩全年金。定期生存年金保障期限固定
-
天天速訊:國壽鑫裕尊享年金保險是哪個保險公司的?提供什么保障?
國壽鑫裕尊享年金保險是由中國人壽保險股份有限公司推出的一款養老保險
-
人壽百萬醫療價格表怎么查詢?都保什么病?
1、直接在保險公司官方網站查詢,可以在官方網站找到關于產品價格的信
-
手機廠商對擂護眼屏:玩手機真的能不傷眼睛嗎?
作者|孫鵬越編輯|大風近日,榮耀發布新一代數字旗艦榮耀90系列,將手
-
每日看點!半次元停服了,我的快樂老家沒有了
題圖 半次元中國二次元社區建立不易守卻更難6月12日晚,一則停服公告,
-
對標谷歌 MusicLM!Meta 發布開源音樂模型 MusicGen
財聯社6月13日訊(編輯夏軍雄)隨著聊天機器人ChatGPT的興起,人們開始
-
【速看料】拒絕頂級 CMOS,“谷歌手機”打的是什么算盤
眾所周知,如今在智能手機行業中,頂級CMOS幾乎是所有品牌都爭相追捧的
-
環球快看:三星或換用水滴鉸鏈,折疊屏手機已距離普及不遠
日前有消息源透露,三星方面或將會在新款折疊屏機型GalaxyZFold5上換用
-
金田股份: 截至2023年6月9日的股東總戶數為55,294-天天要聞
金田股份(601609)06月13日在投資者關系平臺上答復了投資者關心的問題。
-
泰康鑫福年金保險條款介紹,怎么樣?_觀焦點
泰康鑫福年金險的保單條款包括投保規則、保障責任、免責條款、保費繳納
-
建信人壽尊享金生年金保險怎么樣?值得購買嗎? 前沿資訊
年金領取方式多樣,建信尊享金生年金保險提供了“三金”領取方式,具體
-
陽光人壽附加財富賬戶年金保險E款怎么樣?保障什么?
還是非常不錯的。該款產品采用分紅累積方式,除了享受基本保險合同約定
-
天天百事通!華夏財富寶養老年金保險(C款)怎么樣?保終身嗎?
還是不錯的。華夏財富寶養老年金保險C款是一種旨在幫助人們為退休后的
-
天天微速訊:國壽鑫享鴻福年金保險c款提供什么保障?適合什么人買?
國壽鑫享鴻福年金險提供了生存保險金、滿期保險金和身故保險金等多種保
-
量子科技強化頂層設計 量子計算機有望成為AI算力“神藥”?丨行業風口
近日,科技部部長王志剛赴合肥調研量子科技發展情況,對加強國家量子科
-
雙碳落向“實”處 “綠色”引領高質量發展
能源技術及其關聯產業表現出旺盛的生命力,有望成為帶動產業升級的新增
-
微信鍵盤全平臺體驗:最適合微信的輸入法,但不適合所有人|每日時訊
輸入「愛你」,按下「3」,選擇發送表情包。輸入「1 」,換行,就會出
-
三星 S24 Ultra 相機規格曝光 2 億主攝不變 長焦鏡頭微調
【手機中國新聞】近期,三星S24Ultra新一代旗艦機的消息不斷在網上傳來
-
小米 Civi 3 頂配版正式開售,1TB 存儲僅 2999 元
作為小米旗下面向年輕消費群體打造的產品序列,在機身顏值與影像能力上
-
ChatGPT 或提供更多功能,如定義人設和長文分析_世界今亮點
日前,一位名為kocham_psy的Reddit用戶透漏,已在ChatGPT的源代碼中發
-
華為 nova 系列或迎來折疊屏機型,價格將更親民 世界焦點
此前,華為方面就已憑借著旗下諸如PocketS、MateXs2、P50Pocket等折疊
-
央行意外調降 OMO 利率 10bp,債市全線走強,現券長端收益率下行近 5bp 天天信息
財聯社6月13日訊(編輯劉海)央行意外調降7天OMO利率10bp,債市全線走
-
奈雪的茶被傳 7 月開放加盟:公司回應暫未收到消息,新茶飲規模戰激烈_世界播報
本文來源:時代周報作者:涂夢瑩新茶飲市場再次卷進規模戰?近日,據市
-
曾經千億 PE 巨頭九鼎帝國崩塌,前腳分配 7.5 億股息,后腳美元債展期,債權人當了冤大頭?-天天播資訊
財聯社6月13日訊(實習編輯葛宇)曾經的PE巨頭、號稱業界戰斗機的九鼎
精彩推薦
閱讀排行
精彩推送
- 炒停售沖刺 630,有保險代理人...
- 福建千億資產國企入主 4 年,...
- 中國首次!這項世界頂級大會將在...
- 退市!大股東增持也救不了*ST海...
- 開店十五年首獲融資,茶百道會成...
- 子公司總經理用公款存錢,實控人...
- 時代IPO快訊:燕之屋首次遞表港...
- 穩利來5號年金保險a款好嗎?保障...
- 金彩一生終身年金保險介紹,好嗎...
- 續保終身的百萬醫療險有哪些?能...
- 銀行推薦增額壽險可靠嗎?有風險...
- 買了重疾險可以退嗎?能退多少錢?
- 福特被曝在華大裁員 世界看點
- 環球報道:股東分配利潤要交什么...
- 百度盤前漲近5% 蘇寧易購百萬款...
- 茅臺擬斥資參與設立產業發展基金...
- 最新快訊!五菱旗下宏光MINIEV家...
- 播報:貴州茅臺股東大會舉行 超...
- 搜索造假?微軟瀏覽器中搜索 Ch...
- 舒適不暈系統強:試用蘋果 Visi...
- 存儲芯片反轉信號涌現 機構看好...
- 各大品牌為何扎堆換 logo?帶你...
- SpaceX 實現第 200 次火箭發...
- AMD 明天放大招!多位選手跑步...
- 緊急通知!國家游泳中心“水立方...
- 厄爾尼諾事件標志我國降水“南澇...
- 主任帶著科室醫生一起吃回扣,9...
- 江南布衣“布盡其用”項目成果亮...
- 焦點資訊:太原周大福黃金價格今...
- 觀察:梅西淘寶直播首秀的主播,...