首頁 > 新聞 > 智能 > 正文

Transformer 六周年:在它之前世界平淡,在它之后世界地覆天翻

2023-06-13 20:23:07來源:ZAKER科技  

理解了人類的語言,就理解了世界。

一直以來,人工智能領域的學者和工程師們都試圖讓機器學習人類的語言和說話方式,但進展始終不大。

因為人類的語言太復雜,太多樣,而組成它背后的機制,往往又充滿著不可名狀的規律。

過去人們在自然語言處理中多采用 RNN 循環神經網絡,它十分類似于人類邏輯上對語言的理解——強調上下文順序、前后文邏輯關系。


【資料圖】

但是這種順序方式讓 RNN 無法實現并行計算,也就是說,它的速度十分緩慢,而規模也很難擴大。

直到 2017 年 6 月 12 日,一篇名為 Attention is All You Need 的論文被提交到預印論文平臺 arXiv 上。

一切從此改變。

Transformer 的提出直接導致導致了現在生成式 AI 風暴。機器好像在一瞬間就學會了如何與人類自如交流。

在 Transformer 提出前,人們討論的是如何讓智能音箱聽懂你的提問,而 Transformer 之后,人們討論的重點變成了該如何防范 AGI 通用智能對人類造成的危險。

Attention is All You Need 這篇論文的重要性可見一斑,剛剛過去的 12 號正是它六周歲生日。

Transformer 這個名字據說來自論文聯合作者之一的 Llion Jones,原因無它,因為 attention (注意力)這個詞聽上去實在是有點不酷。

Llion Jones 也是目前八個論文聯合作者中唯一一個還在谷歌上班的人。剩下的七個人都紛紛離職創業。最有名的大概是 Character AI,創始人是論文作者之一的 Noam Shazeer,他之前在谷歌工作了 20 年,負責構建了 LaMDA。

那么 Transformer 究竟有什么點石成金的魔力呢?我們盡量用通俗易懂的話來解釋。

Transformer 徹底拋棄了前面提到的 RNN 循環神經網絡這套邏輯,它完全由自注意力機制組成。

大家都有過這樣的經驗,打亂個一子句中字詞序順的多很時候不并響影對你句子的解理。比如上面這句。

這是因為人腦在處理信息時會區分權重,也就是說,我們的注意力總是被最重要的東西吸引走,次要的細節則被忽略。

Transformer 模仿了這一點,它能夠自動學習輸入的序列中不同位置之間的依賴關系并計算其相關性(而不是對整個輸入進行編碼)。這讓針對序列的建模變得更加容易和精準。

在深度學習中引入這種機制,產生了兩個明顯好處。

一方面,并行計算得以實現,基于 Transformer 架構的模型可以更好地利用 GPU 進行加速。由此,Transformer 為預訓練模型的興起奠定了基礎,隨著模型的規模越來越大,神經網絡開始出現所謂 " 智能涌現 ",這正是人們認為像 GPT 這樣的大模型打開了 AGI 通用人工智能大門的原因。

另一方面,盡管最開始 Transformer 的提出是被用來解決自然語言,更準確地說,機器翻譯問題,但很快人們就發現,這種注意力機制可以推廣到更多領域——比如語音識別和計算機視覺。基于 Transformer 的深度學習方法實際上適用于任何序列——無論是語言還是圖像,在機器眼中它們不過是一個個帶規律的向量。

在這兩種優點的共同作用下,人工智能領域迎來了前所未有的爆發,后面的故事我們都知道了。

下面是關于 Transformer 的幾個 fun facts。前面三個來自英偉達 AI 科學家 Jim Fan 慶祝 Transformer 架構被提出六周年的推文。

1、注意力機制不是 Transformer 提出的。

注意力機制是深度學習三巨頭之一的 Yoshua Bengio 于 2014 年提出的。這篇名為 Neural Machine Translation by Jointly Learning to Align and Translate 的論文中首次提出了注意力機制。堪稱自然語言處理里程碑級的論文。在那之后許多人都投身于對注意力機制的研究,但直到 Transformer 論文的出現大家才明白——相對別的因素而言,只有注意力機制本身才是重要的。

2、Transformer 和注意力機制最初都只為了解決機器翻譯問題。

未來人們回溯 AGI 的起源,說不定要從谷歌翻譯開始。盡管注意力機制幾乎可以用在深度學習的所有領域,但一開始不管是 Yoshua Bengio 的論文還是 Transformer 架構,都單純是為了提高機器翻譯的效果。

3、Transformer 一開始并未引人注意,至少對 NeurIPS 來說如此。

NeurIPS 2017 上一共有 600 多篇論文被接受,Transformer 是其中之一,但也僅此而已了。諷刺的是當年 NeurIPS 上的三篇最佳論文聯合起來的引用次數只有五百多次。

4、OpenAI 在 Transformer 發布的第二天就 all in 。

雖然很多人一開始并沒有意識到 Transformer 的威力,但這其中顯然不包括 OpenAI。他們在 Transformer 甫一發布就迅速意識到了這意味著什么,并迅速決定完全投入其中。

實際上,GPT 中的 T 正是 Transformer。

5、Transformer 幾乎立刻取代了 LSTM 的地位。

在 Transformer 提出之前,自然語言處理使用廣泛的是名叫長短期記憶網絡 LSTM 的序列生成模型,它的一大缺陷是對輸入內容的先后順序敏感,因此無法大規模使用并行網絡計算。

然而在 Transformer 被提出之前,許多人都認為 LSTM 將在很長一段時間內容主導 NLP 的發展。

關鍵詞:

責任編輯:hnmd003

相關閱讀

相關閱讀

推薦閱讀