首頁 > 新聞 > 智能 > 正文

天天消息!A16z 精心整理的最全 AI 學習資料(全文中譯 + 鏈接)

2023-05-27 10:10:56來源:ZAKER科技  

硅谷以善于研究和喜愛分享著稱的投資機構A16z(Andreessen Horowitz)最近發布了一份經過詳細篩選并配有簡介及鏈接的《AI Canon》,在這個所有人為AI而焦慮和驚異的時節,這份指南可以成為真正想要通過學習來緩解焦慮的人們的良藥。

我們全文翻譯了這份指南,并且,請ChatGPT對這份指南做了一下必讀推薦。

這篇名為"AI Canon"的文章在幾個方面超越了類似的其他資源總結文章:


(資料圖)

全面性:文章不僅提供了一份詳盡的學習資源清單,還包括了對這些資源的深入解讀和分析。這使得讀者不僅能了解到哪些資源存在,還能理解這些資源的重要性和應用場景。

實用性:文章提供了一系列實用的指南,如如何使用大型語言模型(LLMs)進行構建,這對于希望在實踐中應用AI的讀者來說非常有價值。

前瞻性:文章關注的是推動當前AI浪潮的關鍵技術,如變壓器和潛在擴散模型,這使得讀者能夠了解到最新的技術趨勢。

為什么我們有必要去閱讀由A16z發布的這篇文章?

A16z,全稱Andreessen Horowitz,是一家知名的風險投資公司,他們在科技創新領域有著深厚的背景和豐富的經驗。他們的文章通常都是基于深入的研究和對行業的深刻理解,因此具有很高的權威性和參考價值。此外,A16z也以其對新興技術趨勢的敏銳洞察力而聞名,他們的文章往往能夠幫助讀者把握最新的技術動態,提前做好準備。因此,閱讀A16z發布的這篇文章,無疑是獲取AI領域最新知識和洞見的重要途徑。

—— ChatGPT

以下為全文中譯及鏈接:

人工智能領域的研究正以指數級速度增長。對于AI專家來說,跟上所有新發表的內容已經變得很困難,對于初學者來說更是難以知道從何開始。

因此,在本篇文章中,我們將分享一份我們依賴的經過精選的資源清單,以便更深入了解現代人工智能。我們將其稱為"AI經典文獻",因為這些論文、博客文章、課程和指南在過去幾年對該領域產生了巨大影響。

我們首先從對Transformer和潛在擴散模型的簡明介紹開始,它們是當前人工智能浪潮的推動力。接下來,我們深入介紹技術學習資源;使用大型語言模型(LLM)構建的實踐指南;以及對人工智能市場的分析。最后,我們還包括了一份里程碑式研究成果的參考列表,其中包括Google于2017年發布的論文《Attention is All You Need》——該論文介紹了Transformer模型,并引領了生成式人工智能時代的到來。

基礎介紹:

這篇文章不需要專業背景,就可以幫助你快速了解現代人工智能浪潮中最重要的組成部分。

軟件2.0:Andrej Karpathy是最早清楚地解釋為什么新的人工智能浪潮真正重要的人之一,他在2017年就給出了自己的觀點。他的論點是-人工智能是一種全新而強大的編程計算機的方式。隨著大型語言模型的迅速改進,這個論點被證明是有預見性的,并且為人工智能市場的發展提供了一個良好的思維模型。

GPT現狀:同樣來自Karpathy,這是一個非常易于理解的解釋,介紹了ChatGPT / GPT模型的工作原理、如何使用它們以及研發可能采取的方向。

ChatGPT在做什么,以及為什么它有效?:計算機科學家和企業家Stephen Wolfram從基本原理出發,提供了一份長而易讀的解釋,介紹了現代AI模型的工作原理。他回顧了早期神經網絡發展到今天的大型語言模型和ChatGPT的時間線。

模型演變解釋:Dale Markowitz撰寫的這篇文章是對問題"什么是大型語言模型(LLM),它是如何工作的?"的更簡短、更直接的回答。雖然文章是關于GPT-3的,但仍然適用于更新的模型。

Stable Diffusion的工作原理:這是對上一篇文章的計算機視覺類比。Chris McCormick用通俗易懂的語言解釋了Stable diffusion是如何工作的,并且普遍培養了人們對文本到圖像模型技術理解的直覺。如果您需要更溫和的介紹,可以查看r/StableDiffusion中的這個漫畫。

基礎學習:神經網絡、反向傳播和嵌入

這些資源提供了對機器學習和人工智能中基本概念的基本理解,從深度學習的基礎知識到來自AI專家的深度課程。

深度學習簡介:核心概念:這是Nvidia的一個由四部分組成的系列文章,介紹了2015年實踐中的深度學習基礎知識,對于剛開始學習人工智能的任何人來說,這是一個很好的資源。

實用的深度學習教程:這是一門全面而免費的課程,通過實際例子和代碼講解了人工智能的基礎知識。

Word2vec解釋:這是一個簡單介紹嵌入和標記的入門教程,它們是大型語言模型(以及所有語言模型)的構建模塊。

是的,您應該了解反向傳播:如果您想要了解更多細節,可以閱讀更深入的關于反向傳播的文章。如果您還想進一步了解,可以嘗試在YouTube上觀看斯坦福大學的CS231n課程講座

斯坦福大學CS229由Andrew Ng主講的機器學習入門課程,涵蓋機器學習的基礎知識。

斯坦福大學CS224N由Chris Manning主講的深度學習自然語言處理(NLP)課程,涵蓋了從NLP基礎知識到第一代大型語言模型(LLMs)的內容。

技術深入探究:理解Transformer和大型模型

網上有大量的資源試圖解釋大型語言模型(LLMs)的工作原理。以下是我們推薦的一些資源,面向不同的讀者和觀眾群體:

《The Illustrated Transformer》:由Jay Alammar提供的對Transformer架構更為技術性的概述。

The Annotated Transformer":這是一篇深入的文章,如果您想基于會編寫源代碼的水平理解Transformer,這篇文章會幫助您。需要一些PyTorch的知識基礎。

讓我們構建GPT:從頭開始,在代碼中一步步實現:針對工程師們,Karpathy進行了視頻演示,展示了如何構建GPT模型。

The Illustrated Stable Diffusion:對潛在擴散模型(Stable Diffusion)的介紹,這是最常見的用于圖像生成的生成式人工智能模型類型。

RLHF:從人類反饋中進行強化學習:Chip Huyen解釋了RLHF,它可以使LLMs以更可預測和人性化的方式運行。這是ChatGPT等系統中最重要但理解最少的方面之一。

從人類反饋中進行強化學習:計算機科學家和OpenAI聯合創始人John Shulman在這個出色的演講中深入探討了LLMs與RLHF的當前狀態、進展和局限性。

Stanford CS25: Transformers United:這是關于Transformer的在線研討會,由斯坦福大學主辦。

Stanford CS324: Large Language Models:由Percy Liang、Tatsu Hashimoto和Chris Re主講,涵蓋大型語言模型的廣泛技術和非技術方面的課程。

預測性學習, NIPS 2016: 在這個早期的演講中,Yann LeCun為無監督學習作為大規模AI模型架構中的關鍵要素提出了有力的論點。在19:20處跳到著名的蛋糕類比部分,這仍然是對現代AI最好的模型之一。

人工智能技術應用于特斯拉自動駕駛: 另一個經典的Karpathy演講,這次涵蓋了特斯拉數據收集引擎。從8:35開始是一個有關為什么長尾問題(在本例中是停止標志檢測)如此困難的人工智能講述。

標度假設: 大語言模型最令人驚訝的一個方面是,擴大規模——增加更多的數據和計算資源——會不斷提高準確性。GPT-3是第一個清楚證明這一點的模型,Gwern的文章很好地解釋了其背后的直覺。

Chinchilla’s wild implications: 這篇文章被稱為對重要的Chinchilla論文的解釋(請參見下文),它深入探討了LLM擴展中的一個重要問題:我們是否正在耗盡數據資源?這篇文章在上面的文章基礎上進行了擴展,并對擴展規律提供了新的觀點。

關于大語言模型的總體研究:全面介紹了當前大型語言模型,包括發展時間線、模型規模、訓練策略、訓練數據、硬件等等。

Sparks of artificial general intelligence: GPT-4的早期實驗:微軟研究團隊對GPT-4的能力進行了早期分析,GPT-4是目前最先進的LLM,相對于人類智能進行了對比。

人工智能的革命: How Auto-GPT unleashes a new era of automation and creativity: 介紹Auto-GPT和AI代理的一篇文章。這項技術還處于早期階段,但理解它非常重要,它利用互聯網訪問和自我生成的子任務來解決特定復雜問題或目標。

Waluigi 效應: 名義上是對"Waluigi效應"(即為什么LLM行為中出現"替代自我")的解釋,但它主要作用是對LLM提示理論的深入剖析。

這些資源提供了對各種方面的深入理解,涵蓋了GPT模型、LLMs、擴展性、數據資源和AI應用等領域的相關內容。它們適用于對這些領域的技術細節和進展感興趣的讀者。

使用大型語言模型(LLMs)進行構建的實用指南

一個以LLMs為核心的全新應用程序堆棧正在嶄露頭角。雖然目前關于這個主題的正式教育資源還不是很多,但我們整理了一些我們找到的最有用的資源。

使用GPT3、LangChain和Python構建GitHub支持機器人:這是關于現代LLM應用程序堆棧的最早公開解釋之一。其中的一些建議可能有些過時,但在許多方面它推動了廣泛采用和實驗新的AI應用程序。

構建用于生產的LLM應用程序:Chip Huyen討論了構建大語言模型應用程序的許多關鍵挑戰,如何解決這些挑戰以及哪些用例是最合適的。

Prompt工程指南:對于任何編寫大語言模型提示的人(包括應用程序開發人員),這是最全面的指南,提供了一些熱門模型的具體示例。如果您希望輕松、更具對話性的處理方式,請嘗試Brex的Prompt工程指南。

Prompt注入:最糟糕的情況是什么?Prompt注入是一種潛在的嚴重安全漏洞,潛藏在大語言模型應用程序中,目前還沒有完美的解決方案。Simon Willison在這篇文章中對這個問題進行了權威的描述。Simon在AI方面的所有文章幾乎都是出色的。

OpenAI Cookbook:對于開發人員來說,這是使用OpenAI API進行工作的指南和代碼示例的權威集合。它會不斷更新以提供新的代碼示例。

Pinecone學習中心:許多大語言模型應用程序基于向量搜索范式。盡管被品牌廠商包裝,Pinecone的學習中心提供了一些關于如何構建這種模式的最有用的指導。

LangChain文檔:作為大語言模型應用程序的默認編排層,LangChain連接了堆棧中的幾乎所有其他部分。因此,他們的文檔是整個堆棧以及各個部分如何配合的真正參考。

課程:

LLM Bootcamp:由Charles Frye、Sergey Karayev和Josh Tobin主講的一個實踐課程,用于構建基于大語言模型的應用程序。

Hugging Face Transformers:使用Hugging Face Transformers庫中的開源大語言模型的指南。

Chatbot Arena:由加州大學伯克利分校的團隊領導的一種類似Elo積分制的熱門LLM排名系統。用戶也可以通過比較模型進行頭對頭比賽來參與其中。

Open LLM Leaderboard:由Hugging Face提供的排名,比較開源LLM在一系列標準基準和任務上的表現。

市場分析:

我們都為生成式人工智能所創造的成果感到驚嘆,但仍然有許多關于這一切意義的問題。哪些產品和公司將生存和繁榮?藝術家們將會面臨什么情況?公司應該如何利用它?它將如何影響就業和整個社會?以下文章可以回答部分問題。

A16z關于這些問題的思考:

誰擁有生成式人工智能平臺?:這是我們對生成式人工智能基礎設施、模型和應用層的價值積累以及可能積累的核心評估。

應對高昂的AI計算成本:詳細分析為什么生成式人工智能模型需要如此多的計算資源,以及如何在需求旺盛的市場中獲取這些資源(即以正確的成本獲得正確數量的圖形處理器)。

藝術并未消亡,而是由機器生成:探討人工智能模型如何比軟件開發等領域更快地改變被認為是自動化的最后陣地的創意領域。

生成式人工智能在游戲中的革命:我們游戲團隊對如何輕松創建高度詳細圖形將如何改變游戲設計師、工作室和整個市場的分析。我們游戲團隊的這篇后續文章專門討論了AI生成內容與用戶生成內容的出現。

對于B2B生成式人工智能應用:對大語言模型在B2B企業應用領域如何演變的預測,重點在于總結信息最終比產生文本更有價值。

金融服務業將比你想象中更快地接受生成式人工智能:論述金融服務行業準備利用生成式人工智能提供個性化消費體驗、成本效益高的運營、更好的合規性、改進的風險管理以及動態預測和報告。

生成式人工智能:下一代消費者平臺:探討生成式人工智能在從治療到電子商務等各個領域對消費者市場產生影響的機會。

要在醫療保健領域取得真正的差異,人工智能需要像我們一樣學習:人工智能有望徹底改變我們對預防和治療疾病的看法。然而,要真正改變從藥物研發到護理交付的過程,我們應該投資于創建一個像我們最優秀的醫生和藥物研發人員今天所做的那樣學習的"專家"人工智能的生態系統。

新的工業革命:生物與人工智能:人類歷史上的下一次工業革命將是由人工智能驅動的生物學革命。

其他研究機構的觀點:

關于基礎模型的機遇和風險:斯坦福基礎模型概述論文。這篇長篇且有主觀觀點的論文對基礎模型的概念產生了重要影響。

人工智能現狀報告:每年一次的AI綜述報告,涵蓋了人工智能領域的技術突破、行業發展、政治/監管、經濟影響、安全性以及未來預測等方面的內容。

GPTs即GPTs:對大型語言模型對勞動力市場影響潛力的早期研究。這篇來自OpenAI、OpenResearch和賓夕法尼亞大學的研究人員的論文預測:"大約80%的美國勞動力可能會有至少10%的工作任務受到LLM引入的影響,而大約19%的工人可能會看到至少50%的工作任務受到影響。"

深度醫學:人工智能如何使醫療恢復人性:埃里克·托普爾博士揭示了人工智能如何潛在地使醫生擺脫耗時的任務,從而有助于恢復醫患關系的人性化。這個醫生與患者之間的聯系得到了恢復。

具有里程碑意義的研究成果

現在我們看到的許多令人驚嘆的人工智能產品,大多是來自大公司和頂尖大學的專家的研究成果。最近,我們還看到了個人和開源社區開展的一些令人印象深刻的工作,他們通過創建自動化代理或將模型移植到更小的硬件上,使流行項目朝著新的方向發展。

這里是許多這些論文和項目的集合,供那些真正想深入了解生成式人工智能的人使用。(對于研究論文和項目,我們還包括了相關博客文章或網站的鏈接,以便在可能的情況下更高層次地解釋事物。我們還包括了原始出版年份,這樣您就可以追蹤基礎研究的發展。)

新的大語言模型:

請注意(2017年)-Attention is all you need(2017):來自Google Brain的原始Transformer工作和研究論文,開啟了一切。 (博客文章)

BERT:深度雙向Transformer的預訓練語言理解(2018年):首批公開可用的大語言模型之一,至今仍有許多變體在使用中。(博客文章)

通過生成式預訓練改進語言理解(2018年):OpenAI的第一篇論文,涵蓋了GPT架構,成為大語言模型領域中主導的發展路徑。(博客文章)

語言模型是幾乎零樣本學習者(2020年):OpenAI的論文,描述了GPT-3和現代大語言模型的僅解碼器架構。

訓練語言模型通過人類反饋遵循指令(2022年):OpenAI的論文解釋了InstructGPT,該模型利用人類反饋來訓練模型,從而更好地遵循提示中的指令。這是使大語言模型對消費者可用的關鍵因素之一(例如通過ChatGPT)。 (博客文章)

LaMDA:用于對話應用的語言模型(2022年):谷歌專門為人類和聊天機器人之間在各種話題上進行自由流暢對話而設計的模型。(博客文章)

PaLM:通過路徑擴展語言建模(2022年):谷歌的PaLM利用了一種新的系統,在數千個芯片上訓練大語言模型,并展示了隨著模型規模的擴大而超出預期的改進。 (博客文章)此外,請參閱PaLM-2技術報告。

OPT:開放預訓練Transformer語言模型(2022年):OPT是表現出色的全面開源LLM之一。這款擁有1750億參數的模型發布附帶了代碼,并且是使用公開可用的數據集進行訓練的。(博客文章)

訓練計算最優的大型語言模型(2022年):Chinchilla論文。它提出了大多數模型是數據受限而不是計算受限的觀點,并改變了關于LLM擴展的共識。(博客文章)

GPT-4技術報告(2023年:來自OpenAI的最新、最偉大的論文,以保密程度而聞名!(博客文章)。GPT-4系統卡片為我們了解OpenAI如何處理幻覺、隱私、安全和其他問題提供了一些線索。

LLaMA:開放且高效的基礎語言模型(2023年):來自Meta的模型,(幾乎)引發了開源LLM革命。與許多最佳閉源模型相媲美,但只對研究人員開放,使用受限的許可證。(博客文章)

Alpaca:一種強大且可復制的指令跟隨模型(2023年):這款來自斯坦福的模型展示了指令調優的威力,尤其是與純粹的規模相比,對于較小的開源模型而言。

模型優化(比如fine-tuning, retrieval, attention)

深度強化學習來自人類偏好(2017年):研究強化學習在游戲和機器人領域的應用,后來證明是LLM的一種出色工具。

為知識密集型NLP任務增強的檢索生成(2020年):由Facebook開發,RAG是通過信息檢索提高LLM準確性的兩個主要研究方向之一。(博客文章)

通過從數萬億標記中檢索來改進語言模型(2021年):RETRO,即"Retrieval Enhanced TRansfOrmers",是DeepMind提出的另一種方法,通過訪問其訓練數據中未包含的信息來提高LLM的準確性。(博客文章)

LoRA:大型語言模型的低秩調整(2021年):這項來自微軟的研究引入了一種在新數據上訓練LLM的更高效替代方法,現已成為社區微調的標準,特別適用于圖像模型。

憲法AI(2022年):Anthropic團隊介紹了通過AI反饋進行強化學習(RLAIF)的概念。主要思想是我們可以在其他AI的監督下開發一個無害的AI助手。

FlashAttention:具有IO感知的快速和內存高效的精確注意力(2022年):這項斯坦福的研究為最先進的模型在理解更長的文本序列(和更高分辨率的圖像)方面打開了大門,而無需昂貴的訓練時間和成本。(博客文章)

饑餓的河馬:走向具有狀態空間模型的語言建模(2022年):再次來自斯坦福,這篇論文描述了語言建模中替代注意力的主要方法之一。這是更好的擴展和訓練效率的有希望的途徑。(博客文章)

圖像生成模型:

學習可遷移的視覺模型:來自自然語言監督的(2021年):介紹了一個基礎模型CLIP,將文本描述與圖像相連。這是計算機視覺中首次有效的大規模使用基礎模型的案例之一。(博客文章)

零樣本文本到圖像生成(2021年):這篇論文介紹了DALL-E,一種結合了前面提到的CLIP和GPT-3的模型,可以根據文本提示自動生成圖像。其后繼者DALL-E 2在2022年引爆了基于圖像的生成型人工智能熱潮。(博客文章)

使用潛在擴散模型進行高分辨率圖像合成(2021年):這篇論文描述了穩定擴散(在推出和爆炸式開源增長后)。

具有深度語言理解的照片般逼真的文本到圖像擴散模型(2022年):Imagen是谷歌進軍AI圖像生成領域的嘗試。截至本文發布日期,該模型仍未公開發布。(網站)

DreamBooth:用于主題驅動生成的文本到圖像擴散模型微調(2022年):DreamBooth是谷歌開發的一個系統,用于訓練模型識別用戶提交的主題并將其應用于提示的上下文中(例如,[用戶]在埃菲爾鐵塔微笑)。 (網站)

將條件控制添加到文本到圖像擴散模型(2023年):這篇來自斯坦福的論文介紹了ControlNet,這是一個非常受歡迎的工具,可對潛在擴散模型的圖像生成進行細粒度控制。

代理人Agents:

通往自主機器智能的路徑(2022年):Meta AI負責人、紐約大學教授Yann LeCun提出了如何構建真正理解周圍世界的自主智能代理的建議。

ReAct:在語言模型中協同推理和行動(2022年):普林斯頓大學和谷歌的一個項目,旨在測試和改進大語言模型的推理和規劃能力。(博客文章)

生成型代理:人類行為的交互模擬(2023年):斯坦福大學和谷歌的研究人員利用大語言模型來驅動代理程序,在類似于《模擬人生》的環境中,它們的互動是新型的而不是預設的。

Reflexion:具有動態記憶和自反思能力的自主代理(2023年):東北大學和麻省理工學院的研究人員的工作,通過從錯誤和過去經驗中學習,教導大語言模型更可靠地解決問題。

Toolformer:語言模型可以自學使用工具(2023年):Meta的這個項目訓練大語言模型使用外部工具(在這種情況下是指搜索引擎和計算器等API)來提高準確性,而無需增加模型大小。

Auto-GPT:自主GPT-4實驗:一個開源實驗,通過給予GPT-4一系列工具(如互聯網訪問、文件存儲等),并選擇在解決特定任務時使用哪些工具來擴展GPT-4的能力。

BabyAGI:這個Python腳本利用GPT-4和向量數據庫(用于存儲上下文)來規劃和執行一系列解決更廣泛目標的任務。

其他數據模式:

編碼生成:

針對代碼進行大型語言模型的評估(2021年):這是OpenAI針對GitHub Copilot產品背后的代碼生成模型Codex的研究論文。(博客文章)

使用AlphaCode進行競技級代碼生成(2021年):DeepMind的這項研究展示了一個能夠比人類程序員編寫更好代碼的模型。(博客文章)

CodeGen:用于代碼的開放大型語言模型,具備多輪程序綜合能力(2022年):CodeGen來自Salesforce的AI研究部門,目前支持Replit Ghostwriter產品進行代碼生成。(博客文章)

視頻生成:

Make-A-Video:無需文本-視頻數據的文本到視頻生成(2022年):Meta的這個模型可以根據文本提示創建短視頻,還可以為靜態照片輸入添加動態效果或創建現有視頻的變體。(博客文章)

Imagen Video:使用擴散模型生成高清視頻(2022年):正如其名稱所示,這是Google的基于圖像的Imagen模型的一個版本,專門用于根據文本提示生成短視頻。(網站)

生物和醫學數據:

預訓練圖神經網絡的策略(2020年):這篇文章為有效的預訓練方法奠定了基礎,適用于藥物發現等領域的應用,如分子屬性預測和蛋白質功能預測。(博客文章)

利用深度學習的潛力改進蛋白質結構預測(2020年):DeepMind的以蛋白質為中心的Transformer模型AlphaFold使得從序列預測蛋白質結構成為可能,這是一個真正的突破,對于理解生物過程和開發新的疾病治療方法已經產生了深遠的影響。(博客文章)(解釋性文章)

大型語言模型編碼臨床知識(2022年):Med-PaLM是一個能夠正確回答美國醫學執照考試風格問題的大語言模型。該團隊隨后發布了關于Med-PaLM2性能的結果,其得分與"專家"考生相當。其他團隊也使用ChatGPT和GPT-4進行了類似的實驗。(視頻)

音頻生成:

Jukebox:音樂生成的生成模型(2020年):OpenAI進入音樂生成領域,使用Transformer技術,能夠在最小的訓練下生成音樂、歌聲和歌詞。(博客文章)

AudioLM:一種基于語言建模的音頻生成方法(2022年):AudioLM是Google的一個項目,用于生成多種類型的音頻,包括語音和樂器音。(博客文章)

MusicLM:從文本生成音樂(2023年)基于人工智能的音樂生成的當前最先進技術,展示了比以前的嘗試更高的質量和連貫性。(博客文章)

多維度圖片生成:

NeRF: 將場景表示為用于視圖合成的神經輻射場(2020年:由加州大學伯克利分校領導的團隊進行的研究,使用5D坐標來"合成復雜場景的新視圖"。(網站)

DreamFusion:使用2D擴散進行文本到3D轉換(2022年):來自Google和加州大學伯克利分校的研究人員的工作,在NeRF的基礎上,從2D輸入生成3D圖像。(網站)

關鍵詞:

責任編輯:hnmd003

相關閱讀

相關閱讀

推薦閱讀