首頁 > 新聞 > IT資訊 > 正文

GPT-4震撼發布，有哪些變化？

2023-03-15 14:31:59來源：TechWeb

今天凌晨OpenAI正式推出了NLP大作，GPT-4。目前，ChatGPT的Plus訂閱用戶已經可以使用GPT-4，其他用戶需要排隊申請內測。我們根據GPT-4官方提供的技術文檔，來看看都有哪些變化。

(資料圖片僅供參考)

本文將以OpenAI GPT-4 技術報告為基礎，介紹GPT-4的特征和訓練信息。

GPT-4是一個多模態大型語言模型，即支持圖像和文本輸入，以文本形式輸出；擴寫能力增強，能處理超過25000個單詞的文本；更具創造力，并且能夠處理更細微的指令。

我們從官網上就可以看到，ChatGPT和GPT-4的示范，效果貌似已經顯著拉開了。誰更智能一目了然…

問：

Andrew：上午11點-下午3點有空

Joanne：中午-下午2點有空、下午3點半-下午5點有空

Hannah：中午有半小時的時間，下午4-6點有空

給這仨人安排個30分鐘的會議，有哪些選擇？

答：

ChatGPT：會議可以在下午4點開始

GPT-4：會議可以在中午12點開始

報告指出了GPT-4的發展進度，這是一個大規模、多模態的模型，它可以接受圖像和文本輸入，并產生文本輸出。雖然在許多現實世界的場景中能力不如人類，但在各種專業和學術基準上表現出人類水平的表現。例如，它通過了模擬的律師考試，分數在應試者的前10%左右；相比之下，GPT-3.5的分數則在后10%左右。

GPT-4是一個基于Transformer的模型，經過預先訓練，可以預測文檔中的下一個標記。訓練后的調整過程使對事實的遵守程度得到改善。

這個項目的一個核心部分是開發基礎設施和優化方法，讓這些方法在廣泛的范圍內有可預測的行為。這使我們能夠準確地預測GPT-4在某些方面的性能，其基礎是用不超過GPT-4的1/1000的計算量所訓練的模型。

1.介紹

技術報告介紹了GPT-4，這是一個大型多模態模型，能夠處理圖像和文本輸入并產生文本輸出。這類模型是一個重要的研究領域，因為它們有可能被用于廣泛的應用中，如對話系統、文本總結和機器翻譯。因此，近年來它們一直是人們關注的對象，并取得了很大的進展。近年來，它們一直是人們關注的焦點。

開發此類模型的主要目標之一是提高其理解和生成自然語言文本的能力，特別是在更復雜和細微的情況下。為了測試其在這種情況下的能力，GPT-4在最初為人類設計的各種考試中進行了評估。在這些評估中，它表現得相當好，并且經常超過絕大多數人類應試者的分數。

例如，在模擬律師資格考試中，GPT-4的成績在考生中排名前10%。這與GPT-3.5形成鮮明對比，GPT-3.5的得分排在后10%。

在一套傳統的NLP基準測試中，GPT-4的表現超過了以前的大型語言模型和大多數最先進的系統（這些系統通常有特定的基準訓練或手工工程）。

在MMLU基準測試中，GPT-4不僅在英語考試中以相當大的優勢超過了現有的模型，而且在其他語言方面也表現出了強大的性能。

本報告還討論了該項目的一個關鍵挑戰，即開發深度學習基礎設施和優化方法，這些方法在廣泛的范圍內表現出可預測性。這使我們能夠預測GPT-4的預期性能（基于以類似方式訓練的小型運行）。這使我們能夠對GPT-4的預期性能進行預測（基于類似的訓練方式的小運行），并與最終的運行進行測試，以增加對我們訓練的信心。

盡管有這樣的能力，GPT-4與早期的GPT模型有類似的局限性：它并不完全可靠（例如，可能出現 "幻覺"），有一個有限的上下文窗口，并且沒有習得經驗。在使用GPT-4的輸出時應謹慎行事，特別是在對可靠性要求很高的情況下。

GPT-4的能力和局限性帶來了重大的、新的安全挑戰，我們相信鑒于其潛在的社會影響，仔細研究這些挑戰是一個重要的研究領域。本報告包括一個廣泛的系統卡，描述了我們所預見的一些風險。圍繞偏見、虛假信息、過度依賴、隱私、網絡安全、擴散等方面預見了一些風險。它還描述了我們為減輕部署GPT-4的潛在危害所采取的干預措施。包括聘請領域專家進行對抗性測試，以及一個模型輔助的安全管道。

2.技術報告的范圍和局限性

本報告的重點是GPT-4的能力、局限和安全性能。GPT-4是一個基于Transformer的模型，它預先進行了訓練，以預測文檔中的下一個標記，使用公開的數據（如互聯網數據）和第三方供應商授權的數據。

該模型然后使用來自人類反饋的強化學習（RLHF）對模型進行微調。鑒于GPT-4這樣大規模模型的競爭狀況和安全影響，報告中不包含有關架構(包括模型大小)、硬件、訓練計算、數據集構建、訓練方法或類似內容的進一步細節。

OpenAI致力于對技術進行獨立審計，并分享了一些這方面的初步措施和想法。并計劃向更多的第三方提供進一步的技術細節，他們可以就如何權衡上述競爭和安全考慮與科學價值的關系提供建議。

3.可預測的擴展

GPT-4項目的一大重點是建立一個可預測擴展的深度學習棧。主要原因是，對于像GPT-4這樣的大型訓練運行，要做大量針對模型的調整是不可行的。

為了解決這個問題，我們開發了基礎設施和優化方法，在多個尺度上有非常可預測的行為。這些改進使我們能夠可靠地從使用1,000倍-10,000倍計算量訓練的較小模型中預測GPT-4的某些方面的性能。

3.1 損失預測

正確訓練的大型語言模型的最終損失被認為可以通過訓練模型所用的計算量的冪律來很好地接近訓練模型所使用的計算量的規律。

為了驗證OpenAI的優化基礎設施的可擴展性，OpenAI預測了GPT-4的最終損失，在OpenAI的內部代碼庫（不是訓練集的一部分）上預測GPT-4的最終損失，方法是通過擬合一個帶有不可減少的損失項的比例法則(如Henighan等人的做法)：L(C) = aCb + c, 來自使用相同方法訓練的模型，但使用的計算量比GPT-4最多少10,000倍。

這一預測是在運行開始后不久做出的，沒有使用任何部分結果。擬合的比例法高度準確地預測了GPT-4的最終損失。

3.2 在HumanEval上擴展能力

在訓練前對模型的能力有一個認識，可以改善有關調整的決策、安全和部署。

除了預測最終損失外，我們還開發了方法來預測能力的更多可解釋性指標，其中一個指標是HumanEval數據集的通過率。

OpenAI成功地預測了HumanEval數據集的一個子集上的通過率，其方法是從訓練的模型中推斷出來的訓練出來的模型進行推斷，其計算量最多減少1,000倍。

對于HumanEval中的單個問題，性能可能偶爾會隨著規模的擴大而變差。盡管有這些挑戰，我們發現一個近似的冪律關系--EP [log(pass_rate(C))] = α?C-k。

相信準確預測未來的能力對安全很重要。展望未來，OpenAI計劃在大型模型訓練開始之前，完善這些方法并記錄各種能力的性能預估。并且，OpenAI希望這成為該領域的一個共同目標。

4、能力

這簡直就是個考試小能手

GPT-4典型的成績包括：

SAT（美國高考）： 1410/1600（前 6%）。

美國統一律師資格考試(MBE+MEE+MPT)：298/400（前 10%）。

AP（美國大學預科考試）：生物學、微積分、宏觀經濟學、心理學、統計學和歷史的大學預修高中考試：100% (5/5)。

OpenAI在一系列不同的基準上對GPT-4進行了測試，包括模擬最初為人類設計的考試。考試題目包括多項選擇題和自由回答題，綜合分數由多項選擇題和自由回答題的分數結合決定，GPT-4在大多數專業和學術考試中都有與人類水平相當的表現。值得注意的是，它通過了統一律師考試的模擬版本，分數在應試者中排名前10%。

就測試的結果來看，GPT-4模型在考試中的能力似乎主要來自于預訓練過程，并沒有受到RLHF的明顯影響。在多選題上，基礎的GPT-4模型和RLHF模型的表現相當。

OpenAI還在傳統的基準上評估了預先訓練好的基礎GPT-4模型，這些基準是為評估語言模型而設計的。

就在考試測試中的表現來看，GPT-4的性能大大超過了現有的語言模型，以及此前最先進的系統，這些系統通常有針對的基準或額外的訓練協議。

針對現有的許多機器學習基準測試都是用英語編寫的，很難體現在其他語言中的表現，為了初步了解GPT-4在其他語言中的功能，他們也將一套涵蓋57個主題的多項選擇題的基準測試，采用相關的應用程序轉換成了其他語言，并進行了測試，最終結果顯示GPT-4的表現要優于GPT 3.5和現有語言模型對測試的大多數語言的語言性能，包括低資源語言。

能看懂一些圖的笑點了

GPT-4在理解用戶意圖的能力方面較此前的模型有明顯改善。

GPT-4可以說已經能看懂一些圖梗了，不再僅僅是對話助手。當然離大家期待的看懂視頻還有一段距離。現在能看懂圖片的笑點，比如這張…

左一：一臺iPhone插上了帶有VGA的連接器

右一：“Lightning Cable”適配器的包裝，上面有VGA連接器的圖

右二：VGA連接器的特寫，上面有VGA連接器的圖片，但可以看到，頭是個Lightning的…

笑點在于將VGA端口插在iPhone上的荒謬…很冷吧…搞機圈博主們的壓力大不大…

4.1 視覺輸入

對GPT-4而言，訓練后的對齊（Alignment）是提高性能和改善體驗的關鍵。從技術上看，人類反饋強化學習（RLHF）微調仍然是GPT-4的要點。考慮到LLM領域的競爭格局和 GPT-4 等大型模型的安全隱患，OpenAI暫時還未公布GPT-4的模型架構、模型大小、訓練技術。

這張圖片：GPT-4認為，不同尋常的地方在于，一名男子正在行駛中的出租車車頂上的熨衣板熨衣服…

再比如這個，這到底是雞塊？還是地圖？還是用雞塊拼成的世界地圖？

GPT-4接受由圖像和文本組成的提示，這與純文本設置平行，讓用戶指定任何視覺或語言任務。具體來說，該模型生成的文本輸出給出由任意交錯的文本和圖像組成的輸入。在一系列領域中，包括帶有文字和照片的文件、圖表或屏幕截圖，GPT-4表現出與純文本輸入類似的能力。

為語言模型開發的標準測試時間技術（如少量提示、思維鏈等），使用圖像和文本時也同樣有效。

在一組狹窄的學術視覺基準上的初步結果可以在GPT-4博客中找到，計劃在后續工作中發布更多關于GPT-4的視覺能力的信息。

5、局限性

盡管GPT-4功能強大，但它與早期GPT模型一樣，有相似的局限性。最重要的是，它仍然不完全可靠(它會“幻覺”事實并犯推理錯誤)，應非常小心。

在使用語言模型輸出時，特別是在高風險的上下文中，使用準確的協議(例如人工審查，附加上下文，或完全避免高風險使用滿足特定應用的需求。

GPT-4在TruthfulQA等公共基準上取得了進展，該基準測試模型的測試能將事實從一組不正確的陳述中分離出來，與統計上有吸引力的事實錯誤的答案相匹配。GPT-4基本型號為在這項任務上只比GPT-3.5略勝一籌。然而，在RLHF訓練后，較GPT-3.5有很大的改進，GPT-4抗拒選擇一些常見的諺語，但仍然會錯過一些微妙的細節。

GPT-4有時會使簡單的推理出現錯誤，似乎不符合在這么多領域的能力，或者輕信用戶明顯的虛假陳述。它可能像人類一樣在困難的問題上失敗，例如在產生的代碼中引入安全漏洞。

GPT-4也可能在其預測中輕易的犯錯，在可能犯錯的時候不注意反復檢查。雖然預訓練的模型是高度校準的，但在后期的訓練過程中，校準度降低了。

GPT-4在其輸出中存在各種偏差，OpenAI已經在努力糾正，但這需要一定的時間，他們的目標是使GPT-4同我們建立的其他系統一樣，有合理的默認行為，以反映廣大用戶的價值觀，允許這些系統在一些廣泛的范圍內進行定制，并獲得公眾對這些范圍的意見。

6.風險和緩解措施

GPT-4具有與小型語言模型類似的風險，例如，產生有害的建議、有缺陷的代碼或不準確的信息。

聘請領域專家進行對抗性測試：為了了解這些風險的程度，OpenAI聘請了來自長期人工智能（AI）校準風險、網絡安全、生物風險和國際安全領域的50多位專家對該模型進行對抗性測試。從這些專家那里收集的建議和培訓數據為OpenAI制定緩解措施和對該模型進行改進提供了參考。

模型輔助的安全管道：與之前的GPT模型一樣，OpenAI利用來自人類反饋的強化學習（RLHF）對該模型的行為進行微調，以產生更符合用戶意圖的回復。在RLHF之后，該模型在不安全的輸入上仍然是脆弱的，并且有時在安全輸入和不安全輸入上都表現出不受歡迎的行為。此外，該模型在安全輸入方面也可能變得過于謹慎。

安全指標的改進：OpenAI的緩解措施已經大大改善了GPT-4的許多安全性能。與GPT-3.5相比，該公司將GPT-4對不允許內容請求做出響應的傾向降低了82%，而GPT-4根據OpenAI的政策對敏感請求的響應頻率提高了29%。

OpenAI正在與外部研究人員合作，以改善其理解和評估潛在影響的方式，以及建立對未來系統中可能出現的危險能力的評估。該公司將很快發布關于社會可以采取的步驟的建議，以準備應對人工智能的影響。該公司將很快公布關于社會為應對人工智能影響可以采取的措施的建議，以及預測人工智能可能產生的經濟影響的初步想法。

7.總結

GPT-4是一個在某些困難的專業和學術基準上具有人類水平表現的大型多模態模型。它在一系列NLP任務上的表現優于現有的大型語言模型，并且超過了絕大多數已報道的最先進的系統(這些系統通常包括針對特定任務的微調)。

GPT-4由于性能的提高而帶來了新的風險，我們討論了一些方法和結果，以了解和提高其安全性和一致性。雖然還有很多工作要做，但GPT-4代表著朝著廣泛有用和安全部署的人工智能系統邁出了重要一步。

關鍵詞：

責任編輯：hnmd003