首頁 > 新聞 > IT資訊 > 正文

報道:陳巍:GPT-4究竟會展現出怎樣的能力?

2023-03-16 14:35:09來源:中新經緯  

中新經緯3月16日電 題:GPT-4究竟會展現出怎樣的能力?


(相關資料圖)

作者 陳巍 中關村(000931)云計算產業聯盟、中國光學工程學會專家

3月14日,OpenAI發布了最新NLP(自然語言處理)大作“GPT-4”。GPT-4的技術報告里把OpenAI團隊作為唯一作者。參與項目的有數百人,堪稱新時代的AI登月工程。

能看明白圖梗的大型多模態模型

與ChatGPT稍有不同,GPT-4是一個大型多模態模型(輸入圖像和文本,文本輸出)。其中GPT是生成式預訓練模型的縮寫。大型多模態模型可以廣泛用于對話系統、文本摘要和機器翻譯。一般情況下,大型多模態模型包括額外的視覺語言模型組件(VLM)。

GPT-4實際上是在2022年8月完成訓練的,直到2023年3月14日才發布。在發布之前,OpenAI一直在對該模型進行對抗性測試和改進。GPT-4的內容窗口能支持多達32000個token(令牌)。

但更為有趣的是,GPT-4已經能看懂一些圖梗了,不再僅僅是對話助手。當然,這離大家期待的看懂視頻還有一段距離。

據OpenAI介紹,雖然目前GPT-4在現實場景中的能力可能不如人類,但在各種專業和學術考試上表現出明顯超越人類水平的能力,包括大家熟悉的GRE考試,堪稱考試小能手。

這對孩子們是不是一個壞消息?例如,GPT-4在模擬律師考試中,分數排在應試者的前10%左右。GPT-4也優于現有的其他語言模型。相比之下,GPT-3.5的得分則在倒數10%附近。如果GPT-4來做中國的高考卷,是不是能上北大清華了?

GPT-4技術特征和不足

與ChatGPT類似,GPT-4也是一種基于Transformer的大模型,支持多國語言,經過預訓練可以預測或自動生成文本。

OpenAI表示,對GPT-4而言,訓練后的對齊(Alignment)是提高性能和改善體驗的關鍵。從技術上看,人類反饋強化學習(RLHF)微調仍然是GPT-4的要點。考慮到LLM(第四代大型語言模型)領域的競爭格局和GPT-4等大型模型的安全隱患,OpenAI暫時還未公布GPT-4的模型架構、模型大小、訓練技術。

相對于GPT-3.5和其他大語言模型,GPT-4在復雜任務上表現出更可靠、更有創意,并且能夠處理更細微的指示的關鍵特征。GPT-4可以接受文本和圖像提示,并允許用戶指定任何視覺或語言任務。例如,GPT-4可以在給定由分散的文本和圖像組成的輸入的情況下反饋文本輸出(例如自然語言、代碼等)。在帶有文本和照片的文檔、圖表或屏幕截圖方面,GPT-4 也駕輕就熟。此外,GPT-4包括few-shot和思維鏈提示。對于公眾來說,圖像輸入仍然是僅供內部研究預覽,并不公開。而且,這次GPT-4直接整合入Bing搜索引擎之中。

GPT-4也有一些不足,例如仍然會一本正經地胡說八道,上下文連續對話輪次有限,并且無法從經驗中學習。因此如果不對GPT-4的使用進行安全性限制,GPT-4可能會產生大量的認知偏差、虛假信息,甚至侵犯個人隱私。另外,由于數據集時效的原因,GPT-4缺乏對2021年9 月之后的事件的了解。GPT-4有時會犯一些簡單的推理錯誤,也可能會像人類一樣在技術難題上出現錯誤,例如GPT-4可能在生成的代碼中引入安全漏洞。

訓練價值和安全性技術表現如何?

OpenAI表示,在過去2年的GPT-4研發中,超算和訓練技術表現出至關重要的價值。OpenAI與Azure的超算團隊一起,共同設計了針對大模型訓練的超級計算機,為GPT-4的訓練提供了關鍵的算力支撐和研發加速。OpenAI在GPT-4技術報告中,甚至把Supercomputing lead(超級計算領導)和Infrastructure lead(基礎設施領導)的排名放在了預訓練模型團隊的最前面。

OpenAI的團隊從理論基礎層面進行優化,改進了GPT-3.5的一些bug,使得GPT-4能夠前所未有地進行穩定高速的訓練。這方面可以看出OpenAI團隊的數學和計算理論功底。

從技術報告描述的模型訓練過程來看,GPT-4的訓練與GPT-3.5類似。包括SFT(有監督微調)的預訓練、基于RLHF(人類反饋強化學習)的獎勵模型訓練和強化學習的PPO(近端策略優化)算法微調。與之前的GPT模型不同的是,OpenAI使用基于規則的獎勵模型(RBRM) 在PPO微調期間向GPT-4提供額外的獎勵信號。

OpenAI投入了大量資源來提高GPT-4的安全性和一致性。包括引入專家進行對抗性測試和紅隊測試,模型輔助的安全流水線以及安全指標的改進。OpenAI引入的安全專家達到了50多人,覆蓋AI一致性風險、網絡安全、生物風險等領域。

與ChatGPT一樣,OpenAI使用強化學習和人類反饋 (RLHF) 來微調模型的行為,以產生更符合用戶意圖的響應。但當給定不安全的輸入時,模型可能會生成不良內容,例如提供有關犯罪的建議。另外,模型也可能對安全輸入變得過于謹慎,拒絕無害的請求。

GPT-4的安全流水線包括兩個主要部分:一組額外的安全相關 RLHF訓練提示,以及基于規則的獎勵模型(RBRM)。RBRM是一組zero-shot GPT-4 分類器。這些分類器在RLHF微調期間為GPT-4策略模型提供額外的獎勵信號,以正確的輸出行為為目標進行訓練,例如拒絕生成有害內容或不拒絕無害的請求。(中新經緯APP)

本文由中新經緯研究院選編,因選編產生的作品中新經緯版權所有,未經書面授權,任何單位及個人不得轉載、摘編或以其它方式使用。選編內容涉及的觀點僅代表原作者,不代表中新經緯觀點。

責任編輯:孫慶陽

編輯:郭晉嘉

關鍵詞:

責任編輯:hnmd003

相關閱讀

相關閱讀

推薦閱讀