GPT-4震撼發布,有哪些變化?
今天凌晨OpenAI正式推出了NLP大作,GPT-4。目前,ChatGPT的Plus訂閱用戶已經可以使用GPT-4,其他用戶需要排隊申請內測。我們根據GPT-4官方提供的技術文檔,來看看都有哪些變化。
(資料圖片僅供參考)
本文將以OpenAI GPT-4 技術報告為基礎,介紹GPT-4的特征和訓練信息。
GPT-4是一個多模態大型語言模型,即支持圖像和文本輸入,以文本形式輸出;擴寫能力增強,能處理超過25000個單詞的文本;更具創造力,并且能夠處理更細微的指令。
我們從官網上就可以看到,ChatGPT和GPT-4的示范,效果貌似已經顯著拉開了。誰更智能一目了然…
問:
Andrew:上午11點-下午3點有空
Joanne:中午-下午2點有空、下午3點半-下午5點有空
Hannah:中午有半小時的時間,下午4-6點有空
給這仨人安排個30分鐘的會議,有哪些選擇?
答:
ChatGPT:會議可以在下午4點開始
GPT-4:會議可以在中午12點開始
報告指出了GPT-4的發展進度,這是一個大規模、多模態的模型,它可以接受圖像和文本輸入,并產生文本輸出。雖然在許多現實世界的場景中能力不如人類,但在各種專業和學術基準上表現出人類水平的表現。例如,它通過了模擬的律師考試,分數在應試者的前10%左右;相比之下,GPT-3.5的分數則在后10%左右。
GPT-4是一個基于Transformer的模型,經過預先訓練,可以預測文檔中的下一個標記。訓練后的調整過程使對事實的遵守程度得到改善。
這個項目的一個核心部分是開發基礎設施和優化方法,讓這些方法在廣泛的范圍內有可預測的行為。這使我們能夠準確地預測GPT-4在某些方面的性能,其基礎是用不超過GPT-4的1/1000的計算量所訓練的模型。
1.介紹
技術報告介紹了GPT-4,這是一個大型多模態模型,能夠處理圖像和文本輸入并產生文本輸出。這類模型是一個重要的研究領域,因為它們有可能被用于廣泛的應用中,如對話系統、文本總結和機器翻譯。因此,近年來它們一直是人們關注的對象,并取得了很大的進展。近年來,它們一直是人們關注的焦點。
開發此類模型的主要目標之一是提高其理解和生成自然語言文本的能力,特別是在更復雜和細微的情況下。為了測試其在這種情況下的能力,GPT-4在最初為人類設計的各種考試中進行了評估。在這些評估中,它表現得相當好,并且經常超過絕大多數人類應試者的分數。
例如,在模擬律師資格考試中,GPT-4的成績在考生中排名前10%。這與GPT-3.5形成鮮明對比,GPT-3.5的得分排在后10%。
在一套傳統的NLP基準測試中,GPT-4的表現超過了以前的大型語言模型和大多數最先進的系統(這些系統通常有特定的基準訓練或手工工程)。
在MMLU基準測試中,GPT-4不僅在英語考試中以相當大的優勢超過了現有的模型,而且在其他語言方面也表現出了強大的性能。
本報告還討論了該項目的一個關鍵挑戰,即開發深度學習基礎設施和優化方法,這些方法在廣泛的范圍內表現出可預測性。這使我們能夠預測GPT-4的預期性能(基于以類似方式訓練的小型運行)。這使我們能夠對GPT-4的預期性能進行預測(基于類似的訓練方式的小運行),并與最終的運行進行測試,以增加對我們訓練的信心。
盡管有這樣的能力,GPT-4與早期的GPT模型有類似的局限性:它并不完全可靠(例如,可能出現 "幻覺"),有一個有限的上下文窗口,并且沒有習得經驗。在使用GPT-4的輸出時應謹慎行事,特別是在對可靠性要求很高的情況下。
GPT-4的能力和局限性帶來了重大的、新的安全挑戰,我們相信鑒于其潛在的社會影響,仔細研究這些挑戰是一個重要的研究領域。本報告包括一個廣泛的系統卡,描述了我們所預見的一些風險。圍繞偏見、虛假信息、過度依賴、隱私、網絡安全、擴散等方面預見了一些風險。它還描述了我們為減輕部署GPT-4的潛在危害所采取的干預措施。包括聘請領域專家進行對抗性測試,以及一個模型輔助的安全管道。
2.技術報告的范圍和局限性
本報告的重點是GPT-4的能力、局限和安全性能。GPT-4是一個基于Transformer的模型,它預先進行了訓練,以預測文檔中的下一個標記,使用公開的數據(如互聯網數據)和第三方供應商授權的數據。
該模型然后使用來自人類反饋的強化學習(RLHF)對模型進行微調。鑒于GPT-4這樣大規模模型的競爭狀況和安全影響,報告中不包含有關架構(包括模型大小)、硬件、訓練計算、數據集構建、訓練方法或類似內容的進一步細節。
OpenAI致力于對技術進行獨立審計,并分享了一些這方面的初步措施和想法。并計劃向更多的第三方提供進一步的技術細節,他們可以就如何權衡上述競爭和安全考慮與科學價值的關系提供建議。
3.可預測的擴展
GPT-4項目的一大重點是建立一個可預測擴展的深度學習棧。主要原因是,對于像GPT-4這樣的大型訓練運行,要做大量針對模型的調整是不可行的。
為了解決這個問題,我們開發了基礎設施和優化方法,在多個尺度上有非常可預測的行為。這些改進使我們能夠可靠地從使用1,000倍-10,000倍計算量訓練的較小模型中預測GPT-4的某些方面的性能。
3.1 損失預測
正確訓練的大型語言模型的最終損失被認為可以通過訓練模型所用的計算量的冪律來很好地接近訓練模型所使用的計算量的規律。
為了驗證OpenAI的優化基礎設施的可擴展性,OpenAI預測了GPT-4的最終損失,在OpenAI的內部代碼庫(不是訓練集的一部分)上預測GPT-4的最終損失,方法是通過擬合一個帶有不可減少的損失項的比例法則(如Henighan等人的做法):L(C) = aCb + c, 來自使用相同方法訓練的模型,但使用的計算量比GPT-4最多少10,000倍。
這一預測是在運行開始后不久做出的,沒有使用任何部分結果。擬合的比例法高度準確地預測了GPT-4的最終損失。
3.2 在HumanEval上擴展能力
在訓練前對模型的能力有一個認識,可以改善有關調整的決策、安全和部署。
除了預測最終損失外,我們還開發了方法來預測能力的更多可解釋性指標,其中一個指標是HumanEval數據集的通過率。
OpenAI成功地預測了HumanEval數據集的一個子集上的通過率,其方法是從訓練的模型中推斷出來的訓練出來的模型進行推斷,其計算量最多減少1,000倍。
對于HumanEval中的單個問題,性能可能偶爾會隨著規模的擴大而變差。盡管有這些挑戰,我們發現一個近似的冪律關系--EP [log(pass_rate(C))] = α?C-k。
相信準確預測未來的能力對安全很重要。展望未來,OpenAI計劃在大型模型訓練開始之前,完善這些方法并記錄各種能力的性能預估。并且,OpenAI希望這成為該領域的一個共同目標。
4、能力
這簡直就是個考試小能手
GPT-4典型的成績包括:
SAT(美國高考): 1410/1600(前 6%)。
美國統一律師資格考試(MBE+MEE+MPT):298/400(前 10%)。
AP(美國大學預科考試):生物學、微積分、宏觀經濟學、心理學、統計學和歷史的大學預修高中考試:100% (5/5)。
OpenAI在一系列不同的基準上對GPT-4進行了測試,包括模擬最初為人類設計的考試。考試題目包括多項選擇題和自由回答題,綜合分數由多項選擇題和自由回答題的分數結合決定,GPT-4在大多數專業和學術考試中都有與人類水平相當的表現。值得注意的是,它通過了統一律師考試的模擬版本,分數在應試者中排名前10%。
就測試的結果來看,GPT-4模型在考試中的能力似乎主要來自于預訓練過程,并沒有受到RLHF的明顯影響。在多選題上,基礎的GPT-4模型和RLHF模型的表現相當。
OpenAI還在傳統的基準上評估了預先訓練好的基礎GPT-4模型,這些基準是為評估語言模型而設計的。
就在考試測試中的表現來看,GPT-4的性能大大超過了現有的語言模型,以及此前最先進的系統,這些系統通常有針對的基準或額外的訓練協議。
針對現有的許多機器學習基準測試都是用英語編寫的,很難體現在其他語言中的表現,為了初步了解GPT-4在其他語言中的功能,他們也將一套涵蓋57個主題的多項選擇題的基準測試,采用相關的應用程序轉換成了其他語言,并進行了測試,最終結果顯示GPT-4的表現要優于GPT 3.5和現有語言模型對測試的大多數語言的語言性能,包括低資源語言。
能看懂一些圖的笑點了
GPT-4在理解用戶意圖的能力方面較此前的模型有明顯改善。
GPT-4可以說已經能看懂一些圖梗了,不再僅僅是對話助手。當然離大家期待的看懂視頻還有一段距離。現在能看懂圖片的笑點,比如這張…
左一:一臺iPhone插上了帶有VGA的連接器
右一:“Lightning Cable”適配器的包裝,上面有VGA連接器的圖
右二:VGA連接器的特寫,上面有VGA連接器的圖片,但可以看到,頭是個Lightning的…
笑點在于將VGA端口插在iPhone上的荒謬…很冷吧…搞機圈博主們的壓力大不大…
4.1 視覺輸入
對GPT-4而言,訓練后的對齊(Alignment)是提高性能和改善體驗的關鍵。從技術上看,人類反饋強化學習(RLHF)微調仍然是GPT-4的要點。考慮到LLM領域的競爭格局和 GPT-4 等大型模型的安全隱患,OpenAI暫時還未公布GPT-4的模型架構、模型大小、訓練技術。
這張圖片:GPT-4認為,不同尋常的地方在于,一名男子正在行駛中的出租車車頂上的熨衣板熨衣服…
再比如這個,這到底是雞塊?還是地圖?還是用雞塊拼成的世界地圖?
GPT-4接受由圖像和文本組成的提示,這與純文本設置平行,讓用戶指定任何視覺或語言任務。具體來說,該模型生成的文本輸出給出由任意交錯的文本和圖像組成的輸入。在一系列領域中,包括帶有文字和照片的文件、圖表或屏幕截圖,GPT-4表現出與純文本輸入類似的能力。
為語言模型開發的標準測試時間技術(如少量提示、思維鏈等),使用圖像和文本時也同樣有效。
在一組狹窄的學術視覺基準上的初步結果可以在GPT-4博客中找到,計劃在后續工作中發布更多關于GPT-4的視覺能力的信息。
5、局限性
盡管GPT-4功能強大,但它與早期GPT模型一樣,有相似的局限性。最重要的是,它仍然不完全可靠(它會“幻覺”事實并犯推理錯誤),應非常小心。
在使用語言模型輸出時,特別是在高風險的上下文中,使用準確的協議(例如人工審查,附加上下文,或完全避免高風險使用滿足特定應用的需求。
GPT-4在TruthfulQA等公共基準上取得了進展,該基準測試模型的測試能將事實從一組不正確的陳述中分離出來,與統計上有吸引力的事實錯誤的答案相匹配。GPT-4基本型號為在這項任務上只比GPT-3.5略勝一籌。然而,在RLHF訓練后,較GPT-3.5有很大的改進,GPT-4抗拒選擇一些常見的諺語,但仍然會錯過一些微妙的細節。
GPT-4有時會使簡單的推理出現錯誤,似乎不符合在這么多領域的能力,或者輕信用戶明顯的虛假陳述。它可能像人類一樣在困難的問題上失敗,例如在產生的代碼中引入安全漏洞。
GPT-4也可能在其預測中輕易的犯錯,在可能犯錯的時候不注意反復檢查。雖然預訓練的模型是高度校準的,但在后期的訓練過程中,校準度降低了。
GPT-4在其輸出中存在各種偏差,OpenAI已經在努力糾正,但這需要一定的時間,他們的目標是使GPT-4同我們建立的其他系統一樣,有合理的默認行為,以反映廣大用戶的價值觀,允許這些系統在一些廣泛的范圍內進行定制,并獲得公眾對這些范圍的意見。
6.風險和緩解措施
GPT-4具有與小型語言模型類似的風險,例如,產生有害的建議、有缺陷的代碼或不準確的信息。
聘請領域專家進行對抗性測試:為了了解這些風險的程度,OpenAI聘請了來自長期人工智能(AI)校準風險、網絡安全、生物風險和國際安全領域的50多位專家對該模型進行對抗性測試。從這些專家那里收集的建議和培訓數據為OpenAI制定緩解措施和對該模型進行改進提供了參考。
模型輔助的安全管道:與之前的GPT模型一樣,OpenAI利用來自人類反饋的強化學習(RLHF)對該模型的行為進行微調,以產生更符合用戶意圖的回復。在RLHF之后,該模型在不安全的輸入上仍然是脆弱的,并且有時在安全輸入和不安全輸入上都表現出不受歡迎的行為。此外,該模型在安全輸入方面也可能變得過于謹慎。
安全指標的改進:OpenAI的緩解措施已經大大改善了GPT-4的許多安全性能。與GPT-3.5相比,該公司將GPT-4對不允許內容請求做出響應的傾向降低了82%,而GPT-4根據OpenAI的政策對敏感請求的響應頻率提高了29%。
OpenAI正在與外部研究人員合作,以改善其理解和評估潛在影響的方式,以及建立對未來系統中可能出現的危險能力的評估。該公司將很快發布關于社會可以采取的步驟的建議,以準備應對人工智能的影響。該公司將很快公布關于社會為應對人工智能影響可以采取的措施的建議,以及預測人工智能可能產生的經濟影響的初步想法。
7.總結
GPT-4是一個在某些困難的專業和學術基準上具有人類水平表現的大型多模態模型。它在一系列NLP任務上的表現優于現有的大型語言模型,并且超過了絕大多數已報道的最先進的系統(這些系統通常包括針對特定任務的微調)。
GPT-4由于性能的提高而帶來了新的風險,我們討論了一些方法和結果,以了解和提高其安全性和一致性。雖然還有很多工作要做,但GPT-4代表著朝著廣泛有用和安全部署的人工智能系統邁出了重要一步。
責任編輯:hnmd003
相關閱讀
-
全球新動態:叮當健康午后跳水跌超23% 預計2022財年凈虧損同比擴大不少于83%
3月15日消息,叮當健康午后跳水跌超23%,現報5 66港元,此前公布預計2022財年凈虧損同比擴大不少于83%...
2023-03-15 -
當前時訊:GPT-4來了:支持圖生文,多項測試“超越”90%的人類
在內部評估中,它產生正確回應的可能性比GPT-3 5高40%。??OpenAI表示,新模型將產生更少的錯誤答案,更...
2023-03-15 -
環球觀焦點:制造業景氣度持續回升,機器人行業發展將提速,機構一致看好的高增長機器人概念股出爐
數據是個寶數據寶炒股少煩惱近日,《上海市智能機器人標桿企業與應用場景推薦目錄》首批入圍名單公布。...
2023-03-15 -
下架!債圈巨震,交易員上演大遷徙,什么情況?已有平臺緊急應對,影響多大?數萬固收員忙"加群"
數萬名實名固收交易員連夜從一個平臺遷徙到一些社交群的壯觀景象上演了。3月14日固收圈爆出重磅消息貨幣...
2023-03-15
相關閱讀
-
GPT-4震撼發布,有哪些變化?
今天凌晨OpenAI正式推出了NLP大作,GPT-4。本文將以OpenAIGPT-4技術報告為基礎,介紹GPT-4的特征和訓練...
-
全球新動態:叮當健康午后跳水跌超23% 預計2022財年凈虧損同比擴大不少于83%
3月15日消息,叮當健康午后跳水跌超23%,現報5 66港元,此前公布預計2022財年凈虧損同比擴大不少于83%...
-
【天天報資訊】未履行母校捐款成老賴,當事人道歉:會想辦法落實捐款
近日,中國礦業大學90后校友吳幽因未履行1100萬元捐贈承諾,被母校
-
當前報道:玉蕾等多家腌制菜生產商被查封,多家電商平臺已下架相關產品
據媒體報道,3月14日晚,廣東廣播電視臺曝光了汕頭市知名橄欖菜企業
-
全球熱推薦:奔馳EQC被曝不到半年出現核心部件故障
據鳳凰網財經消息,近日,來自北京的奔馳車主張先生爆料稱,他購買
-
世界報道:報道稱飛豬上訂酒店現多個假定位,或因內部人員與商家串通造假
據第一幫幫團視頻,稱在飛豬上訂酒店,出現該酒店定位與實際不符情
-
環球微動態丨吉野家吃出蟑螂后執法檢查又發現43只,被罰款6.5萬元
天眼查App顯示,3月14日,北京吉野家快餐有限公司昌平奧萊餐廳因違
-
315曝光:“大師”薦股,90人騙了2個億!上海警方破獲280余起經濟案
3月15日,上海市公安局發布了涉消費者權益案件辦理情況及案件特點。上游新聞(報料郵箱:cnshangyou@163...
-
汽車315:新車竟自帶“曬傷妝” 東風日產軒逸車主投訴不斷
剛買回來的新車,竟發現部分漆面發黃、發暗,甚至帶有橘皮紋?近日,廣東茂名的東風日產軒逸車主周先生(...
-
直播間售賣鹿鞭丸 送檢后發現“西地那非”
安徽省潛山市一企業在鹿鞭丸產品中添加偉哥成分的行為,被職業打假人送檢后曝光。此前,這款產品在視頻...
-
聚焦315:“腐菜”變“美味” 知名橄欖菜企業生產環境觸目驚心
一直以來,潮汕腌制菜以獨特的風味廣受好評,被譽為潮汕三寶之一,是連結海內外潮人的思鄉菜,也是很多...
-
聚焦315:網絡購物合同糾紛案件過去五年增長近2倍 最高法發布典型案例
今天是國際消費者權益日,最高人民法院召開新聞發布會,就網絡消費糾紛情況和典型案例進行介紹。最高人...
-
汽車商業險包括哪些?汽車商業險可以不買嗎?
汽車商業險包括哪些?汽車商業保險一般包括有車輛損失險、第三者責任險、盜搶險、車上人員責任險:1、汽...
-
st股票會退市嗎?st股票為什么不能買入?
st股票會退市嗎?所謂st股票,也就是特別處理的股票,針對的是那些財務狀況或其他狀況出現異常的上市公司...
-
銀行借記卡是什么?銀行借記卡有效期多長時間?
銀行借記卡是什么?銀行借記卡是指發卡銀行向持卡人簽發的,沒有信用額度,需要持卡人先存款后使用的銀行...
-
貴金屬投資有哪些風險?貴金屬投資的三大特點
貴金屬投資有哪些風險?1 平臺風險想要在貴金屬市場順利盈利,首先要面對的貴金屬投資風險就是平臺風險...
-
工商銀行網上基金怎么贖回?工商銀行網上基金怎么賣出?
工商銀行網上基金怎么贖回?【1】首先需要用戶登錄工商銀行手機銀行,找到手機銀行里面的投資理財;【2】...
-
怎樣買車險便宜又實惠?價格會不會變化?
直接找保險公司買車險:購買車險的渠道有很多,特別是很多4s店都有購買保險的權利,但是其實直接找保險...
-
意外險和商業險的區別是什么?保費是多少?
意外險和商業險在保險對象、保障范圍、保費、理賠方式等方面存在明顯的差異。意外險主要是針對個人的人...
-
好醫保防癌醫療險怎么樣?等待期有多久?
是正規的保險,有對應的優缺點,需要根據自己的情況選擇。 優點:該保險是一款互聯網保險,投保的門檻...
-
環球實時:一年出2次車險增加多少錢?都能報銷嗎?
20%左右。 一般來說一年內出險一次并不會影響車險價格,但是一年出現超過兩次,價格就會上調,
-
【新視野】醫保卡過期了還能正常使用嗎?怎么換卡呢?
要看情況。 有的時候醫保卡過期了還是可以正常刷卡,不影響正常使用,但是有的醫保卡過期了就不能刷出...
-
當前時訊:GPT-4來了:支持圖生文,多項測試“超越”90%的人類
在內部評估中,它產生正確回應的可能性比GPT-3 5高40%。??OpenAI表示,新模型將產生更少的錯誤答案,更...
-
環球觀焦點:制造業景氣度持續回升,機器人行業發展將提速,機構一致看好的高增長機器人概念股出爐
數據是個寶數據寶炒股少煩惱近日,《上海市智能機器人標桿企業與應用場景推薦目錄》首批入圍名單公布。...
-
如何炒白銀?炒白銀穩賺的技巧
如何炒白銀?白銀和黃金一樣,都屬于貴金屬。而且白銀因為價格低廉、投資門檻低,還一度被稱為窮人的黃金...
-
本田將雅閣生產轉移至印第安納州_世界最新
本田將雅閣生產轉移至印第安納州本田表示,馬里斯維爾工廠將把兩條生產線合并為一條,以使其能夠開始建...
-
網上銀行充話費怎么沒到賬?網上銀行充話費充錯了怎么辦?
網上銀行充話費怎么沒到賬?1、月初或月末屬于充值高峰時段且屬于運營商出賬期,話費到賬可能會延遲2-24...
-
存折有年費嗎?存折上面的余額怎么看?
存折有年費嗎?銀行存折不收取年費。對于銀行卡有的銀行有做相關規定,如果賬戶存款金額較少,是需要收取...
-
支付寶養老金值得買嗎?支付寶養老金收益率多少?
支付寶養老金值得買嗎?支付寶終身保全民養老金,第一個優勢就在于,繳費方式更加靈活,不僅可以一次性交,也...
-
信用社借款有哪幾種貸款?信用社信用貸款額度一般多少?
信用社借款有哪幾種貸款?1、從期限上來分,農村信用社貸款主要分三種:短期貸款,指貸款期限在1年以內(...
精彩推薦
閱讀排行
精彩推送
- 農行怎么貸款?農行貸款利率2023...
- 余額寶本金會減少嗎?余額寶本金...
- 環球黑卡怎么辦理?環球黑卡有什...
- 股票身懷六甲是什么意思?股票身...
- 交行沃爾瑪信用卡值得辦嗎?交行...
- 上海信用卡取現多久到賬?上海信...
- 藍籌ETF是什么意思?藍籌etf基金...
- 住房公積金個人怎么提取?可以貸...
- 養老保險是什么時候開始交的?需...
- 少兒金典人生重大疾病保險怎么樣...
- 國壽樂盈一生終身壽險3年多久可...
- 工資3000五險交多少?五險有哪些...
- 焦點關注:3·15“危險的出行”...
- 天天播報:3·15“投訴曝光”|蝴...
- 工信部:開展5G網絡運行安全能力...
- 今日要聞!寧德時代與北汽集團簽...
- 大量采用碳纖維 蘭博基尼LB744...
- 個人買社保怎么買合適?多少錢一...
- 全球消息!中國太平洋車險在線報...
- 四川醫保卡初始密碼是多少?醫保...
- 北京醫保卡丟了怎么補辦?補辦需...
- 全球訊息:個人養老金賬戶怎么算...
- 下架!債圈巨震,交易員上演大遷...
- 創新金融服務共建美好生活,輕松...
- 網紅西餐廳藍蛙被爆后廚亂象:過...
- 上汽大眾開啟ID.純電大促,至高...
- 搭DiSus-C智能阻尼懸架 騰勢N8...
- 快捷支付簽約交易有危險嗎?如何...
- 莊家能看到散戶持倉嗎?莊家與散...
- 交行私人銀行是什么銀行?交行私...