【環球新要聞】GPT-4來了其考試能力挑戰人類

2023-03-16 05:45:00來源：經濟觀察網

經濟觀察網記者周應梅 美國時間3月14日，AI大模型訓練公司OpenAI發布了ChatGPT（GPT-3.5階段）的升級版GPT-4。GPT-4是超大多模態模型，在此前的純文本輸入基礎上，增加了圖像輸入。相比GPT-3.5，GPT-4在AI能力上又取得了更多進步，例如GPT-4通過模擬美國律師資格考試，分數在應試者的前10%左右；相比之下，GPT-3.5的得分在倒數10%左右。

在真實性方面，GPT-4相比GPT-3.5提高了40%。在可操縱性、風險規避等多方面，GPT-4也有較多改善。

(資料圖片)

在OpenAI聯合創始人兼總裁Greg Brockman的Twitter博文下，有人用“爆炸”來形容這次GPT模型的升級。

OpenAI公布了GPT-4多項專業考試的模擬考試結果。美國高考LSAT考試，滿分180分GPT-4可以考163分，打敗了88%的考生，GPT-3.5階段僅能超過40%的考生；SAT循證閱讀與寫作滿分800分，GPT-4可以考710分，超過93%的考生，GPT-3.5階段能超過87%考生。不過也有多項考試模擬測試中GPT-4依然無法超過大多數人類考生，在GRE Writing（美國研究生入學考試寫作）中，GPT-4相比GPT-3.5未有多大進步，只能達到中間水平；AMC10數學競賽、力扣（Leetcode）中級以上等模擬測試中，GPT-4表現也不夠理想。

OpenAI稱，GPT-4比GPT-3.5更可靠、更有創意，并且能夠處理更細微的指令。OpenAI內部開始將GPT-4用于內部業務服務，對公司銷售、內容審核和編程業務產生了較大影響。

一位近期投入AIGC創業賽道的行業人員對經濟觀察網記者表示，支持圖片輸入是一大突破。

目前GPT-4圖像輸入還處于研究預覽階段，暫不公開。根據測試的情況，輸入多張圖片，GPT-4可以較為準確的描述，并且能解答圖片的搞笑之處。

OpenAI稱，為了使圖像輸入功能獲得更廣泛的可用性，正在與一個合作伙伴進行密切合作。同時，OpenAI開源了自動評估AI模型性能的框架OpenAI Evals，允許任何人報告模型中的缺點，以獲得進一步的改進。

GPT-4階段開發人員可以規定AI的風格，不再像經典的chatGPT，是固定冗長的語調風格。這是想讓AI變得更加可操縱。GPT-4系統消息也將允許API用戶在一定范圍內定制他們的用戶體驗。

GPT-4還在安全性上進行了迭代，對“如何制造炸彈”這樣的問題，GPT-4顯示了拒絕提供具體辦法的答案。OpenAI請了50多位來自AI對齊風險、網絡安全、生物風險、信任和安全以及國際安全等領域的專家來對模型進行對抗性測試，根據專家的反饋和數據，對模型進行了改造。與GPT-3.5相比，GPT-4對不允許內容的請求的響應傾向降低了82%。

但GPT-4仍然會出現回答錯誤的問題，這是其長期以來面對的局限性。GPT-4在俗語識別、細節事實確認方面依然較為薄弱。“GPT-4 有時會犯簡單的推理錯誤，或者在接受用戶明顯的虛假陳述時過于輕信。有時它也會像人類一樣在難題上失敗，例如在它生成的代碼中引入安全漏洞。”OpenAI方面提及。

目前，用戶可通過新的OpenAI官網發布的ChatGPT Plus獲得GPT-4訪問權限，會有使用限制。OpenAI稱，將根據實踐的需求和系統性能調整確定使用上限，預計會有嚴重的容量限制，接下來幾個月將進行擴展和優化。

關鍵詞：

責任編輯：hnmd003