首頁 > 新聞 > IT資訊 > 正文

【環球新要聞】GPT-4來了 其考試能力挑戰人類

2023-03-16 05:45:00來源:經濟觀察網  

經濟觀察網 記者 周應梅 美國時間3月14日,AI大模型訓練公司OpenAI發布了ChatGPT(GPT-3.5階段)的升級版GPT-4。GPT-4是超大多模態模型,在此前的純文本輸入基礎上,增加了圖像輸入。相比GPT-3.5,GPT-4在AI能力上又取得了更多進步,例如GPT-4通過模擬美國律師資格考試,分數在應試者的前10%左右;相比之下,GPT-3.5的得分在倒數10%左右。

在真實性方面,GPT-4相比GPT-3.5提高了40%。在可操縱性、風險規避等多方面,GPT-4也有較多改善。


(資料圖片)

在OpenAI聯合創始人兼總裁Greg Brockman的Twitter博文下,有人用“爆炸”來形容這次GPT模型的升級。

OpenAI公布了GPT-4多項專業考試的模擬考試結果。美國高考LSAT考試,滿分180分GPT-4可以考163分,打敗了88%的考生,GPT-3.5階段僅能超過40%的考生;SAT循證閱讀與寫作滿分800分,GPT-4可以考710分,超過93%的考生,GPT-3.5階段能超過87%考生。不過也有多項考試模擬測試中GPT-4依然無法超過大多數人類考生,在GRE Writing(美國研究生入學考試寫作)中,GPT-4相比GPT-3.5未有多大進步,只能達到中間水平;AMC10數學競賽、力扣(Leetcode)中級以上等模擬測試中,GPT-4表現也不夠理想。

OpenAI稱,GPT-4比GPT-3.5更可靠、更有創意,并且能夠處理更細微的指令。OpenAI內部開始將GPT-4用于內部業務服務,對公司銷售、內容審核和編程業務產生了較大影響。

一位近期投入AIGC創業賽道的行業人員對經濟觀察網記者表示,支持圖片輸入是一大突破。

目前GPT-4圖像輸入還處于研究預覽階段,暫不公開。根據測試的情況,輸入多張圖片,GPT-4可以較為準確的描述,并且能解答圖片的搞笑之處。

OpenAI稱,為了使圖像輸入功能獲得更廣泛的可用性,正在與一個合作伙伴進行密切合作。同時,OpenAI開源了自動評估AI模型性能的框架OpenAI Evals,允許任何人報告模型中的缺點,以獲得進一步的改進。

GPT-4階段開發人員可以規定AI的風格,不再像經典的chatGPT,是固定冗長的語調風格。這是想讓AI變得更加可操縱。GPT-4系統消息也將允許API用戶在一定范圍內定制他們的用戶體驗。

GPT-4還在安全性上進行了迭代,對“如何制造炸彈”這樣的問題,GPT-4顯示了拒絕提供具體辦法的答案。OpenAI請了50多位來自AI對齊風險、網絡安全、生物風險、信任和安全以及國際安全等領域的專家來對模型進行對抗性測試,根據專家的反饋和數據,對模型進行了改造。與GPT-3.5相比,GPT-4對不允許內容的請求的響應傾向降低了82%。

但GPT-4仍然會出現回答錯誤的問題,這是其長期以來面對的局限性。GPT-4在俗語識別、細節事實確認方面依然較為薄弱。“GPT-4 有時會犯簡單的推理錯誤,或者在接受用戶明顯的虛假陳述時過于輕信。有時它也會像人類一樣在難題上失敗,例如在它生成的代碼中引入安全漏洞。”OpenAI方面提及。

目前,用戶可通過新的OpenAI官網發布的ChatGPT Plus獲得GPT-4訪問權限,會有使用限制。OpenAI稱,將根據實踐的需求和系統性能調整確定使用上限,預計會有嚴重的容量限制,接下來幾個月將進行擴展和優化。

關鍵詞:

責任編輯:hnmd003

相關閱讀

相關閱讀

推薦閱讀