GPT-4 變笨引爆輿論!文本代碼質(zhì)量都下降,OpenAI 剛剛回應(yīng)了降本減料質(zhì)疑
大模型天花板GPT-4,它是不是……變笨了?
(相關(guān)資料圖)
先是少數(shù)用戶提出質(zhì)疑,隨后大量網(wǎng)友表示自己也注意到了,還貼出不少證據(jù)。
有人反饋,把 GPT-4 的 3 小時 25 條對話額度一口氣用完了,都沒解決自己的代碼問題。無奈切換到 GPT-3.5,反倒解決了。
總結(jié)下大家的反饋,最主要的幾種表現(xiàn)有:以前 GPT-4 能寫對的代碼,現(xiàn)在滿是 Bug
回答問題的深度和分析變少了
響應(yīng)速度比以前快了
這就引起不少人懷疑,OpenAI 是不是為了節(jié)省成本,開始偷工減料?
兩個月前 GPT-4 是世界上最偉大的寫作助手,幾周前它開始變得平庸。我懷疑他們削減了算力或者把它變得沒那么智能。
這就不免讓人想起微軟新必應(yīng)" 出道即巔峰 ",后來慘遭 " 前額葉切除手術(shù) " 能力變差的事情……網(wǎng)友們相互交流自己的遭遇后," 幾周之前開始變差 ",成了大家的共識。
一場輿論風暴同時在 Hacker News、Reddit 和 Twitter 等技術(shù)社區(qū)形成。
這下官方也坐不住了。OpenAI 開發(fā)者推廣大使Logan Kilpatrick,出面回復了一位網(wǎng)友的質(zhì)疑:
API 不會在沒有我們通知您的情況下更改。那里的模型處于靜止狀態(tài)。
不放心的網(wǎng)友繼續(xù)追問確認 " 就是說 GPT-4 自從3 月 14 日發(fā)布以來都是靜態(tài)的對吧?",也得到了 Logan 的肯定回答。" 我注意到對于某些提示詞表現(xiàn)不一致,只是由于大模型本身的不穩(wěn)定性嗎?",也得到了"Yes"的回復。但是截至目前,針對網(wǎng)頁版 GPT-4 是否被降級過的兩條追問都沒有得到回答,并且 Logan 在這段時間有發(fā)布別的內(nèi)容。那么事情究竟如何,不如自己上手測試一波。對于網(wǎng)友普遍提到 GPT-4 寫代碼水平變差,我們做了個簡單實驗。
實測 GPT-4" 煉丹 " 本領(lǐng)下降了嗎?
3 月底,我們曾實驗過讓 GPT-4" 煉丹 ",用 Python 寫一個多層感知機來實現(xiàn)異或門。
△ShareGPT 截圖,界面稍有不同讓 GPT-4 改用 numpy 不用框架后,第一次給出的結(jié)果不對。
在修改兩次代碼后,運行得到了正確結(jié)果。第一次修改隱藏神經(jīng)元數(shù)量,第二次把激活函數(shù)從 sigmoid 修改成 tanh。
6 月 2 日,我們再次嘗試讓 GPT-4 完成這個任務(wù),但換成了中文提示詞。這回 GPT-4 第一次就沒有使用框架,但給的代碼仍然不對。
后續(xù)只修改一次就得到正確結(jié)果,而且換成了力大磚飛的思路,直接增加訓練 epoch 數(shù)和學習率。
回答的文字部分質(zhì)量也未觀察到明顯下降,但響應(yīng)速度感覺確實有變快。由于時間有限,我們只進行了這一個實驗,且由于 AI 本身的隨機性,也并不能否定網(wǎng)友的觀察。
最早 4 月 19 日就有人反饋
我們在 OpenAI 官方 Discord 頻道中搜索,發(fā)現(xiàn)從4 月下旬開始,就不時有零星用戶反饋 GPT-4 變差了。
但這些反饋并未引發(fā)大范圍討論,也沒有得到官方正式回應(yīng)。5 月 31 日,Hacker News 和 Twitter 同天開始大量有網(wǎng)友討論這個問題,成為整個事件的關(guān)鍵節(jié)點。
HackerNews 一位網(wǎng)友指出,在 GPT-4 的頭像還是黑色的時候更強,現(xiàn)在紫色頭像版在修改代碼時會丟掉幾行。
在 Twitter 上較早提出這個問題的,是 HyperWrite(一款基于 GPT API 開發(fā)的寫作工具)的 CEO,Matt Shumer。
但這條推文卻引發(fā)了許多網(wǎng)友的共鳴,OpenAI 員工回復的推文也正是針對這條。不過這些回應(yīng)并沒讓大家滿意,反而討論的范圍越來越大。
比如 Reddit 上一篇帖子提到,原來能回答代碼問題的 GPT-4,現(xiàn)在連哪些是代碼哪些是問題都分不出來了。
在其他網(wǎng)友的追問下,帖子作者對問題出現(xiàn)的過程進行了概述,還附上了和 GPT 的聊天記錄。對于 OpenAI 聲稱模型從三月就沒有改動過,公開層面確實沒有相關(guān)記錄。ChatGPT 的更新日志中,分別在1 月 9 日、1 月 30 日、2 月 13 日提到了對模型本身的更新,涉及改進事實準確性和數(shù)學能力等。
但自從3 月 14 日GPT-4 發(fā)布之后就沒提到模型更新了,只有網(wǎng)頁 APP 功能調(diào)整和添加聯(lián)網(wǎng)模式、插件模式、蘋果 APP 等方面的變化。
假設(shè)真如 OpenAI 所說,GPT-4 模型本身的能力沒有變化,那么這么多人都感覺它表現(xiàn)變差是怎么回事呢?很多人也給出了自己的猜想。
第一種可能的原因是心理作用。
Keras 創(chuàng)始人 Fran ois Chollet 就表示,不是 GPT 的表現(xiàn)變差,而是大家渡過了最初的驚喜期,對它的期待變高了。
Hacker News 上也有網(wǎng)友持相同觀點,并補充到人們的關(guān)注點發(fā)生了改變,對 GPT 失誤的敏感度更高了。拋開人們心理感受的差異,也有人懷疑API 版本和網(wǎng)頁版本不一定一致,但沒什么實據(jù)。還有一種猜測是在啟用插件的情況下,插件的額外提示詞對要解決的問題來說可能算一種污染。
△WebPilot 插件中的額外提示詞這位網(wǎng)友就表示,在他看來 GPT 表現(xiàn)變差正是從插件功能開始公測之后開始的。
也有人向 OpenAI 員工詢問是否模型本身沒變,但推理參數(shù)是否有變化?量子位也曾偶然 " 拷問 " 出 ChatGPT 在iOS 上的系統(tǒng)提示詞與網(wǎng)頁版并不一致。如果在手機端開啟一個對話,它會知道自己在通過手機與你交互。
會把回答控制在一到兩句話,除非需要長的推理。
不會使用表情包,除非你明確要求他使用。
△不一定成功,大概率拒絕回答那么如果在網(wǎng)頁版繼續(xù)一個在 iOS 版開啟的對話而沒意識到,就可能觀察到 GPT-4 回答變簡單了。
總之,GPT-4 自發(fā)布以來到底有沒有變笨,目前還是個未解之謎。
但有一點可以確定:
3 月 14 日起大家上手玩到的 GPT-4,從一開始就不如論文里的。
與人類對齊讓 AI 能力下降
微軟研究院發(fā)表的 150 多頁刷屏論文《AGI 的火花:GPT-4 早期實驗》中明確:
他們早在 GPT-4 開發(fā)未完成時就得到了測試資格,并進行了長期測試。
后來針對論文中很多驚艷例子,網(wǎng)友都不能成功用公開版 GPT-4 復現(xiàn)。
目前學術(shù)界有個觀點是,后來的RLHF 訓練雖然讓 GPT-4 更與人類對齊——也就更聽從人類指示和符合人類價值觀——但讓也讓它自身的推理等能力變差。
論文作者之一、微軟科學家張弋在中文播客節(jié)目《What ’ s Next|科技早知道》S7E11 期中也提到:
那個版本的模型,比現(xiàn)在外面大家都可以拿得到的 GPT-4 還要更強,強非常非常多。
舉例來說,微軟團隊在論文中提到,他們每隔相同一段時間就讓 GPT-4 使用 LaTeX 中的 TikZ 畫一個獨角獸來追蹤 GPT-4 能力的變化。
論文中展示的最后一個結(jié)果,畫得已經(jīng)相當完善。
但論文一作Sebastien Bubeck后續(xù)在 MIT 發(fā)表演講時透露了更多信息。后來當 OpenAI 開始關(guān)注安全問題的時候,后續(xù)版本在這個任務(wù)中變得越來越糟糕了。
與人類對齊但并不降低 AI 自身能力上限的訓練方法,也成了現(xiàn)在很多團隊的研究方向,但還在起步階段。除了專業(yè)研究團隊之外,關(guān)心 AI 的網(wǎng)友們也在用自己的辦法追蹤著 AI 能力的變化。
有人每天讓 GPT-4 畫一次獨角獸,并在網(wǎng)站上公開記錄。
從 4 月 12 日開始,直到現(xiàn)在也還沒看出來個獨角獸的大致形態(tài)。當然網(wǎng)站作者表示,自己讓 GPT-4 使用 SVG 格式畫圖,與論文中的 TikZ 格式不一樣也有影響。并且 4 月畫的與現(xiàn)在畫的似乎只是一樣差,也沒看出來明顯退步。
最后來問問大家,你是 GPT-4 用戶么?最近幾周有感到 GPT-4 能力下降么?歡迎在評論區(qū)聊聊。
Bubeck 演講:
https://www.youtube.com/watch?v=qbIk7-JPB2c
張弋訪談:
https://xyzfm.link/s/UfTan0
每天一個 GPT-4 獨角獸
https://gpt-unicorn.adamkdean.co.uk
參考鏈接:
[ 1 ] https://news.ycombinator.com/item?id=36134249
[ 2 ] https://twitter.com/nabeelqu/status/1663915378265800705
[ 3 ] https://twitter.com/OfficialLoganK/status/1663934947931897857
[ 4 ] https://discord.com/channels/974519864045756446/1001151820170801244
[ 5 ] https://twitter.com/mattshumer_/status/1663744527448829954
[ 6 ] https://www.reddit.com/r/ChatGPT/comments/13xik2o/chat_gpt_4_turned_dumber_today/
[ 7 ] https://help.openai.com/en/articles/6825453-chatgpt-release-notes
[ 8 ] https://twitter.com/fchollet/status/1664036777416597505
[ 9 ] https://news.ycombinator.com/item?id=36155267
責任編輯:hnmd003
相關(guān)閱讀
-
GPT-4 變笨引爆輿論!文本代碼質(zhì)量都下降,OpenAI 剛剛回應(yīng)了降本減料質(zhì)疑
大模型天花板GPT-4,它是不是……變笨了?先是少數(shù)用戶提出質(zhì)疑,隨后大量網(wǎng)友表示自己也注意到了,還貼...
2023-06-02 -
富士通發(fā)布 AI 平臺 FujitsuKozuchi|當前動態(tài)
品玩6月2日訊,富士通發(fā)布AI平臺FujitsuKozuchi,將面向全球企業(yè)用戶提供一系列AI(人工智能)與ML(機器學
2023-06-02 -
聯(lián)想郝常杰:以開放融合態(tài)度支持國產(chǎn)高性能計算生態(tài)發(fā)展-環(huán)球速訊
在建造高性能計算系統(tǒng)的時候,聯(lián)想一直秉承開放融合的態(tài)度,不僅支持傳統(tǒng)的X86架構(gòu),還完成了對飛騰、海光
2023-06-02 -
小米汽車再換陣:前麥格納高管黃振宇接管供應(yīng)鏈
文|李安琪編輯|楊軒李勤為確保明年一季度交付節(jié)點,老汽車人開始陸續(xù)擔綱小米汽車的核心崗位。近日,36氪
2023-06-02 -
蘋果數(shù)據(jù)顯示 iOS 16 普及率超過 80% iPadOS 16 超過 70% 世界看熱訊
【TechWeb】6月2日消息,據(jù)外媒報道,按慣例,蘋果公司在下周的全球開發(fā)者大會上,將推出iPhone、iPad等各
2023-06-02 -
當前消息!36 氪專訪華瑞指數(shù)云:SDS 進入 2.0 時代,漸進式迭代以 10 年為周期
整理|Ricky作者|王與桐軟件定義存儲(SDS),并不是個新概念,但是在創(chuàng)投圈子卻還是年輕的。該概念發(fā)展至今
2023-06-02
相關(guān)閱讀
-
GPT-4 變笨引爆輿論!文本代碼質(zhì)量都下降,OpenAI 剛剛回應(yīng)了降本減料質(zhì)疑
大模型天花板GPT-4,它是不是……變笨了?先是少數(shù)用戶提出質(zhì)疑,隨后大量網(wǎng)友表示自己也注意到了,還貼...
-
余額寶贖回轉(zhuǎn)入是什么意思?余額寶贖回到賬時間
余額寶贖回轉(zhuǎn)入是什么意思?余額寶贖回轉(zhuǎn)入的含義是我們之前通過余額寶購買了某項基金產(chǎn)品,而當我們賣出...
-
環(huán)球熱門:教育部和各省(區(qū)、市)開通2023年高考舉報電話
央視網(wǎng)消息:近日,教育部統(tǒng)一公布了教育部以及各省(區(qū)、市)2023年的高考舉報電話,歡迎廣大考生、家長及
-
意外險短期怎么樣?保費是多少?_當前快訊
意外險短期相對于其他形式的意外險,具有以下幾個優(yōu)點:1、靈活性高:意外險短期通常可以根據(jù)被保險人的需
-
當前消息!太平共享盛世年金保險E款可靠嗎?有哪些保障?
可靠。太平共享盛世年金保險E款由太平壽險推出,是一款正規(guī)的商業(yè)年金險產(chǎn)品。太平壽險作為中國知名的保險
-
天天訊息:保險公司的年金險可以買嗎?有什么風險?
保險公司的年金險是一種可以幫助客戶規(guī)劃養(yǎng)老生活的保險產(chǎn)品。其基本原理是客戶在繳納一定費用后,保險公司
-
合眾穩(wěn)盈長紅養(yǎng)老年金保險(A)款有什么優(yōu)點?有什么缺點?_環(huán)球快看點
保證收益:合眾穩(wěn)盈長紅養(yǎng)老年金保險(A)款具有固定保證利率,可以確保您在投資過程中獲得穩(wěn)定的收益。彈性
-
增額增值壽險買哪個好?在哪買?
對于購買增額增值壽險這一問題,我們需要從以下幾個方面考慮。1 保障內(nèi)容。由于增額增值壽險結(jié)合了投資理念
-
27億重金注資固態(tài)電池,上汽集團究竟為了啥?|熱文
27億重金注資固態(tài)電池,上汽集團究竟為了啥?整個5月,關(guān)于固態(tài)電池的消息不斷。包括上汽集團、馬車動力、
-
速遞!5月阿維塔11大定訂單2,366臺
5月阿維塔11大定訂單2,366臺2023年6月2日,阿維塔科技宣布,首款情感智能電動轎跑SUV阿維塔11,5月大定訂單
-
RCEP對15個簽署國全面生效
2023年6月2日,《區(qū)域全面經(jīng)濟伙伴關(guān)系協(xié)定》(RCEP)對菲律賓正式生效,標志著RCEP對東盟10國和澳大利亞、
-
2023年暑期檔電影總票房突破1億元
據(jù)貓眼專業(yè)版數(shù)據(jù),6月1日14時06分,2023年暑期檔電影總票房(含預售)突破1億元。《哆啦A夢:大雄與天空的
-
西門子醫(yī)療加碼光子計數(shù)CT-全球視訊
西門子醫(yī)療正在德國福希海姆(Forchheim)建造一家新工廠,用于生產(chǎn)半導體晶體材料,總投資額高達8000萬歐
-
富士通發(fā)布 AI 平臺 FujitsuKozuchi|當前動態(tài)
品玩6月2日訊,富士通發(fā)布AI平臺FujitsuKozuchi,將面向全球企業(yè)用戶提供一系列AI(人工智能)與ML(機器學
-
聯(lián)想郝常杰:以開放融合態(tài)度支持國產(chǎn)高性能計算生態(tài)發(fā)展-環(huán)球速訊
在建造高性能計算系統(tǒng)的時候,聯(lián)想一直秉承開放融合的態(tài)度,不僅支持傳統(tǒng)的X86架構(gòu),還完成了對飛騰、海光
-
小米汽車再換陣:前麥格納高管黃振宇接管供應(yīng)鏈
文|李安琪編輯|楊軒李勤為確保明年一季度交付節(jié)點,老汽車人開始陸續(xù)擔綱小米汽車的核心崗位。近日,36氪
-
蘋果數(shù)據(jù)顯示 iOS 16 普及率超過 80% iPadOS 16 超過 70% 世界看熱訊
【TechWeb】6月2日消息,據(jù)外媒報道,按慣例,蘋果公司在下周的全球開發(fā)者大會上,將推出iPhone、iPad等各
-
當前消息!36 氪專訪華瑞指數(shù)云:SDS 進入 2.0 時代,漸進式迭代以 10 年為周期
整理|Ricky作者|王與桐軟件定義存儲(SDS),并不是個新概念,但是在創(chuàng)投圈子卻還是年輕的。該概念發(fā)展至今
-
蘋果零售鏈大動作:四年內(nèi)亞太擬新開 15 家店 上海有望再開一家-觀焦點
財聯(lián)社6月2日訊(編輯黃君芝)據(jù)報道,蘋果公司(AppleInc )正在制定擴大和加強其零售連鎖店的計劃,旨在
-
嚴打“賣慘”虛假助農(nóng) 抖音新規(guī)禁止公益類賬號變現(xiàn) 新消息
中新經(jīng)緯6月2日電為促進公益行業(yè)更好發(fā)展,針對有賬號試圖以助農(nóng)助困助殘為由編造不實場景、實施虛假公益等
-
天天熱頭條丨A 股三大股指集體高開 保險、貴金屬板塊領(lǐng)漲
中新經(jīng)緯6月2日電2日,A股三大股指集體高開,上證指數(shù)漲0 24%,深證成指漲0 36%,創(chuàng)業(yè)板指漲0 33%。兩市超2
-
德意志銀行警告:歐美企業(yè)違約潮已迫在眉睫!-環(huán)球即時
財聯(lián)社6月2日訊(編輯馬蘭)德意志銀行本周發(fā)布了年度違約研究報告,報告指出,由于過去一年激進的加息政策
-
占便宜上癮!印度 5 月俄油采購量再創(chuàng)記錄|觀點
財聯(lián)社6月2日訊(編輯卞純)印度上個月?lián)屬徚藙?chuàng)紀錄數(shù)量的俄羅斯石油,與此同時,自沙特的石油進口量降至28
-
《四部醫(yī)典》入選《世界記憶名錄》 全球信息
“2014年《四部醫(yī)典》開始申報第四批《中國檔案文獻遺產(chǎn)名錄》時,便已經(jīng)為申報《世界記憶名錄》做準備...
-
失業(yè)保險申領(lǐng)成功后多久能領(lǐng)到?在哪里查詢?
找到當?shù)鼐蜆I(yè)局或人社部門,提交申請材料,提交申請材料后,相關(guān)部門會進行審核和認定,確認是否符合領(lǐng)取失
-
快看:4001234567是什么保險公司的電話?有什么作用?
經(jīng)過查詢,這個電話號碼屬于中國人民保險公司的客服熱線電話。作為我國最大的保險公司之一,中國人民保險擁
-
螞蟻保險重大疾病理賠多少?理賠流程是什么?
螞蟻保險重大疾病保險的理賠金額是根據(jù)投保人所選的不同方案而定。目前,螞蟻保險提供了三種不同的重大疾病
-
商業(yè)保險報銷多久到賬?怎么報銷?
一般來說,商業(yè)保險理賠時間在5-15個工作日左右,其中醫(yī)療險理賠時間較短,車險理賠時間則需要根據(jù)具體情況
-
百萬醫(yī)療怎樣賠付?需要哪些材料?_觀熱點
被保險人須及時通知保險公司進行報案,如果百萬醫(yī)療險具有墊付功能,則可以先申請保險公司墊付醫(yī)療費用;根
-
中歐基金經(jīng)理桑磊:基金投資中,心態(tài)帶來的風險高于市場本身-世界觀熱點
“長期”和“穩(wěn)健”是桑磊在采訪中常提及的關(guān)鍵詞。作為15年的投資老將,也是首批養(yǎng)老FOF基金經(jīng)理,桑磊...
精彩推薦
閱讀排行
精彩推送
- 四年級解方程100道題帶過程及答...
- 賽力斯:5月新能源汽車銷量8562...
- 鋅錳電池是碳性還是堿性?鋅錳電...
- 無線傳輸是什么意思?無線傳輸速...
- 電機防爆等級怎么區(qū)分?電機防爆...
- 什么是風光互補?風光互補發(fā)電系...
- 人體有個“止咳開關(guān)”!沒事按一...
- 可編程是什么意思?可編程是怎么...
- 什么是NetBIOS協(xié)議?netbios應(yīng)不...
- 杭州蕭山希爾頓花園酒店正式開業(yè)...
- 環(huán)球今亮點!增109.4% 比亞迪5...
- 國際首部《卵巢組織凍存移植技術(shù)...
- 微軟與初創(chuàng)公司 CoreWeave 簽...
- 出門問問港交所 IPO 欲沖“ A...
- 對話中關(guān)村科金張杰:通用大模型...
- 星環(huán)科技:AI 領(lǐng)域布局比較早 ...
- 解鎖第二人生,國內(nèi)首個網(wǎng)紅“ ...
- MDI文件是什么?mdi文件用什么打開?
- 今日關(guān)注:快樂“六一” 與您“...
- 拉薩市實驗幼兒園開展親子文藝匯演
- 2023年首屆西藏自治區(qū)數(shù)字教育大...
- 快捷方式病毒有幾種?文件夾快捷...
- 隱藏文件是什么意思?win7怎么顯...
- 流氓軟件卸載了還有危險嗎?如何...
- 光電池是怎樣將光能轉(zhuǎn)換成電能的...
- 納指etf受匯率的影響嗎?納指etf...
- 環(huán)球黑卡怎么激活額度?環(huán)球黑卡...
- 微業(yè)貸貸款需要什么條件?微業(yè)貸...
- 創(chuàng)業(yè)板注冊制什么意思?創(chuàng)業(yè)板注...
- 中國指數(shù)基金有哪些?中國指數(shù)基...