研究發現ChatGPT表現下降速度驚人
一項由加州大學柏克萊分校和斯丹福大學的研究人員進行的新研究發現,OpenAI 開發的ChatGPT表現下降明顯,甚至可能越來越差。
掌握最新加密市場動態與區塊鏈新聞與資訊,請即追蹤 CFTime 專頁 :
研究人員分析了 ChatGPT 的不同版本,並開發了嚴格的基準來評估模型在數學、編碼和視覺推理任務方面的能力。結果顯示,ChatGPT 的表現出現了驚人的下降。
測試顯示,在判定質數的數學挑戰中,ChatGPT準確率從 3 月份的 97.6% 下降至 6 月份的 2.4%。在聊天機械人的軟件編碼能力方面,下降尤其明顯。
此外,研究人員利用了來自抽象推理語料庫(ARC)數據集的視覺提示來評估推理能力,可觀察到明顯下滑。研究亦發現,針對 GPT-4 直接可執行的生成百分比從 3 月份的52% 下跌至 6 月份的10.0%。這些結果是通過使用純版本的模型獲得的,這意味著沒有涉及代碼解釋器插件。
研究人員假設,這可能是 OpenAI 開發 ChatGPT 時更新的副作用之一,例如為了防止 ChatGPT 回答危險問題而引入的更改。然而,這種安全對齊可能會減少 ChatGPT 對其他任務的用處。研究人員發現,現在模型往往會給出冗長、間接的回答,而不是清晰的答案。
AI 專家 Santiago Valderrama 在 Twitter 上提出了一種可能性,即「更便宜、更快」的模型混合,可能取代了原始的 ChatGPT 架構。他假設有傳言說 OpenAI 正在使用幾個較小、較專門的 GPT-4 模型,這些模型的作用類似於一個大模型,但運行成本更低。他認為,這可能會加速用戶的回應速度,但會降低模型的能力。
NVIDIA 高級人工智能科學家 Dr. Jm Fan 在 Twitter 上分享了他的見解,他認為更多的安全性通常是以更少的實用性為代價的。他認為理解這些結果與 OpenAI 如何微調其模型有關。
他猜測,從 3 月到 6 月,OpenAI 花費了大量時間微調,沒有時間完全恢復其他重要的能力。Fan 認為其他因素也可能發揮了作用,包括削減成本的努力、引入警告和免責聲明可能會「簡化」模型,以及缺乏來自社區的廣泛反饋。
AI領域專家建議,ChatGPT 的用戶可能需要降低期望值。許多人最初遇到的這個瘋狂的想法生成機器看起來變得更加平淡 — 也許不那麼出色了。
即使 ChatGPT 表現下降,它仍然是一個非常強大的模型,具有許多令人印象深刻的能力。此外,這種下降可能只是一個暫時的現象,因為 OpenAI 可能會進行進一步改善。因此,ChatGPT仍然是一個非常有價值的工具,可以用於各種語言和自然語言處理任務。
如何防止進一步的惡化呢?一些熱心人士提倡使用像 Meta 的 LLaMA 這樣的開發模型,以便社區進行調試。持續進行基準測試以及及早發現回歸是至關重要的。
此外,ChatGPT的下降也提醒我們關注AI模型的安全性和實用性之間的平衡。這些模型需要在保持安全的同時繼續保持其性能和功能。這需要對模型進行精心的微調和優化,以確保它們能夠滿足多種需求。