open.ai,OpenAI宣布推出AI Agent評測基準(zhǔn)PaperBench
當(dāng)?shù)貢r間4月2日,美國開放人工智能研究中心(OpenAI)宣布推出PaperBench——一個評估AI智能體復(fù)現(xiàn)前沿AI研究能力的基準(zhǔn)。
智能體需從零開始復(fù)現(xiàn)20篇ICML 2024 Spotlight和Oral論文,包括理解論文貢獻、開發(fā)代碼庫并成功執(zhí)行實驗。
據(jù)介紹,在PaperBench上測試多個前沿模型后發(fā)現(xiàn),表現(xiàn)最佳的智能體Claude 3.5 Sonnet(新版)結(jié)合開源框架,平均復(fù)現(xiàn)得分為21.0%。
最終其招募頂尖機器學(xué)習(xí)博士嘗試部分測試集,發(fā)現(xiàn)上述模型表現(xiàn)尚未超越人類基線。
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。

PaperBench是一個評估AI智能體復(fù)現(xiàn)前沿AI研究能力的基準(zhǔn),要求智能體從零開始復(fù)現(xiàn)20篇ICML 2024 Spotlight和Oral論文,表現(xiàn)最佳的智能體Claude 3.5 Sonnet(新版)結(jié)合開源框架,平均復(fù)現(xiàn)得分為21.0%。

美國開放人工智能研究中心(OpenAI)推出了PaperBench基準(zhǔn),要求智能體從零開始復(fù)現(xiàn)20篇頂尖論文,表現(xiàn)最佳的模型Claude 3.5 Sonnet平均得分為21.0%。

PaperBench是一個評估AI智能體復(fù)現(xiàn)前沿AI研究能力的基準(zhǔn),但測試結(jié)果發(fā)現(xiàn)表現(xiàn)最佳的智能體Claude 3.5 Sonnet(新版)結(jié)合開源框架,平均復(fù)現(xiàn)得分為21.0%,其招募頂尖機器學(xué)習(xí)博士嘗試部分測試集,發(fā)現(xiàn)上述模型表現(xiàn)尚未超越人類基線。