OpenAI開源BrowseComp,重塑Agent瀏覽器評(píng)測
Lowes優(yōu)選家居跨境快訊2025-04-115710
11日凌晨2點(diǎn),OpenAI開源了專門用于智能體瀏覽器功能的測試基準(zhǔn)——BrowseComp。
這個(gè)測試基準(zhǔn)非常有難度,連OpenAI自己的GPT-4o、GPT-4.5準(zhǔn)確率只有0.6%和0.9%幾乎為0,即便使用帶瀏覽器功能的GPT-4o也只有1.9%。
但OpenAI最新發(fā)布的Agent模型Deep Research準(zhǔn)確率高達(dá)51.5%,在自主搜索、信息整合、準(zhǔn)確性校準(zhǔn)方面非常優(yōu)秀。
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。