深度求索公司公布新型數(shù)據(jù)采集專利,助力大語言模型訓(xùn)練效率提升
亞馬遜站內(nèi)投放跨境快訊2025-04-026020
國家知識產(chǎn)權(quán)局最新公告顯示,杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司申請的“一種廣度數(shù)據(jù)采集的方法及其系統(tǒng)”專利于4月1日正式公布。
該技術(shù)旨在優(yōu)化網(wǎng)頁數(shù)據(jù)采集流程,通過智能篩選鏈接、分析內(nèi)容質(zhì)量及優(yōu)化下載分配,顯著減少低效或重復(fù)下載,從而提升數(shù)據(jù)質(zhì)量并降低網(wǎng)絡(luò)資源消耗。
專利摘要指出,該系統(tǒng)采用獨(dú)立的信息回灌隊(duì)列設(shè)計,確保數(shù)據(jù)處理的穩(wěn)定性,同時避免對目標(biāo)網(wǎng)站造成流量沖擊。
當(dāng)前,大語言模型訓(xùn)練依賴高質(zhì)量、多樣化的數(shù)據(jù)集,但傳統(tǒng)采集技術(shù)常面臨鏈接遺漏、過量訪問及內(nèi)容質(zhì)量不足等問題。
深度求索的解決方案有望為人工智能領(lǐng)域提供更高效的數(shù)據(jù)支持,推動自然語言處理技術(shù)發(fā)展。
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。