亞馬遜商品畫像數(shù)據(jù)的抓取方法——人工采集
人工采集,顧名思義就是運(yùn)營者通過基本的“復(fù)制粘貼”方式去亞馬遜平臺上采集數(shù)據(jù),其一般應(yīng)用于亞馬遜搜索曝光頁數(shù)據(jù)和商品詳情頁數(shù)據(jù)。
人工采集的優(yōu)點(diǎn)是無技術(shù)門檻,靈活方便,缺點(diǎn)是效率低下。
一般而言,人工采集單個(gè)數(shù)據(jù)的時(shí)間為5秒(將亞馬遜平臺上的數(shù)據(jù)復(fù)制粘貼到表格或者數(shù)據(jù)庫中的時(shí)間),一個(gè)正常工作8小時(shí)的運(yùn)營者一天能分配的有效數(shù)據(jù)采集時(shí)間為 0.5~1小時(shí),取中間值45分鐘,那么一天的有效采集數(shù)據(jù)量為540個(gè)數(shù)據(jù)。
如果一個(gè)商品需要采集3個(gè)維度的數(shù)據(jù),例如review數(shù)量+排名+價(jià)格,那么540-3=180,即一個(gè)運(yùn)營者一天可以有效跟蹤與采集180個(gè)商品的數(shù)據(jù)。
如果運(yùn)營者想要提升單日的人工采集效率,筆者有如下兩條建議。
1.明確數(shù)據(jù)采集的目的,從而通過減少數(shù)據(jù)采集的頻次,最終提升采集效率。
例如,如果運(yùn)營者想要了解一個(gè)搜索關(guān)鍵詞下不同商品的銷量分布規(guī)律,即可通過人工采集搜索曝光頁前500~1000個(gè)商品的銷售排名數(shù)據(jù)來進(jìn)行估算,而無須采集其他維度的數(shù)據(jù),也沒有必要每天采集一次數(shù)據(jù)( 因?yàn)橐粋€(gè)品類/關(guān)鍵詞下的銷量分布并不會在短時(shí)間內(nèi)發(fā)生變化),這樣就可以提升數(shù)據(jù)采集的效率。
2.在難以實(shí)現(xiàn)數(shù)據(jù)全面采集時(shí),可以使用抽樣采集的方法來提升采集效率。
例如,如果運(yùn)營者想要分析某搜索關(guān)鍵詞下前100頁商品的review、排名、價(jià)格的分布規(guī)律,但是自身既沒有能力與資金開發(fā)爬蟲程序,也沒有找到合適的工具或者第三方采集器,這時(shí)就可以使用抽樣采集的方法。
在該案例下,運(yùn)營者可以將前100頁的商品設(shè)定為100個(gè)組,設(shè)每頁有48個(gè)商品,可以分別抽取每組的第8個(gè)、第16個(gè)、第24個(gè)第32個(gè)、第40個(gè)、第48個(gè)的商品,那么每個(gè)組就只需采集6次,總共6x100=600次,考慮到每次采集涉及review、排名、價(jià)格3個(gè)維度,那么總共采集的數(shù)據(jù)量為600x 3=1800個(gè)。
如果一個(gè)數(shù)據(jù)的采集時(shí)間為5秒,那么總采集時(shí)間約為2.5小時(shí),1周內(nèi)即可完成所有數(shù)據(jù)采集。
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。