亞馬遜上如何利用爬蟲程序抓取排名數(shù)據(jù)
將針對自動化抓取采集結(jié)合爬蟲程序進(jìn)行講述。
(注意,本小節(jié)所使用的爬蟲程序只能針對以服裝為代表的非標(biāo)品類目,因為標(biāo)品類目與非標(biāo)品類目數(shù)據(jù)抓取技術(shù)有所不同,所以不能適用)首先下載爬蟲程序“rank”,這是一個可執(zhí)行文件即“EXE File”,在合適的運行條件下只需雙擊就可以開啟爬蟲程序(注意,在桌面運行該EXE文件時,需要確保在桌面上已經(jīng)存在有命名為“rank”的Excel,其表格的具體使用方法:創(chuàng)建一個名為rank的Excel,其文件可以為xls或xlsx格式,并保證表格與exe文件在同一路徑下,賣家可以將Excel表格與EXE文件一起存放于計算機(jī)桌面上。
表格的第一列輸入需要提取排名的商品頁面網(wǎng)址,然后關(guān)閉Excel(表格打開時將無法存取數(shù)據(jù),此時將會彈出一個關(guān)閉提示),打開EXE程序,處理每個數(shù)據(jù)大概需要5~8s,所有數(shù)據(jù)完成以后會彈出提示,因此打開文件后等待提示彈出即可,等待期間不要打開Excel。
完成后的數(shù)據(jù)將會以rank.xls文件存在,如果原始文件格式為rank.xlsx,則會新建一個rank.xls文件。
)其文件圖標(biāo)來源于筆者個人自媒體頭像10g0,感興趣的讀者可以到“喜馬拉雅FM”“知乎”“蜻蜓FM”等平臺搜索“旭鵬”。
如果讀者想要使用名為“rank”的EXE文件,首先要下載名為“rank”的Excel文件,并將其存放在桌面上。
完成所有文件的下載后,就可以嘗試使用爬蟲程序了。
因為在原本表格中已經(jīng)存放有部分鏈接,所以讀者可以直接雙擊“rank”的EXE文件開啟爬蟲程序。
需要注意的是,爬蟲程序開始后,名為“rank”的Excel文件必須處于關(guān)閉狀態(tài),否則就會彈出警告頁面。
當(dāng)數(shù)據(jù)抓取任務(wù)全部完成后,打開名為“rank”的Excel文件。
名為“rank”的Excel中主要存放了三種數(shù)據(jù):第一種為亞馬遜商品鏈接;第二種為該鏈接對應(yīng)的大類目排名;第三種為數(shù)據(jù)抓取時間。
在名為“rank”的Excel中,第一列為亞馬遜商品鏈接。
在名為“rank”的Excel中,第二列為不同商品鏈接對應(yīng)的大類目排名。
因為本小節(jié)的爬蟲程序針對的是服裝類目,所以抓取的排名為大類目“Clothing, Shoes & Jewelry”的數(shù)據(jù)。
在大類目排名數(shù)據(jù)中,有些數(shù)據(jù)會顯示“-1”。
“-1”的數(shù)據(jù)抓取錯誤可能是由以下幾方面原因造成的:1.爬蟲程序使用過于頻繁,網(wǎng)絡(luò)IP暫時被封禁;2.該商品鏈接還未出單,沒有對應(yīng)的大類日排名;3.該商品不是非標(biāo)品,其數(shù)據(jù)抓取邏輯與爬蟲程序不一致;4.程序運行錯誤,這可能是由于操作系統(tǒng)不匹配(例如IOS系統(tǒng)、XP系統(tǒng)),網(wǎng)絡(luò)故障造成。
在名為“rank”的Excel中,第三列為此次數(shù)據(jù)抓取的時間。
如果賣家需要記錄其他商品鏈接的排名,可以將Excel文件中第一列的鏈接信息進(jìn)行修改,然后再次啟動爬蟲程序等待抓取工作完成即可。
需要注意的是,爬蟲程序如果在短時間內(nèi)頻繁使用會被亞馬遜暫時封禁網(wǎng)絡(luò)IP,這時爬取下來的排名數(shù)據(jù)會出現(xiàn)大量的“-1”,所以在使用過一次爬蟲程序后,需要等待一段時間,再開始下一次數(shù)據(jù)抓取。
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。