亞馬遜上的數(shù)據(jù)采集
下載并安裝成功爬山虎采集器后,可以看到工具欄。
單擊“新建任務(wù)”,創(chuàng)建自定義采集。
新建任務(wù)第一步需要輸入網(wǎng)址。
打開亞馬遜網(wǎng)頁,輸入關(guān)鍵詞“tunic tops for women”并進(jìn)行搜索,搜索后將會(huì)生成以下的網(wǎng)頁鏈接https://www.amazon.com/ s?k=tunci+tops+for+women&ref=nbsbnoss,對該鏈接進(jìn)行復(fù)制,粘貼至需要抓取的網(wǎng)頁地址中。
爬山虎可以同時(shí)對多個(gè)鏈接進(jìn)行抓取,因此如果需要同時(shí)抓取多個(gè)關(guān)鍵詞搜索結(jié)果,可以輸入多個(gè)鏈接,但抓取速度將會(huì)受到較大影響。
完成粘貼后單擊“下一步”按鈕,進(jìn)入抓取數(shù)據(jù)環(huán)節(jié)。
等待1~2分鐘,爬山虎就會(huì)自動(dòng)對網(wǎng)頁信息進(jìn)行試抓取和整理。
最終生成的數(shù)據(jù)文件。
從表格中可以看到,此處的7列數(shù)據(jù)中并沒有數(shù)據(jù)化選品需要的數(shù)據(jù)。
單擊其他列上方的篩選按鈕,即可選擇刪除該數(shù)據(jù),最終只保留第2列的鏈接和第5列review數(shù)量進(jìn)行深入采集。
當(dāng)自動(dòng)識(shí)別的結(jié)果不是想要的數(shù)據(jù)時(shí),單擊“列表模式”下拉按鈕,在下拉列表中選擇列表模式。
“選擇列表”選項(xiàng),在上方網(wǎng)站中單擊,即可完成數(shù)據(jù)選取。
此時(shí)采集器只能選中當(dāng)前頁面的數(shù)據(jù),要想進(jìn)行翻頁抓取,需要單擊左下角的分頁設(shè)置,選擇“自動(dòng)識(shí)別分頁”。
采集器將自動(dòng)找到翻頁按鈕,實(shí)際抓取時(shí)自動(dòng)進(jìn)行單擊操作。
完成一級頁面的操作后,選中titlelink列,單擊深入此鏈接采集。
瀏覽器會(huì)新建一個(gè)內(nèi)容頁的標(biāo)簽頁。
在內(nèi)容頁標(biāo)簽頁中向下翻頁,即可找到上架時(shí)間、父ASIN、大類目排名。
由于抓取內(nèi)容為文本內(nèi)容,且不同鏈接中,這3行數(shù)據(jù)的位置不同,因此可以通過XPath功能完成抓取。
具體操作為:雙擊選中抓取內(nèi)容,右擊并選擇“生成XPath→根據(jù)前綴文本生成”命令。
此時(shí)將會(huì)生成對應(yīng)代碼。
選擇復(fù)制該代碼。
單擊“添加字段”按鈕添加3列字段,并對每個(gè)字段進(jìn)行手動(dòng)設(shè)置XPath,將上述代碼粘貼至手動(dòng)設(shè)置區(qū),最終完成設(shè)置后,單擊“下一步”按鈕。
此處需要注意的是,由于鏈接中所包含的ASIN為產(chǎn)品子SKU對應(yīng)ASIN,不利于后期判斷數(shù)據(jù)一致性,因此一定要采集父ASIN。
在第三步中,直接單擊“保存”按鈕,即可完成任務(wù)編輯,最終導(dǎo)出的數(shù)據(jù)將會(huì)合并一級頁面的2列和二級頁面的3列。
返回首頁,選中剛才創(chuàng)建的任務(wù),單擊“開始”按鈕,采集器即可開始抓取網(wǎng)頁內(nèi)容。
在采集過程中,由于需要進(jìn)行二級頁面的采集,因此每個(gè)數(shù)據(jù)采集時(shí)間約為20秒以上。
在實(shí)際的運(yùn)營過程中,最好可以將采集時(shí)間設(shè)置為每日下午8點(diǎn)至次日上午8時(shí)。
在保證抓取時(shí)間的相對一致以外,確保每天可以采集3 000條以上的數(shù)據(jù)。
運(yùn)營者持續(xù)抓取一個(gè)月并去除重復(fù)值后,可獲取10 000余條鏈接數(shù)據(jù)。
由于采集器將會(huì)在短時(shí)間內(nèi)產(chǎn)生大量重復(fù)點(diǎn)擊,在1~2個(gè)月內(nèi)將有可能觸發(fā)亞馬遜的機(jī)器人檢測。
因此采集器最好在非店鋪后臺(tái)的計(jì)算機(jī)進(jìn)行操作,避免對日常運(yùn)營產(chǎn)生影響。
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。