柚子快報(bào)邀請(qǐng)碼778899分享:tcp/ip 網(wǎng)絡(luò)爬蟲的定義
柚子快報(bào)邀請(qǐng)碼778899分享:tcp/ip 網(wǎng)絡(luò)爬蟲的定義
網(wǎng)絡(luò)爬蟲,即Web Spider,是一個(gè)很形象的名字。
把互聯(lián)網(wǎng)比喻成一個(gè)蜘蛛網(wǎng),那么Spider就是在網(wǎng)上爬來爬去的蜘蛛。 網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁的。
從網(wǎng)站某一個(gè)頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,
然后通過這些鏈接地址尋找下一個(gè)網(wǎng)頁,這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁都抓取完為止。
如果把整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)網(wǎng)站,那么網(wǎng)絡(luò)蜘蛛就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。
這樣看來,網(wǎng)絡(luò)爬蟲就是一個(gè)爬行程序,一個(gè)抓取網(wǎng)頁的程序。
網(wǎng)絡(luò)爬蟲的基本操作是抓取網(wǎng)頁。
那么如何才能隨心所欲地獲得自己想要的頁面?
我們先從URL開始。
柚子快報(bào)邀請(qǐng)碼778899分享:tcp/ip 網(wǎng)絡(luò)爬蟲的定義
精彩內(nèi)容
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。