柚子快報邀請碼778899分享:【class1】爬蟲基礎(chǔ)知識
柚子快報邀請碼778899分享:【class1】爬蟲基礎(chǔ)知識
爬蟲獲取的數(shù)據(jù)樣式。日常瀏覽的網(wǎng)頁中,既有圖片、文字,還有精致的排版,這些頁面是怎樣展示出來的呢?–––––––其實(shí),這都依靠源代碼的功勞,源代碼會定義每個標(biāo)題、段落、圖片等排版,瀏覽器通過解析源代碼,呈現(xiàn)出網(wǎng)頁畫面。所以,爬蟲獲取的就是瀏覽器解析之前的源代碼,也就是圖中框選的內(nèi)容。
那么爬蟲能做什么呢?例如,阿巖想要通過某寶評論信息分析出《榴蓮味口香糖》值不值得買,首先會打開網(wǎng)頁,然后找到評論信息,再一條一條的翻看。那么對于網(wǎng)絡(luò)爬蟲來說,它能夠自動化獲取《榴蓮味口香糖》網(wǎng)頁的所有信息,通過提取網(wǎng)頁中的評論內(nèi)容,將信息保存到文檔中,便于對數(shù)據(jù)進(jìn)行查看和分。所以,網(wǎng)絡(luò)爬蟲就是自動化從網(wǎng)頁上獲取信息、提取信息和保存信息的過程。
通常,我們訪問網(wǎng)頁是通過鏈接來完成
主機(jī)名
上面提到的不同點(diǎn)就是主機(jī)名(hostname),主機(jī)名就是我們要訪問的計算機(jī)的名字。 np.baicizhan.com是夜曲首頁URL中的主機(jī)名。 www.baicizhan.com是百詞斬首頁URL中的主機(jī)名。 所以,兩個URL中主機(jī)名不同,訪問的網(wǎng)頁也不同。
我們訪問的網(wǎng)頁資源是存儲在服務(wù)器中的。 服務(wù)器可用于管理資源并為用戶提供服務(wù),其特點(diǎn)就是運(yùn)算速度快,能為大量用戶服務(wù)。 服務(wù)器的種類有很多,當(dāng)瀏覽網(wǎng)頁時其主要作用就是將網(wǎng)頁信息提供給瀏覽器,此時的服務(wù)器也被稱為Web服務(wù)器。
HTTP協(xié)議
HyperText Transfer Protocol,簡稱http,超文本傳輸協(xié)議。 HTTP協(xié)議是互聯(lián)網(wǎng)數(shù)據(jù)傳輸?shù)囊环N規(guī)則,它規(guī)定了數(shù)據(jù)的傳輸方式。
小結(jié):HTTPS的安全性比HTTP更高
HTTP協(xié)議在進(jìn)行數(shù)據(jù)傳輸時,內(nèi)容是未加密的,傳輸內(nèi)容可能被竊聽或篡改,安全性比較差。 HTTPS在傳輸之前加了一層保護(hù),讓內(nèi)容安全不易被竊聽,HTTPS協(xié)議是HTTP的安全版。
總結(jié)URL知識點(diǎn):
1. HTTP的作用與快遞公司類似
2. 主機(jī)名是計算機(jī)的名字
3. 幫助服務(wù)器管理資源
4. 文件路徑能夠指定訪問資源的具體地址
消息請求和消息響應(yīng)
HTTP發(fā)送的請求(Request)消息主要包含兩部分“對什么”和“怎么做”。1. “對什么”是我們前面學(xué)習(xí)的URL,就是要訪問的目標(biāo)。2. “怎么做”一般叫做方法,是指讓W(xué)eb服務(wù)器完成什么工作。由于瀏覽器發(fā)送請求時,將“對什么”和“做什么”信息放在頭部。所以,存放這些信息的地方又叫請求頭(Request Headers)。
請求頭:對什么(地址)
??????? 做什么(要求)
在HTTP協(xié)議中:Web服務(wù)器收到請求消息后,會根據(jù)請求進(jìn)行處理。并將響應(yīng)(Response)消息返回給瀏覽器。響應(yīng)消息的頭部叫做響應(yīng)頭(Response Headers),響應(yīng)頭中的數(shù)據(jù)用于告訴瀏覽器此次請求執(zhí)行失敗還是成功。
Web服務(wù)器收到請求消息后,會根據(jù)請求進(jìn)行處理。將執(zhí)行結(jié)果和數(shù)據(jù)放到響應(yīng)(Response)消息中返回給瀏覽器。
狀態(tài)碼
定義
響應(yīng)頭(Response Headers)中用于告知瀏覽器執(zhí)行結(jié)果成功或失敗的叫做狀態(tài)碼。 狀態(tài)碼是由3位的數(shù)字構(gòu)成的,主要用于告知客戶端的HTTP請求的執(zhí)行結(jié)果。 狀態(tài)碼可以讓我們了解到服務(wù)器是正常執(zhí)行結(jié)果,還是出現(xiàn)了錯誤。 備注:狀態(tài)碼數(shù)量很多,不需要去特別記憶,用到時搜索即可。
日常訪問網(wǎng)頁時,也會遇見狀態(tài)碼:404。404(Not Found)表示服務(wù)器無法找到請求的資源,或者,有的服務(wù)器拒絕你的請求并不想說明理由時也會提示404。
或者,有時候打開網(wǎng)頁時會提示狀態(tài)碼503。狀態(tài)碼503(Service Unavailable)表示服務(wù)器處于超負(fù)荷狀態(tài)或正在進(jìn)行停機(jī)維護(hù),現(xiàn)在無法處理瀏覽器的請求。
響應(yīng)頭中有狀態(tài)碼,用于告訴瀏覽器此次請求的執(zhí)行結(jié)果。請求方法在請求頭中,瀏覽器發(fā)送HTTP請求時,要告訴服務(wù)器此次請求的方法類型。
在作者眼中:
響應(yīng)頭:回信 ??????請求頭:寄信
常見的狀態(tài)碼
爬蟲能夠幫助我們自動化的獲取網(wǎng)頁信息,但是,網(wǎng)絡(luò)資源也會帶來很多問題。1.?影響服務(wù)器性能,爬蟲主要請求服務(wù)器的資源,大量快速的訪問服務(wù)器,會影響服務(wù)器速度,耗費(fèi)服務(wù)器性能。2.?法律風(fēng)險,圖片、視頻或攝影作品等大部分是有版權(quán)的,將抓取的內(nèi)容商業(yè)化也可能帶來風(fēng)險。
網(wǎng)絡(luò)資源雖然非常豐富,但我們在使用爬蟲獲取網(wǎng)絡(luò)資源時,需要遵循網(wǎng)絡(luò)的基本規(guī)則--例如:robots協(xié)議。這個協(xié)議一方面是一個爬蟲技術(shù)人員需要遵守的道德準(zhǔn)則。另一方面,如果將爬取結(jié)果商用并獲取利益,還會面臨法律風(fēng)險。
*****Robots協(xié)議*******
以上是作者在夜曲的所學(xué),希望能與大家進(jìn)步?。?!
柚子快報邀請碼778899分享:【class1】爬蟲基礎(chǔ)知識
相關(guān)文章
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。