欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報邀請碼778899分享:【class1】爬蟲基礎(chǔ)知識

柚子快報邀請碼778899分享:【class1】爬蟲基礎(chǔ)知識

http://yzkb.51969.com/

爬蟲獲取的數(shù)據(jù)樣式。日常瀏覽的網(wǎng)頁中,既有圖片、文字,還有精致的排版,這些頁面是怎樣展示出來的呢?–––––––其實(shí),這都依靠源代碼的功勞,源代碼會定義每個標(biāo)題、段落、圖片等排版,瀏覽器通過解析源代碼,呈現(xiàn)出網(wǎng)頁畫面。所以,爬蟲獲取的就是瀏覽器解析之前的源代碼,也就是圖中框選的內(nèi)容。

那么爬蟲能做什么呢?例如,阿巖想要通過某寶評論信息分析出《榴蓮味口香糖》值不值得買,首先會打開網(wǎng)頁,然后找到評論信息,再一條一條的翻看。那么對于網(wǎng)絡(luò)爬蟲來說,它能夠自動化獲取《榴蓮味口香糖》網(wǎng)頁的所有信息,通過提取網(wǎng)頁中的評論內(nèi)容,將信息保存到文檔中,便于對數(shù)據(jù)進(jìn)行查看和分。所以,網(wǎng)絡(luò)爬蟲就是自動化從網(wǎng)頁上獲取信息、提取信息和保存信息的過程。

通常,我們訪問網(wǎng)頁是通過鏈接來完成

主機(jī)名

上面提到的不同點(diǎn)就是主機(jī)名(hostname),主機(jī)名就是我們要訪問的計算機(jī)的名字。 np.baicizhan.com是夜曲首頁URL中的主機(jī)名。 www.baicizhan.com是百詞斬首頁URL中的主機(jī)名。 所以,兩個URL中主機(jī)名不同,訪問的網(wǎng)頁也不同。

我們訪問的網(wǎng)頁資源是存儲在服務(wù)器中的。 服務(wù)器可用于管理資源并為用戶提供服務(wù),其特點(diǎn)就是運(yùn)算速度快,能為大量用戶服務(wù)。 服務(wù)器的種類有很多,當(dāng)瀏覽網(wǎng)頁時其主要作用就是將網(wǎng)頁信息提供給瀏覽器,此時的服務(wù)器也被稱為Web服務(wù)器。

HTTP協(xié)議

HyperText Transfer Protocol,簡稱http,超文本傳輸協(xié)議。 HTTP協(xié)議是互聯(lián)網(wǎng)數(shù)據(jù)傳輸?shù)囊环N規(guī)則,它規(guī)定了數(shù)據(jù)的傳輸方式。

小結(jié):HTTPS的安全性比HTTP更高

HTTP協(xié)議在進(jìn)行數(shù)據(jù)傳輸時,內(nèi)容是未加密的,傳輸內(nèi)容可能被竊聽或篡改,安全性比較差。 HTTPS在傳輸之前加了一層保護(hù),讓內(nèi)容安全不易被竊聽,HTTPS協(xié)議是HTTP的安全版。

總結(jié)URL知識點(diǎn):

1. HTTP的作用與快遞公司類似

2. 主機(jī)名是計算機(jī)的名字

3. 幫助服務(wù)器管理資源

4. 文件路徑能夠指定訪問資源的具體地址

消息請求和消息響應(yīng)

HTTP發(fā)送的請求(Request)消息主要包含兩部分“對什么”和“怎么做”。1. “對什么”是我們前面學(xué)習(xí)的URL,就是要訪問的目標(biāo)。2. “怎么做”一般叫做方法,是指讓W(xué)eb服務(wù)器完成什么工作。由于瀏覽器發(fā)送請求時,將“對什么”和“做什么”信息放在頭部。所以,存放這些信息的地方又叫請求頭(Request Headers)。

請求頭:對什么(地址)

??????? 做什么(要求)

在HTTP協(xié)議中:Web服務(wù)器收到請求消息后,會根據(jù)請求進(jìn)行處理。并將響應(yīng)(Response)消息返回給瀏覽器。響應(yīng)消息的頭部叫做響應(yīng)頭(Response Headers),響應(yīng)頭中的數(shù)據(jù)用于告訴瀏覽器此次請求執(zhí)行失敗還是成功。

Web服務(wù)器收到請求消息后,會根據(jù)請求進(jìn)行處理。將執(zhí)行結(jié)果和數(shù)據(jù)放到響應(yīng)(Response)消息中返回給瀏覽器。

狀態(tài)碼

定義

響應(yīng)頭(Response Headers)中用于告知瀏覽器執(zhí)行結(jié)果成功或失敗的叫做狀態(tài)碼。 狀態(tài)碼是由3位的數(shù)字構(gòu)成的,主要用于告知客戶端的HTTP請求的執(zhí)行結(jié)果。 狀態(tài)碼可以讓我們了解到服務(wù)器是正常執(zhí)行結(jié)果,還是出現(xiàn)了錯誤。 備注:狀態(tài)碼數(shù)量很多,不需要去特別記憶,用到時搜索即可。

日常訪問網(wǎng)頁時,也會遇見狀態(tài)碼:404。404(Not Found)表示服務(wù)器無法找到請求的資源,或者,有的服務(wù)器拒絕你的請求并不想說明理由時也會提示404。

或者,有時候打開網(wǎng)頁時會提示狀態(tài)碼503。狀態(tài)碼503(Service Unavailable)表示服務(wù)器處于超負(fù)荷狀態(tài)或正在進(jìn)行停機(jī)維護(hù),現(xiàn)在無法處理瀏覽器的請求。

響應(yīng)頭中有狀態(tài)碼,用于告訴瀏覽器此次請求的執(zhí)行結(jié)果。請求方法在請求頭中,瀏覽器發(fā)送HTTP請求時,要告訴服務(wù)器此次請求的方法類型。

在作者眼中:

響應(yīng)頭:回信 ??????請求頭:寄信

常見的狀態(tài)碼

爬蟲能夠幫助我們自動化的獲取網(wǎng)頁信息,但是,網(wǎng)絡(luò)資源也會帶來很多問題。1.?影響服務(wù)器性能,爬蟲主要請求服務(wù)器的資源,大量快速的訪問服務(wù)器,會影響服務(wù)器速度,耗費(fèi)服務(wù)器性能。2.?法律風(fēng)險,圖片、視頻或攝影作品等大部分是有版權(quán)的,將抓取的內(nèi)容商業(yè)化也可能帶來風(fēng)險。

網(wǎng)絡(luò)資源雖然非常豐富,但我們在使用爬蟲獲取網(wǎng)絡(luò)資源時,需要遵循網(wǎng)絡(luò)的基本規(guī)則--例如:robots協(xié)議。這個協(xié)議一方面是一個爬蟲技術(shù)人員需要遵守的道德準(zhǔn)則。另一方面,如果將爬取結(jié)果商用并獲取利益,還會面臨法律風(fēng)險。

*****Robots協(xié)議*******

以上是作者在夜曲的所學(xué),希望能與大家進(jìn)步?。?!

柚子快報邀請碼778899分享:【class1】爬蟲基礎(chǔ)知識

http://yzkb.51969.com/

相關(guān)文章

評論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。

轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/18803877.html

發(fā)布評論

您暫未設(shè)置收款碼

請在主題配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問

文章目錄