欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

目錄

柚子快報(bào)邀請(qǐng)碼778899分享:【class1】爬蟲(chóng)基礎(chǔ)知識(shí)

柚子快報(bào)邀請(qǐng)碼778899分享:【class1】爬蟲(chóng)基礎(chǔ)知識(shí)

http://yzkb.51969.com/

爬蟲(chóng)獲取的數(shù)據(jù)樣式。日常瀏覽的網(wǎng)頁(yè)中,既有圖片、文字,還有精致的排版,這些頁(yè)面是怎樣展示出來(lái)的呢?–––––––其實(shí),這都依靠源代碼的功勞,源代碼會(huì)定義每個(gè)標(biāo)題、段落、圖片等排版,瀏覽器通過(guò)解析源代碼,呈現(xiàn)出網(wǎng)頁(yè)畫(huà)面。所以,爬蟲(chóng)獲取的就是瀏覽器解析之前的源代碼,也就是圖中框選的內(nèi)容。

那么爬蟲(chóng)能做什么呢?例如,阿巖想要通過(guò)某寶評(píng)論信息分析出《榴蓮味口香糖》值不值得買,首先會(huì)打開(kāi)網(wǎng)頁(yè),然后找到評(píng)論信息,再一條一條的翻看。那么對(duì)于網(wǎng)絡(luò)爬蟲(chóng)來(lái)說(shuō),它能夠自動(dòng)化獲取《榴蓮味口香糖》網(wǎng)頁(yè)的所有信息,通過(guò)提取網(wǎng)頁(yè)中的評(píng)論內(nèi)容,將信息保存到文檔中,便于對(duì)數(shù)據(jù)進(jìn)行查看和分。所以,網(wǎng)絡(luò)爬蟲(chóng)就是自動(dòng)化從網(wǎng)頁(yè)上獲取信息、提取信息和保存信息的過(guò)程。

通常,我們?cè)L問(wèn)網(wǎng)頁(yè)是通過(guò)鏈接來(lái)完成

主機(jī)名

上面提到的不同點(diǎn)就是主機(jī)名(hostname),主機(jī)名就是我們要訪問(wèn)的計(jì)算機(jī)的名字。 np.baicizhan.com是夜曲首頁(yè)URL中的主機(jī)名。 www.baicizhan.com是百詞斬首頁(yè)URL中的主機(jī)名。 所以,兩個(gè)URL中主機(jī)名不同,訪問(wèn)的網(wǎng)頁(yè)也不同。

我們?cè)L問(wèn)的網(wǎng)頁(yè)資源是存儲(chǔ)在服務(wù)器中的。 服務(wù)器可用于管理資源并為用戶提供服務(wù),其特點(diǎn)就是運(yùn)算速度快,能為大量用戶服務(wù)。 服務(wù)器的種類有很多,當(dāng)瀏覽網(wǎng)頁(yè)時(shí)其主要作用就是將網(wǎng)頁(yè)信息提供給瀏覽器,此時(shí)的服務(wù)器也被稱為Web服務(wù)器。

HTTP協(xié)議

HyperText Transfer Protocol,簡(jiǎn)稱http,超文本傳輸協(xié)議。 HTTP協(xié)議是互聯(lián)網(wǎng)數(shù)據(jù)傳輸?shù)囊环N規(guī)則,它規(guī)定了數(shù)據(jù)的傳輸方式。

小結(jié):HTTPS的安全性比HTTP更高

HTTP協(xié)議在進(jìn)行數(shù)據(jù)傳輸時(shí),內(nèi)容是未加密的,傳輸內(nèi)容可能被竊聽(tīng)或篡改,安全性比較差。 HTTPS在傳輸之前加了一層保護(hù),讓內(nèi)容安全不易被竊聽(tīng),HTTPS協(xié)議是HTTP的安全版。

總結(jié)URL知識(shí)點(diǎn):

1. HTTP的作用與快遞公司類似

2. 主機(jī)名是計(jì)算機(jī)的名字

3. 幫助服務(wù)器管理資源

4. 文件路徑能夠指定訪問(wèn)資源的具體地址

消息請(qǐng)求和消息響應(yīng)

HTTP發(fā)送的請(qǐng)求(Request)消息主要包含兩部分“對(duì)什么”和“怎么做”。1. “對(duì)什么”是我們前面學(xué)習(xí)的URL,就是要訪問(wèn)的目標(biāo)。2. “怎么做”一般叫做方法,是指讓W(xué)eb服務(wù)器完成什么工作。由于瀏覽器發(fā)送請(qǐng)求時(shí),將“對(duì)什么”和“做什么”信息放在頭部。所以,存放這些信息的地方又叫請(qǐng)求頭(Request Headers)。

請(qǐng)求頭:對(duì)什么(地址)

??????? 做什么(要求)

在HTTP協(xié)議中:Web服務(wù)器收到請(qǐng)求消息后,會(huì)根據(jù)請(qǐng)求進(jìn)行處理。并將響應(yīng)(Response)消息返回給瀏覽器。響應(yīng)消息的頭部叫做響應(yīng)頭(Response Headers),響應(yīng)頭中的數(shù)據(jù)用于告訴瀏覽器此次請(qǐng)求執(zhí)行失敗還是成功。

Web服務(wù)器收到請(qǐng)求消息后,會(huì)根據(jù)請(qǐng)求進(jìn)行處理。將執(zhí)行結(jié)果和數(shù)據(jù)放到響應(yīng)(Response)消息中返回給瀏覽器。

狀態(tài)碼

定義

響應(yīng)頭(Response Headers)中用于告知瀏覽器執(zhí)行結(jié)果成功或失敗的叫做狀態(tài)碼。 狀態(tài)碼是由3位的數(shù)字構(gòu)成的,主要用于告知客戶端的HTTP請(qǐng)求的執(zhí)行結(jié)果。 狀態(tài)碼可以讓我們了解到服務(wù)器是正常執(zhí)行結(jié)果,還是出現(xiàn)了錯(cuò)誤。 備注:狀態(tài)碼數(shù)量很多,不需要去特別記憶,用到時(shí)搜索即可。

日常訪問(wèn)網(wǎng)頁(yè)時(shí),也會(huì)遇見(jiàn)狀態(tài)碼:404。404(Not Found)表示服務(wù)器無(wú)法找到請(qǐng)求的資源,或者,有的服務(wù)器拒絕你的請(qǐng)求并不想說(shuō)明理由時(shí)也會(huì)提示404。

或者,有時(shí)候打開(kāi)網(wǎng)頁(yè)時(shí)會(huì)提示狀態(tài)碼503。狀態(tài)碼503(Service Unavailable)表示服務(wù)器處于超負(fù)荷狀態(tài)或正在進(jìn)行停機(jī)維護(hù),現(xiàn)在無(wú)法處理瀏覽器的請(qǐng)求。

響應(yīng)頭中有狀態(tài)碼,用于告訴瀏覽器此次請(qǐng)求的執(zhí)行結(jié)果。請(qǐng)求方法在請(qǐng)求頭中,瀏覽器發(fā)送HTTP請(qǐng)求時(shí),要告訴服務(wù)器此次請(qǐng)求的方法類型。

在作者眼中:

響應(yīng)頭:回信 ??????請(qǐng)求頭:寄信

常見(jiàn)的狀態(tài)碼

爬蟲(chóng)能夠幫助我們自動(dòng)化的獲取網(wǎng)頁(yè)信息,但是,網(wǎng)絡(luò)資源也會(huì)帶來(lái)很多問(wèn)題。1.?影響服務(wù)器性能,爬蟲(chóng)主要請(qǐng)求服務(wù)器的資源,大量快速的訪問(wèn)服務(wù)器,會(huì)影響服務(wù)器速度,耗費(fèi)服務(wù)器性能。2.?法律風(fēng)險(xiǎn),圖片、視頻或攝影作品等大部分是有版權(quán)的,將抓取的內(nèi)容商業(yè)化也可能帶來(lái)風(fēng)險(xiǎn)。

網(wǎng)絡(luò)資源雖然非常豐富,但我們?cè)谑褂门老x(chóng)獲取網(wǎng)絡(luò)資源時(shí),需要遵循網(wǎng)絡(luò)的基本規(guī)則--例如:robots協(xié)議。這個(gè)協(xié)議一方面是一個(gè)爬蟲(chóng)技術(shù)人員需要遵守的道德準(zhǔn)則。另一方面,如果將爬取結(jié)果商用并獲取利益,還會(huì)面臨法律風(fēng)險(xiǎn)。

*****Robots協(xié)議*******

以上是作者在夜曲的所學(xué),希望能與大家進(jìn)步?。?!

柚子快報(bào)邀請(qǐng)碼778899分享:【class1】爬蟲(chóng)基礎(chǔ)知識(shí)

http://yzkb.51969.com/

相關(guān)文章

評(píng)論可見(jiàn),查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。

轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/18803877.html

發(fā)布評(píng)論

您暫未設(shè)置收款碼

請(qǐng)?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問(wèn)

文章目錄