柚子快報邀請碼778899分享:java文章采集爬蟲代碼示例
jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)。
核心實現(xiàn)代碼
======
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import java.io.IOException;
/**
文章采集 @author tarzan @date 2021/5/31
*/
public class ArticleCollect {
//網(wǎng)站地址
private static String webUrl=“###”;
/**
@param url 訪問路徑 @return
*/
public static Document getDocument(String url) {
try {
//5000是設(shè)置連接超時時間,單位ms
return Jsoup.connect(url).timeout(5000).get();
} catch (IOException e) {
e.printStackTrace();
}
return null;
}
public static void main(String[] args) {
int pageNum=0;
while (true){
pageNum++;
if(!readPage(webUrl,pageNum)){
break;
}
}
}
public static String readArticle(String url) {
Document doc= getDocument(url);
//獲取文章標(biāo)題
Elements title = doc.select(“title”);
System.out.println(title);
//獲取文章內(nèi)容
Elements content = doc.select(“###”);
return content.html();
}
public static boolean readPage(String webUrl,int pageNum) {
Document doc = getDocument(webUrl+“/article/list/”+pageNum);
// 獲取目標(biāo)HTML代碼
Elements elements = doc.select(“###”);
//文章列表
Elements articles = elements.select(“###”);
自我介紹一下,小編13年上海交大畢業(yè),曾經(jīng)在小公司待過,也去過華為、OPPO等大廠,18年進(jìn)入阿里一直到現(xiàn)在。
深知大多數(shù)Python工程師,想要提升技能,往往是自己摸索成長或者是報班學(xué)習(xí),但對于培訓(xùn)機(jī)構(gòu)動則幾千的學(xué)費,著實壓力不小。自己不成體系的自學(xué)效果低效又漫長,而且極易碰到天花板技術(shù)停滯不前!
因此收集整理了一份《2024年P(guān)ython開發(fā)全套學(xué)習(xí)資料》,初衷也很簡單,就是希望能夠幫助到想自學(xué)提升又不知道該從何學(xué)起的朋友,同時減輕大家的負(fù)擔(dān)。
既有適合小白學(xué)習(xí)的零基礎(chǔ)資料,也有適合3年以上經(jīng)驗的小伙伴深入學(xué)習(xí)提升的進(jìn)階課程,基本涵蓋了95%以上前端開發(fā)知識點,真正體系化!
由于文件比較大,這里只是將部分目錄大綱截圖出來,每個節(jié)點里面都包含大廠面經(jīng)、學(xué)習(xí)筆記、源碼講義、實戰(zhàn)項目、講解視頻,并且后續(xù)會持續(xù)更新
如果你覺得這些內(nèi)容對你有幫助,可以掃碼獲?。。。。▊渥ython)
伴深入學(xué)習(xí)提升的進(jìn)階課程,基本涵蓋了95%以上前端開發(fā)知識點,真正體系化!**
由于文件比較大,這里只是將部分目錄大綱截圖出來,每個節(jié)點里面都包含大廠面經(jīng)、學(xué)習(xí)筆記、源碼講義、實戰(zhàn)項目、講解視頻,并且后續(xù)會持續(xù)更新
如果你覺得這些內(nèi)容對你有幫助,可以掃碼獲?。。。。▊渥ython)
柚子快報邀請碼778899分享:java文章采集爬蟲代碼示例
推薦鏈接
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。