一種基于鏈接分析的聚焦爬蟲方法
本發(fā)明針對現(xiàn)有技術(shù)的不足之處提供了一種基于鏈接分析的聚焦爬蟲方法,用以解決現(xiàn)有聚焦爬蟲抓取網(wǎng)頁準(zhǔn)確率和效率較低的問題。 為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為: 一種基于鏈接分析的聚焦爬蟲方法,其特征在于,包括如下步驟: (1)抓取網(wǎng)頁,將網(wǎng)頁和目標(biāo)樣本網(wǎng)頁的結(jié)構(gòu)進(jìn)行比較,確定目標(biāo)網(wǎng)頁,從網(wǎng)站入口鏈接開始,記錄爬蟲到目標(biāo)網(wǎng)頁的每一條鏈接路徑,建立目標(biāo)網(wǎng)頁鏈接樹; (2)分析目標(biāo)網(wǎng)頁鏈接樹,歸納鏈接樹中目標(biāo)網(wǎng)頁路徑上的鏈接,替換鏈接樹中的鏈接,形成鏈接模版樹; (3)爬蟲使用鏈接模版樹作為導(dǎo)航,抓取與鏈接模版樹相匹配的網(wǎng)頁鏈接,直到整個(gè)抓取循環(huán)過程結(jié)束,最終抓取完所有目標(biāo)網(wǎng)頁。 作為優(yōu)選,步驟(1)中,所述建立目標(biāo)網(wǎng)頁鏈接樹的具體步驟如下: (11)選擇一個(gè)目標(biāo)網(wǎng)頁作為目標(biāo)樣本網(wǎng)頁,用于比較將下載的網(wǎng)頁結(jié)構(gòu); (12)初始化鏈接樹,即將鏈接樹設(shè)置為一棵空樹; (13)初始化鏈接隊(duì)列,將網(wǎng)站的入口鏈接加入到鏈接隊(duì)列尾部; (14)從鏈接隊(duì)列頭部取出鏈接,廣度優(yōu)先地抓取網(wǎng)頁; (15)將抓取的網(wǎng)頁和目標(biāo)樣本網(wǎng)頁進(jìn)行比較,如果結(jié)構(gòu)相同,則將該目標(biāo)網(wǎng)頁的路徑添加到鏈接樹中,將目標(biāo)網(wǎng)頁的鏈接作為
電子科技大學(xué)
2021-04-10