想做好網(wǎng)站收錄,一定要了解去重算法和指紋算法,只有這樣才能更好地做好原創(chuàng)網(wǎng)頁,幫助網(wǎng)站促進(jìn)收錄,提升排名。對一個新的網(wǎng)頁,爬蟲程序通過網(wǎng)頁去重算法,最終決定是否對其索引。
網(wǎng)頁布局格式
一、近似重復(fù)網(wǎng)頁類型,根據(jù)文章內(nèi)容和網(wǎng)頁布局格式的組合分為4種形式:
1、兩篇文檔在內(nèi)容和布局格式上毫無區(qū)別,則這種重復(fù)稱為完全重復(fù)頁面。
2、兩篇文檔內(nèi)容相同,但布局格式不同,則這種重復(fù)稱為內(nèi)容重復(fù)頁面。
3、兩篇文檔有部分重要的內(nèi)容相同,并且布局格式相同,則這種重復(fù)稱為布局重復(fù)頁面。
4、兩篇文檔有部分重要內(nèi)容相同,但布局格式不同,則這種重復(fù)稱為部分重復(fù)頁面。
二、重復(fù)網(wǎng)頁對搜索引擎的不利影響:
正常情況下,非常相似的網(wǎng)頁內(nèi)容不能或只能給用戶提供少量的新信息,但在對爬蟲進(jìn)行抓取、索引和用戶搜索會消耗大量的無棣服務(wù)器資源。
三、重復(fù)網(wǎng)頁對搜索引擎的好處:
如果某個網(wǎng)頁重復(fù)性很高,往往是其內(nèi)容比較比較受歡迎的一種體現(xiàn),也預(yù)示著該網(wǎng)頁相對比較重要。應(yīng)予以優(yōu)先收錄。當(dāng)用戶搜索時,在輸出結(jié)果排序時,也應(yīng)給與較高的權(quán)重。
四、重復(fù)文檔的處理方式:
1、刪除
2、將重復(fù)文檔分組
五、 SimHash文檔指紋計算方法 :
1、從文檔中提取具有權(quán)值的特征集合來表示文檔。如:假設(shè)特征都是由詞組成的,詞的權(quán)值由詞頻TF來確定。
2、對每一個詞,通過哈希算法生成N位(通常情況是64位或更多)的二進(jìn)制數(shù)值,如上圖,以生成8位的二進(jìn)制值為例。每個詞都對應(yīng)各自不同的二進(jìn)制值。
3、在N維(上圖為8維)的向量V中,分別對每維向量進(jìn)行計算。如果詞相應(yīng)的比特位的二進(jìn)制數(shù)值為1,則對其特征權(quán)值進(jìn)行加法運算;如果比特位數(shù)值為0,則進(jìn)行減法運算,通過這種方式對向量進(jìn)行更新。
4、當(dāng)所有的詞都按照上述處理完畢后,如果向量V中第i維是正數(shù),則將N位的指紋中第i位設(shè)置為1,否則為0。
一般的,我們想抓取一個網(wǎng)站所有的URL,首先通過起始URL,之后通過網(wǎng)絡(luò)爬蟲提取出該網(wǎng)頁中所有的URL鏈接,之后再對提取出來的每個URL進(jìn)行爬取,提取出各個網(wǎng)頁中的新一輪URL,以此類推。整體的感覺就是自上而下進(jìn)行抓取網(wǎng)頁中的鏈接,理論上來看,可以抓取整站所有的鏈接。但是問題來了,一個網(wǎng)站中網(wǎng)頁的鏈接是有環(huán)路的。
首先介紹一個簡單的思路,也是經(jīng)常用的一個通用思路。我們將已經(jīng)爬取過的網(wǎng)頁放到一個列表中去,以首頁為例,當(dāng)首頁被抓取之后,將首頁放到列表中,之后我們抓取子網(wǎng)頁的時候,如果再次碰到了首頁,而首頁已經(jīng)被抓取過了,此時就可以跳過首頁,繼續(xù)往下抓取其他的網(wǎng)頁,而避開了將首頁重復(fù)抓取的情況,這樣下來,爬取整站就不會出現(xiàn)一個環(huán)路。
第一種以這個思路為出發(fā)點,將訪問過的URL保存到數(shù)據(jù)庫中,當(dāng)獲取下一個URL的時候,就去數(shù)據(jù)庫中去查詢這個URL是否已經(jīng)被訪問過了。雖然數(shù)據(jù)庫有緩存,但是當(dāng)每個URL都去數(shù)據(jù)庫中查詢的話,會導(dǎo)致效率下降的很快,所以這種策略用的并不多,但不失為最簡單的一種方式。
第二種方式是將訪問過的URL保存到set中去,通過這樣方式獲取URL的速度很快,基本上不用做查詢。但是這種方法有一個缺點,將URL保存到set中,實際上是保存到內(nèi)存中,當(dāng)URL數(shù)據(jù)量很大的時候(如1億條),會導(dǎo)致內(nèi)存的壓力越來越大。對于小型的爬蟲來說,這個方法十分可取,但是對于大型的網(wǎng)絡(luò)爬蟲,這種方法就難以企及了。
第三種方式是將字符進(jìn)行md5編碼,md5編碼可以將字符縮減到固定的長度。一般來說,md5編碼的長度約為128bit,約等于16byte。在未縮減之前,假設(shè)一個URL占用的內(nèi)存大小為50個字節(jié),一個字節(jié)等于2byte,相當(dāng)于100byte。由此可見,進(jìn)行md5編碼之后,節(jié)約了大量的內(nèi)存空間。通過md5的方式可以將任意長度的URL壓縮到同樣長度的md5字符串,而且不會出現(xiàn)重復(fù)的情況,達(dá)到去重的效果。通過這種方式很大程度上節(jié)約了內(nèi)存,scrapy框架采取的方式同md5方式有些類似,所以說scrapy在正常情況下,即使URL的數(shù)量級達(dá)到了上億級別,其占用的內(nèi)存比起set方式也要少得多。
第四種方式是使用bitmap方法將字符進(jìn)一步壓縮。這種方式的意思是在計算機(jī)中申請8個bit,即8個位,每個位由0或者1表示,這是計算機(jī)中最小的單元。8個位組成1個byte,一個位代表一個URL的話,為什么一個位可以確定一個URL呢?因為我們可以將一個URL進(jìn)行一個哈希函數(shù),然后將其映射到位上面去。舉個栗子,假設(shè)我們有8個URL,分別對應(yīng)8個位,然后通過位上面的0和1的狀態(tài),便可以表明這個URL是否存在,通過這種方法便可以進(jìn)一步的壓縮內(nèi)存。但是bitmap方法有一個非常大的缺點,就是它的沖突會非常高,因為同用一個哈希函數(shù),極有可能將兩個不同的URL或者多個不同的URL映射到一個位置上來。實際上這種哈希的方法,它也是set方式的一種實現(xiàn)原理,它將URL進(jìn)行一種函數(shù)計算,然后映射到bit的位置中去,所以這種方式對內(nèi)存的壓縮是非常大的。簡單的來計算一下,還是以一億條URL來進(jìn)行計算,相當(dāng)于一億個bit,通過計算得到其相當(dāng)于12500000byte,除以1024之后約為12207KB,大概是12MB的空間。在實際過程中內(nèi)存的占用可能會比12MB大一些,但是即便是如此,相比于前面三種方法,這種方式以及大大的減少了內(nèi)存占用的空間了。但是與此同時,該方法產(chǎn)生沖突的可能性是非常大的,所以這種方法也不是太適用的。那么有沒有方法將bitmap這種對內(nèi)存濃重壓縮的方法做進(jìn)一步優(yōu)化,讓沖突的可能性降下來呢?答案是有的,就是第五種方式。
第五種方式是bloomfilter,該方法對bitmap進(jìn)行改進(jìn),它可以通過多個哈希函數(shù)減少沖突的可能性。通過這種方式,一方面它既可以達(dá)到bitmap方法減少內(nèi)存的作用,另一方面它又同時起到減少沖突的作用。關(guān)于bloomfilter原理及其實現(xiàn),后期肯定會給大家呈上,今天先讓大家有個簡單的認(rèn)識。Bloomfilter適用于大型的網(wǎng)絡(luò)爬蟲,尤其是數(shù)量級超級大的時候,采用bloomfilter方法可以起到事半功倍的效果,其也經(jīng)常和分布式爬蟲共同配合,以達(dá)到爬取的目的。
以上文章來源于網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系創(chuàng)一網(wǎng)的客服處理。謝謝!