商河淺談網(wǎng)頁反作弊技術(shù)思路、方法以及處理方式

瀏覽量（60958）時(shí)間：2020-09-07

一、網(wǎng)頁反作弊出現(xiàn)背景

出于商業(yè)利益的驅(qū)使，很多網(wǎng)站站長會(huì)針對搜索引擎排名進(jìn)行分析，并采取一些手段來提升排名。這種行為本身無可厚非，很多優(yōu)化行為都是符合搜索引擎排序規(guī)則的，但與此同時(shí)也存在很多惡意的優(yōu)化行為。所以網(wǎng)頁反作弊，也是目前所有商業(yè)搜索引擎需要解決的重要難點(diǎn)

二、網(wǎng)頁作弊類型內(nèi)容作弊：

從大的分類來說，主要的作弊方法包括：內(nèi)容作弊、鏈接作弊、隱藏作弊及近幾年興起的web2.0作弊方法。筆者認(rèn)為，內(nèi)容作弊與現(xiàn)階段業(yè)務(wù)息息相關(guān)，因此會(huì)在本文著重講下此類型及相關(guān)的反作弊思路。

內(nèi)容作弊的目的是通過精心更改或者調(diào)控網(wǎng)頁內(nèi)容，使得網(wǎng)頁在搜索引擎排名中獲得與其網(wǎng)頁不相稱的高排名。常見的作弊方式包括：關(guān)鍵詞重復(fù)、無關(guān)查詢詞作弊、圖片alt標(biāo)簽文本作弊、網(wǎng)頁標(biāo)題作弊、網(wǎng)頁重要標(biāo)簽作弊及網(wǎng)頁元信息作弊。通過這幾種常見的作弊手段，作弊者的作弊意圖不外乎以下幾種：

1、增加目標(biāo)作弊詞詞頻來影響排名；

2、增加主題無關(guān)內(nèi)容或者熱門查詢吸引流量；

3、關(guān)鍵位置插入目標(biāo)作弊詞影響排名。

Google在2011年2月高調(diào)宣布針對低質(zhì)量網(wǎng)頁內(nèi)容調(diào)整排序算法，據(jù)報(bào)道此算法影響了大約11.8%的網(wǎng)頁排名，而這項(xiàng)調(diào)整措施是專門針對以Demand Media（創(chuàng)建于2006年5月，雇員500人，它的業(yè)務(wù)比較龐雜，包括域名注冊、內(nèi)容廣告交易等。它的一個(gè)主要業(yè)務(wù)是，它有包括65個(gè)社會(huì)化媒體組成的網(wǎng)商河站群。）網(wǎng)站為代表的內(nèi)容農(nóng)場作弊手法的。

內(nèi)容農(nóng)場的運(yùn)營者廉價(jià)雇傭大量自由職業(yè)者，支持他們付費(fèi)寫作，但內(nèi)容普遍質(zhì)量低下，很多文章都是通過復(fù)制黏貼完成。但重點(diǎn)是，他們會(huì)研究搜索引擎的熱門搜索詞等，并有機(jī)的將這些詞匯添加到寫作內(nèi)容當(dāng)中去。這樣，普通搜索引擎用戶在搜索時(shí)，會(huì)被吸引進(jìn)內(nèi)容農(nóng)場網(wǎng)站，通過大量低質(zhì)量內(nèi)容吸引流量，內(nèi)容農(nóng)場可以賺取廣告費(fèi)用。

與傳統(tǒng)的作弊方法相比，內(nèi)容農(nóng)場不采用機(jī)器拼接內(nèi)容等機(jī)械方式，而是通過雇傭人員寫作，這種作弊方式搜索引擎往往難以給出是否作弊的明確界定，但又嚴(yán)重影響搜索結(jié)果質(zhì)量，所以是一種很難處理的作弊手法。

反作弊技術(shù)

三、網(wǎng)頁反作弊技術(shù)的整體思路：

目前搜索引擎作弊手段五花八門且層出不窮，作為應(yīng)對方的搜索引擎，也相應(yīng)調(diào)整技術(shù)思路，所以如果整理一下反作弊思路，則會(huì)發(fā)現(xiàn)技術(shù)方法很多，理清思路著實(shí)不易。盡管如此，如果對大多數(shù)反作弊思路深入分析，會(huì)發(fā)現(xiàn)整體思路上還是有規(guī)律可循。從基本思路角度看，可以將反作弊手段大致劃分為以下3種：信任傳播模型、不信任傳播模型和異常發(fā)現(xiàn)模型。

1、信任傳播模型：在海量的網(wǎng)頁數(shù)據(jù)中，通過一定的技術(shù)手段或人工半人工手段，從中篩選出部分完全值得信任的頁面（可以理解為我們?nèi)粘Ｋf的白名單），算法以這些白名單內(nèi)的頁面作為出發(fā)點(diǎn)，賦予白名單內(nèi)頁面節(jié)點(diǎn)較高的信任度分值，其他頁面是否作弊，要根據(jù)其與白名單內(nèi)節(jié)點(diǎn)鏈接關(guān)系來確定。白名單內(nèi)節(jié)點(diǎn)通過鏈接關(guān)系將信任度分值向外擴(kuò)散傳播，如果某個(gè)節(jié)點(diǎn)最后得到的信任度分值高于一定的值，則認(rèn)為沒有問題，如果低于這個(gè)值則會(huì)被判為作弊。

2、不信任傳播模型：從大的技術(shù)框架來講，與信任傳播模型極其相似。最大的區(qū)別在于：初始頁面自己不是值得信任的頁面節(jié)點(diǎn)，而是確認(rèn)存在作弊行為的頁面集合（即我們?nèi)粘Ｋf的黑名單）。賦予黑名單內(nèi)頁面節(jié)點(diǎn)不信任分值，通過鏈接將這種不信任關(guān)系傳播出去，如果最后頁面節(jié)點(diǎn)的不信任分值大于設(shè)定的那個(gè)值，則被判為作弊。

3、而異常發(fā)現(xiàn)模型：簡單的譬如分析網(wǎng)頁內(nèi)容來發(fā)現(xiàn)詞頻、鏈接等的異常，復(fù)雜點(diǎn)的像分析網(wǎng)站用戶行為異常等。異常發(fā)現(xiàn)模型往往和信任傳播模型和不信任傳播模型進(jìn)行組合處理。

事實(shí)上，純粹技術(shù)手段目前是無法徹底解決作弊的問題，因此現(xiàn)在一般都是用戶在瀏覽搜索結(jié)果甚至是上網(wǎng)瀏覽時(shí)舉報(bào)作弊網(wǎng)頁，搜索引擎公司內(nèi)部會(huì)有專門的團(tuán)隊(duì)來審核與主動(dòng)發(fā)現(xiàn)可疑頁面，經(jīng)過審核確認(rèn)的網(wǎng)頁則可以放入黑名單或者白名單當(dāng)中。綜上所述，必須將人工手段與技術(shù)手段相互結(jié)合，才能取得較好的反作弊效果。

四、通用鏈接反作弊方法：

鏈接反作弊方法

1、TrustRank 算法（屬于信任傳播模型）

2、BadRank 算法（屬于不信任傳播模型，據(jù)傳是Google采用的反鏈接作弊算法。注意：不要鏈接給作弊頁面）

3、SpamRank （屬于異常發(fā)現(xiàn)模型）

SpamRank 的基本假設(shè)是：

3.1、對于正常頁面來說，其支持者頁面的 PangRank 值應(yīng)該滿足 Power-Law 分布，即 PR值有大有小。

3.2、作弊網(wǎng)頁不同，一般具有如下3個(gè)特點(diǎn)：

Ⅰ、支持者頁面數(shù)量非常巨大

Ⅱ、支持者頁面的 PangRank 值得分都較低

Ⅲ、支持者頁面的 PangRank 值都落在一個(gè)較小浮動(dòng)范圍內(nèi)

專用鏈接反作弊技術(shù)

五、專用鏈接反作弊技術(shù)：

1、識(shí)別鏈接農(nóng)場：

、網(wǎng)頁出鏈的統(tǒng)計(jì)分布規(guī)則，作弊網(wǎng)頁出鏈不符合 Power-Law 分布

Ⅱ、網(wǎng)頁入鏈的統(tǒng)計(jì)分布規(guī)則，作弊網(wǎng)頁入鏈不符合 Power-Law 分布

Ⅲ、URL名稱統(tǒng)計(jì)特征，作弊網(wǎng)頁的網(wǎng)址較長，包含更多的點(diǎn)畫線和數(shù)字等

Ⅳ、很多作弊網(wǎng)頁的URL地址盡管不同，但是對應(yīng)同一個(gè)IP地址

Ⅴ、網(wǎng)頁特征會(huì)隨時(shí)間變化，比如入鏈的增長率、出鏈的增長率等

Ⅵ、鏈接農(nóng)場的結(jié)構(gòu)特征，農(nóng)場內(nèi)的網(wǎng)頁之間鏈接關(guān)系非常密切

2、識(shí)別 Google 轟炸：

判斷錨文字是否和被指向頁面有語義關(guān)系

識(shí)別內(nèi)容作弊

六、識(shí)別內(nèi)容作弊：

1、重復(fù)出現(xiàn)關(guān)鍵詞，判斷文本內(nèi)一定大小的窗口中是否連續(xù)出現(xiàn)同一個(gè)關(guān)鍵詞

2、標(biāo)題關(guān)鍵詞作弊

3、統(tǒng)計(jì)正常頁面中句子長度的規(guī)律、停用詞的分布規(guī)律、詞性的分布規(guī)律等

反隱藏作弊

七、反隱藏作弊：

常見的隱藏作弊方式包括頁面隱藏和網(wǎng)頁重定向。

1、識(shí)別頁面隱藏

對網(wǎng)頁做2次抓取，第1次數(shù)正常的搜索引擎爬蟲抓取，第2次模擬人工訪問網(wǎng)頁的方式抓取。這種方法成本非常高。

2、識(shí)別網(wǎng)頁重定向

Strider 系統(tǒng)給出了根據(jù)網(wǎng)頁重定向來識(shí)別到底哪些是作弊網(wǎng)頁的解決方案。

八：石榴算法簡介：

2013年5月17日下午，百度網(wǎng)頁搜索反作弊團(tuán)隊(duì)在百度站長平臺(tái)發(fā)布公告稱：將于一星期后正式推出新的算法“石榴算法”。新算法前期將重點(diǎn)整頓含有大量妨礙用戶正常瀏覽的惡劣廣告的頁面。百度稱此舉是為了尊重搜索的用戶，凈化互聯(lián)網(wǎng)生態(tài)環(huán)境！

上一篇：商河一起來解讀友情鏈接的四大作用
下一篇：商河網(wǎng)站索引量大量下降六大影響因素

按類型查看