搜索引擎如何判定內(nèi)容重複性-浏陽卓爲信息技術有限公司|阿裏巴巴浏陽服務中心|浏陽企事業單位信息化建設首選服務商

　　做(zuò)站(zhàn)這麽久感觸最深的就是原創文章在搜索引擎的眼裏越來(lái)越重要。本人(rén)負責幾個(gè)企業站(zhàn)的seo日常優化工作(zuò)，其中一個(gè)站(zhàn)本來(lái)日均ip都在兩三千，可(kě)由于某段時(shí)間(jiān)網站(zhàn)內(nèi)容質量不過關，導緻網站(zhàn)被降權，長尾關鍵詞的流量一下子去了一大(dà)半，網站(zhàn)流量也是差了近半。随着本人(rén)努力的原創，站(zhàn)點現在表現良好逐漸恢複穩定。在這個(gè)“內(nèi)容為(wèi)王”的時(shí)代，想要網站(zhàn)在搜索引擎中有(yǒu)好的表現，就必須在內(nèi)容上(shàng)苦下功夫。

　　可(kě)是衆多(duō)seo人(rén)員深有(yǒu)體(tǐ)會(huì)，持久保持原創內(nèi)容的建設并不是一件容易的事。于是僞原創、抄襲等各類招數(shù)就被站(zhàn)長們紛紛用上(shàng)，這些(xiē)方法真的有(yǒu)效還(hái)是自欺欺人(rén)?今天筆者就和(hé)大(dà)家(jiā)一起分享搜索引擎對于重複內(nèi)容判定方面的知識。

　　一、搜索引擎為(wèi)何要積極處理(lǐ)重複內(nèi)容?

　　1、節省爬取、索引、分析內(nèi)容的空(kōng)間(jiān)和(hé)時(shí)間(jiān)

　　用一句簡單的話(huà)來(lái)講就是，搜索引擎的資源是有(yǒu)限的，而用戶的需求卻是無限的。大(dà)量重複內(nèi)容消耗着搜索引擎的寶貴資源，因此從成本的角度考慮必須對重複內(nèi)容進行(xíng)處理(lǐ)。

　　2、有(yǒu)助于避免重複內(nèi)容的反複收集

　　從已經識别和(hé)收集到的內(nèi)容中彙總出最符合用戶查詢意圖的信息，這既能提高(gāo)效率，也能避免重複內(nèi)容的反複收集。

　　3、重複的頻率可(kě)以作(zuò)為(wèi)優秀內(nèi)容的評判标準

　　既然搜索引擎能夠識别重複內(nèi)容當然也就可(kě)以更有(yǒu)效的識别哪些(xiē)內(nèi)容是原創的、優質的，重複的頻率越低(dī)，文章內(nèi)容的原創優質度就越高(gāo)。

　　4、改善用戶體(tǐ)驗

　　其實這也是搜索引擎最為(wèi)看重的一點，隻有(yǒu)處理(lǐ)好重複內(nèi)容，把更多(duō)有(yǒu)用的信息呈遞到用戶面前，用戶才能買賬。

　　二、搜索引擎眼中重複內(nèi)容都有(yǒu)哪些(xiē)表現形式?

　　1、格式和(hé)內(nèi)容都相似。這種情況在電(diàn)商網站(zhàn)上(shàng)比較常見，盜圖現象比比皆是。

　　2、僅格式相似。

　　3、僅內(nèi)容相似。

　　4、格式與內(nèi)容各有(yǒu)部分相似。這種情況通(tōng)常比較常見，尤其是企業類型網站(zhàn)。

　　三、搜索引擎如何判斷重複內(nèi)容?

　　1、通(tōng)用的基本判斷原理(lǐ)就是逐個(gè)對比每個(gè)頁面的數(shù)字指紋。這種方法雖然能夠找出部分重複內(nèi)容，但(dàn)缺點在于需要消耗大(dà)量的資源，操作(zuò)速度慢、效率低(dī)。

　　2、基于全局特征的I-Match

　　這種算(suàn)法的原理(lǐ)是，将文本中出現的所有(yǒu)詞先排序再打分，目的在于删除文本中無關的關鍵詞，保留重要關鍵詞。這樣的方式去重效果效果高(gāo)、效果明(míng)顯。比如我們在僞原創時(shí)可(kě)能會(huì)把文章詞語、段落互換，這種方式根本欺騙不了I-Match算(suàn)法，它依然會(huì)判定重複。

　　3、基于停用詞的Spotsig

　　文檔中如過使用大(dà)量停用詞，如語氣助詞、副詞、介詞、連詞，這些(xiē)對有(yǒu)效信息會(huì)造成幹擾效果，搜索引擎在去重處理(lǐ)時(shí)都會(huì)對這些(xiē)停用詞進行(xíng)删除，然後再進行(xíng)文檔匹配。因此，我們在做(zuò)優化時(shí)不妨減少(shǎo)停用詞的使用頻率，增加頁面關鍵詞密度，更有(yǒu)利于搜索引擎抓取。

　　4、基于多(duō)重Hash的Simhash

　　這種算(suàn)法涉及到幾何原理(lǐ)，講解起來(lái)比較費勁，簡單說來(lái)就是，相似的文本具有(yǒu)相似的hash值，如果兩個(gè)文本的simhash越接近，也就是漢明(míng)距離越小(xiǎo)，文本就越相似。因此海量文本中查重的任務轉換為(wèi)如何在海量simhash中快速确定是否存在漢明(míng)距離小(xiǎo)的指紋。我們隻需要知道(dào)通(tōng)過這種算(suàn)法，搜索引擎能夠在極短(duǎn)的時(shí)間(jiān)內(nèi)對大(dà)規模的網頁進行(xíng)近似查重。目前來(lái)看，這種算(suàn)法在識别效果和(hé)查重效率上(shàng)相得(de)益彰。

搜索引擎如何判定內(nèi)容重複性

簽約信息：

SEO優化

搜索引擎如何判定內(nèi)容重複性