咨詢熱線:0731-82030000

簽約信息:

SEO優化

搜索引擎如何判定內(nèi)容重複性

  做(zuò)站(zhàn)這麽久感觸最深的就是原創文章在搜索引擎的眼裏越來(lái)越重要。本人(rén)負責幾個(gè)企業站(zhàn)的seo日常優化工作(zuò),其中一個(gè)站(zhàn)本來(lái)日均ip都在兩三千,可(kě)由于某段時(shí)間(jiān)網站(zhàn)內(nèi)容質量不過關,導緻網站(zhàn)被降權,長尾關鍵詞的流量一下子去了一大(dà)半,網站(zhàn)流量也是差了近半。随着本人(rén)努力的原創,站(zhàn)點現在表現良好逐漸恢複穩定。在這個(gè)“內(nèi)容為(wèi)王”的時(shí)代,想要網站(zhàn)在搜索引擎中有(yǒu)好的表現,就必須在內(nèi)容上(shàng)苦下功夫。

  可(kě)是衆多(duō)seo人(rén)員深有(yǒu)體(tǐ)會(huì),持久保持原創內(nèi)容的建設并不是一件容易的事。于是僞原創、抄襲等各類招數(shù)就被站(zhàn)長們紛紛用上(shàng),這些(xiē)方法真的有(yǒu)效還(hái)是自欺欺人(rén)?今天筆者就和(hé)大(dà)家(jiā)一起分享搜索引擎對于重複內(nèi)容判定方面的知識。

  一、搜索引擎為(wèi)何要積極處理(lǐ)重複內(nèi)容?

  1、節省爬取、索引、分析內(nèi)容的空(kōng)間(jiān)和(hé)時(shí)間(jiān)

  用一句簡單的話(huà)來(lái)講就是,搜索引擎的資源是有(yǒu)限的,而用戶的需求卻是無限的。大(dà)量重複內(nèi)容消耗着搜索引擎的寶貴資源,因此從成本的角度考慮必須對重複內(nèi)容進行(xíng)處理(lǐ)。

  2、有(yǒu)助于避免重複內(nèi)容的反複收集

  從已經識别和(hé)收集到的內(nèi)容中彙總出最符合用戶查詢意圖的信息,這既能提高(gāo)效率,也能避免重複內(nèi)容的反複收集。

  3、重複的頻率可(kě)以作(zuò)為(wèi)優秀內(nèi)容的評判标準

  既然搜索引擎能夠識别重複內(nèi)容當然也就可(kě)以更有(yǒu)效的識别哪些(xiē)內(nèi)容是原創的、優質的,重複的頻率越低(dī),文章內(nèi)容的原創優質度就越高(gāo)。

  4、改善用戶體(tǐ)驗

  其實這也是搜索引擎最為(wèi)看重的一點,隻有(yǒu)處理(lǐ)好重複內(nèi)容,把更多(duō)有(yǒu)用的信息呈遞到用戶面前,用戶才能買賬。

  二、搜索引擎眼中重複內(nèi)容都有(yǒu)哪些(xiē)表現形式?

  1、格式和(hé)內(nèi)容都相似。這種情況在電(diàn)商網站(zhàn)上(shàng)比較常見,盜圖現象比比皆是。

  2、僅格式相似。

  3、僅內(nèi)容相似。

  4、格式與內(nèi)容各有(yǒu)部分相似。這種情況通(tōng)常比較常見,尤其是企業類型網站(zhàn)。

  三、搜索引擎如何判斷重複內(nèi)容?

  1、通(tōng)用的基本判斷原理(lǐ)就是逐個(gè)對比每個(gè)頁面的數(shù)字指紋。這種方法雖然能夠找出部分重複內(nèi)容,但(dàn)缺點在于需要消耗大(dà)量的資源,操作(zuò)速度慢、效率低(dī)。

  

 

  2、基于全局特征的I-Match

  這種算(suàn)法的原理(lǐ)是,将文本中出現的所有(yǒu)詞先排序再打分,目的在于删除文本中無關的關鍵詞,保留重要關鍵詞。這樣的方式去重效果效果高(gāo)、效果明(míng)顯。比如我們在僞原創時(shí)可(kě)能會(huì)把文章詞語、段落互換,這種方式根本欺騙不了I-Match算(suàn)法,它依然會(huì)判定重複。

  

 

  3、基于停用詞的Spotsig

  文檔中如過使用大(dà)量停用詞,如語氣助詞、副詞、介詞、連詞,這些(xiē)對有(yǒu)效信息會(huì)造成幹擾效果,搜索引擎在去重處理(lǐ)時(shí)都會(huì)對這些(xiē)停用詞進行(xíng)删除,然後再進行(xíng)文檔匹配。因此,我們在做(zuò)優化時(shí)不妨減少(shǎo)停用詞的使用頻率,增加頁面關鍵詞密度,更有(yǒu)利于搜索引擎抓取。

  

 

  4、基于多(duō)重Hash的Simhash

  這種算(suàn)法涉及到幾何原理(lǐ),講解起來(lái)比較費勁,簡單說來(lái)就是,相似的文本具有(yǒu)相似的hash值,如果兩個(gè)文本的simhash越接近,也就是漢明(míng)距離越小(xiǎo),文本就越相似。因此海量文本中查重的任務轉換為(wèi)如何在海量simhash中快速确定是否存在漢明(míng)距離小(xiǎo)的指紋。我們隻需要知道(dào)通(tōng)過這種算(suàn)法,搜索引擎能夠在極短(duǎn)的時(shí)間(jiān)內(nèi)對大(dà)規模的網頁進行(xíng)近似查重。目前來(lái)看,這種算(suàn)法在識别效果和(hé)查重效率上(shàng)相得(de)益彰。