一、抓取:百 度抓取網頁的工具叫做蜘蛛Spider,這個比喻十分形象,百度蜘蛛或者叫做百度爬蟲,在互聯網上這張大網上爬行,順著網頁中的超鏈接,從這個網站爬到另 一個網站,通過超鏈接分析連續(xù)訪問抓取更多網頁。被抓取的網頁被稱之為網頁快照。由于互聯網中超鏈接的應用很普遍,理論上,從一定范圍的網頁出發(fā),就能搜 集到絕大多數的網頁。然后過濾掉低質量、重復甚至是同質化內容,即石榴算法。
過濾:2013年5月,百度推出“石榴算法”,過濾掉采集,同質化以及低質量頁面。稀缺度越高越容易被抓取。
二、收錄:搜 索引擎抓到網頁后,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引庫和索引。其他還包括去除重復網頁、分詞(中 文)、判斷網頁類型、分析超鏈接、計算網頁的重要度/豐富度等。然后通過比對去重步驟,(將重復或者沒有更新的網頁從數據庫刪除,然后通過先進先出的規(guī) 則),分詞(通過將頁面拆分成一個一個詞語,去掉形容詞、動詞、助詞等無用內容,然后將剩下的詞從互聯網中找出出現頻率,將中頻詞與數據庫中其他類似頁面 詞語進行比對,從而保留新頁面或者更新后的舊頁面。
三、排序:排 序就是關鍵詞排名。這也是SEO從業(yè)者以及企業(yè)老板們最為看重的因素,也是SEO從業(yè)者的終極目標。(對于老板而言,轉化率中的訂單量才是對電商 部門的終極要求)。百度根據每個頁面的標題,判斷內頁相關度以后,通過大約一百四十項因素評分以后,會列出某一關鍵詞的排序。
搜索引擎的數據庫分為高質量、中質量與低質量三種。高質量索引庫的頁面也符合 二八原則,大約占整個互聯網頁面的20%,卻能夠滿足80%的搜索引擎用戶需求。中低質量索引庫里的頁面,在一般情況下,是不會參與關鍵詞排名的,或者排 名在三十或者百名以后。但是,在某些冷門關鍵詞,在高質量索引庫中沒有找到結果的,則會從中低索引庫中提取關鍵詞并展示出來。
影響百度收錄的因素:
1.百度對于老域名網站,收錄較快對于新域名網站,以及老域名卻被K過的網站收錄較慢。
2.主頁比內頁收錄快,新網站剛上線情況下,一般主頁會在半個月內實現收錄,而內頁最遲則會一個半月到兩個月才被收錄。就要檢查未被收錄的頁面的質量,去豐富這些頁面的內容。
3.當內容質量特別高,特別稀缺,理論上是可以實現秒收錄的。
4.新聞資訊類網站,通常原創(chuàng)首發(fā)的稀缺類網頁,尤其是熱點新聞,通常都是接近于秒收。相應的,企業(yè)站產品頁面由于不是熱點,收錄速度比熱門資訊類更慢。
5.網站權重影響收錄。權重是搜索引擎對于網站的評級,百度的權重對應的是谷歌的PR值,PR全稱page rank,即網頁等級的意思。網站權重通常是由0-10,11個評分等級構成,而網站權重又由主頁權重和每個頁面權重共同組成,某種意義上講,網站權重可 以大致理解為網站所有頁面權重的平均值。因此,網站整體權重高的內頁,收錄比權重低的網站要快的多。所以,企業(yè)類網站內頁頁面的收錄通常會受類型不是熱門 事件以及網站整體權重比資訊類頁面低的雙重因素作用下,收錄要慢得多。
《戰(zhàn)國策四》中記載著一個有名的故事,叫做南轅北轍。意思就是說,一個人在努力,準備再充分,選擇錯了方向就會南轅北轍,有付出卻沒有收獲。每個SEO從業(yè)者,以及想要了解SEO的人們,只有先了解了搜索引擎的工作原理,才能保證所有的努力都作對了方向。