當前位置:首頁 >  站長 >  搜索優(yōu)化 >  正文

武漢SEO:淺析搜索引擎的蜘蛛的工作方式

 2011-07-30 08:34  來源:   我來投稿 撤稿糾錯

  阿里云優(yōu)惠券 先領券再下單

武漢seo今天想聊聊搜索引擎的蜘蛛的工作方式。先說說搜索引擎的原理吧。搜索引擎是把互聯(lián)網(wǎng)上的網(wǎng)頁內(nèi)容存在自己的服務器上,當用戶搜索某個詞的時候,搜索引擎就會在自己的服務器上找相關的內(nèi)容,這樣就是說,只有保存在搜索引擎服務器上的網(wǎng)頁才會被搜索到。哪些網(wǎng)頁才能被保存到搜索引擎的服務器上呢?只有搜索引擎的網(wǎng)頁抓取程序抓到的網(wǎng)頁才會保存到搜索引擎的服務器上,這個網(wǎng)頁抓取程序就是搜索引擎的蜘蛛.整個過程分為爬行和抓取。

一、 蜘蛛

搜索引擎用來爬行和訪問網(wǎng)站頁面的程序被稱為蜘蛛,也可稱之為機器人。蜘蛛訪問瀏覽器,就和我們平時上網(wǎng)一個樣子,蜘蛛同樣會申請訪問,得到允許后才可以瀏覽,可是有一點,搜索引擎為了提高質(zhì)量和速度,它會放很多蜘蛛一起去爬行和抓取。

蜘蛛訪問任何一個網(wǎng)站時,都會先去訪問網(wǎng)站根目錄下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目錄,蜘蛛將遵守協(xié)議,不抓取被禁止的網(wǎng)址。

和瀏覽器一樣,搜索引擎蜘蛛也有表明自己身份的代理名稱,站長可以在日志文件中看到搜索引擎的特定代理名稱,從而辨識搜索引擎蜘蛛。

二、 跟蹤鏈接

為了抓取網(wǎng)上盡量多的頁面,搜索引擎蜘蛛會跟蹤頁面上的鏈接,從一個頁面爬到下一個頁面,就好像蜘蛛在蜘蛛網(wǎng)上爬行一樣。

整個互聯(lián)網(wǎng)是有相互鏈接的網(wǎng)站及頁面組成的。當然,由于網(wǎng)站及頁面鏈接結構異常復雜,蜘蛛需要采取一定的爬行策略才能遍歷網(wǎng)上所有頁面。

最簡單的爬行的策略有:深度優(yōu)先和廣度優(yōu)先。

1、 深度鏈接

深度優(yōu)先指當蜘蛛發(fā)現(xiàn)一個鏈接時,它就會順著這個鏈接指出的路一直向前爬行,直到前面再也沒其他鏈接,這時就會返回第一個頁面,然后會繼續(xù)鏈接再一直往前爬行。

2、 廣度鏈接

從seo角度講鏈接廣度優(yōu)先的意思是講的蜘蛛在一個頁面發(fā)現(xiàn)多個鏈接的時候,不是跟著一個鏈接一直向前,而是把頁面上所有第一層鏈接都爬一遍,然后再沿著第二層頁面上發(fā)現(xiàn)的鏈接爬向第三層頁面。

從理論上說,無論是深度優(yōu)先還是廣度優(yōu)先,只要給蜘蛛足夠的時間,都能爬完整個互聯(lián)網(wǎng)。在實際工作中,沒有什么東西是無限的,蜘蛛的帶寬資源和蜘蛛的時間也是一樣都是有限的,也不可能爬完所有頁面。實際上最大的搜索引擎也只是爬行和收錄了互聯(lián)網(wǎng)的一小部分。

3.吸引蜘蛛

蜘蛛式不可能抓取所有的頁面的,它只會抓取重要的頁面,那么哪些頁面被認為比較重要呢?有以下幾點:

(1) 網(wǎng)站和頁面權重

(2) 頁面更新度

(3) 導入鏈接

(4) 與首頁點擊距離

4.地址庫

搜索引擎會建立一個地址庫,這么做可以很好的避免出現(xiàn)過多抓取或者反復抓取的現(xiàn)象,記錄已經(jīng)被發(fā)現(xiàn)還沒有抓取的頁面,以及已經(jīng)被抓取的頁面。

地址庫中的URL有以下幾個來源:

(1) 人工錄入的種子網(wǎng)站。

(2) 蜘蛛抓取頁面后,從HTML中解析出新的鏈接URL,與地址庫中的數(shù)據(jù)進行對比,如果是地址庫中沒有的網(wǎng)址,就存入待訪問地址庫。

(3) 搜索引擎自帶的一種表格提供站長,方便站長提交網(wǎng)址

講到這里,關于搜索引擎已經(jīng)差不多了,雖然對于真正的搜索引擎技術來說只是一皮毛,不過對于SEO人員已經(jīng)夠用了。原文地址: 這是億盾武漢seo培訓學員博客的第二篇文章,了解了這么多之后是不是更有利于我們對自己網(wǎng)站的優(yōu)化了捏! 

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關文章

  • 武漢SEO:學好軟文,月薪10萬不是夢

    像往常一樣,武漢SEO周珍在瀏覽各大網(wǎng)站新聞的時候,看到了網(wǎng)易科技的發(fā)布的,《投資與理財》記者總結出2012年最賺錢的十大新興職業(yè)的文章。其中排在第一的是網(wǎng)絡寫手年薪或過百萬。下面直接上圖,有圖有真相:

    標簽:
    武漢SEO
  • 新手也能兩個月將武漢SEO送上首頁

    為什么說我是新手呢,在兩個多月前我根本都不知道什么是SEO。但是迫于壓力,因為大學的日子我實在是過膩了,我需要解脫,我需要做我自己喜歡做的事情,混時間的日子哥不過了,當然現(xiàn)在發(fā)現(xiàn)我的選擇絕對正確,做一名真正的SEO。

    標簽:
    武漢SEO
  • 武漢SEO:百度最終的“墳墓”在于“百度百科”

    本文屬于筆者武漢SEO周凱華的個人觀點,各位站長請不要對號入座:關于標題筆者解釋下,為什么說百度最終的墳墓會是百度百科呢?這個并不是沒有依據(jù)的。或許很多站長都知道,國內(nèi)很多大型的互聯(lián)網(wǎng)公司都有自己的搜索引擎,但是真的做的好的又有幾個呢?是網(wǎng)易的有道?

    標簽:
    武漢SEO
  • 武漢SEO混小子:網(wǎng)站內(nèi)頁排名的做法

    晃哈子距離上次文章混小子回來了已經(jīng)有11天了,這段時間處理了一些事情,非常忙,事情總是要處理的,處理完了才有時間分享更多的文章,這段時間也感謝某個人一直刷我博客流量,因為從被你刷流量的第二天開始有了開始接網(wǎng)站優(yōu)化單子的沖動,當然我也準備開始接單子了,

    標簽:
    武漢SEO
  • 武漢seo李明:總結獲得外鏈的七大途徑

    武漢seo都知道外鏈是提高網(wǎng)站排名和流量最重要的方法,有效的增加外鏈很重要,google炸彈現(xiàn)象最能說明外部鏈接效果。由于外部鏈接對相關性、收錄、及權重的影響,會直接導致關鍵詞排名和搜索流量的的變化,現(xiàn)在很多站長都認為外部鏈接建設是seo工作中最重要的一步,遠

熱門排行

信息推薦