當前位置:首頁 >  站長 >  搜索優(yōu)化 >  正文

影響百度爬蟲對網站抓取量的因素

 2017-11-22 14:15  來源: 焦大seo   我來投稿 撤稿糾錯

  阿里云優(yōu)惠券 先領券再下單

影響百度爬蟲對網站抓取量的因素有哪些?

虛子雨SEO首先介紹一下百度爬蟲抓取量,其實就是百度爬蟲對站點一天抓取網頁的數量,從百度內部透露來說,一般會抓兩種網頁,其中一個是這個站點產生新的網頁,一般 中小型站當天就可以完成,大型網站可能完成不了,另一種是百度以前抓過的網頁,它是需要更新的,比如一個站點已經被百度收錄了5w,那么百度會給出一個時 間段,比如30天,然后平均一下,每天到這個站點上面抓5W/30的這樣一個數字,但是具體的量,百度有自己的一套算法公式來計算。

影響百度抓取量的因素。

1.站點安全

對于中小型站點,在安全技術上比較薄弱,被黑被篡改的現象非常常見,一般被黑有常見幾種情況,一種是主域被黑,一種是標題被篡改,還有一種是在頁面里面加 了很多的外鏈。一般主域被黑就是被劫持,就是主域被進行301的跳轉到指定的網站,而如果在百度那邊發(fā)現跳轉后的是一些垃圾站,那么你這個站點抓取量會里 面降低。

2.內容質量

如果抓取了10萬條,而只有100條建庫了,那么抓取量還會降下來,因為百度會認為抓取的網頁比例很低,那么就沒必要去抓取更多,所以要"寧缺毋濫",特別要注意在建站的時候一定要注意質量,不要采集一些內容,這是一種潛在的隱患。

3.站點響應速度

①網頁的大小會影響抓取,百度建議網頁的大小在1M以內,當然類似大的門戶網站,如新浪另說。

②代碼質量、機器的性能及帶寬,這個不多說,后續(xù)筆者會單獨拿出一篇文章講解,請實時關注“營銷小能手”。

4.同ip上面主域的數量

百度抓取都是按照ip進行去抓取的,比如在一個ip上一天抓取了1000w個頁面,而在這個站點上有40W的站點,那么平均下來抓取每個站點的數量會分的 很少,所以在選擇服務商的時候,要看一看同ip上面有沒有大站,如果有大站的話,可能會被分得的抓取量會很少因為流量都跑大站上面去了。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關標簽
爬蟲
百度爬蟲

相關文章

  • 淺談百度爬蟲的HTTP狀態(tài)碼返回機制

    HTTP狀態(tài)碼我們都很熟悉,SEO工作中我們也需要迎合百度蜘蛛對常見的HTTP返回碼來做相關調整,下面我們就來淺談百度爬蟲的HTTP狀態(tài)碼返回機制

  • 爬蟲有哪些分類?白話說說SEO好朋友爬蟲

    本文大綱:1、爬蟲是什么?反爬蟲又是什么?2、爬蟲有哪些分類?3、爬中流程與搜索引擎工作流程4、http/https協(xié)議與狀態(tài)碼5、robots協(xié)議爬蟲是什么?反爬蟲又是什么?這里的爬蟲不是我們生活中的爬蟲,如蜘蛛。這里的爬蟲更多指的是網絡爬蟲,即我們叫它網頁蜘蛛或網絡機器人。當然,在SEO里,叫網

    標簽:
    百度爬蟲
  • 百度爬蟲是什么

    百度爬蟲是一種網絡機器人,它可以根據一定的規(guī)則,在各個網站爬行,對訪問過的網頁、圖片、視頻等內容進行收集整理,分類建立數據庫,呈現在搜索引擎上,讓用戶通過搜索某些關鍵字,就可以看到企業(yè)網站的網頁、圖片、視頻等。

    標簽:
    百度爬蟲
  • 搜索引擎蜘蛛(爬蟲)工作過程及原理

    搜索引擎蜘蛛首先會抓取網頁信息,把抓取到的信息存放到搜索引擎臨時數據庫中,接著搜索引擎會根據自身的甄別原則分析信息價值,有價值的信息保留下來,沒有價值的信息進行刪除處理。

  • 淘寶客程序發(fā)展 淘寶聯(lián)盟爬蟲的注意點

    淘寶網現在已經發(fā)展的十分成熟,也衍生了淘寶客這個行業(yè),在此之前也是經歷了很多很多的階段才有今天的成績,通過不斷改進和迎合客戶的需求和互聯(lián)網的發(fā)展,一次又一次的更新才讓人們看到今天的淘寶網。那么淘寶客程序經歷了哪些過程呢?

熱門排行

信息推薦