當(dāng)前位置:首頁(yè) >  站長(zhǎng) >  搜索優(yōu)化 >  正文

采集規(guī)則設(shè)置注意事項(xiàng)

 2016-01-07 15:41  來(lái)源: 用戶投稿   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

在這個(gè)越來(lái)越浮躁的社會(huì),越來(lái)越多的人期望事情能夠越來(lái)越輕松,越來(lái)越容易。特別是對(duì)于瞬息萬(wàn)變的互聯(lián)網(wǎng)來(lái)說(shuō),需要時(shí)間去仔細(xì)琢磨的事情并不適合。就拿網(wǎng)站運(yùn)營(yíng)來(lái)說(shuō),完全的原創(chuàng)文章雖然對(duì)網(wǎng)站優(yōu)化排名有很好的幫助,但大部分的網(wǎng)站運(yùn)營(yíng)的寫(xiě)作能力并不高,再加上題材的限制、時(shí)間的規(guī)律性,希望完全通過(guò)原創(chuàng)及全手工來(lái)運(yùn)營(yíng)和優(yōu)化一個(gè)網(wǎng)站是很困難的事情,特別是對(duì)于一些資訊類(lèi)網(wǎng)站、商城類(lèi)網(wǎng)站、視頻類(lèi)網(wǎng)站等此類(lèi)頁(yè)面較多、內(nèi)容更新要求較快的網(wǎng)站來(lái)說(shuō),無(wú)論是內(nèi)容建設(shè)還是外鏈發(fā)布都是個(gè)龐大而復(fù)雜的任務(wù),靠手工完成無(wú)論是時(shí)間上還是成本上都不劃算。因而,有時(shí)候我們需要使用到一些工具的輔助。采集工具就是其中的一種。

目前在網(wǎng)站采集中使用得比較多的采集工具是火車(chē)頭采集工具以及織夢(mèng)自身的dede采集工具,采集工具之間的優(yōu)劣對(duì)比網(wǎng)絡(luò)上有很多,百度一下你就知道,而采集規(guī)則的設(shè)置網(wǎng)絡(luò)上也有很多攻略,大抵都差不多,因而本文也不再多加說(shuō)明,有興趣的童鞋可以自行搜索看看。今天美孕寶防輻射服小美要跟大家分享的是,在設(shè)置采集規(guī)則的時(shí)候,有哪些注意事項(xiàng)?

一、采集起止代碼設(shè)置

在采集規(guī)則設(shè)置中,很重要的一個(gè)步驟就是采集起止代碼的設(shè)置。一般是一小段代碼,以“數(shù)字/英文+符號(hào)”形式為主。代碼越短越不容易出錯(cuò),并需要具有唯一性,以方便機(jī)器快速辨別采集的起止位置。在網(wǎng)上的教程中,這段起止代碼一般是完整的一段,如[內(nèi)容],其中,是開(kāi)始采集位置,[內(nèi)容]代表需要采集的部分信息,是終止采集位置,很多人會(huì)誤以為起止代碼一定需要是完整的一段,但實(shí)際上并非如此。

如下圖兩種:

代碼的某一部分,或者甚至是夾雜中文的代碼也可以作為采集的起止代碼,這可以去掉一些網(wǎng)站內(nèi)容開(kāi)頭與結(jié)尾帶有網(wǎng)站專(zhuān)有標(biāo)識(shí)。

二、標(biāo)題采集設(shè)置

標(biāo)題采集很簡(jiǎn)單,有兩種方式,如下圖所示:

在需要采集的頁(yè)面點(diǎn)擊右鍵選擇“查看源代碼”,在打開(kāi)的頁(yè)面中使用快捷鍵Ctrl+F,在出現(xiàn)的搜索欄中輸入該采集內(nèi)容的標(biāo)題,就能查看到該頁(yè)面的標(biāo)題規(guī)則,一般為title標(biāo)簽以及H標(biāo)簽,數(shù)量在1~4個(gè)不等。一般頁(yè)面會(huì)兩種標(biāo)題標(biāo)簽并存。這種情況下,使用H標(biāo)簽會(huì)比title標(biāo)簽采集更不容易出錯(cuò)。

需要注意的是,有時(shí)候H標(biāo)簽有H1標(biāo)簽H2標(biāo)簽H3標(biāo)簽等,一般只使用H1標(biāo)簽。

三、分頁(yè)采集規(guī)則設(shè)置

一些網(wǎng)站由于文章篇幅過(guò)長(zhǎng)或者希望增加點(diǎn)擊率,往往把一篇文章分成幾個(gè)分頁(yè)來(lái)呈現(xiàn)。這種情況下采集的起止代碼就不在同一個(gè)頁(yè)面上,而應(yīng)該在文章開(kāi)始頁(yè)尋找采集開(kāi)始代碼,而在文章結(jié)束頁(yè)尋找終止代碼,設(shè)置如下:

四、幾個(gè)可能導(dǎo)致采集失敗的因素

1、網(wǎng)站隱藏內(nèi)容禁止采集。這種情況以騰訊新聞為例,騰訊新聞的內(nèi)容在打開(kāi)的源代碼頁(yè)面里不會(huì)呈現(xiàn)出來(lái),因而也無(wú)法判別文章的起止位置,也無(wú)法采集到其網(wǎng)站內(nèi)容。

2、網(wǎng)站采集出錯(cuò)。大多數(shù)網(wǎng)站內(nèi)容在網(wǎng)頁(yè)以及代碼中都正常顯示,但當(dāng)采集到目標(biāo)網(wǎng)站時(shí)卻顯示出錯(cuò)。這種出錯(cuò)分為幾類(lèi):

A、標(biāo)題出錯(cuò)。如下圖所示,文章的內(nèi)容會(huì)全部集中到標(biāo)題上。

B、只采集到標(biāo)題,內(nèi)容空白。即無(wú)法采集到相關(guān)的內(nèi)容。

C、采集終止符失效,采集內(nèi)容包括了被采集網(wǎng)站上的廣告/版權(quán)信息/版尾信息等信息。

這些都是采集中經(jīng)常會(huì)遇到的問(wèn)題,了解這些,對(duì)于采集以及偽原創(chuàng)都有很大的幫助。雖然在優(yōu)化上我們并不建議使用采集的方式,但在必要的情況下,了解采集規(guī)則,對(duì)網(wǎng)站運(yùn)營(yíng)還是有一定的好處的。原文出處:美孕寶防輻射服,專(zhuān)載請(qǐng)保留原文鏈接。謝謝!

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
關(guān)鍵詞采集工具

相關(guān)文章

熱門(mén)排行

信息推薦