當(dāng)前位置:首頁(yè) >  站長(zhǎng) >  網(wǎng)站運(yùn)營(yíng) >  正文

采集程序設(shè)計(jì)經(jīng)驗(yàn)交流(一) 前言

 2009-04-05 21:55  來(lái)源:   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

“小網(wǎng)站本不需要維護(hù),只是因?yàn)槟愕某绦蛱苛?,所以你成了無(wú)休止的網(wǎng)站維護(hù)者。”—沉默的海

前言

經(jīng)常有朋友在Q群(75604923)里問(wèn)起采集的相關(guān)問(wèn)題,每次針對(duì)個(gè)人回答的時(shí)候,總是無(wú)法說(shuō)得很全面,很多朋友表示不滿意,今天發(fā)表此文,詳細(xì)介紹一下采集程序的設(shè)計(jì)思路。其實(shí)“沉默的海”本是一名業(yè)余ASP愛(ài)好者,ASP綜合技術(shù)水平應(yīng)該說(shuō)是一個(gè)“二把刀”。但對(duì)于采集程序的編寫(xiě),應(yīng)該說(shuō)還有點(diǎn)研究,因?yàn)槲沂且驗(yàn)椴杉绦虿琶陨暇幊獭⒚陨螦SP,也是從這里開(kāi)始了自己的編程之路。

一、 采集程序的作用。

這個(gè)問(wèn)題也許不用多說(shuō),每個(gè)站長(zhǎng)可能都感覺(jué)特別的需要,因?yàn)槲覀兙Ρ鼐褂邢蓿幌竽切┐蟮木W(wǎng)絡(luò)公司,有專門(mén)的新聞?dòng)浾吆途W(wǎng)絡(luò)寫(xiě)手。這樣以來(lái),要想使自己的網(wǎng)站內(nèi)容豐富起來(lái),借簽別的網(wǎng)站上的內(nèi)容無(wú)疑成了一個(gè)最好的辦法,也就是這個(gè)原因,數(shù)以千計(jì)的站長(zhǎng)不知不覺(jué)中成了“復(fù)制粘貼”的操作手,在和站長(zhǎng)朋友的聊天中得知,多數(shù)站長(zhǎng)每天做的工作就是“復(fù)制粘貼”。這是一個(gè)多么枯燥的工作啊,但,為了自己的希望也不得不去做這些最讓人討厭的事情。

這樣以來(lái),采集程序成為站長(zhǎng)們必不可少的一個(gè)工具,給站長(zhǎng)們帶來(lái)了很多的便利,即使我們的網(wǎng)站內(nèi)容得到了豐富,又節(jié)省了很多的精力和時(shí)間。(和也許可以作為采集程序示例網(wǎng)站,無(wú)需要任何更新,網(wǎng)站永遠(yuǎn)都是新的。)

但,有多站長(zhǎng)卻又不會(huì)自己設(shè)計(jì)采集程序,從網(wǎng)上下載的程序要么是收費(fèi)的,要么是功能不全的,往往不能讓人滿意。即便是收費(fèi)的,用起來(lái)也不是十分方便,因?yàn)樾枰芏嗍止さ牟僮鳌?/p>

“沉默的海”認(rèn)為:采集程序要想真正發(fā)揮其方便快捷的優(yōu)勢(shì),最好的一個(gè)辦法是針對(duì)自己的網(wǎng)站量身設(shè)計(jì),而后和網(wǎng)站集成在一起,成為網(wǎng)站的一部分,只有這樣,才能算是一個(gè)成功的采集程序。

可是,采集程序怎么做呢?難嗎?

二、 采集程序怎么做。

“沉默的海”認(rèn)為,采集程序設(shè)計(jì)一點(diǎn)都不難,只要有一些ASP編程常識(shí),我覺(jué)得一天之內(nèi)學(xué)會(huì)它,是沒(méi)有問(wèn)題的。(相信我的話,你就把文章看完,我保證不會(huì)讓你失望;不相信我的話也請(qǐng)你看完,我保證看完后你會(huì)相信我的話。)

采集程序的基本原理其實(shí)很簡(jiǎn)單:包括兩個(gè)步驟:

1、 下載目標(biāo)網(wǎng)頁(yè);

大家知道,采集程序幫我們做的工作其實(shí)就是“復(fù)制和粘貼”,那么要把一個(gè)網(wǎng)站復(fù)制下來(lái),首頁(yè)你需要把網(wǎng)頁(yè)打開(kāi)啊,這個(gè)過(guò)程其實(shí)就是下載目標(biāo)網(wǎng)頁(yè),只不過(guò)我們不是人工下載,而是利用程序來(lái)完成它。

這里有“核心技術(shù)”:XMLHTTP,它可以把網(wǎng)頁(yè)下載以備下一步的使用。

2、 提取網(wǎng)頁(yè)中我們需要的內(nèi)容;

上一步我們完成了第一步:下載網(wǎng)頁(yè)。

但并不是所有下載的內(nèi)容都是我們需要的,所以還要做的工作就是,提取我們需要的內(nèi)容,去除不需要的,存入數(shù)據(jù)庫(kù)。這一步的主要技術(shù)是:正則表達(dá)式。

三、 做什么樣的采集程序。

做了以上兩步,應(yīng)該說(shuō)一個(gè)完整的采集程序已經(jīng)完成了。它可以采集到我們需要的內(nèi)容,而后存入數(shù)據(jù)庫(kù),供我們使用??墒?,這是我們真正需要的嗎?顯然不是,因?yàn)槲覀兗热灰貌杉绦騺?lái)支持我們的網(wǎng)站,那就要用它來(lái)完成幾乎所以的工作。我認(rèn)為:如果你的網(wǎng)站加了采集程序,那么即使長(zhǎng)年不維護(hù),網(wǎng)站依然是新的,這樣才算是成功的。

上面的采集程序顯然做不到,因?yàn)槟氵€得啟動(dòng)采集程序,然后把數(shù)據(jù)導(dǎo)入網(wǎng)站的數(shù)據(jù)庫(kù),然后生成html,等等等等,還有很多工作需要我們來(lái)做。我們理想中的采集程序是不需要人工來(lái)做任何工作的,所以在完成采集程序之后我們還要做一些配套的程序,以保證采集程序的運(yùn)行,和與網(wǎng)站的完美集成。

1、 自動(dòng)啟動(dòng)采集程序;

2、 將采集數(shù)據(jù)直接寫(xiě)入網(wǎng)站數(shù)據(jù)庫(kù);

3、 配套生成html等后續(xù)工作。

做了以上三點(diǎn),我們才可以說(shuō)自己做了一套還算可以的采集程序,那么我們具體應(yīng)該怎么做呢,請(qǐng)看《采集程序設(shè)計(jì)經(jīng)驗(yàn)交流(二)—下載網(wǎng)頁(yè)》。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

熱門(mén)排行

信息推薦