當前位置:首頁 >  站長 >  搜索優(yōu)化 >  正文

百度lee:搜索引擎索引系統(tǒng)概述(一)

 2013-10-21 17:23  來源: A5專欄   我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

從上次8月份百度站長平臺lee發(fā)布關于搜索引擎抓取信息后2個月已經過去,這次lee繼續(xù)發(fā)布了搜索引擎索引系統(tǒng)的信息。不管怎么樣,木木SEO認為百度官方的公告我們還是要了解和分析的。下面是百度官方公告:

眾所周知,搜索引擎的主要工作過程包括:抓取、存儲、頁面分析、索引、檢索等幾個主要過程。過去幾周給大家介紹了抓取相關的簡要過程。今天簡要介紹一下索引系統(tǒng),以億為單位的網頁庫中查找特定的某些關鍵詞猶如大海里面撈針,也許一定的時間內可以完成查找,但是用戶等不起,從用戶體驗角度我們必須在毫秒級別給予用戶滿意的結果,否則用戶只能流失。怎樣才能達到這種要求呢?

如果能知道用戶查找的關鍵詞(query切詞后)都出現(xiàn)在哪些頁面中,那么用戶檢索的處理過程即可以想象為包含了query中切詞后不同部分的頁面集合求交的過程,而檢索即變成了頁面名稱之間的比較、求交。這樣,在毫秒內以億為單位的檢索成為了可能。這就是通常所說的倒排索引及求交檢索的過程。如下為建立倒排索引的基本過程:

(1)頁面分析的過程實際上是將原始頁面的不同部分進行識別并標記,例如:title、keywords、content、link、anchor、評論、其他非重要區(qū)域等等;

(2)分詞的過程實際上包括了切詞、分詞、同義詞轉換、同義詞替換等等,以對某頁面title分詞為例,得到的將是這樣的數(shù)據(jù):term文本、termId、詞類、詞性等等;

(3)之前的準備工作完成后,接下來即是建立倒排索引,形成{termàdoc},可以粗略的理解為如下,為什么是【term->doc】,而不是直接應用【doc->term】呢?

上述即是索引系統(tǒng)中的倒排索引過程,是搜索引擎實現(xiàn)毫秒級檢索非常重要的一個環(huán)節(jié)。

好了,以上就百度發(fā)布的全文了,當然是很簡單的,想了解更多可以看木木SEO的《不懂搜索引擎原理就是在裸奔》,我想大家在里面可以了解得更詳細。另外上面文章里面的幾個詞可能大家不理解,簡單的說一下:term就是單詞文本,即關鍵詞;termID就是單詞標識。

文章編輯自:木木SEO博客

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關文章

  • 百度站長平臺:百度LEE漫談移動化

    在3月19日的百度站長平臺蝶變行動專場沙龍現(xiàn)場,百度LEE團隊主要成員、移動搜索產品負責人熊詠志老師針對現(xiàn)階段大熱的PC移動化問題闡述了自己的看法,值得同學們好好學習一下,匯總起來要點如下:?理清目標用戶需求,切忌盲目移動化?移動適配要全面,以免流量流失?盡快在百度站長平臺驗證站點,享受專項服務20

  • 百度站長平臺:搜索引擎索引系統(tǒng)概述

    眾所周知,搜索引擎的主要工作過程包括:抓取、存儲、頁面分析、索引、檢索等幾個主要過程。過去幾周給大家介紹了抓取相關的簡要過程。今天簡要介紹一下索引系統(tǒng),以億為單位的網頁庫中查找特定的某些關鍵詞猶如大海里面撈針,也許一定的時間內可以完成查找,但是用戶等不起,從用戶體驗角度我們必須在毫秒級別給予用戶滿意

  • 百度lee:搜索引擎索引系統(tǒng)概述(二)

    10月21日,百度lee簡要介紹了搜索引擎索引系統(tǒng)概述(一),主要講的就是搜索引擎的倒排索引,還是先來百科一下:Query,是查詢的意思,為了在數(shù)據(jù)庫中尋找某一特定文件、網站、記錄或一系列記錄,由搜索引擎或數(shù)據(jù)庫送出的消息;term是單詞文本,即關鍵詞。今天,百度Lee公布了搜索引擎索引系統(tǒng)概述第二

  • 百度站長平臺沙龍:百度Lee解密新一代搜索引擎

    “百度之夜”百度站長平臺高端沙龍?上海站紀實A5站長網(m.findingchristbooks.com)消息,10月16日晚,“百度之夜”——百度站長平臺高端沙龍?上海站在Caffebene咖啡召開。來自攜程、大眾點評、1號店、途牛等60余家上海知名網站的互聯(lián)網精英濟濟一堂。百度的搜索專家Lee對百度最近推出的知心搜

    標簽:
    百度lee
  • 百度lee:建立符合搜索抓取習慣的網站

    之前百度站長lee給大家介紹了搜索抓取系統(tǒng)工作原理,根據(jù)該工作原理今天簡要介紹一下如何建立網站是符合搜索引擎抓取系統(tǒng)習慣的。

熱門排行

信息推薦