搜索引擎索引系統概述(一)

 二維碼 110
發表時間:2016-03-09 19:57作者:敖游來源:遨游建站網址:http://m.oudifangfumu.com

眾所周知,搜索引擎的主要工作過程包括:抓取、存儲、頁面分析、索引、檢索等幾個主要過程。過去幾周給大家介紹了抓取相關的簡要過程。今天簡要介紹一下索引系統,以億為單位的網頁庫中查找特定的某些關鍵詞猶如大海里面撈針,也許一定的時間內可以完成查找,但是用戶等不起,從用戶體驗角度我們必須在毫秒級別給予用戶滿意的結果,否則用戶只能流失。怎樣才能達到這種要求呢?

如果能知道用戶查找的關鍵詞(query切詞后)都出現在哪些頁面中,那么用戶檢索的處理過程即可以想象為包含了query中切詞后不同部分的頁面集合求交的過程,而檢索即變成了頁面名稱之間的比較、求交。這樣,在毫秒內以億為單位的檢索成為了可能。這就是通常所說的倒排索引及求交檢索的過程。如下為建立倒排索引的基本過程:


搜索引擎索引系統概述.jpg


(1)頁面分析的過程實際上是將原始頁面的不同部分進行識別并標記,例如:title、keywords、content、link、anchor、評論、其他非重要區域等等;

(2)分詞的過程實際上包括了切詞分詞同義詞轉換同義詞替換等等,以對某頁面title分詞為例,得到的將是這樣的數據:term文本、termid、詞類、詞性等等;

(3)之前的準備工作完成后,接下來即是建立倒排索引,形成{termàdoc},可以粗略的理解為如下,為什么是【term->doc】,而不是直接應用【doc->term】呢?


搜索引擎索引系統概述2.jpg


上述即是索引系統中的倒排索引過程,是搜索引擎實現毫秒級檢索非常重要的一個環節。


廣告投放問題
網站建設問題
小程序設計問題

以信載商,良心建站。遨游始終秉承“一次建站、終身維護”的宗旨,竭誠為客戶提供最優質的互聯網服務。遨游建站率先植入seo優化理念,讓你的網頁更利于搜索引擎抓取,關鍵詞排名更靠前。可仿站、可定制。無論是傳統型企業官網、集團型品牌官網,還是營銷型網站、電商型網站、定制型網站、特殊行業網站(醫療、教育),全部搞定。

公司:網站建設_小程序設計_競價托管代運營公司;郵箱:1013601535@qq.com

手機:17073547034;QQ: 1013601535

在線留言咨詢,24小時內回復
我想咨詢
*
企業名稱
手機號碼
*
您的姓名
所在城市
提交
最新發布
我們是中小企業可信賴的合作伙伴!始終專注一件事,一站式互聯網信息技術服務商
19240102767
全國統一服務熱線
遨游建站是全國高端網站建設公司,提供廣州企業網站建設/小程序開發/購物網站設計制作與競價托管代運營服務;秉承“一次建站,終身維護”的宗旨,有償提供互聯網技術支持。
本站部分圖片、音頻、視頻來源于網絡,版權歸原作者,如有侵權請聯系我們刪除。
主站蜘蛛池模板: 伊人久久大香线蕉综合7| 日韩人妻无码一区二区三区综合部| 色综合久久98天天综合| 思思91精品国产综合在线 | 亚洲色偷偷综合亚洲AV伊人蜜桃| 久久综合久久美利坚合众国| 久久婷婷午色综合夜啪 | 99久久国产综合精品麻豆| 国产色婷婷五月精品综合在线| 一本久久a久久精品综合夜夜| 亚洲欧美日韩综合俺去了| 国产成人综合亚洲亚洲国产第一页 | 国产成人综合久久精品| 亚洲综合国产精品| 国产精品综合专区中文字幕免费播放| 久久婷婷五月综合尤物色国产 | 狠狠爱天天综合色欲网| 久久久久久久综合| 久久综合一区二区无码| 天天综合天天做天天综合| 亚洲av综合avav中文| 伊人久久青草青青综合| 久久综合狠狠综合久久97色| 国产成人亚洲综合在线| 色综合久久久久久久| 色悠久久久久综合网香蕉| 人人妻人人狠人人爽天天综合网| 久久综合久久伊人| 日韩欧国产精品一区综合无码| 丁香六月婷婷综合| 伊人久久大香线蕉综合爱婷婷 | 天天爽天天狠久久久综合麻豆| 亚洲伊人成无码综合网| 国产91久久综合| 一本色道久久综合亚洲精品| 中文自拍日本综合| 五月天婷五月天综合网站| 亚洲综合色丁香婷婷六月图片| 色综合天天综合中文网| 日日狠狠久久偷偷色综合免费| 天天做天天爱天天爽综合区|