解讀搜索引擎原理

 二維碼 614
發表時間:2019-03-20 16:08作者:敖游來源:遨游建站網址:http://m.oudifangfumu.com

四、集成搜索引擎


集成搜索引擎(All-in-One Search Page)亦稱為“多引擎同步檢索系統 ”,是在一個WWW頁面上鏈接若干種獨立的搜索引擎,檢索時需點選或指定搜索引擎,一次檢索輸入,多引擎同時搜索,用起來相當方便。

集成搜索引擎無自建數據庫,不需研發支持技術,當然也不能控制和優化檢索結果。但集成搜索引擎制作與維護技術簡單,可隨時對所鏈接的搜索引擎進行增刪調整和及時更新,尤其大規模專業(如FLASH、MP3等)搜索引擎集成鏈接,深受特定用戶群歡迎。

集成搜索引擎是通過網絡技術,在一個網頁上鏈接很多個獨立搜索引擎,查詢時,點選或指定搜索引擎,一次輸入,多個搜索引擎同時查詢,搜索結果由各搜索引擎分別以不同頁面顯示。

任何搜索引擎的設計,均有其特定的數據庫索引范圍、獨特的功能和使用方法,以及預期的用戶群指向。一種搜索引擎不可能滿足所有人或一個人所有的檢索需求。在某些情況下,如文獻普查、專題查詢、新聞調查與溯源、軟件及MP3下載地址搜索等等,人們往往需要使用多種搜索引擎,對搜索結果進行比較、篩選和相互印證。為解決逐一登陸各搜索引擎,并在各搜索引擎中分別多次輸入同一檢索請求(檢索字串)等煩瑣操作,集成搜索引擎和元搜索引擎應運而生。

集成搜索引擎起源

因特網上沖浪,你也許有這種痛苦經歷:利用搜索引擎進行網頁搜索時,在第一個搜索引擎中沒有找到滿意的結果,于是在第二、第三……個搜索引擎間奔波,為找到滿意的結果而費時費力。其實,在因特網上已有不少聰明人開發出了一種Metasearch技術,即集成搜索,也叫索引搜索,來幫助上網者快速、全面、準確地搜索到自己確實需要的網頁。這種技術的特點是:這些網站上集成了許多搜索引擎,你輸入一個查詢要求,它會將其適當格式化后提交給許多搜索引擎進行搜索,然后將返回的搜索結果進行整理、合并、集成為一個頁面,或一份報告,內容就是你要的搜索結果。

集成搜索引擎優點

集成搜索引擎的優點是明顯的:首先,它在一個網站上同時搜索許多搜索引擎,最終返回的結果被進行了適當的整合,刪除了一些不適合和重復的網頁,從而大大地節省你的時間、金錢和精力,使搜索變得更有效率;其次,它使你的搜索結果更為全面、準確,也更容易找到符合你需要的結果。


搜索引擎工作狀態.jpg


搜索引擎的發展趨勢


一個好的搜索引擎,不僅數據庫容量要大,更新頻率、檢索速度要快,支持對多語言的搜索,而且隨著數據庫容量的不斷膨脹,還要能從龐大的資料庫中精確地找到正確的資料。

1、提高搜索引擎對用戶檢索提問的理解。

為了提高搜索引擎對用戶檢索提問的理解,就必須有一個好的檢索提問語言。為了克服關鍵詞檢索和目錄查詢的缺點,現在已經出現了自然語言智能答詢。用戶可以輸入簡單的疑問句,比如“如何能殺死計算機中的病毒”,搜索引擎在對提問進行結構和內容的分析之后,或直接給出提問的答案,或引導用戶從幾個可選擇的問題中進行再選擇。自然語言的優勢在于,一是使網絡交流更加人性化,二是使查詢變得更加方便、直接、有效。就以上面的例子來講,如果用關鍵詞查詢,多半人會用“病毒”這個詞來檢索,結果中必然會包括各類病毒的介紹,病毒是怎樣產生的等等許多無用信息,而用“如何能殺死計算機中的病毒”檢索,搜索引擎會將怎樣殺死病毒的信息提供給用戶,提高了檢索效率。

2、垂直主題搜索引擎有著極大的發展空間。

網上的信息浩如煙海,網絡資源以驚人的速度增長,一個搜索引擎很難收集全所有主題的網絡信息,即使信息主題收集得比較全面,由于主題范圍太寬,很難將各主題都做得精確而又專業,使得檢索結果垃圾太多。這樣以來,垂直主題的搜索引擎以其高度的目標化和專業化在各類搜索引擎中占據了一席之地。目前,一些主要的搜索引擎,都提供了新聞、Mp3、圖片、Flash等的搜索,加強了檢索的針對性。

3、元搜索引擎,能夠提供全面且較為準確的查詢結果。

現在的許多搜索引擎,其收集信息的范圍、索引方法、排名規則等都各不相同,每個搜索引擎平均只能涉及到整個Web資源的30-50%,這樣導致同一個搜索請求在不同搜索引擎中獲得的查詢結果的重復率不足34%,而每一個搜索引擎的查準率不到45%。元搜索引擎(META Search Engine)是將用戶提交的檢索請求發送到多個獨立的搜索引擎上去搜索,并將檢索結果集中統一處理,以統一的格式提供給用戶,因此有搜索引擎之上的搜索引擎之稱。它的主要精力放在提高搜索速度、智能化處理搜索結果、個性化搜索功能的設置和用戶檢索界面的友好性上,查全率和查準率都比較高。


主要的搜索引擎介紹


這里介紹的是在國內外影響比較大的主要的一些搜索引擎和分類目錄站點,由于現在的站點一般都同時提供全文搜索和分類目錄兩種服務,所以我們按照其自有的技術進行分類和介紹。

1、主要的全文搜索引擎

  • Google(http://www.google.com/)。Google成立于1997年,幾年間迅速發展成為世界范圍內規模最大的搜索引擎。Google數據庫現存有42.8億個Web文件,每天處理的搜索請求已達2億次,而且這一數字還在不斷增長。Google借用Dmoz(http://dmoz.org/)的分類目錄提供“網頁目錄”查詢(http://www.google.com/dirhp?hl=zh-CN&tab=wd&ie=UTF-8&oe=UTF-8&q=),但默認網站排列順序并非按照字母順序,而是根據網站PageRank的分值高低排列。

  • 百度(http://www.baidu.com/)。百度是國內最早的商業化(早期為其它門戶網站提供搜索服務,現在的競價排名更是日進斗金)全文搜索引擎,擁有自己的網絡機器人和索引數據庫,專注于中文的搜索引擎市場,除有網頁搜索外,百度還有新聞、MP3、圖片等搜索,并在2003年底推出“貼吧”、按地域搜索等功能。

  • 中國搜索(http://www.huicong.com/)。中國搜索的前身是慧聰搜索,原慧聰搜索在聯合中國網等30多家知名網站的基礎上,2002年9月25日,正式組建了中國搜索聯盟,經過一年多的發展,聯盟成員就已達630多家,成為中國互聯網一支重要的力量。由于發展迅速,慧聰集團借上市之機,將慧聰搜索更名為中國搜索,全力發展其在搜索引擎方面的業務,以打造中文搜索領域的全新品牌。

2、主要分類目錄

  • 雅虎中國分類目錄(http://cn.yahoo.com/)。雅虎中國的分類目錄是最早的分類目錄,現有14個主類目,包括“商業與經濟”、“藝術與人文”等,可以逐層進入進行檢索,也可以利用關鍵詞對“分類網站”進行搜索(http://m6.search.cnb.yahoo.com/dirsrch/)。此外,雅虎中國也可以對“所有網站”進行關鍵詞搜索(http://cn.search.yahoo.com/websrch/),早期,他的搜索結果使用Google的數據,2004年2月正式推出自己的全文搜索引擎,并結束了與Google的合作。

  • 新浪分類目錄(http://dir.sina.com.cn/)。新浪的分類目錄目前共有18個大類目,用戶可按目錄逐級向下瀏覽,直到找到所需網站。就好像用戶到圖書館找書一樣,按照類別大小,層層查找,最終找到需要的網站或內容。通過和其它全文搜索引擎的合作,現在,也可以使用關鍵詞對新浪的“分類網站”或“全部網站”進行搜索。

  • 搜狐分類目錄(http://dir.sohu.com/)。搜狐分類目錄把網站作為收錄對象,具體的方法就是將每個網站首頁的URL地址提供給搜索用戶,并且將網站的題名和整個網站的內容簡單描述一下,但是并不揭示網站中每個網頁的信息內容。除此之外,也可以使用關鍵詞對搜狐的“分類目錄”或所有網站進行搜索。

  • 網易分類目錄(http://search.163.com/)。網易的分類目錄采用“開放式目錄”管理方式,在功能齊全的分布式編輯和管理系統的支持下,現有5000多位各界專業人士參與可瀏覽分類目錄的編輯工作,極大地適應了互聯網信息爆炸式增長的趨勢。在加強與其它搜索引擎合作的基礎上,新版搜索引擎支持使用關鍵詞對所有網站進行檢索。


百度搜索引擎工作方式


我所知道的百度搜索:由于工作的關系,小生有幸一直在使用百度的百事通企業搜索引擎(該部門現已被裁員,主要是百度的戰略開始向谷歌靠攏,不再單獨銷售搜索引擎,轉向搜索服務),據百度的銷售人員稱,百事通的搜索核心和大搜索的相同,只有可能版本稍低,因此我有理由相信搜索的工作方式大同小異。下面是一些簡單介紹和注意點:

1、關于網站搜索的更新頻率

百度搜索可以設定網站的更新頻率和時間,一般對于大網站更新頻度很快,而且會專門開設獨立的爬蟲進行跟蹤,不過百度是比較勤奮的,中小網站一般也會每天更新。因此,如果你希望自己的網站更新得更快,最好是在大型的分類目錄(例如yahoosina網易)中有你的鏈接,或者在百度自己的相關網站中,有你網站的超鏈接,在或者你的網站就在一些大型網站里面,例如大型網站的blog。

2、關于采集的深度

百度搜索可以定義采集的深度,就是說不見得百度會檢索你網站的全部內容,有可能只索引你的網站的首頁的內容,尤其對小型網站來說。

3、關于對時常不通網站的采集

百度對于網站的通斷是有專門的判斷的,如果一旦發現某個網站不通,尤其是一些中小網站,百度的自動停止往這些網站派出爬蟲,所以選擇好的服務器,保持網站24小時暢通非常重要。

4、關于更換IP的網站

百度搜索能夠基于域名或者ip地址,如果是域名,會自動解析為對應的ip地址,因此就會出現2個問題,第一就是如果你的網站和別人使用相同的IP地址,如果別人的網站被百度懲罰了,你的網站會受到牽連,第二就是如果你更換了ip地址,百度會發現你的域名和先前的ip地址沒有對應,也會拒絕往你的網站派出爬蟲。因此建議,不要隨意更換ip地址,如果有可能盡量獨享ip,保持網站的穩定很重要。

5、關于靜態和動態網站的采集

很多人擔心是不是類似asp?id=之類的頁面很難被收集,html這樣的頁面容易被收集,事實上情況并沒有想的這么糟,現在的搜索引擎大部分都支持動態網站的采集和檢索,包括需要登陸的網站都可以檢索到,因此大可不必擔心自己的動態網站搜索引擎無法識別,百度搜索中對于動態的支持可以自定義。但是,如果有可能,還是盡量生成靜態頁面。同時,對于大部分搜索引擎,依然對腳本跳轉(JS)、框架(frame)、

Flash超鏈接,動態頁面中含有非法字符的頁面無可奈何。

6、關于索引的消失

前面講過,搜索的索引需要創建,一般好的搜索,索引都是文本文件,而不是數據庫,因此索引中需要刪除一條記錄,并不是一件方便的事情。例如百度,需要使用專門的工具,人工刪除某條索引記錄。據百度員工稱,百度專門有一群人負責這件事情——接到投訴,刪除記錄,手工。當然還能直接刪除某個規則下的所有索引,也就是可以刪除某個網站下的所有索引。還有一個機制(未經驗證),就是對于過期的網頁和作弊的網頁(主要是網頁標題、關鍵詞和內容不匹配),在重建索引的過程中也會被刪除。

7、關于去重

百度搜索的去重不如谷歌的理想,主要還是判別文章的標題和來源地址,只要不相同,就不會自動去重,因此不必擔心采集的內容雷同而很快被搜索懲罰,谷歌的有所不同,標題相同的被同時收錄的不多。

補充一句,不要把搜索引擎想得這么智能,基本上都是按照一定的規則和公式,想不被搜索引擎懲罰,避開這些規則即可。


谷歌搜索排名技術


對于搜索來說,谷歌強于百度,主要的原因就是谷歌更加公正,而百度有很多人為的因素,google之所以公正,源于他的排名技術PageRank。

很多人知道PageRank,是網站的質量等級,越小表示網站越優秀。其實PageRank是依靠一個專門的公式計算出來的,當我們在google搜索關鍵詞的時候,頁面等級小的網頁排序會越靠前,這個公式并沒有人工干預,因此公正。

PageRank的最初想法來自于論文檔案的管理,我們知道每篇論文結尾都有參考文獻,假如某篇文章被不同論文引用了多次,就可以認為這篇文章是篇優秀的文章。

同理,簡單的說,PageRank能夠對網頁的重要性做出客觀的評價。PageRank 并不計算直接鏈接的數量,而是將從網頁 A 指向網頁 B 的鏈接解釋為由網頁 A對網頁 B 所投的一票。這樣,PageRank 會根據網頁 B 所收到的投票數量來評估該頁的重要性。此外,PageRank還會評估每個投票網頁的重要性,因為某些網頁的投票被認為具有較高的價值,這樣,它所鏈接的網頁就能獲得較高的價值。

Page Rank的公式這里省略,說說影響Page Rank的主要因素

1、指向你的網站的超鏈接數量(你的網站被別人引用),這個數值越大,表示你的網站越重要,通俗的說,就是其它網站是否友情鏈接,或者推薦鏈接到你的網站;

2、超鏈接你的網站的重要程度,意思就是一個質量好的網站有你的網站的超鏈接,說明你的網站也很優秀。

3、網頁特定性因素:包括網頁的內容、標題及URL等,也就是網頁的關鍵詞及位置。


搜索引擎的發展趨勢


一個好的搜索引擎,不僅數據庫容量要大,更新頻率、檢索速度要快,支持對多語言的搜索,而且隨著數據庫容量的不斷膨脹,還要能從龐大的資料庫中精確地找到正確的資料。

1、提高搜索引擎對用戶檢索提問的理解。

為了提高搜索引擎對用戶檢索提問的理解,就必須有一個好的檢索提問語言。為了克服關鍵詞檢索和目錄查詢的缺點,現在已經出現了自然語言智能答詢。用戶可以輸入簡單的疑問句,比如“如何能殺死計算機中的病毒”,搜索引擎在對提問進行結構和內容的分析之后,或直接給出提問的答案,或引導用戶從幾個可選擇的問題中進行再選擇。自然語言的優勢在于,一是使網絡交流更加人性化,二是使查詢變得更加方便、直接、有效。就以上面的例子來講,如果用關鍵詞查詢,多半人會用“病毒”這個詞來檢索,結果中必然會包括各類病毒的介紹,病毒是怎樣產生的等等許多無用信息,而用“如何能殺死計算機中的病毒”檢索,搜索引擎會將怎樣殺死病毒的信息提供給用戶,提高了檢索效率。

2、垂直主題搜索引擎有著極大的發展空間。

網上的信息浩如煙海,網絡資源以驚人的速度增長,一個搜索引擎很難收集全所有主題的網絡信息,即使信息主題收集得比較全面,由于主題范圍太寬,很難將各主題都做得精確而又專業,使得檢索結果垃圾太多。這樣以來,垂直主題的搜索引擎以其高度的目標化和專業化在各類搜索引擎中占據了一席之地。目前,一些主要的搜索引擎,都提供了新聞、Mp3、圖片、Flash等的搜索,加強了檢索的針對性。

3、元搜索引擎,能夠提供全面且較為準確的查詢結果。

現在的許多搜索引擎,其收集信息的范圍、索引方法、排名規則等都各不相同,每個搜索引擎平均只能涉及到整個Web資源的30-50%,這樣導致同一個搜索請求在不同搜索引擎中獲得的查詢結果的重復率不足34%,而每一個搜索引擎的查準率不到45%。元搜索引擎(META Search Engine)是將用戶提交的檢索請求發送到多個獨立的搜索引擎上去搜索,并將檢索結果集中統一處理,以統一的格式提供給用戶,因此有搜索引擎之上的搜索引擎之稱。它的主要精力放在提高搜索速度、智能化處理搜索結果、個性化搜索功能的設置和用戶檢索界面的友好性上,查全率和查準率都比較高。


新網站如何應對搜索


1、搜索引擎為什么不收錄你的網站,存在以下可能(不絕對,根據各自情況不同)

  • 沒有任何指向鏈接的孤島網頁,沒有被收錄的網站指向你的超鏈接,搜索引擎就無法發現你;

  • 網站中的網頁性質及文件類型(如flash、JS跳轉、某些動態網頁、frame等)搜索引擎無法識別;

  • 你的網站所在服務器曾被搜索引擎懲罰,而不收錄相同IP的內容;

  • 近期更換過服務器的IP地址,搜索引擎需要一定時間重新采集;

  • 服務器不穩定、頻繁宕機,或者經不起爬蟲采集的壓力;

  • 網頁代碼劣質,搜索無法正確分析頁面內容,請至少學習一下HTML的基本語法,建議使用XHTML;

  • 網站用robots(robots.txt)協議拒絕搜索引擎抓取的網頁;

  • 使用關鍵詞作弊的網頁,網頁的關鍵詞和內容嚴重不匹配,或者某些關鍵詞密度太大;

  • 非法內容的網頁;

  • 相同網站內存在大量相同標題的網頁,或者網頁的標題沒有實際含義;


2、新站如何做才正確(僅供參考)

  • 和優秀的網站交換鏈接;

  • 廣泛登錄各種大網站的網站目錄列表;

  • 多去質量好的論壇發言,發言要有質量,最好不要回復,發言中留下自己網站地址;

  • 申請大網站的博客(新浪、網易、CSDN),并在博客中推廣自己的網站;

  • 使用好的建站程序,最好能生成靜態頁面和自動生成關鍵詞;

  • 重視每個網頁的標題,以及<head>區域,盡量把符合的關鍵詞放在這些容易被搜索索引的位置,重視文章的開頭部分,盡可能在文章的開始部分使用類似摘要的功能(可以學學網易的文章樣式)。

例如“基于開源jabber(XMPP)架設內部即時通訊服務的解決方案”;

標題部分:<title>基于開源jabber(XMPP)架設內部即時通訊服務的解決方案- 肥龍龍(expendable)的專欄 -CSDNBlog</title>

關鍵詞部分:<meta name="keywords"cCOLOR:#c00000">安裝,">

文章描述部分:<metaname="description" cCOLOR:#c00000">是著名的即時通訊服務服務器,它是一個自由開源軟件,能讓用戶自己架即時通訊服務器,可以在Internet上應用,也可以在局域網中應用。

XMPP(可擴展消息處理現場協議)是基于可擴展標記語言(XML)的協議,它用于即時消息(IM)以及在線現場探測。它在促進服務器之間的準即時操作。這個協議可能最終允許因特網用戶向因特網上的其他任何人發送即時消息,即使其操作系統和瀏覽器不同。XMPP的技術來自于Jabber,其實它是Jabber的核心協定,所以XMPP有時被誤稱為Jabber協議。Jabber是一個基于XMPP協議的IM應用,除Jabber之外,XMPP還支持很多應用。


上一頁 1 2 下一頁
廣告投放問題
網站建設問題
小程序設計問題

以信載商,良心建站。遨游始終秉承“一次建站、終身維護”的宗旨,竭誠為客戶提供最優質的互聯網服務。遨游建站率先植入seo優化理念,讓你的網頁更利于搜索引擎抓取,關鍵詞排名更靠前。可仿站、可定制。無論是傳統型企業官網、集團型品牌官網,還是營銷型網站、電商型網站、定制型網站、特殊行業網站(醫療、教育),全部搞定。

公司:網站建設_小程序設計_競價托管代運營公司;郵箱:1013601535@qq.com

手機:17073547034;QQ: 1013601535

在線留言咨詢,24小時內回復
我想咨詢
*
企業名稱
手機號碼
*
您的姓名
所在城市
提交
最新發布
我們是中小企業可信賴的合作伙伴!始終專注一件事,一站式互聯網信息技術服務商
19240102767
全國統一服務熱線
遨游建站是全國高端網站建設公司,提供廣州企業網站建設/小程序開發/購物網站設計制作與競價托管代運營服務;秉承“一次建站,終身維護”的宗旨,有償提供互聯網技術支持。
本站部分圖片、音頻、視頻來源于網絡,版權歸原作者,如有侵權請聯系我們刪除。
主站蜘蛛池模板: 精品综合久久久久久蜜月 | 亚洲精品第一国产综合精品| 一本色道久久综合一区| 色婷婷综合缴情综免费观看| 亚洲综合色视频在线观看| 亚洲国产综合专区在线电影| 久久婷婷成人综合色综合| 久久综合日本熟妇| 国产香蕉尹人综合在线观看| 国产成人无码综合亚洲日韩| 色综合久久一本首久久| 一本大道久久a久久精品综合| 精品无码综合一区二区三区| 奇米综合四色77777久久| 日韩亚洲国产综合久久久| 色欲久久久天天天综合网精品| 国产综合精品一区二区| 亚洲综合中文字幕无线码| 久久婷婷五月综合色高清| 亚洲综合最新无码专区| 成人综合久久综合| 亚洲综合精品伊人久久| 亚洲综合无码一区二区| 狠色狠色狠狠色综合久久| 激情综合色五月丁香六月亚洲| av一本久道久久综合久久鬼色| 亚洲av日韩综合一区二区三区| 国产91色综合久久免费| 亚洲国产综合自在线另类| 国产成人综合亚洲AV第一页| 久久综合久久鬼色| 一本色道久久综合狠狠躁| 亚洲国产天堂久久综合网站| 久久久久综合一本久道| 亚洲国产综合人成综合网站00| 色欲综合久久躁天天躁蜜桃| 久久乐国产综合亚洲精品| 色综合久久久无码中文字幕 | 色综合AV综合无码综合网站| 亚洲狠狠综合久久| 99久久婷婷国产综合亚洲|