解讀搜索引擎原理 二維碼
614
四、集成搜索引擎 集成搜索引擎(All-in-One Search Page)亦稱為“多引擎同步檢索系統 ”,是在一個WWW頁面上鏈接若干種獨立的搜索引擎,檢索時需點選或指定搜索引擎,一次檢索輸入,多引擎同時搜索,用起來相當方便。 集成搜索引擎無自建數據庫,不需研發支持技術,當然也不能控制和優化檢索結果。但集成搜索引擎制作與維護技術簡單,可隨時對所鏈接的搜索引擎進行增刪調整和及時更新,尤其大規模專業(如FLASH、MP3等)搜索引擎集成鏈接,深受特定用戶群歡迎。 集成搜索引擎是通過網絡技術,在一個網頁上鏈接很多個獨立搜索引擎,查詢時,點選或指定搜索引擎,一次輸入,多個搜索引擎同時查詢,搜索結果由各搜索引擎分別以不同頁面顯示。 任何搜索引擎的設計,均有其特定的數據庫索引范圍、獨特的功能和使用方法,以及預期的用戶群指向。一種搜索引擎不可能滿足所有人或一個人所有的檢索需求。在某些情況下,如文獻普查、專題查詢、新聞調查與溯源、軟件及MP3下載地址搜索等等,人們往往需要使用多種搜索引擎,對搜索結果進行比較、篩選和相互印證。為解決逐一登陸各搜索引擎,并在各搜索引擎中分別多次輸入同一檢索請求(檢索字串)等煩瑣操作,集成搜索引擎和元搜索引擎應運而生。 集成搜索引擎起源 因特網上沖浪,你也許有這種痛苦經歷:利用搜索引擎進行網頁搜索時,在第一個搜索引擎中沒有找到滿意的結果,于是在第二、第三……個搜索引擎間奔波,為找到滿意的結果而費時費力。其實,在因特網上已有不少聰明人開發出了一種Metasearch技術,即集成搜索,也叫索引搜索,來幫助上網者快速、全面、準確地搜索到自己確實需要的網頁。這種技術的特點是:這些網站上集成了許多搜索引擎,你輸入一個查詢要求,它會將其適當格式化后提交給許多搜索引擎進行搜索,然后將返回的搜索結果進行整理、合并、集成為一個頁面,或一份報告,內容就是你要的搜索結果。 集成搜索引擎優點 集成搜索引擎的優點是明顯的:首先,它在一個網站上同時搜索許多搜索引擎,最終返回的結果被進行了適當的整合,刪除了一些不適合和重復的網頁,從而大大地節省你的時間、金錢和精力,使搜索變得更有效率;其次,它使你的搜索結果更為全面、準確,也更容易找到符合你需要的結果。 搜索引擎的發展趨勢 一個好的搜索引擎,不僅數據庫容量要大,更新頻率、檢索速度要快,支持對多語言的搜索,而且隨著數據庫容量的不斷膨脹,還要能從龐大的資料庫中精確地找到正確的資料。 1、提高搜索引擎對用戶檢索提問的理解。 為了提高搜索引擎對用戶檢索提問的理解,就必須有一個好的檢索提問語言。為了克服關鍵詞檢索和目錄查詢的缺點,現在已經出現了自然語言智能答詢。用戶可以輸入簡單的疑問句,比如“如何能殺死計算機中的病毒”,搜索引擎在對提問進行結構和內容的分析之后,或直接給出提問的答案,或引導用戶從幾個可選擇的問題中進行再選擇。自然語言的優勢在于,一是使網絡交流更加人性化,二是使查詢變得更加方便、直接、有效。就以上面的例子來講,如果用關鍵詞查詢,多半人會用“病毒”這個詞來檢索,結果中必然會包括各類病毒的介紹,病毒是怎樣產生的等等許多無用信息,而用“如何能殺死計算機中的病毒”檢索,搜索引擎會將怎樣殺死病毒的信息提供給用戶,提高了檢索效率。 2、垂直主題搜索引擎有著極大的發展空間。 網上的信息浩如煙海,網絡資源以驚人的速度增長,一個搜索引擎很難收集全所有主題的網絡信息,即使信息主題收集得比較全面,由于主題范圍太寬,很難將各主題都做得精確而又專業,使得檢索結果垃圾太多。這樣以來,垂直主題的搜索引擎以其高度的目標化和專業化在各類搜索引擎中占據了一席之地。目前,一些主要的搜索引擎,都提供了新聞、Mp3、圖片、Flash等的搜索,加強了檢索的針對性。 3、元搜索引擎,能夠提供全面且較為準確的查詢結果。 現在的許多搜索引擎,其收集信息的范圍、索引方法、排名規則等都各不相同,每個搜索引擎平均只能涉及到整個Web資源的30-50%,這樣導致同一個搜索請求在不同搜索引擎中獲得的查詢結果的重復率不足34%,而每一個搜索引擎的查準率不到45%。元搜索引擎(META Search Engine)是將用戶提交的檢索請求發送到多個獨立的搜索引擎上去搜索,并將檢索結果集中統一處理,以統一的格式提供給用戶,因此有搜索引擎之上的搜索引擎之稱。它的主要精力放在提高搜索速度、智能化處理搜索結果、個性化搜索功能的設置和用戶檢索界面的友好性上,查全率和查準率都比較高。 主要的搜索引擎介紹 這里介紹的是在國內外影響比較大的主要的一些搜索引擎和分類目錄站點,由于現在的站點一般都同時提供全文搜索和分類目錄兩種服務,所以我們按照其自有的技術進行分類和介紹。 1、主要的全文搜索引擎
2、主要分類目錄
百度搜索引擎工作方式 我所知道的百度搜索:由于工作的關系,小生有幸一直在使用百度的百事通企業搜索引擎(該部門現已被裁員,主要是百度的戰略開始向谷歌靠攏,不再單獨銷售搜索引擎,轉向搜索服務),據百度的銷售人員稱,百事通的搜索核心和大搜索的相同,只有可能版本稍低,因此我有理由相信搜索的工作方式大同小異。下面是一些簡單介紹和注意點: 1、關于網站搜索的更新頻率 百度搜索可以設定網站的更新頻率和時間,一般對于大網站更新頻度很快,而且會專門開設獨立的爬蟲進行跟蹤,不過百度是比較勤奮的,中小網站一般也會每天更新。因此,如果你希望自己的網站更新得更快,最好是在大型的分類目錄(例如yahoosina網易)中有你的鏈接,或者在百度自己的相關網站中,有你網站的超鏈接,在或者你的網站就在一些大型網站里面,例如大型網站的blog。 2、關于采集的深度 百度搜索可以定義采集的深度,就是說不見得百度會檢索你網站的全部內容,有可能只索引你的網站的首頁的內容,尤其對小型網站來說。 3、關于對時常不通網站的采集 百度對于網站的通斷是有專門的判斷的,如果一旦發現某個網站不通,尤其是一些中小網站,百度的自動停止往這些網站派出爬蟲,所以選擇好的服務器,保持網站24小時暢通非常重要。 4、關于更換IP的網站 百度搜索能夠基于域名或者ip地址,如果是域名,會自動解析為對應的ip地址,因此就會出現2個問題,第一就是如果你的網站和別人使用相同的IP地址,如果別人的網站被百度懲罰了,你的網站會受到牽連,第二就是如果你更換了ip地址,百度會發現你的域名和先前的ip地址沒有對應,也會拒絕往你的網站派出爬蟲。因此建議,不要隨意更換ip地址,如果有可能盡量獨享ip,保持網站的穩定很重要。 5、關于靜態和動態網站的采集 很多人擔心是不是類似asp?id=之類的頁面很難被收集,html這樣的頁面容易被收集,事實上情況并沒有想的這么糟,現在的搜索引擎大部分都支持動態網站的采集和檢索,包括需要登陸的網站都可以檢索到,因此大可不必擔心自己的動態網站搜索引擎無法識別,百度搜索中對于動態的支持可以自定義。但是,如果有可能,還是盡量生成靜態頁面。同時,對于大部分搜索引擎,依然對腳本跳轉(JS)、框架(frame)、 Flash超鏈接,動態頁面中含有非法字符的頁面無可奈何。 6、關于索引的消失 前面講過,搜索的索引需要創建,一般好的搜索,索引都是文本文件,而不是數據庫,因此索引中需要刪除一條記錄,并不是一件方便的事情。例如百度,需要使用專門的工具,人工刪除某條索引記錄。據百度員工稱,百度專門有一群人負責這件事情——接到投訴,刪除記錄,手工。當然還能直接刪除某個規則下的所有索引,也就是可以刪除某個網站下的所有索引。還有一個機制(未經驗證),就是對于過期的網頁和作弊的網頁(主要是網頁標題、關鍵詞和內容不匹配),在重建索引的過程中也會被刪除。 7、關于去重 百度搜索的去重不如谷歌的理想,主要還是判別文章的標題和來源地址,只要不相同,就不會自動去重,因此不必擔心采集的內容雷同而很快被搜索懲罰,谷歌的有所不同,標題相同的被同時收錄的不多。 補充一句,不要把搜索引擎想得這么智能,基本上都是按照一定的規則和公式,想不被搜索引擎懲罰,避開這些規則即可。 谷歌搜索排名技術 對于搜索來說,谷歌強于百度,主要的原因就是谷歌更加公正,而百度有很多人為的因素,google之所以公正,源于他的排名技術PageRank。 很多人知道PageRank,是網站的質量等級,越小表示網站越優秀。其實PageRank是依靠一個專門的公式計算出來的,當我們在google搜索關鍵詞的時候,頁面等級小的網頁排序會越靠前,這個公式并沒有人工干預,因此公正。 PageRank的最初想法來自于論文檔案的管理,我們知道每篇論文結尾都有參考文獻,假如某篇文章被不同論文引用了多次,就可以認為這篇文章是篇優秀的文章。 同理,簡單的說,PageRank能夠對網頁的重要性做出客觀的評價。PageRank 并不計算直接鏈接的數量,而是將從網頁 A 指向網頁 B 的鏈接解釋為由網頁 A對網頁 B 所投的一票。這樣,PageRank 會根據網頁 B 所收到的投票數量來評估該頁的重要性。此外,PageRank還會評估每個投票網頁的重要性,因為某些網頁的投票被認為具有較高的價值,這樣,它所鏈接的網頁就能獲得較高的價值。 Page Rank的公式這里省略,說說影響Page Rank的主要因素 1、指向你的網站的超鏈接數量(你的網站被別人引用),這個數值越大,表示你的網站越重要,通俗的說,就是其它網站是否友情鏈接,或者推薦鏈接到你的網站; 2、超鏈接你的網站的重要程度,意思就是一個質量好的網站有你的網站的超鏈接,說明你的網站也很優秀。 3、網頁特定性因素:包括網頁的內容、標題及URL等,也就是網頁的關鍵詞及位置。 搜索引擎的發展趨勢 一個好的搜索引擎,不僅數據庫容量要大,更新頻率、檢索速度要快,支持對多語言的搜索,而且隨著數據庫容量的不斷膨脹,還要能從龐大的資料庫中精確地找到正確的資料。 1、提高搜索引擎對用戶檢索提問的理解。 為了提高搜索引擎對用戶檢索提問的理解,就必須有一個好的檢索提問語言。為了克服關鍵詞檢索和目錄查詢的缺點,現在已經出現了自然語言智能答詢。用戶可以輸入簡單的疑問句,比如“如何能殺死計算機中的病毒”,搜索引擎在對提問進行結構和內容的分析之后,或直接給出提問的答案,或引導用戶從幾個可選擇的問題中進行再選擇。自然語言的優勢在于,一是使網絡交流更加人性化,二是使查詢變得更加方便、直接、有效。就以上面的例子來講,如果用關鍵詞查詢,多半人會用“病毒”這個詞來檢索,結果中必然會包括各類病毒的介紹,病毒是怎樣產生的等等許多無用信息,而用“如何能殺死計算機中的病毒”檢索,搜索引擎會將怎樣殺死病毒的信息提供給用戶,提高了檢索效率。 2、垂直主題搜索引擎有著極大的發展空間。 網上的信息浩如煙海,網絡資源以驚人的速度增長,一個搜索引擎很難收集全所有主題的網絡信息,即使信息主題收集得比較全面,由于主題范圍太寬,很難將各主題都做得精確而又專業,使得檢索結果垃圾太多。這樣以來,垂直主題的搜索引擎以其高度的目標化和專業化在各類搜索引擎中占據了一席之地。目前,一些主要的搜索引擎,都提供了新聞、Mp3、圖片、Flash等的搜索,加強了檢索的針對性。 3、元搜索引擎,能夠提供全面且較為準確的查詢結果。 現在的許多搜索引擎,其收集信息的范圍、索引方法、排名規則等都各不相同,每個搜索引擎平均只能涉及到整個Web資源的30-50%,這樣導致同一個搜索請求在不同搜索引擎中獲得的查詢結果的重復率不足34%,而每一個搜索引擎的查準率不到45%。元搜索引擎(META Search Engine)是將用戶提交的檢索請求發送到多個獨立的搜索引擎上去搜索,并將檢索結果集中統一處理,以統一的格式提供給用戶,因此有搜索引擎之上的搜索引擎之稱。它的主要精力放在提高搜索速度、智能化處理搜索結果、個性化搜索功能的設置和用戶檢索界面的友好性上,查全率和查準率都比較高。 新網站如何應對搜索 1、搜索引擎為什么不收錄你的網站,存在以下可能(不絕對,根據各自情況不同)
2、新站如何做才正確(僅供參考)
例如“基于開源jabber(XMPP)架設內部即時通訊服務的解決方案”; 標題部分:<title>基于開源jabber(XMPP)架設內部即時通訊服務的解決方案- 肥龍龍(expendable)的專欄 -CSDNBlog</title> 關鍵詞部分:<meta name="keywords"cCOLOR:#c00000">安裝,"> 文章描述部分:<metaname="description" cCOLOR:#c00000">是著名的即時通訊服務服務器,它是一個自由開源軟件,能讓用戶自己架即時通訊服務器,可以在Internet上應用,也可以在局域網中應用。 XMPP(可擴展消息處理現場協議)是基于可擴展標記語言(XML)的協議,它用于即時消息(IM)以及在線現場探測。它在促進服務器之間的準即時操作。這個協議可能最終允許因特網用戶向因特網上的其他任何人發送即時消息,即使其操作系統和瀏覽器不同。XMPP的技術來自于Jabber,其實它是Jabber的核心協定,所以XMPP有時被誤稱為Jabber協議。Jabber是一個基于XMPP協議的IM應用,除Jabber之外,XMPP還支持很多應用。 以信載商,良心建站。遨游始終秉承“一次建站、終身維護”的宗旨,竭誠為客戶提供最優質的互聯網服務。遨游建站率先植入seo優化理念,讓你的網頁更利于搜索引擎抓取,關鍵詞排名更靠前。可仿站、可定制。無論是傳統型企業官網、集團型品牌官網,還是營銷型網站、電商型網站、定制型網站、特殊行業網站(醫療、教育),全部搞定。 公司:網站建設_小程序設計_競價托管代運營公司;郵箱:1013601535@qq.com 手機:17073547034;QQ: 1013601535 在線留言咨詢,24小時內回復
我想咨詢 *
企業名稱
手機號碼 *
您的姓名
所在城市 提交 |
網站建設問題
熱門標簽
|