不了解搜索引擎原理?你怎么做SEO優化

 二維碼 388
發表時間:2019-03-20 16:15作者:敖游來源:遨游建站網址:http://m.oudifangfumu.com

我們都知道,SEO(Search Engine Optimization)漢譯為搜索引擎優化,利用搜索引擎的規則提高網站在有關搜索引擎內的自然排名。目的是為了網站提供生態式的自我營銷解決方案,讓其在行業內占據領先地位,獲得品牌收益;網站優化分為站內SEO優化和站外SEO優化兩個方面;為了從搜索引擎中獲得更多的免費流量,從網站結構、內容建設方案、用戶互動傳播、頁面等角度進行合理規劃,還會使搜索引擎中顯示的網站相關信息對用戶來說更具有吸引力。


那么,搜索引擎原理是什么?這個必須要知道,因為你不知道搜索引擎原理,就沒法做SEO優化。要知道搜索引擎原理,我們先來了解一下,什么是搜索引擎蜘蛛?


搜索引擎蜘蛛(spider),可簡稱為蜘蛛,本意為搜索引擎機器人(robot),稱為蜘蛛的原因是將互聯網比喻成蜘蛛網,將機器人比喻成了在網上爬行的蜘蛛,是搜索引擎自動抓取網頁的程序。


搜索引擎蜘蛛的作用:通過這些搜索引擎蜘蛛的爬行會自動將網頁添加到搜索引擎的數據庫當中,搜索引擎蜘蛛會自動判斷網頁的質量,根據既定的程序判斷是否抓取。


搜索引擎蜘蛛的名稱:以下為目前國內知名度比較高的搜索引擎的名字,還有很多的搜索引擎蜘蛛但是由于知名度不高,我就不一一列舉了。


  • Google蜘蛛: Googlebot

  • 百度蜘蛛:baiduspider

  • 搜狗蜘蛛:Sogou web spider

  • 360蜘蛛:360Spider

  • 必應蜘蛛:bingbot

  • 雅虎中國蜘蛛:Yahoo! Slurp China

  • SOSO蜘蛛:Sosospider

  • MSN蜘蛛:Msnbot

  • 有道蜘蛛:YoudaoBot


查看搜索引擎蜘蛛的來訪記錄,需要通過網站訪問日志文件來查看,具體獲取方法請咨詢服務器提供商。

如果你想獲得搜索引擎蜘蛛的親賴,希望他天天爬行抓取網頁的話,那就需要持續保持原創文章的更新,并且定期交換友情鏈接。

如果你不希望某個搜索引擎的蜘蛛來抓取你的網頁,可以通過設置robots.txt來禁止抓取。


好啦!前奏已鋪墊完畢,該了解的我們都已經基本上介紹完了,下面一起來看看什么是搜索引擎原理?有興趣的小伙伴們可以仔細閱讀了。


搜索引擎,需要解決的技術問題總的分為:蜘蛛程序、分類建立索引、詞庫、排序算法因素、數據庫索引和優化、數據庫結構--蜘蛛。

目前看來,蜘蛛可以用C或者PHP來實現。百度的蜘蛛多半是C做的,C同樣可以支持多個數據庫的連接接口,并且C的運行效率比PHP高,C也更能控制底層。


C雖然這么好,我還是想用PHP做,時間上必須更多的節約出來,不能再去學C。如果以后需要高效率要用C,再用C做,數據庫可以不變,MYSQL可以和C連接。

PHP有優點也有缺點,做蜘蛛,問題應該不大,最大的問題 是有可能速度很慢。


1、抓取網頁


抓取網頁,有可能出現的問題是,抓取順序,抓取如果不成功或超時等問題該如何紀錄,下次又什么時候更新抓取。搜索引擎的 數據庫最開始是新的,沒有任何網址的,需要大量加入網址。

這里可以用for循環語句,按照英文字母自動循環。當然,網站建設不只有英文,還有和數字,這些只能手工輸入了。如果還是循環抓取,估計有很多都要落空。抓到的代碼需要分析編碼類型是utf-8還是gb2312.我的搜索引擎只想抓簡體中文。

如果抓取超時,則記錄,下次大概十天之后再抓取,如果連續超時三次,將T出數據庫。


2、建立索引


索引的建立是個很棘手的問題,百度和谷歌可以用自 己的服務器群建立分布式的服務器。我可沒那么多服務器。所以我想換個方法。建立靜態頁面。之前我才知道,在百度和谷歌輸入一個比較生僻的詞 ,會花費0.2秒左右的時間,一般的常見詞語只需要0.1秒。并且,第二次重復輸入一個詞所需要的查詢時間要少得多。這個多半就是索引的影響。

假如索引是放內存里,讀取速度將是非常OK的。我只有一臺服務器,就算只放常見的5萬個查詢詞語的索引進去,估計也有點累。一個頁面至少有20K, 5萬個頁面就是20K*50=1G。這還只是5萬個詞的第一個頁面。如果用戶要翻頁查詢呢,內存肯定不夠。假如只放第一頁進內存,用戶翻頁查詢,速度 將無法解決。所以我準備全靜態。把5萬個詞語的查詢模擬一次,然后生成靜態頁面。所有詞的第一頁放內存,后面的頁面放硬盤里。如果能把頁面 放內存,這個問題就已經解決了。


3、詞庫


漢字千千萬,常用的漢字也至少三千個。組成的詞語常用的估計有2萬。這個詞庫來怎么添加進去?用什 么格式存放?CSV文件還是數據庫還是文本文件?之前我想過把金山詞霸的詞庫文件找到,想辦法直接復制過來,此方法目前還沒成功。


4、排序算法


所有的影響排序的算法,應該是放一個表里,然后分固定算法,就是網站本身的因素,還有變動算法,就是用戶輸入的詞語或因為時間季節等不同而變化的因 素。固定算法就放一個表里,對每個網站算出總分。變動算法的一部分是之前已經產生,一部分是用戶輸入之后才算出。


5、數據庫索引


數據庫的索引目前還沒 有很好的解決辦法,一個表達索引肯定不能太多,多了會影響速度。六.數據庫的結構。這個很關鍵。估計要在網站前臺界面出來之前就得先把數據 庫結構定下來。還要為以后的升級留下接口,比如算法因素要增加,或者為了優化查詢語句,要變動字段等等。


好了,今天我們就分享到這里,下一篇我們講解《深入研究之搜索引擎的架構與細節》,很值得期待哦!有興趣的小伙伴們關注遨游建站移動站(m.aoyouwl.com)經常更新建站、優化等眾多網絡前沿知識。





本文撰寫參考:


搜索引擎 https://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E

網絡爬蟲 https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fromtitle=%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E%E8%9C%98%E8%9B%9B&fromid=9781549


廣告投放問題
網站建設問題
小程序設計問題

以信載商,良心建站。遨游始終秉承“一次建站、終身維護”的宗旨,竭誠為客戶提供最優質的互聯網服務。遨游建站率先植入seo優化理念,讓你的網頁更利于搜索引擎抓取,關鍵詞排名更靠前。可仿站、可定制。無論是傳統型企業官網、集團型品牌官網,還是營銷型網站、電商型網站、定制型網站、特殊行業網站(醫療、教育),全部搞定。

公司:網站建設_小程序設計_競價托管代運營公司;郵箱:1013601535@qq.com

手機:17073547034;QQ: 1013601535

在線留言咨詢,24小時內回復
我想咨詢
*
企業名稱
手機號碼
*
您的姓名
所在城市
提交
最新發布
我們是中小企業可信賴的合作伙伴!始終專注一件事,一站式互聯網信息技術服務商
19240102767
全國統一服務熱線
遨游建站是全國高端網站建設公司,提供廣州企業網站建設/小程序開發/購物網站設計制作與競價托管代運營服務;秉承“一次建站,終身維護”的宗旨,有償提供互聯網技術支持。
本站部分圖片、音頻、視頻來源于網絡,版權歸原作者,如有侵權請聯系我們刪除。
主站蜘蛛池模板: 色婷婷狠狠久久综合五月| 亚洲五月综合缴情在线观看| 尹人久久大香找蕉综合影院| 99久久综合精品五月天| 思思91精品国产综合在线| 精品综合久久久久久88小说| 91精品国产色综合久久| 亚洲综合激情六月婷婷在线观看| 精品久久综合一区二区| 狠狠色丁香婷婷久久综合不卡| 色综合久久综合网观看| 伊人久久综合影院| 狠狠综合久久久久综合网| 狠狠色噜噜狠狠狠狠狠色综合久久| 久热综合在线亚洲精品| 区三区激情福利综合中文字幕在线一区亚洲视频1 | 青青草原综合久久大伊人精品| 天天综合网网欲色| 91精品国产色综合久久不卡蜜 | 色99久久久久高潮综合影院 | 色偷偷91久久综合噜噜噜| 亚洲色欲www综合网| 亚洲五月综合缴情在线观看| 日韩无码系列综合区| 色天使久久综合给合久久97色| 久久精品亚洲综合| 国产亚洲综合一区柠檬导航| 色综合婷婷在线观看66| 色婷婷色综合激情国产日韩| 精品综合久久久久久蜜月| 综合久久久久久久综合网| 国产成人亚洲综合在线| 色综合天天综合婷婷伊人| 伊人色综合久久天天网| 九月婷婷亚洲综合在线| 熟天天做天天爱天天爽综合网| 国产精品综合久久第一页| 国产成人精品综合久久久久| 精品无码综合一区| 久久综合精品不卡一区二区| 久久综合国产乱子伦精品免费|