網站建設:robots協議

 二維碼 359
發表時間:2016-08-10 15:33作者:敖游來源:遨游建站網址:http://m.oudifangfumu.com

其它屬性

1. Robot-version: 用來指定robot協議的版本號

例子: Robot-version: Version 2.0

2.Crawl-delay:雅虎YST一個特定的擴展名,可以通過它對我們的抓取程序設定一個較低的抓取請求頻率。您可以加入Crawl-delay:xx指示,其中,“XX”是指在crawler程序兩次進入站點時,以秒為單位的最低延時。

3. Visit-time:只有在visit-time指定的時間段里,robot才可以訪問指定的URL,否則不可訪問.

例子: Visit-time: 0100-1300 #允許在凌晨1:00到13:00訪問

4. Request-rate: 用來限制URL的讀取頻率

例子: Request-rate: 40/1m 0100 - 0759 在1:00到07:59之間,以每分鐘40次的頻率進行訪問

Request-rate: 12/1m 0800 - 1300 在8:00到13:00之間,以每分鐘12次的頻率進行訪問

標簽

Robots.txt文件主要是限制整個站點或者目錄的搜索引擎訪問情況,而Robots Meta標簽則主要是針對一個個具體的頁面。和其他的META標簽(如使用的語言、頁面的描述、關鍵詞等)一樣,Robots Meta標簽也是放在頁面中,專門用來告訴搜索引擎ROBOTS如何抓取該頁的內容。

Robots Meta標簽中沒有大小寫之分,name=”Robots”表示所有的搜索引擎,可以針對某個具體搜索引擎寫為name=”BaiduSpider”。content部分有四個指令選項:index、noindex、follow、nofollow,指令間以“,”分隔。

index指令告訴搜索機器人抓取該頁面;

follow指令表示搜索機器人可以沿著該頁面上的鏈接繼續抓取下去;

Robots Meta標簽的缺省值是index和follow,只有inktomi除外,對于它,缺省值是index、nofollow。

注意事項

上述的robots.txt和Robots Meta標簽限制搜索引擎機器人(ROBOTS)抓取站點內容的辦法只是一種規則,需要搜索引擎機器人的配合才行,并不是每個ROBOTS都遵守的。目前看來,絕大多數的搜索引擎機器人都遵守robots.txt的規則,而對于Robots META標簽,支持的并不多,但是正在逐漸增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE還增加了一個指令“archive”,可以限制GOOGLE是否保留網頁快照。


robots.txt文件應該放置在網站根目錄下。舉例來說,當spider訪問一個網站時,首先會檢查該網站中是否存在robots.txt這個文件,如果 Spider找到這個文件,它就會根據這個文件的內容,來確定它訪問權限的范圍。

wordpress的robots位置

沒有在wordpress網站根節目上傳過robots.txt,當搜尋引擎和用戶拜訪某個文件時,wordpress程序會主動生成一個robots.txt給搜尋引擎和用戶;若是我們上傳編寫的robots.txt到網站根節目,用戶和搜尋引擎蛛蛛拜訪的就是我們上傳的文件,wordpress就不會再產生那個文件了。只有服務器找不到robots的時候wordpress才會生成這個文件。


產生背景

robots.txt并不是某一個公司制定的,而是早在20世紀93、94年就早已出現,當時還沒有Google。真實Robots協議的起源,是在互聯網從業人員的公開郵件組里面討論并且誕生的。即便是今天,互聯網領域的相關問題也仍然是在一些專門的郵件組中討論,并產生(主要是在美國)。

1994年6月30日,在經過搜索引擎人員以及被搜索引擎抓取的網站站長共同討論后,正式發布了一份行業規范,即robots.txt協議。在此之前,相關人員一直在起草這份文檔,并在世界互聯網技術郵件組發布后,這一協議被幾乎所有的搜索引擎采用,包括最早的altavista,infoseek,后來的google,bing,以及中國的百度,搜搜,搜狗等公司也相繼采用并嚴格遵循。

Robot,又稱Spider,是搜索引擎自動獲取網頁信息的電腦程序的通稱。Robots協議的核心思想就是要求Robot程序不要去檢索那些站長們不希望被直接搜索到的內容。將約束Robot程序的具體方法規范成格式代碼,就成了Robots協議。一般來說,網站是通過Robots.txt文件來實現Robots協議。

自有搜索引擎之日起,Robots協議已是一種目前為止最有效的方式,用自律維持著網站與搜索引擎之間的平衡,讓兩者之間的利益不致過度傾斜。它就像一個鐘擺,讓互聯網上的搜索與被搜索和諧相處。


協議影響

Robots協議是網站出于安全和隱私考慮,防止搜索引擎抓取敏感信息而設置的。搜索引擎的原理是通過一種爬蟲spider程序,自動搜集互聯網上的網頁并獲取相關信息。而鑒于網絡安全與隱私的考慮,每個網站都會設置自己的Robots協議,來明示搜索引擎,哪些內容是愿意和允許被搜索引擎收錄的,哪些則不允許。搜索引擎則會按照Robots協議給予的權限進行抓取。

Robots協議代表了一種契約精神,互聯網企業只有遵守這一規則,才能保證網站及用戶的隱私數據不被侵犯。違背Robots協議將帶來巨大安全隱憂——此前,曾經發生過這樣一個真實的案例:國內某公司員工郭某給別人發了封求職的電子郵件,該Email存儲在某郵件服務公司的服務器上。因為該網站沒有設置robots協議,導致該Email被搜索引擎抓取并被網民搜索到,為郭某的工作生活帶來極大困擾。

如今,在中國國內互聯網行業,正規的大型企業也都將Robots協議當做一項行業標準,國內使用Robots協議最典型的案例,就是淘寶網拒絕百度搜索、京東拒絕一淘搜索。不過,絕大多數中小網站都需要依靠搜索引擎來增加流量,因此通常并不排斥搜索引擎,也很少使用Robots協議。

北京市漢卓律師事務所首席律師趙虎表示,Robots協議是維護互聯網世界隱私安全的重要規則。如果這種規則被破壞,對整個行業就是滅頂之災。


搜索引擎

百度對robots.txt是有反應的,但比較慢,在減少禁止目錄抓取的同時也減少了正常目錄的抓取。

原因應該是入口減少了,正常目錄收錄需要后面再慢慢增加。

Google對robots.txt反應很到位,禁止目錄馬上消失了,部分正常目錄收錄馬上上升了。/comment/目錄收錄也下降了,還是受到了一些老目標減少的影響。

搜狗抓取呈現普遍增加的均勢,部分禁止目錄收錄下降了。

總結一下:Google似乎最懂站長的意思,百度等其它搜索引擎只是被動的受入口數量影響了。

淘寶封殺

2008年9月8日,淘寶網宣布封殺百度爬蟲,百度忍痛遵守爬蟲協議。因為一旦破壞協議,用戶的隱私和利益就無法得到保障,搜索網站就談不到人性關懷。

京東封殺

2011年10月25日,京東商城正式將一淘網的搜索爬蟲屏蔽,以防止一淘網對其的內容抓取。


上一頁 1 2 下一頁
廣告投放問題
網站建設問題
小程序設計問題

以信載商,良心建站。遨游始終秉承“一次建站、終身維護”的宗旨,竭誠為客戶提供最優質的互聯網服務。遨游建站率先植入seo優化理念,讓你的網頁更利于搜索引擎抓取,關鍵詞排名更靠前。可仿站、可定制。無論是傳統型企業官網、集團型品牌官網,還是營銷型網站、電商型網站、定制型網站、特殊行業網站(醫療、教育),全部搞定。

公司:網站建設_小程序設計_競價托管代運營公司;郵箱:1013601535@qq.com

手機:17073547034;QQ: 1013601535

在線留言咨詢,24小時內回復
我想咨詢
*
企業名稱
手機號碼
*
您的姓名
所在城市
提交
最新發布
我們是中小企業可信賴的合作伙伴!始終專注一件事,一站式互聯網信息技術服務商
19240102767
全國統一服務熱線
遨游建站是全國高端網站建設公司,提供廣州企業網站建設/小程序開發/購物網站設計制作與競價托管代運營服務;秉承“一次建站,終身維護”的宗旨,有償提供互聯網技術支持。
本站部分圖片、音頻、視頻來源于網絡,版權歸原作者,如有侵權請聯系我們刪除。
主站蜘蛛池模板: 色婷婷狠狠久久综合五月| 五月综合色婷婷影院在线观看| 亚洲av综合色区| 天天爽天天狠久久久综合麻豆| 国产性天天综合网| 色天天综合久久久久综合片| 热久久综合这里只有精品电影| 久久九色综合九色99伊人| 伊人久久综合成人网| 一本色道久久综合| 久久综合给合综合久久| 国产成人综合久久精品红| 一本一道久久a久久精品综合| 97久久国产综合精品女不卡 | HEYZO无码综合国产精品227| 狠狠色综合色综合网络| 色成年激情久久综合| 狠狠88综合久久久久综合网| 亚洲综合精品成人| 激情综合婷婷色五月蜜桃| 久久综合狠狠色综合伊人| 九九综合九九综合| 色婷婷99综合久久久精品 | 亚洲欧美日韩综合俺去了| 伊人色综合一区二区三区| 人人婷婷色综合五月第四人色阁| 噜噜综合亚洲AV中文无码| 亚洲国产精品综合福利专区 | 久久综合精品视频| 狠狠综合久久综合88亚洲| 狠狠综合视频精品播放| 亚洲色偷偷综合亚洲av78| 综合自拍亚洲综合图不卡区| 婷婷四房综合激情五月在线| 婷婷色香五月综合激激情| 色777狠狠狠综合| 久久狠狠爱亚洲综合影院| 亚洲AV综合永久无码精品天堂| 欧洲 亚洲 国产图片综合| 亚洲狠狠成人综合网| 小说区综合区首页|