【baiduspider】百度蜘蛛叫Baiduspider不是baidubot

1.jpg

  今天又遇到有同學(xué)問(wèn)我關(guān)于ROBOTS該如何去寫的問(wèn)題,這里整理下給大家,其實(shí)也都是來(lái)源于網(wǎng)路上,注意百度的蜘蛛叫做Baiduspider而不是baidubot,谷歌的叫做googlebot。


  1、禁止所有搜索引擎訪問(wèn)網(wǎng)站的任何部分


  User-agent:*


  Disallow:/


  2、允許所有的robot訪問(wèn)(或者也可以建一個(gè)空文件"/robots.txt")


  User-agent:*


  Allow:/


  另一種寫法是


  User-agent:*


  Disallow:


  3、僅禁止Baiduspider訪問(wèn)您的網(wǎng)站


  User-agent:Baiduspider


  Disallow:/


  4、僅允許Baiduspider訪問(wèn)您的網(wǎng)站


  User-agent:Baiduspider


  Allow:/


  5、禁止spider訪問(wèn)特定目錄


  在這個(gè)例子中,該網(wǎng)站有三個(gè)目錄對(duì)搜索引擎的訪問(wèn)做了限制,即robot不會(huì)訪問(wèn)這三個(gè)目錄。需要注意的是對(duì)每一個(gè)目錄必須


  分開聲明,而不能寫成"Disallow:/cgi-bin//tmp/"。


  User-agent:*


  Disallow:/cgi-bin/


  Disallow:/tmp/


  Disallow:/~joe/


  6、允許訪問(wèn)特定目錄中的部分url


  User-agent:*


  Allow:/cgi-bin/see


  Allow:/tmp/hi


  Allow:/~joe/look


  7、使用"*"限制訪問(wèn)url


  禁止訪問(wèn)/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。


  User-agent:*


  Disallow:/cgi-bin/*.htm


  8、使用"$"限制訪問(wèn)url


  僅允許訪問(wèn)以".htm"為后綴的URL。


  User-agent:*


  Allow:/.htm$


  9、禁止訪問(wèn)網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面


  User-agent:*


  Disallow:/*?*


  10、禁止Baiduspider抓取網(wǎng)站上所有圖片


  僅允許抓取網(wǎng)頁(yè),禁止抓取任何圖片。


  User-agent:Baiduspider


  Disallow:/*.jpg$


  Disallow:/*.jpeg$


  Disallow:/*.gif$


  Disallow:/*.png$


  Disallow:/*.bmp$


  11、僅允許Baiduspider抓取網(wǎng)頁(yè)和gif格式圖片


  允許抓取網(wǎng)頁(yè)和gif格式圖片,不允許抓取其他格式圖片


  User-agent:Baiduspider


  Allow:.gif$


  Disallow:/.jpg$


  Disallow:/.jpeg$


  Disallow:/.png$


  Disallow:/.bmp$


  12、僅禁止Baiduspider抓取jpg格式圖片


  User-agent:Baiduspider


  Disallow:/.jpg$