【臨江網(wǎng)】robots.txt文件怎么寫
對一個網(wǎng)站來說,搜索引擎是至關(guān)重要的,在服務(wù)器上哪些東西可以被查看,哪些東西不可以被查看。robot.txt可以向搜索引擎發(fā)送“命令”。所以說,寫好robots.txt是很重要的。
一、robots.txt是什么
搜索引擎訪問網(wǎng)站時第一個要查看的文件就是robots.txt文件。對每一個站點而言,最好都建立一個robots.txt文件,向蜘蛛程序(spider)發(fā)出指令:某些文件可查看,某些文件不可查看,即指定內(nèi)容才可被搜索引擎收錄。
二、robots.txt文件存放在什么位置,robots.txt文件應(yīng)當是存放在一個網(wǎng)站的根目錄下。
三、robots.txt文件的格式是什么
robots.txt文件里應(yīng)該包含著有一條或者是多條記錄,記錄之間以空行分隔開,進行注解時使用#符號。使用Disallow語句對所需訪問的內(nèi)容進行限制,可以限制搜索引擎訪問網(wǎng)站的目錄、部分內(nèi)容,或者只允許某種特定的搜索引擎進行訪問。
四、關(guān)于robots.txt文件的一些注意事項
1、明確robots.txt文件并不是毫無風險絕對安全的,對于一個網(wǎng)絡(luò)攻擊者而言,正是robots、txt文件向其指出了網(wǎng)站上的保密數(shù)據(jù)在哪里,同時也指明了網(wǎng)站的目錄結(jié)構(gòu)。
2、robots.txt文件的文件名必須小寫,robots.txt文件里的內(nèi)容的大小寫是沒有辦法更改的。
3、有人認為如果某個網(wǎng)站中的全部內(nèi)容都需要被spider抓取,那么robots.txt文件可以不用存在。這種想法都是存在問題的。如果是要去找robots.txt文件而沒有找到時,在服務(wù)器中會報出404錯誤。
4、也有人認為直接設(shè)置robots.txt文里的所有內(nèi)容被spider抓取,這樣就可以提高網(wǎng)站的收錄百分率。要知道,當spider收錄網(wǎng)站腳本程序這樣的文件時,不僅不會提高收錄率,還會占用一部分的服務(wù)器存儲空間。