搞过网址的盆友都了解robots.txt文件是用于限定百度搜索引擎不乱爬取,只爬取大家期待被百度收录的內容的。例如大家网址的后台管理也不期待被检索爬取,那麼robots文件必须那样写:

User-agent:*

Disallow:/admin/

可是那样大家非常容易发觉了一个难题,假如有些人要破译进攻得话,非常容易就知道后台管理,一下子就清晰了网址的构造。

大家并不愿那样!

有木有方法让robots.txt既能限定百度搜索引擎,又不泄漏后台管理详细地址和隐私保护文件目录呢?有!

一、使用通配符(*):

User-agent:*

Disallow:/a*/

那样的书写,严禁全部的百度搜索引擎爬取根目录下a开头的文件目录。当您的后台管理是admok165得话,谁会会见到呢?

二、只写文件目录前好多个英文字母,不写全:

User-agent:*

Disallow:/ad

这类的书写,是严禁全部的百度搜索引擎爬取根目录下ad开头的文件目录。

最终表明一下,之上这二种方式,必须网站导航沒有同样英文字母开始的,比如ad文件目录,如果有2个一样的,那需在robots.txt文件里再再加一个英文字母差别起来。


未经允许不得转载! 作者:访客,转载或复制请以超链接形式并注明出处x36交易网

原文地址:https://www.x36.cn/post/2524.html发布于:2020-07-20