当前位置:首页 > seo技术

robots.txt文件问题攻略大全

时间:2019-05-27 08:45:11来源:seo技术作者:seo实验室小编阅读:77次「手机版」
 

robots.txt文件

robots.txt文件问题攻略大全,本文中seo实验室将大家常遇到的关于robots.txt文件的相关问题进行汇总,希望大家又长知识了。

1、robots.txt是什么?

解答:robots.txt是一个纯文本文件。简单说就是一个互联网协议,是针对搜索引擎蜘蛛抓取网站时的一个提前声明。通过robots.txt文件告诉蜘蛛,该网站的哪些文件你能访问抓取,哪些文件不要去访问抓取,从而规避一些隐私文件或不想被收录的文件被蜘蛛爬取到,起到一个引导蜘蛛的作用。

搜索引擎蜘蛛爬取网站的第一个文件会优先选择robots.txt文件,所以在引导蜘蛛时robots.txt文件就显得尤为重要。

robots.txt文件很重要

2、robots.txt写法

解答:robots.txt文件的写法,seo实验室在《robots编写秘籍》一文中有详细的说明,这里做几个重点说明。

user-agent:* 这里的星号,代表泛指所有的搜索引擎,如需要特指某个蜘蛛,则将各个搜索引擎蜘蛛的名称写?#24405;纯傘?/p>

各大常用搜索引擎蜘蛛名称如下:

Google蜘蛛:googlebot

百度蜘蛛:baiduspider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

bing蜘蛛:bingbot

altavista蜘蛛:scooter

lycos蜘蛛:lycos_spider_(t-rex)

alltheweb蜘蛛:fast-webcrawler

inktomi蜘蛛:slurp

有道蜘蛛:YodaoBot和OutfoxBot

热土蜘蛛:Adminrtspider

搜狗蜘蛛:sogou spider

SOSO蜘蛛:sosospider

360搜蜘蛛:360spider

屏蔽所有蜘蛛写法:

user-agent:*

disallow: /

提示:这里的斜杠代表网站根目录。

屏蔽单个搜索引擎蜘蛛写法(如屏蔽谷歌):

user-agent:googlebot

Disallow: /

屏蔽单个目录:

user-agent:*

Disallow: /a/

提示:若a后面不?#26377;?#26464;/a,表示以a形成的所有文件都屏蔽;?#26377;?#26464;/a/表示只代表a目录下的所有文件。

屏蔽单个页面:

user-agent:*

Disallow: /123.HTML

释放已屏?#25991;?#24405;中的某个文件:

user-agent:*

Disallow: /a/

Allow: /a/img/

屏蔽所有动态页面:

user-agent:*

Disallow: /*?*

?#23588;?#32593;站地图文件:

user-agent:*

sitemap: HTTP://www.seo-6.com/sitemap.xml

Sitemap: http://www.seo-6.com/sitemap.html

提示:尽量把链接写完整,免得抓取出错。

关于robots具体屏?#25991;?#20123;文件,请阅读《robots具体禁止什么文件》一文,文中有详细阐述,这里不细讲。

3、robots.txt放在哪里?

解答:robots.txt必须指定放在一个网站的根目录下,且文件名必须全部小写。

相应url地址例如:

http://www.seo-6.com/robots.txt

4、robots.txt文件存在限制指令

解答:这个也就是大家,常看到某些网站,快照描述写着“由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容”,其实就是该网站屏蔽了搜索引擎抓取,淘宝最为明显。

网站的robots.txt文件存在限制指令

就是这个写法:

user-agent:*

disallow: /

解决办法,进入网站根目录,找到robots.txt文件,删除掉里面的“disallow: /”,然后等待快照更新就可以了。

5、robots.txt怎么看?

解答:都是进入网站空间,找到根目录下的robots.txt文件,打开观察写法,文件屏蔽,查看是否有误或?#30053;黽纯傘?#30452;接观察可以在浏览器输入主域名+robots.txt?#32431;?#35266;察,修改还是要到服务器空间或ftp里面处理。

6、robots.txt可以删除吗?

解答:可以删除,但是对蜘蛛很不友好,建议不要删除,且把内容写完整。

7、robots.txt允许收录

解答:允许收?#23478;?#23601;是写法,参考第二点写法规则?#32431;傘?/p>

8、robots.txt安全防渗透说明

解答:一般robots.txt文件中,我们会写到屏蔽后台路径如下:

user-agent:*

Disallow: /admin/

这个路径我们不能像上面这样直接写出来,很容易被别人窥视加以利用,所以一般我们需要设置复杂一点,并用星号泛指来表示。

如下:

user-agent:*

Disallow: /a*n/

将中间部分用泛指表示出来,蜘蛛是可以根据前后对照识别出文件,但别人想要知道就很难了,可防止被攻击,增加安全性。

9、robots.txt文件本身安全吗?

解答;robots.txt本身是没安全问题的,但如果空间被入侵,robots.txt文件被修改可能就会出错了。不过也很容易察觉到,一旦你发现异常了,修改回来就好了,所以robots.txt文件也需要时常?#32431;?#26159;否有问题,做好安全维护工作

好了以上就是这些内容,相信大家已经掌握robots要诀了,还没明白的就多看几遍。

相关阅读

win10系统高级设置:windows 找不到文件 %windir%\syst

win10系统高级设置:不小心误删了系统环境变量,于是想再次打开属性->高级系统设置 时候,报出如下错误: 到C:\Windows\System32文件

iTunes备份文件在哪?如何改变默认备份文件目录?答案都在

iTunes和iCloud这两个东西,相信?#36824;?#29992;户都很熟悉,由于iCloud的服务器在国外,所?#36816;?#34429;然可以在手机内操作,但是那备份?#25351;词?#26426;数据

UE4 .generated.h文件找不到问题

需要在头文件中声明一个UCLASS或USTRUCT后后才会生成.generated.h https://answers.unrealengine.com/questions/298930/how-to-c

Eclipse的Debug调试技巧大全

一、Debug视图调试中最常用的窗口是: 窗口 说明 Debug窗口 主要显示当前线程方法调用栈, 以及代码行数(有调试信息的代码) 断

java实现文件?#30053;?#30340;两种方式

public HttpServletResponse download(String path, HttpServletResponse response) { try { // path是指欲

分享到:

栏目导航

推荐阅读

热门阅读

疯狂麻将试玩