
robots.txt文件能告诉蜘蛛我们的网站哪些文件是允许搜索引擎蜘蛛抓取的,哪些不允许抓取。可以大大提升搜索引擎蜘蛛的效率,也可以让权重更为聚拢在我们希望的那些页面上。
搜索引擎蜘蛛访问网站任何文件或页面之前,先访问的是robots.txt文件,通过robots.txt文件,它会抓取robots.txt文件允许的路径,跳过其禁止的路径。
对于robots.txt文件,我们怎么弄一个合适的呢?以下说明可以帮助你更好的设置。
1、它的命名是统一的,一个字都不能错:robots.txt,而且都是小写;
2、robots.txt的位置:站点的根目录下;
输入https://www.sred.net/robots.txt 可以成功访问到,则说明位置没错;
3、robots.txt里一般只写两个函数:User-agent和 Disallow;
4、空格换行均不能出错,以下为本网站的参数,可以借鉴参考。
User-agent: *
Disallow: /Manager/
Disallow: /User/
Disallow: /UserControls/
Disallow: /Config/
Disallow: /Css/
Disallow: /JS/
Disallow: /API/
Disallow: /Component/
Disallow: /NSWEditor/
Disallow: /Template/
Disallow: /Skins/
Disallow: /Plug/
5、Disallow函数需要分行描述;
6、至少要有一个Disallow函数,如果都允许收录,则写: Disallow:
如果都不允许收录,则写:Disallow: /(多了一个斜杠);
7、允许有多个User-agent,如果对所有爬取蜘蛛生效,则用“*”星号表示;
8、可以的话,经常对robots.txt文件进行更新,屏蔽一些不要搜索引擎抓取的文件地址。
有更多问题欢迎和我们的老师沟通和讨论。
2021.09.28-