robots文件又叫robots协议,是搜索引擎抓取网站时,抓取的第一个文件,存放在网站的根目录下,一般以robots.txt命名;没有robots协议就代表着蜘蛛可以抓取网站的所有页面,会造成信息的泄露等情况;我们在做网站时都需要写robots文件,过很多优化人员对robots的规则不清楚,下面,一躺网络网络为您分享robots文件怎么写,robots文件的作用是什么。
一、robots文件的作用是什么
1、明确告知蜘蛛可以抓取网站的哪些链接,不抓取网站的哪些链接,
2、保护网站隐私,例如网站的后台,网站的用户信息等;
3、节省搜索引擎抓取资源,节省抓取资源;
4、统一路径集中权重,禁止蜘蛛抓取重复的内容;
5、屏蔽网站死链,不让蜘蛛抓取404页面,动态页面等。
二、robots文件怎么写-pbootcms网站robots协议示例:
User-agent: *
Disallow: /apps/
Disallow: /config/
Disallow: /core/
Disallow: /data/
Disallow: /doc/
Disallow: /rewrite/
Disallow: /runtime/
Disallow: /template/
#禁止抓取后台
Disallow: /admin.php
Disallow: /api.php
#不允许抓取PHP文件、动态链接,允许抓取tag
Disallow: /*.php
Disallow: /*?*
Allow: /*/?tag=*
#不允许抓取压缩包
Disallow: /*.zip$
Disallow: /*.rar$
Disallow: /*.tar.gz$
Sitemap: http://www.aaa.com/sitemap.xml
三、robots协议中的语法属性解释:
User-agent: * 定义所有搜索引擎
Allow: 允许
Disallow: 禁止
User-agent: 定义搜索引擎
* 代表所有*是一个通配符。
$ 结束
/ 代表根目录或一个文件夹
Disallow: / 禁止抓取网站的所有内容
Disallow: /admin/ 禁止爬寻admin目录下面的目录。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址。
Disallow: /*.jpg$ 禁止抓取网页所有的jpg格式的图片。
Disallow: /plus/ 屏敝插件
Disallow: /Baiduspider 禁止百度蜘蛛
Disallow: /include 禁止以include开头的文件和这个文件夹的所有内容
Disallow: /include/ 禁止这个文件夹,不能访问include/aaa.html 能访问include.html和includeaaa.html
Allow: /include/data/ 允许抓取这个文件
Sitemap: /sitemap.html 告诉爬虫这个页面是网站地图
四、robots文件书写注意事项
首字母用英文状态下的大写 :号要在英文状态下写入, :号后面一定要有一个空格;书写完成上传根目录,需要验证检查是否屏蔽正常的链接以及是否完成链接的屏蔽。
以上就是一躺网络为您带来的关于robots文件怎么写,robots文件的作用是什么的分享,robots是做好网站优化非常重要的一个步骤,欢迎您联系在线客服获取更多的相关知识。