robots协议与网站地图

来源：疯狗科技 2017-10-07 点击：

首先要了解概念。何为robots，robots.txt是一个纯文本文件，用于声明该网站中不想被蜘蛛访问的部分，或者指定蜘蛛抓取的部分。简而言之，robots.txt不是规定，而是一种约定，需要蜘蛛自觉遵守的一种习俗。

当蜘蛛访问一个站点时，它会首先检查该站点是否存在robots.txt。如果找到，蜘蛛就会按照该文件中的内容来确定抓取的范围，如果该文件不存在，那么蜘蛛就沿着链接直接抓取。

robots.txt的存在路径：放置在一个站点的根目录下，而且文件名必须全部小写。

robots的常见语法：

User-agent：*

是针对哪个搜索引擎蜘蛛。这里的*代表搜索引擎，*是通配符。

Allow

定义的是允许蜘蛛抓取某个栏目或文件

Allow：/cgi-bin/

这里定义的是允许访问cgi-bin目录

Allow：/* .htm$

允许访问以“。htm”为后缀的URL，$指的是匹配行结束符，*指的是匹配任何字符。

Disallow

定义的是禁止蜘蛛抓取某个栏目或文件

Disallow：/admin/

这里定义是禁止抓取admin目录

Disallow：/cgi-bin/*.htm

禁止抓取/cgi-bin/目录下的所有以“。htm”为后缀的URL

Disallow：/*?*

禁止抓取网站中所有包含问号“？”的网址

robots.txt的用法

sitemap：http：//www.google.com/sitemap.xml

sitemap：URL全称（包含http：//部分）

是告诉搜索引擎蜘蛛这个页面是网站地图。

补充：

robots.txt不能删除搜索引擎中已收录的页面，但robots meta标签可以解决这个问题。

robots.txt文件主要是限制整个站点或者目录的蜘蛛访问情况，而robots meta标签主要是针对某个具体的页面。

如：<meta name=“robots”content=“index，follow”>

robots meta标签语法

name=“robots”表示所有的搜索引擎，可以针对某个具体搜索引擎写为name=“Baiduspider”

content部分有四个指令，以英文逗号隔开

index指令告诉蜘蛛可以抓取该页面

follow指令表示蜘蛛可以爬行该页面上的链接

共有四种组合：

特殊写法：

网站地图的制作，在织梦后台可以生成。另外还可以用到老虎地图工具，用工具去生成。方法可以在工具介绍里查询。