googlebot什么意思？googlebot怎么用？|营销资讯 - 网络营销培训 - 中小企业全网营销课程培训与落地辅导【深圳市单仁资讯有限公司】

googlebot什么意思？googlebot怎么用？

营销资讯

Googlebot 我们一般称为Google 机器人或Google 探测器。Google “派遣”了不同的Googlebot 对网页内容进行获取。 Googlebot 是 Google 的网页抓取漫游器（有时称为“蜘蛛程序”）。抓取是 Googlebot 发现新网页和更新的网页以将这些网页添加到 Google 索引中的过程。Google使用许多计算机来提取（或“抓取”）网站上的大量网页。Googlebot

Googlebot 我们一般称为Google 机器人或Google 探测器。Google “派遣”了不同的Googlebot 对网页内容进行获取。

Googlebot 是 Google 的网页抓取漫游器（有时称为“蜘蛛程序”）。抓取是 Googlebot 发现新网页和更新的网页以将这些网页添加到 Google 索引中的过程。Google使用许多计算机来提取（或“抓取”）网站上的大量网页。Googlebot 使用算法确定抓取过程：计算机程序确定要抓取的网站、抓取频率以及从每个网站抓取的网页数量。

进行抓取时，Googlebot 会先查看以前的抓取过程所生成的一系列网页网址，包含网站站长提供的站点地图数据。Googlebot 在访问其中的每个网站时，会检测各网页上的链接（SRC 和 HREF），并将这些链接添加到要抓取的网页列表。它会记录新出现的网站、现有网站的更新以及无效链接，并据此更新 Google 索引。

Googlebot 有哪几种？主要包括：

1、Googlebot：抓取网页中的文字内容。获取的内容保存于Google 网页搜索和新闻搜索的数据库。我们一般谈的Google 机器人主要指这个。

2、Googlebot-Mobile：抓取网页中的文字内容，用于Google 手机搜索。

3、Googlebot-Image：抓取网页内的图片内容，保存入Google 图片搜索数据库。

4、Mediapartners-Google：抓取网页中的文字内容，用于Google Adsense 分析关键词。只有投放了Google Adsense 的网页才会被 Mediapartners-Google 探测器爬取。

5、Adsbot-Google：抓取网页中的文字内容，用于为Google AdWords 提供参考。只有Google AdWords 的目标网页才会被 Adsbot-Google 探测器爬取。

Googlebot 和Mediapartners-Google 是非常勤奋的机器人，如果他们影响到你服务器的承受力，你可以通过 robots.txt 文件加以制止。

如果您有不希望在 Google 搜索结果中显示的网页或其他内容，也即是所谓的拦截Google，可以通过将内容放入受密码保护的目录、使用robots.txt文件以及noindex元标记的方式实现。

1、将内容放入受密码保护的目录

Googlebot 和其他信息采集软件无法访问这些受密码保护的目录。这是阻止Googlebot 和其他信息采集软件抓取您网站上的内容并将其编入索引的最简单、最有效的方式。如果您使用的是 Apache 网络服务器，可以编辑 .htaccess 文件来为服务器上的目录提供密码保护。此外，网络中有许多可轻松实现这个功能的工具。

2、使用 robots.txt 控制对您服务器上的文件和目录的访问

robots.txt 文件就像一个电子的“禁止擅入”(No Trespassing) 标志。它会告诉 Googlebot 和其他信息采集软件不应抓取服务器上的哪些文件和目录。但是要使用robots.txt 文件，就必须拥有对主机根目录的访问权限，作为一名站长应该是很容易做到的。

有一点需要注意的是，即使使用 robots.txt 文件拦截信息采集软件使之无法抓取您网站上的内容，Google 也可以通过其他方式找到该网站并将它添加到索引中。例如，有另一个网站链接到了您的网站，因此您的网页网址及其他公开的信息等就有可能会出现在 Google 搜索结果中。

所有正规的漫游器都会遵循 robots.txt 文件中的指令，但是还有一些漫游器可能会以不同的方式解译这些指令。因此，对于机密类的信息，Google还是建议采用密码保护的方式（请参见1）。

3、使用 noindex 元标记

如果看到某一网页上有 noindex 元标记，Google 就会将此网页从搜索结果中完全移除，不管是否还有其他网页与其相链接。如果网页内容当前出现在Google的索引中，会在下次抓取此内容时将其删除。（要加速删除过程，可以使用 Google 网站管理员工具中的删除网址工具）

由于其他搜索引擎可能会以不同的方式解译此指令，因此，指向相关网页的链接可能仍会显示在搜索结果中。此外，由于Googlebot必须抓取到网页才能看到 noindex 标记，因此在极少数情况下 Googlebot 可能会看不到 noindex 元标记并会将其忽略掉（例如，自您添加了此标记之后，Googlebot一直未再抓取过此网页）。

下面是noindex元标记的使用方法：

要防止所有漫游器将网站中的网页编入索引，请将以下元标记添加到网页的 <head> 部分：

要允许其他漫游器将该网页编入索引而只阻止 Google 的漫游器，请将以下元标记置入 <head>部分：