
Googlebot 我们一般称为Google 机器人或Google 探测器。Google “派遣”了不同的Googlebot 对网页内容进行获取。
Googlebot 是 Google 的网页抓取漫游器(有时称为“蜘蛛程序”)。抓取是 Googlebot 发现新网页和更新的网页以将这些网页添加到 Google 索引中的过程。Google使用许多计算机来提取(或“抓取”)网站上的大量网页。Googlebot 使用算法确定抓取过程:计算机程序确定要抓取的网站、抓取频率以及从每个网站抓取的网页数量。
Googlebot 有哪几种?主要包括:
1、Googlebot:抓取网页中的文字内容。获取的内容保存于Google 网页搜索和新闻搜索的数据库。我们一般谈的Google 机器人主要指这个。
2、Googlebot-Mobile:抓取网页中的文字内容,用于Google 手机搜索。
3、Googlebot-Image:抓取网页内的图片内容,保存入Google 图片搜索数据库。
4、Mediapartners-Google:抓取网页中的文字内容,用于Google Adsense 分析关键词。只有投放了Google Adsense 的网页才会被 Mediapartners-Google 探测器爬取。
5、Adsbot-Google:抓取网页中的文字内容,用于为Google AdWords 提供参考。只有Google AdWords 的目标网页才会被 Adsbot-Google 探测器爬取。
Googlebot 和Mediapartners-Google 是非常勤奋的机器人,如果他们影响到你服务器的承受力,你可以通过 robots.txt 文件加以制止。
如果您有不希望在 Google 搜索结果中显示的网页或其他内容,也即是所谓的拦截Google,可以通过将内容放入受密码保护的目录、使用robots.txt文件以及noindex元标记的方式实现。
1、将内容放入受密码保护的目录
Googlebot 和其他信息采集软件无法访问这些受密码保护的目录。这是阻止Googlebot 和其他信息采集软件抓取您网站上的内容并将其编入索引的最简单、最有效的方式。如果您使用的是 Apache 网络服务器,可以编辑 .htaccess 文件来为服务器上的目录提供密码保护。此外,网络中有许多可轻松实现这个功能的工具。
2、使用 robots.txt 控制对您服务器上的文件和目录的访问
robots.txt 文件就像一个电子的“禁止擅入”(No Trespassing) 标志。它会告诉 Googlebot 和其他信息采集软件不应抓取服务器上的哪些文件和目录。 但是要使用robots.txt 文件,就必须拥有对主机根目录的访问权限,作为一名站长应该是很容易做到的。
有一点需要注意的是,即使使用 robots.txt 文件拦截信息采集软件使之无法抓取您网站上的内容,Google 也可以通过其他方式找到该网站并将它添加到索引中。例如,有另一个网站链接到了您的网站,因此您的网页网址及其他公开的信息等就有可能会出现在 Google 搜索结果中。
所有正规的漫游器都会遵循 robots.txt 文件中的指令,但是还有一些漫游器可能会以不同的方式解译这些指令。因此,对于机密类的信息,Google还是建议采用密码保护的方式(请参见1)。
3、使用 noindex 元标记
如果看到某一网页上有 noindex 元标记,Google 就会将此网页从搜索结果中完全移除,不管是否还有其他网页与其相链接。如果网页内容当前出现在Google的索引中,会在下次抓取此内容时将其删除。(要加速删除过程,可以使用 Google 网站管理员工具中的删除网址工具)
由于其他搜索引擎可能会以不同的方式解译此指令,因此,指向相关网页的链接可能仍会显示在搜索结果中。此外,由于Googlebot必须抓取到网页才能看到 noindex 标记,因此在极少数情况下 Googlebot 可能会看不到 noindex 元标记并会将其忽略掉(例如,自您添加了此标记之后,Googlebot一直未再抓取过此网页)。
下面是noindex元标记的使用方法:
要防止所有漫游器将网站中的网页编入索引,请将以下元标记添加到网页的 <head> 部分:
<meta name=”robots” content=”noindex”>
要允许其他漫游器将该网页编入索引而只阻止 Google 的漫游器,请将以下元标记置入 <head>部分:
<meta name=”googlebot” content=”noindex”>2021.10.08-