如何阻止搜索引擎抓取网站页面

最近,有用户问我们,如何才能阻止搜索引擎抓取他们的网站?在很多情况下,有的站长确实不希望搜索引擎对他们的网站进行抓取或者将网站内容列在搜索结果中。本文我们将为你展示如何阻止搜索引擎抓取WordPress站点的内容。

为什么以及谁想要阻止搜索引擎

对于大部分网站来说,搜索引擎是最大的流量来源。你可能想问,为什么有人会想要屏蔽搜索引擎呢?

刚开始建站时,很多人不知道如何创建本地开发环境或临时站点。如果你在一个可公开访问的网站上进行在线开发,你可能不太愿意让Google索引到你正在建设中或者正在维护的页面。

也有很多的人用WordPress来搭建私密博客,他们不想让内容被索引到。

同样,有一些人使用WordPress做项目管理或在团队内部使用,他们不希望内部文档可公开访问。

在上述的所有情况中,你都不希望让搜索引擎去索引你的网站。

一个常见的误解是,如果没有外部的链接指向我的域名,那么搜索引擎就永远都不会发现我的网站。这不完全正确。

搜索引擎有多种方式可以找到你的网站。例如:

你的域名可能之前是其他人持有的,网络上仍然有一些指向这个域名的链接。

某些域名搜索网站的搜索结果可以通过您的链接编制索引。

有的网站有数千个页面显示的全部都是域名,你的网站可能就在其中一个页面上。

互联网上时刻都在发生着许多的事情,大部分都不是你能控制的了的。但是,你还是可以控制自己的网站的,你可以指示搜索引擎不要索引或关注你的网站。

屏蔽搜索引擎对网站的抓取和索引

WordPress自带了一个功能,可以让你告诉搜索引擎不要对你的网站进行索引。你只需要在“设置” – “阅读”页面,选中“建议搜索引擎不索引本站点”前面的checkbox即可。

勾选后,WordPress会把下面的代码自动添加到网站的header部分:

<meta name='robots' content='noindex,follow' />

WordPress还会修改网站的robots.txt文件,并将下面的代码添加进去:

User-agent: *
Disallow: /

这些代码时告诉机器人(网站爬虫)不要去索引你的页面。不过,这也完全取决于搜索引擎是接受这个要求还是忽略掉。即使大部分的搜索引擎都遵循这个规则,但是网站上的一些页面或随机的图片仍然可能会被索引到。

如何确保你的网站不会出现在搜索结果中?

WordPress默认的网站可见性设置告诉搜索引擎不要对网站进行索引。 但是,搜索引擎可能仍然会从你的网站抓取并索引页面,文件或图像。

要确保搜索引擎100%不会索引你的网站,唯一的方法就是在服务器级别用密码将整个WordPress网站保护起来。

这以为在,如果有人想要访问你的网站,在他们接触到WordPress之前,服务器会要求他们提供用户名和密码来进行认证,当然也包括搜索引擎。登录失败后,服务器会返回401错误,爬虫就会离开。下面是如何使用密码来保护整个WordPress站点。

用插件实现密码保护WordPress

SeedProd – 这是WordPress上最好用的Coming Soon和维护模式的插件,超过800000的网站都在使用。它具有完整的访问控制和权限,你可以用它将网站对所有人隐藏,包括对搜索引擎。

Password Protected – 这是个仅用一个密码就可以保护整个WordPress网站的插件(不需要创建用户)。

希望这篇文章可以帮助你阻止搜索引擎爬取并索引你的WordPress站点。你可能还想看看WordPress安全防护安全指南

为您推荐

发表回复

您的电子邮箱地址不会被公开。