最近有一位我们的读者询问我们如何针对SEO去优化robots.txt文件。
Robots.txt文件可以告诉搜索引擎该如何去抓取你的网站,所以这也让它成为了功能强大的SEO工具。
在本文中,我们将向你展示如何针对SEO创建一个完美的robots.txt文件。
什么是robots.txt文件?
robots.txt是一个文本文件,网站管理员可以创建这个文件来告诉搜索引擎的爬虫如何抓取和索引网站上的页面。
通常这个文件是放在网站根目录的,也被成为主文件夹。robots.txt文件的基本格式是这样的:
User-agent: [user-agent name] Disallow: [URL string not to be crawled] User-agent: [user-agent name] Allow: [URL string to be crawled] Sitemap: [URL of your XML Sitemap]
你可以使用多行说明来允许或禁止特定的URL,还可以添加多个站点地图。如果你不禁止某个URL,那么搜索引擎爬虫会假定它们是被允许去抓取这个网址的。
下面是robots.txt的一个示例文件:
User-Agent: * Allow: /wp-content/uploads/ Disallow: /wp-content/plugins/ Disallow: /wp-admin/ Sitemap: https://example.com/sitemap_index.xml
在上面的示例中,我们允许搜索引擎去抓取WordPress上传文件夹里的内容。
然后,我们禁止了爬虫抓取plugins和wp-admin文件夹。
最后,我们提供了网站XML站点地图的URL地址。
你的WordPress站点需要Robots.txt文件吗?
如果你的网站没有robots.txt文件,搜索引擎还是会去抓取你的网站并将其编入索引。但是,你就没法告诉搜索引擎它们不该抓取哪些页面或文件夹。
如果你是第一次搭建博客站点且内容不多时,这不会对你的网站产生太大的影响。
但是,随着网站的发展和内容的丰富,你可能就希望更好地控制网站被抓取和索引的方式。
这就是为什么你需要robots.txt。
搜索引擎的爬虫对每个网站都有一个抓取配额。
也就是说它们在一个抓取会话(crawl session)期间会抓取一定数量的页面。如果他们没有完成对你的网站上所有页面的抓取,那么它们会在下个会话中回来继续抓取。
这可能会降低网站的索引率。
你可以通过禁止搜索引擎抓取不必要的页面,例如WordPress管理页面,插件文件和主题文件夹等,来解决这个问题。
通过禁止不必要的页面,可以节省抓取配额。这有助于搜索引擎在你的网站上抓取更多页面,并尽快建立索引。
使用robots.txt的另一个原因,就是你可以阻止搜索引擎索引一篇文章或者一个页面。
当然,这并不是隐藏内容的安全方法,但是这可以帮助你防止内容出现在搜索结果中。
标准的Robots.txt文件是什么样的?
许多知名的博客都使用非常简单的robots.txt文件。它们的内容可能会有所不同,具体取决于各站点的特定需求:
User-agent: * Disallow: Sitemap: http://www.example.com/post-sitemap.xml Sitemap: http://www.example.com/page-sitemap.xml
这个robots.txt文件允许所有的爬虫去索引全部的内容,并为爬虫提供了网站的XML站点地图。
对于WordPress站点来说,我们推荐在robots.txt中使用下面的规则:
User-Agent: * Allow: /wp-content/uploads/ Disallow: /wp-content/plugins/ Disallow: /wp-admin/ Disallow: /readme.html Disallow: /refer/ Sitemap: http://www.example.com/post-sitemap.xml Sitemap: http://www.example.com/page-sitemap.xml
上面的规则告诉搜索引擎的爬虫去索引所有的WordPress图片和文件,但是禁止索引WordPress插件文件、管理区域、WordPress的readme文件和affiliate链接。
将站点地图添加到robots.txt文件,你可以让Google爬虫更方便的找到网站的所有页面。
现在你已经了解了标准的robots.txt文件是什么样的了,我们一起看看如何在WordPress中创建这个文件。
如何在WordPress中创建Robots.txt文件?
在WordPress中创建robots.txt文件有两种方式,你可以选择最合适自己的一种。
方法一:使用All in One SEO插件编辑robots.txt文件
All in One SEO插件,也被称为AIOSEO,是市场上最好的WordPress SEO插件,超过200万个网站都在使用这个插件。插件使用非常简单,并且自带了robots.txt文件生成器。
安装好插件后,你可以直接在WordPress后台创建和编辑robots.txt文件。
前往All in One SEO → Tools 去编辑你的robots.txt文件。
首先,你需要启用“Enable Custom Robots.txt”的选项,启用后你就可以创建自定义的robots.txt文件了。
All in One SEO插件会在屏幕下方的“Robots.txt Preview”区域显示出已有robots.txt文件中的内容。
该版本展示了由WordPress添加的默认规则。
这些默认的规则告诉搜索引擎不要去抓取你的WordPress核心文件,允许爬虫去索引所有内容,并给爬虫提供了网站的XML站点地图链接。
现在,你就可以添加你的自定义规则来针对SEO优化你的robots.txt了。
在“User Agent”一栏添加爬虫代号,你可以使用 * 来表示将这条规则应用到所有的爬虫。
然后,选择你是否希望“Allow”或者“Disallow”搜索引擎去抓取。
接下来,在“Directory Path”中输入文件名或目录路径。
这些规则会自动应用到robots.txt。要添加更多的规则,点击左下角的“Add Rule”按钮即可。
我们建议你按照上面分享的标准robots.txt中的规则来完善你自己的规则。
完成编辑后,点击右下角的“Save Changes”按钮来保存你做的修改。
方法二:使用FTP手动编辑Robots.txt文件
这种方式,你需要使用FTP客户端去编辑robots.txt文件。
首先,使用FTP客户端连接到你的WordPress主机。连接成功后,你就会在网站的根目录中看到robots.txt文件。
如果你没有看到这个文件,说明你的网站还没有robots.txt文件。
如果是这样的话,你可以直接在根目录里创建一个。
Robots.txt文件是一个纯文本文件,所以你可以将它下载到你的电脑上,然后用任何纯文本编辑器来编辑它,例如Notepad或者TextEdit。
保存好你所做的修改好,直接上传到网站的根目录即可。
如何测试你的robots.txt文件?
创建完robots.txt后,最好用robots.txt测试工具去测试一下有没有问题。
robots.txt测试工具有很多,但是我们推荐使用Google Search Console内置的测试工具。
首先,你需要将你的网站添加到Google Search Console中。
然后,使用Google Search Console Robots Testing Tool。
在下拉列表中选择你的站点,然后该测试工具就会自动去获取你网站的robots.txt文件,测试完毕后,如果文件有错误或者警告,它都会高亮提示。
总结
优化robots.txt文件的目的是防止搜索引擎抓取不公开的页面。 例如,wp-plugins文件夹或wp-admin文件夹中的页面。
SEO专家间普遍流传的一个说法是,禁止抓取WordPress的类别、标签和存档页面会提高抓取率,并可以更快的将内容加入索引和获得更高的排名。
这种说法是错误的,并且也违反了Google网站站长指南。
我们建议你遵循上述robots.txt格式来给你的网站创建robots.txt文件。
希望这篇文章能够帮助你学习到如何针对SEO来优化你的WordPress站点robots.txt文件。