SEO技术指南:如何使用XML站点地图提升网站SEO

随着网络的发展,Google和SEO也在不断发展。

这就意味着有效的SEO手段也是在不断变化的,昨天可能还是一个很好的建议,到今天就不起作用了。

对于几乎与SEO一样有着悠久历史的站点地图尤其如此。

如今的互联网时代,你不知道在网络上发帖,在博客上发表文章以及在社交媒体上传播观点的究竟是人还是一条狗。这就需要我们耗费大量的时间从错误的信息中整理出有价值的内容。

尽管我们大多数人都认为向Google Search Console提交站点地图很重要,但是你可能不太清楚如何用驱动SEO KPI的方式来操作你的站点。

我们今天就来解决一下目前大家关于站点地图最佳实践做法的一些困惑。

什么是XML站点地图

简单来说,XML站点地图就是你网站所有URL地址的一个列表。

它充当了一个线路图的角色,来告诉搜索引擎你的网站有哪些内容,以及如何到达这些页面。

在上面的例子中,搜索引擎通过访问XML站点地图这一个文件就能找到网站上全部的9个页面。

而在网站上,我们需要经过5次内部跳转才能找到这9个页面。

XML站点地图可以协助爬虫更快地建立索引的能力对于下面的这些网站尤其重要:

  • 有数千个页面和/或层级较深的网站架构。
  • 经常添加新页面。
  • 经常更改现有页面的内容。
  • 内部链接较弱、有孤立页面的。
  • 缺乏强壮的外链。

注:提交带noindex标记的URL的站点地图也可以加快索引的删除速度。如果要删除大量的URL,这比在Google Search Console中删除URL更有效率。但是使用时一定要谨慎,确保只是临时在站点地图中添加带noindex标记的URL。

知识点

从技术上来说,即使没有XML站点地图,搜索引擎也能找到你网站的页面,但是将页面添加到XML站点地图中,就表示你认为这些页面是高质量的目标网页。

虽然XML站点地图不能保证你的页面一定会被爬取,也不一定会被索引和排名,但是提交站点地图肯定会增加网站的机会。

XML站点地图的格式

典型的XML站点地图格式是下面这样的,它包含了一些特定的标签在里面:

<?xml version="1.0" encoding="UTF-8" ?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
    <url>
        <loc>https://www.example.com/</loc>
        <lastmod>2021-04-01 22:20:35</lastmod>
        <changefreq>weekly</changefreq>
        <priority>0.5</priority>
    </url>
</urlset>

但是SEO要如何使用各个标签呢?所有的元信息都有价值吗?

loc (即Location)标签

此标签为必选,包含了URL位置的绝对、规范版本。它应该准确反映你网站使用的协议(http或https),以及是否包含或排除www。

对于多语种的网站,你也可以在<url>标签中添加 hreflang 来申明该URL所属的语种。

通过使用xhtml:link属性可以为每个URL申明不同的语言和区域,从而减少页面加载时间,这是<head>或HTTP请求头中其他link元素无法提供的。

lastmod (即 Last Modified)标签

一个可选的但强烈推荐的标签,用于传达文件的最后修改日期和时间。

约翰·穆勒(John Mueller)承认Google确实使用lastmod元数据来了解页面的最后更改时间以及是否应对其进行爬取。 Illyes在2015年提出了与之相反的建议。

最后修改时间对于内容网站尤其重要,因为它可以让Google了解你是否为原创内容的发布者。

它也可以传达网页内容新鲜度,但是请确保仅在进行了有意义的更改后再更新修改日期。

试图通过修改最后修改时间来欺骗搜索引擎可能会导致Google的罚款。

changefreq (即 Change Frequency)标签

曾几何时,此标签用来向搜索引擎提示该URL里的内容会多久更新一次。

但穆勒(Mueller)表示,“更改频率在站点地图中的作用并不大”,并且直接指定时间戳要更好。

Priority标签

这个标签看起来是要告诉搜索引擎该页面相对于其他URL的重要性,其取值范围在0.0到1.0之间。

这只是曾经对搜索引擎的一个提示,Mueller和Illyes都明确表示他们会忽略这个标签。

知识点

你的网站需要XML网站地图,但不一定需要priority和changefreq的数据。

准确地使用lastmod标签,并确保提交了正确的URL。

站点地图的类型

站点地图的类型有很多,我们介绍几个你实际能用的上的几个类型。

XML站点地图索引

XML站点地图有两个限制:

  • 最多包含50000个URL。
  • 未压缩的文件大小限制为50MB。

可以使用gzip压缩站点地图(文件名会变成类似sitemap.xml.gz的样子)来节省服务器带宽。但是,解压后的站点地图仍然不能超过上述的任何一个限制。

每当超出限制时,你都需要将URL拆分到多个XML站点地图中。然后可以将这些站点地图合并到一个XML站点地图索引文件中,该文件通常命名为 sitemap-index.xml。本质上是站点地图的站点地图。

对于想要采用颗粒度更细的超大型网站,还可以创建多个站点地图索引文件。例如:

  • sitemap-index-articles.xml
  • sitemap-index-products.xml
  • sitemap-index-categories.xml

但是需要注意的是,你不能嵌套站点地图索引文件。

为了让搜索引擎一次就可以轻松找到每个站点地图文件,你需要:

将站点地图索引提交到Google Search Console和Bing网站管理员工具。

在robots.txt文件中指定站点地图索引网址,直接将搜索引擎指向你的站点地图,因为我们欢迎这些爬虫来爬取内容。

# robots.txt

user-agent: *
Disallow:

Sitemap: https://www.example.com/sitemap-index.xml.gz

你也可以通过ping的方式向Google提交站点地图。

但是有一点要了解,Google不再关注“未经认证的站点地图”中的hreflang数据,Tom Anthony认为这是在说那些通过ping URL提交的站点地图。

XML图像站点地图

图像站点地图旨在改善图像内容的索引编制。

但是,在当今的SEO中,图像是嵌入在页面内容中的,因此将与页面URL一起进行爬网。

此外,最好的做法是利用JSON-LD schema.org/ImageObject标记在搜索引擎中调用图片属性,因为它提供的属性比图像XML网站地图更多。

因此,大多数网站都不需要XML图像站点地图。 包含图像站点地图只会浪费抓取配额。

例外情况是图像是否有助于推动你的业务,例如股票照片网站或电子商务网站从Google图像搜索结果中获取产品页面的会话。

请注意,要在站点地图中提交图片,图片不必与你的网站位于同一个域中。 你可以使用CDN,只要已在Search Console中对其进行了验证即可。

XML视频站点地图

与图像类似,如果视频对你的业务至关重要,那么请提交XML视频站点地图。 如果不是,则不需要提交。

节省嵌入了视频页面的抓取配额,确保你使用JSON-LD将所有视频标记为schema.org/VideoObject

Google News站点地图

只有在Google News中注册的网站才可以使用此站点地图。

如果你已经注册过了,请将最近两天发布的文章放在站点地图中,每个站点地图最多包含1,000个URL,并在发布新文章时立即对其进行更新。

与某些网络上的说法不同,Google News站点地图不支持图片网址。

Google建议使用schema.org图片或og:image标签为Google News指定文章缩略图。

HTML站点地图

XML站点地图可满足搜索引擎的需求,HTML站点地图旨在帮助人类用户查找内容。

问题是,如果你的网站有良好的用户体验和完善的内部链接,是否还需要HTML站点地图?

在Google Analytics(分析)中查看HTML站点地图的页面访问数,大概率是很低的。 如果不是,则说明你需要改善网站的导航。

HTML站点地图通常在网站页脚的链接中。 从网站的每个页面获取链接权重。

所以你需要问一下自己,这样去使用链接权重是正确的吗? 或者,你只是为了向传统网站的最佳做法致敬?

如果很少有人使用它,而且搜索引擎也不需要它,因为你的网站有完善的内部链接和XML站点地图。 那么HTML站点地图是否还有理由存在? 我觉得没理由。

动态XML站点地图

使用Screaming Frog等工具可以非常快速地创建静态站点地图。

问题是,一旦新建或删除了一个页面,你的站点地图数据就会不同步了。 如果你修改了某个页面的内容,站点地图也不会自动更新lastmod标记。

因此,除非你喜欢为每个更改手动创建和上传站点地图,否则最好避免使用静态站点地图。

另一方面,动态XML网站地图会由你的服务器自动更新,以反映相关的网站更改。

要创建动态XML网站地图,你可以这样做:

  • 让开发人员编写程序来实现,并确保提供清晰的规范
  • 使用动态站点地图生成器工具
  • 为CMS安装插件,例如WordPress的Yoast SEO插件

知识点

使用动态XML站点地图和站点地图索引是目前正确的做法,HTML站点地图则不是。

仅当图像、视频或新闻内容类型的索引编制对网站的业务有益时,才去使用图像,视频和Google News站点地图。

XML站点地图索引优化

现在问题来了,如何使用XML站点地图来推动SEO KPI的实现。

只在XML站点地图中加入SEO相关的页面

XML站点地图是你建议抓取的页面列表,不一定是网站的每个页面。

搜索引擎爬虫到达你的网站后能抓取多少页面是有一定的配额的。

XML站点地图表示你认为所包含的URL比未阻止但不在站点地图中的URL更重要。

你正在使用站点地图来告诉搜索引擎“如果你特别关注这些URL,我将非常感谢。”

从本质上讲,XML站点地图可以帮助你有效地使用抓取配额。

通过仅包含SEO相关页面,你可以帮助搜索引擎更智能地抓取你的网站,通过更好的索引编制来提升网站的SEO。

你应该排除的页面有:

  • 不规范的页面。
  • 重复的页面。
  • 分页页面。
  • 基于参数或会话ID的URL。
  • 网站搜索结果页面。
  • 回复评论的URL。
  • 通过电子邮件共享的URL。
  • 通过过滤创建的URL对于SEO来说是不必要的。
  • 存档页面。
  • 任何重定向(3xx),丢失页面(4xx)或服务器错误页面(5xx)。
  • 被robots.txt阻止的页面。
  • 带noindex标记的页面。
  • 潜在客户表单可访问的资源页面(例如,白皮书PDF)。
  • 实用程序页面对用户有用,但不希望成为着陆页(例如注册/登录页面,联系我们,隐私政策,帐户页面等)。

在这里我要分享一个来自Michael Cottam的关于确定页面优先级的例子:

假设你的网站有1,000个页面。这1,000个页面中的475个页面是与SEO相关的内容。你可以在XML网站地图中突出显示这475个页面,实质上是要求Google取消对其余部分的索引编制优先级。

现在,假设Google抓取了这475个页面,并通过算法确定175个“ A”级,200个“ B +”级和100个“ B”或“ B-”。这是一个很不错的平均成绩,可能表明该网站可以吸引用户。

相比之下,通过XML网站地图提交所有1,000个页面的情况则相反。现在,Google查看了你说的与SEO相关的1000个页面,发现超过50%的页面是“ D”或“ F”页面。你的平均成绩就不是那么好了,这可能会对网站的有机会话数有不好的影响。

但是请记住,Google只会将XML网站地图用作网站上重要内容的线索。

页面没有包含在XML站点地图中不一定意味着Google不会去索引和编制这些页面。

当涉及到SEO时,整体网站质量是一个关键因素。

知识点

通过仅将XML站点地图URL限制为SEO相关页面来管理搜索引擎爬虫的爬取配额,并将时间用在减少网站低质量页面的数量上。

充分利用站点地图报告

新版Google Search Console中的Sitemaps部分没有像以前那样提供丰富的数据。现在的主要用途是确认你的站点地图索引已成功提交。

如果你使用的是描述性文字来命名站点地图,例如 sitemap-articles.xml,而不是用数字,例如sitemap-1.xml,那么你还可以了解到不同类型的SEO页面被发现的数量,也就是Google通过站点地图以及其他方式找到的所有URL,例如下面的链接。

在新的GSC中,对于SEO而言,与站点地图有关的更有价值的领域是“索引覆盖率”报告。

该报告默认展示所有已知页面的相关数据,在这里你可以:

解决任何“错误”或“收到警告的有效网页”的问题。这些通常是由冲突的机器人指令引起的。解决后请确保通过“覆盖率”报告来验证修复。

查看索引趋势。大多数网站都在不断增加有价值的内容,因此“有效网页”(又称Google索引的页面)应稳步增加。你需要了解任何大幅变化的原因。

选择“有效网页”,然后在“已编入索引,但未在站点地图中提交”类型的详细信息中查找,因为你和Google对这些页面的价值存在分歧。例如,你可能没有提交privacy policy的网址,但Google已将该页面编入索引。在这种情况下,不需要采取任何措施。你需要查找的是那些由于分页处理不当,参数处理不当,重复的内容或站点地图意外遗漏而产生的,却已经被索引的URL。

然后,通过将左上角下拉列表项更改为“所有已提交的网页”,将报告限制为包含在站点地图中的SEO相关URL。然后检查所有“已排除”页面的详细信息。

排除站点地图URL的原因可以分为四种操作:

快速修复:对于重复的内容,规范,机器人指令,40X HTTP状态代码,重定向或合法性排除,请进行适当的修复。

调查页面:对于“提交的网址已删除”和“抓取异常”排除项,请使用Google抓取方式工具进一步调查。

改善页面:对于“已抓取-尚未编入索引”页面,请查看页面(或页面类型,通常是具有相似种类的许多URL)的内容和内部链接。可能是内容质量低,非原创内容或缺少内外链。

改善域名:对于“已发现-尚未编入索引”的页面,Google指出了排除的典型原因,因为它们“试图抓取URL但网站超载”。不要被Google骗了,这更有可能是Google发现这些页面的内部链接质量不好或从url判断页面内容质量低下,所以Google觉得这些是“不值得”进行抓取的页面。如果你看到更多此类排除项,请查看通过站点地图提交的页面(或页面类型)的SEO值,着重于优化抓取配额,并从链接和内容的角度来查看信息架构,包括参数。

无论你采取什么操作,请记住你的SEO KPI是什么。

评估站点地图优化工作影响的最有用的度量标准是“所有提交的页面”索引率,该索引率是“有效网页”除以“所有已知网页”得出来的百分比。

努力使这一比例达到80%以上。

为什么不是100%? 因为如果你将所有精力都集中在确保对当前拥有的每个SEO相关URL进行索引,那么你可能会错失扩大内容覆盖范围的机会。

注意:如果你的网站是一个较大的站点,并且选择将站点地图分为多个Sitemap索引,则可以按这些索引进行过滤。 这样你可以:

  • 在更详细的级别上查看概述图表。
  • 调查排除类型时,可以参阅大量相关示例。
  • 一部分一部分地去优化索引率。

知识点

除了识别警告和错误之外,你还可以将“索引覆盖率”报告用作XML站点地图侦查工具来调查索引问题。

XML站点地图最佳做法清单

将你的时间用在以下列出的事物上:

✓在XML网站地图中包含hreflang标签

✓包含<loc>和<lastmod>标签

✓使用gzip压缩站点地图文件

✓使用站点地图索引文件

✓仅在索引可以驱动KPI时才去使用图像,视频和Google News站点地图

✓动态生成XML站点地图

✓确保URL仅包含在单个站点地图中

✓robots.txt中的加入站点地图索引URL

✓将站点地图索引提交到Google Search Console和Bing网站管理员工具

✓在XML站点地图中仅包含与SEO相关的页面

✓修复所有错误和警告

✓分析趋势和有效网页的类型

✓计算已提交页面的索引率

✓解决排除提交页面的原因

现在,请检查你自己的站点地图,并确保你做的没有问题。

为您推荐

发表评论

邮箱地址不会被公开。 必填项已用*标注