Robots.txt与网站地图配置
Chris跨境营销小课堂
2025-05-11 13:06
要让搜索引擎了解你的网站、抓取到关键页面,仅靠“等它自己发现”还不够。你需要主动“引路”。这就离不开两个基础设置:Robots.txt 和 网站地图(Sitemap)。

一个告诉搜索引擎“哪些能看,哪些别看”;另一个告诉它“我最希望你看这些”。这两个配置虽简单,但对SEO效果影响巨大。

一、什么是 Robots.txt?

Robots.txt 是网站根目录下的一个文本文件,用来告诉搜索引擎爬虫哪些页面可以抓取、哪些不可以。它不控制页面是否会被收录,但能指导搜索引擎“抓取优先级”。

✅ 常见作用:

  • 阻止抓取重复或无价值页面(如后台、搜索页)
  • 节省网站抓取资源
  • 避免隐私或测试内容被搜索引擎抓到

二、Robots.txt 的基本语法

User-agent: *        # 适用于所有搜索引擎

Disallow: /admin/    # 禁止访问后台目录

Allow: /public/      # 允许访问公开目录

Sitemap: https://www.example.com/sitemap.xml  # 指定网站地图位置

示例说明:

User-agent: 设定要对哪个搜索引擎生效,* 表示所有。

Disallow: 不允许抓取的路径。

Allow: 显式允许抓取的路径(可用于更细粒度控制)。

Sitemap: 网站地图的完整URL地址(可直接写在robots.txt里,利于爬虫发现)。

示例文件:

User-agent: *

Disallow: /search/

Disallow: /cart/

Allow: /

Sitemap: https://www.example.com/sitemap.xml

三、注意事项与常见误区

错误做法

正确做法

把重要页面Disallow了

只屏蔽不想被抓取的非核心内容

屏蔽JS和CSS

搜索引擎需读取JS/CSS理解页面结构

忘了指定Sitemap位置

在robots.txt中注明sitemap地址

误将404页面设为Disallow

404本身应被识别,无需特别屏蔽

 

四、什么是网站地图(Sitemap)?

网站地图(XML格式)是列出网站所有重要页面的清单,方便搜索引擎系统性地抓取内容,特别适合大型网站、更新频繁或结构复杂的网站。

✅ 有了 Sitemap,能带来什么?

  • 提高新页面收录速度
  • 避免重要页面被遗漏
  • 提供页面最后更新时间、优先级等提示
  • 对结构复杂、不容易通过内链发现的内容尤为重要

五、Sitemap 怎么做?

1. 生成方式

使用SEO插件(如 Yoast SEO、Rank Math)

使用工具自动生成(如 XML-sitemaps.com)

自建动态生成脚本(适合大站)

2. 提交方式

将 Sitemap 链接写入 Robots.txt 文件中

登录 Google Search Console,手动提交 Sitemap 地址

同理,Bing Webmaster Tools 也可提交

示例 sitemap.xml 内容:

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

  <url>

    <loc>https://www.example.com/</loc>

    <lastmod>2025-05-01</lastmod>

    <changefreq>weekly</changefreq>

    <priority>1.0</priority>

  </url>

  <url>

    <loc>https://www.example.com/blog/seo-basics</loc>

    <lastmod>2025-05-10</lastmod>

    <changefreq>monthly</changefreq>

    <priority>0.8</priority>

  </url>

</urlset>

六、Robots.txt 与 Sitemap 配合使用建议

Robots.txt 不应屏蔽 Sitemap 文件路径

Sitemap 中不应列出被 robots.txt 屏蔽的页面

Sitemap 是主动“推荐”,Robots.txt 是“限制”,两者功能互补

七、适合配置 Robots.txt 和 Sitemap 的网站类型

企业官网:编写基础的robots.txt+提交sitemap

电商网站:屏蔽重复路径、筛选页+细化Sitemap

内容型网站:Sitemap列出所有内容页+标注更新日期

独立站/博客:自动生成插件+明确Sitemap结构

展开查看全文
内容是否有帮助?
SEO