一个告诉搜索引擎“哪些能看,哪些别看”;另一个告诉它“我最希望你看这些”。这两个配置虽简单,但对SEO效果影响巨大。
Robots.txt 是网站根目录下的一个文本文件,用来告诉搜索引擎爬虫哪些页面可以抓取、哪些不可以。它不控制页面是否会被收录,但能指导搜索引擎“抓取优先级”。
✅ 常见作用:
User-agent: * # 适用于所有搜索引擎
Disallow: /admin/ # 禁止访问后台目录
Allow: /public/ # 允许访问公开目录
Sitemap: https://www.example.com/sitemap.xml # 指定网站地图位置
示例说明:
User-agent: 设定要对哪个搜索引擎生效,* 表示所有。
Disallow: 不允许抓取的路径。
Allow: 显式允许抓取的路径(可用于更细粒度控制)。
Sitemap: 网站地图的完整URL地址(可直接写在robots.txt里,利于爬虫发现)。
示例文件:
User-agent: *
Disallow: /search/
Disallow: /cart/
Allow: /
Sitemap: https://www.example.com/sitemap.xml
错误做法 |
正确做法 |
把重要页面Disallow了 |
只屏蔽不想被抓取的非核心内容 |
屏蔽JS和CSS |
搜索引擎需读取JS/CSS理解页面结构 |
忘了指定Sitemap位置 |
在robots.txt中注明sitemap地址 |
误将404页面设为Disallow |
404本身应被识别,无需特别屏蔽 |
网站地图(XML格式)是列出网站所有重要页面的清单,方便搜索引擎系统性地抓取内容,特别适合大型网站、更新频繁或结构复杂的网站。
使用SEO插件(如 Yoast SEO、Rank Math)
使用工具自动生成(如 XML-sitemaps.com)
自建动态生成脚本(适合大站)
将 Sitemap 链接写入 Robots.txt 文件中
登录 Google Search Console,手动提交 Sitemap 地址
同理,Bing Webmaster Tools 也可提交
示例 sitemap.xml 内容:
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.example.com/</loc>
<lastmod>2025-05-01</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://www.example.com/blog/seo-basics</loc>
<lastmod>2025-05-10</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
Robots.txt 不应屏蔽 Sitemap 文件路径
Sitemap 中不应列出被 robots.txt 屏蔽的页面
Sitemap 是主动“推荐”,Robots.txt 是“限制”,两者功能互补
企业官网:编写基础的robots.txt+提交sitemap
电商网站:屏蔽重复路径、筛选页+细化Sitemap
内容型网站:Sitemap列出所有内容页+标注更新日期
独立站/博客:自动生成插件+明确Sitemap结构