73% 的独立站在主动屏蔽 AI，还在问 GEO 为什么没效果

最近帮一个做机械设备的独立站做上线前检查，打开 robots.txt，第一行就是 Disallow: /。

整站封死。

这个站的老板每天刷文章，知道 GEO（生成式引擎优化），知道要让 ChatGPT、Perplexity 引用自己，甚至问过我怎么优化 llms.txt。

但他的网站连 Googlebot 都进不来。

这不是个例。我见过太多独立站主，GEO 的概念讲得头头是道，回头一看自己的网站——robots.txt 封站、www 和裸域双 200、Bingbot 被防火墙拦截、Schema 残缺……AI 根本找不到你，又何来引用？

GEO 从来不是空中楼阁。SEO 基础打不好，GEO 就是空谈。

AI 流量真的来了，但你的网站让它进来了吗

先看几个数字，感受一下这件事有多急迫。

2025 年6月，AI 平台带来的引荐访问量达到11.3亿次，比2024年同期暴涨 357%。ChatGPT 一家的 AI 引荐占比就超过 55%，Perplexity 紧跟其后。更关键的是，AI 搜索的转化率是 14.2%，而 Google 自然搜索是 2.8%——前者是后者的 5 倍。

这不是未来，这是现在。

但 Cloudflare 分析了全网 1.2 万个网站，发现 73% 至少屏蔽了一个主流 AI 爬虫。GPTBot 被屏蔽 614 次，ClaudeBot 514 次，CCBot 503 次……

很多网站主一边喊着「要做 GEO」，一边在 robots.txt 里亲手把 AI 爬虫挡在门外。

这不是 GEO 的问题，这是 SEO 基础没打好的问题。

SEO 是 GEO 的地基，不是竞争对手

很多人把 GEO 和 SEO 对立起来，觉得「时代变了，SEO 要死了，赶紧转 GEO」。

这个逻辑从根上就错了。

普林斯顿的研究团队分析了 AI 引擎的引用机制，结论很直接：AI 最爱引用 Google 已经排名靠前的内容。原因很简单——Google 的算法已经帮 AI 做了一轮质量筛选，AI 引用高排名页面的错误率更低。

GEO 和 SEO 共享 80% 的底层逻辑，剩下 20% 才是 GEO 的专项优化。

换句话说：SEO 没做好，GEO 没有起点。

AI 搜索系统的工作流是这样的：爬取 → 解析 → 索引 → 生成答案。任何一个环节断掉，你的内容就不会出现在 AI 的答案里。而这 4 个环节，前 3 个全是 SEO 的活。

独立站 GEO 失效的3个根本原因

我把常见问题归成3层，从最底层的致命伤开始说。

第1层：爬取层——AI 根本进不来

最直接的拦截方式，就是 robots.txt。

很多建站平台的默认配置、或者开发者随手写的 robots.txt，会有 Disallow: /——意思是禁止所有爬虫访问全站。这个配置最初可能是为了测试环境，但上线后忘了改，就成了灾难。

除了这个，还有很多站主不知道：GPTBot、ClaudeBot、PerplexityBot 需要单独声明，才能确保它们有权限抓取。一份合格的 robots.txt，2026 年至少要显式声明 8 个以上的 AI 爬虫：

code

User-agent: GPTBot Allow: /  User-agent: ClaudeBot Allow: /  User-agent: PerplexityBot Allow: /  User-agent: Google-Extended Allow: /

同时还有一个更隐蔽的问题：Bingbot。我在审查一个客户网站时发现，Bingbot 被 WAF（Web 应用防火墙）规则拦截，返回 403。这意味着不只是 Bing 搜索丢了，连 ChatGPT Search（底层依赖 Bing 索引）也无法收录这个站点。

第 2 层：索引层——重复内容稀释权重

www 和裸域双 200 是独立站的顽疾。

https://www.example.com 和 https://example.com 都能正常访问，返回相同内容——在 Google 和 AI 引擎眼里，这是两个独立的网站，PageRank 被对半稀释。你以为自己有 100 分的权重，实际上每个版本只有 50 分。

正确的做法是：选定一个规范域名，另一个做 301 永久重定向。302（临时重定向）不行，权重不传递。

还有 canonical 标签。如果你的 www 版本 canonical 指向裸域，但内部链接全是 www——爬虫每次都要走一次 302 跳转，爬虫预算被消耗，内链权重传递打折。

第3层：内容结构层——AI 读不懂你在说什么

这一层才是 GEO 专项优化开始介入的地方。

普林斯顿 GEO 研究给出了几个数字：

•有完整 H1-H2-H3 层级的页面，被 AI 引用的概率高2.8倍

•有 Schema 结构化数据的页面，出现在 AI 答案的概率高2.5倍

•FAQPage Schema 的引用率高出普通页面3.2倍

AI 引擎不是在「读」你的内容，它是在「解析」你的内容。它需要看到清晰的信号：这个页面的主题是什么、作者是谁、数据来源是哪里、答案是什么。

如果你的页面是一堆没有结构的文字——哪怕写得再好，AI 也很难从中提取可引用的片段。

先把地基打好，再谈 GEO 专项优化

说到底，对于大多数独立站，GEO 的优先级应该是这样的：

优先级 1：让 AI 能进来（爬取层） → 检查 robots.txt，确保没有 Disallow: /，显式声明主流 AI 爬虫 → 检查 WAF 规则，不要拦截 Bingbot/GPTBot 等 → 验证工具：curl -A "GPTBot" https://yourdomain.com 看返回码是不是 200

优先级 2：给 AI 喂一个版本（索引层 → www/裸域选一个，另一个做 301 → 内部链接全指向规范域名，消除 302 跳转链→Sitemap 只收录规范 URL，不混入重定向版本

优先级 3：让 AI 读懂你在说什么（内容层）→首段写定义句（80-300字，直接说「X 是什么」） → H2 改成问句式标题（How to / What is /如何/什么是）→补全 Organization + WebSite + Article Schema →底部加3-5条 FAQ

这3个优先级，依次做。不要跳层——地基没打稳，直接在上面盖玻璃幕墙，一阵风就倒。