花一小时让 AI 找到你的内容
这几天有好几个小伙伴@我说，我的开源工具在他们问 AI 的时候被主动推荐了，啥也没做居然可以被收录，想着要不花一个小时把内容结构化整一整，应该会更好，于是整好以后，快速发了一个速记推，但是内容结构不清晰，想着大家很感兴趣，那要不就整一个结构清晰的文章便于沉淀和查找。
我很讨厌去刷排名或者生产垃圾内容，更多想着让现有的内容对 AI 更可见，所以这篇文章不会教你投机，而是如何让AI更好理解你现有的内容本身。
去查了一下，发现 AI 搜索跟传统搜索逻辑完全不一样，传统 SEO 拼的是进 Google 前 10，但 83% 的 AI Overview 引用来自排名前 10 之外的页面，AI 看的是结构清晰、来源可靠，跟 PageRank 关系不大。项目不大，但 README 和文档写得还算清楚，大站内容单薄的地方 AI 就能找到我，大概这就是为什么朋友们能搜到 Pake 和 MiaoYan。
AI 搜索增长很快，2025 年上半年同比涨了 527%，ChatGPT 到 2026 年 2 月周活 9 亿，引荐流量转化率大概是传统搜索的 5 倍。但目前仍然只占总引荐流量不到 1%，更像是品牌可见性策略，不是流量策略，值得花一个小时整一整，但不值得花一周，因为产品本身才是你的核心竞争力，这个不是。
用 robots.txt 分清爬虫类型
很多人把 robots.txt 当开关用，要么屏蔽 AI 爬虫要么全放开。但 AI 爬虫其实分好几类，做的事情不一样。
训练爬虫，GPTBot、ClaudeBot、Meta-ExternalAgent、CCBot，拿你的内容去训练模型。屏蔽它们可以让内容不进训练数据，但不影响当前的 AI 搜索结果。
搜索和检索爬虫，OAI-SearchBot、Claude-SearchBot、PerplexityBot，实时抓取内容来回答用户问题。屏蔽了这些，你就从 AI 搜索里消失了。
用户触发爬虫，ChatGPT-User、Claude-User、Perplexity-User、Google-Agent，只在用户把你的 URL 贴进聊天窗口时才触发。屏蔽了它们，用户让 AI "总结一下这个页面" 就会啥也拿不到。
退出标识，Google-Extended、Applebot-Extended，不是真正的爬虫，是你在 robots.txt 里声明退出 AI 训练的信号。
未声明爬虫，Bytespider、xAI 的 Grok 爬虫，不表明身份，也不一定遵守规则。
我的做法是允许搜索/检索爬虫和用户触发爬虫，屏蔽训练爬虫和未声明爬虫：
markdown

Search & retrieval: allow

User-agent: OAI-SearchBot
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /

User-triggered: allow

User-agent: ChatGPT-User
Allow: /
User-agent: Claude-User
Allow: /

Training: block

User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /

Opt-out tokens

User-agent: Google-Extended
Disallow: /

Undeclared: block

User-agent: Bytespider
Disallow: /
写好 llms.txt 并让站点互相引用
llms.txt 是一个新标准，类似 robots.txt 但专门给 AI 看的。在站点根目录放一个 Markdown 格式的文件，写清楚你的站点做什么、有哪些关键页面、作者是谁，AI 在检索内容的时候会优先读这个文件来理解你的内容。
BuiltWith 追踪到目前已经有 84 万多个网站部署了 llms.txt，包括 Anthropic、Cloudflare、Stripe、Vercel 这些。但在 SE Ranking 调研的 30 万域名里采用率只有 10%，还是比较早期，先做了有先发优势。
格式很简单：
markdown

Your Project Name

One-line description of what this is.

About

Short paragraph explaining the project, its purpose,
key features, and what makes it different.
做完之后可以提交到
directory.llmstxt.cloud
、
llmstxt.site
，还有 GitHub 上的 llms-txt-hub 仓库提 PR。
这里我还做了一个有意思的事：各站点的 llms.txt 互相引用，形成一个网状结构。我维护着
tw93.fun
、
weekly.tw93.fun
、
yobi.tw93.fun
几个站点，每个站点的 llms.txt 都引用其他站点，AI 不管从哪个入口进来都能顺着链接找到其他内容。
这些改动需要等爬虫重新抓取才会生效，通常要几天。配好之后隔一段时间去 ChatGPT 搜一下自己的项目名，引用来源和描述准确度应该会有变化。
怎么告诉 AI 你有 Markdown 版本，最简单的方式是在页面里加一行：
htmlbars

Claude Code 和 Cursor 在获取文档时已经会发 Accept: text/markdown header，这是 1997 年就有的 HTTP/1.1 标准行为。
去搜索平台录下你的站点
前面说的 robots.txt 和 llms.txt 是让 AI 读得懂你的内
容，但前提是 AI 能找到你。ChatGPT 的搜索走 Bing，Google AI Overview 走 Google 自己的索引，Perplexity 也依赖搜索 API。如果你的页面没有被搜索引擎收录，后面做的结构化工作 AI 根本看不到。所以第一步是确保 Google 和 Bing 已经收录了你的站点。
操作很简单：去
Google Search Console
用 DNS 或 HTML 文件验证你的域名，验证通过后提交 sitemap URL（通常是
yoursite.com/sitemap.xml
）。在"网页索引"报告里可以看到哪些页面已收录、哪些有问题。如果某个重要页面没被收录，用"网址检查"工具手动请求编入索引。
大伙可能觉

你不知道的 GEO：AI 可见性的原理、实践与取舍