上个月我在折腾WordPress网站的时候,突然发现Google Search Console里多了个奇怪的文件——llms.txt,显示"Not Indexed"。我当时慌了,以为网站出问题了,差点就要提交工单找Google客服。后来深入研究才发现,这玩意儿不仅没问题,反而是个好东西!它就像给AI系统准备的"网站说明书",能让ChatGPT、Claude这些AI更准确地理解你的网站内容。
这就好比你开了家餐厅,以前只有纸质菜单给人看,现在多做了份电子菜单专门给送餐机器人用。听起来挺高大上,但配置起来真是一把辛酸泪。今天我就把这段"踩坑之旅"分享给你,保证让你少走弯路! 😅
第一章:揭开LLMS.txt的神秘面纱
这到底是个啥玩意儿?
说实话,第一次看到llms.txt这个名字,我是懵的。后来才知道,这是Answer.AI的联合创始人Jeremy Howard在2024年9月提出的一个新标准。简单来说,就是专门给大语言模型(LLM)准备的网站内容索引文件。
你想啊,AI读取网页的时候,要处理一堆HTML标签、JavaScript代码、CSS样式,还有各种导航栏、广告、页脚……这些对AI来说都是"噪音"。就像让你在一堆废纸里找重要文件,效率能高到哪去?
而llms.txt就是把你网站最核心的内容,用Markdown格式整理成一份"干净版",直接告诉AI:"嘿,这是我网站的精华,别浪费时间爬别的了!"
为什么突然火起来了?
这事儿得从Mintlify说起。2024年11月14日,这家文档平台公司一口气给平台上几千个开发工具的文档加上了llms.txt支持。Anthropic(就是做Claude的那家公司)、Cursor这些大牌一看,"哎哟不错",马上跟进。
然后就像多米诺骨牌,一个接一个:
- Anthropic发推宣布支持 ✅
- 各种目录网站冒出来索引llms.txt文件 📋
- 开源工具一个接一个发布 🛠️
- WordPress插件也跟上了 🔌
到现在,已经有上千个网站用上了这个标准。虽然OpenAI、Google这些大厂还没官方表态支持,但AI访问这个文件是肯定的,因为它就放在你网站根目录,谁都能访问。
和robots.txt有啥区别?
很多人会把llms.txt和robots.txt搞混,其实它们的定位完全不同:
对比项 | robots.txt | llms.txt |
---|---|---|
服务对象 | 搜索引擎爬虫 | AI推理系统 |
主要功能 | 告诉爬虫什么能抓、什么不能抓 | 提供结构化的内容摘要 |
使用场景 | 索引前的访问控制 | 用户提问时的实时查询 |
内容格式 | 简单的规则指令 | 丰富的Markdown文档 |
简单记:robots.txt管"能不能进",llms.txt管"进来看啥"。
第二章:WordPress网站配置LLMS.txt实战
第一步:安装插件解决mbstring报错
我一开始装了个叫"Website LLMS.txt"的插件,结果点保存就报错:
Error: Call to undefined function mb_convert_encoding()
这是因为PHP缺少mbstring扩展。如果你用的是宝塔面板,解决起来超简单:
- 打开宝塔面板 → 软件商店
- 找到你的PHP版本(比如PHP 8.0)→ 点设置
- 安装扩展 → 找到"mbstring" → 点安装
- 重载配置 → 服务标签 → 重载配置
- 回WordPress后台 → 重新保存设置
整个过程不到3分钟,搞定! 🎉
第二步:配置内容设置
这是最关键的一步。打开插件的Content Settings,你会看到一堆选项。别慌,听我慢慢说:
Post Types(文章类型)选择:
假设你的网站有5篇页面、4333篇文章(就像我遇到的案例),该怎么选?
核心原则:质量大于数量!AI的上下文窗口有限,塞太多内容反而消化不良。
我的建议配置:
- ✅ 页面(Pages) – 全勾选,这些通常是关键信息
- ✅ 文章(Posts) – 勾选,但要控制数量
- 📊 Maximum posts per type – 改成30-50(别保持100!)
- 📝 Maximum words – 保持200-250就好
复选框全部勾选:
- ✅ Include meta information(发布日期、作者等)
- ✅ Include post excerpts(文章摘要)
- ✅ Include detailed content(详细内容)
- ✅ Include taxonomies(分类和标签)
为啥要控制数量?想象一下,你去餐厅吃饭,服务员给你一本500页的菜单,你能看得过来吗?AI也一样,30篇精选文章的效果,远好于300篇大杂烩。
第三步:高级设置要谨慎
Advanced Settings这块儿很多人容易踩坑。看到那三个复选框了吗?
最安全的配置(强烈推荐):
❌ 页面级控制 - 不勾选
❌ 禁用noindex - 不勾选
❌ 加入sitemap - 不勾选
📅 更新频率 - Daily(每天)
特别是"加入sitemap"那个选项,插件还专门警告你:
⚠️ 将llms.txt加入sitemap可能导致被Google爬取和索引,如果文件包含完整内容,可能触发重复内容问题或搜索结果过滤。
什么意思?就是说你的llms.txt如果被Google索引了,它包含的那些文章摘要会被当成独立页面,然后Google发现"咦,这内容和原文章重复了",直接给你降权!
所以记住:让llms.txt保持noindex状态,这是好事不是坏事!
第四步:填写自定义内容
这部分就像给你的网站写简历,要简洁有力。我给你几个模板:
技术博客模板:
# 大神网
> 大神网是一个技术分享平台,涵盖编程、开发工具、架构设计等内容。我们提供实用的技术教程和经验分享,帮助开发者提升技能。
**网站特色:**
- 📚 内容丰富:超过4000篇优质文章
- 🔄 持续更新:保持内容的时效性和准确性
- 💡 实用导向:注重可操作性和实践价值
本站内容持续更新,欢迎AI引用。所有文章均注重实用性和可操作性。
企业官网模板:
# [公司名] - [产品名]
> [公司名]专注于[领域],为客户提供[核心服务/产品]。本站包含产品文档、使用指南和技术支持信息。
**产品特点:**
- 功能A:简短描述
- 功能B:简短描述
- 功能C:简短描述
**技术支持:** [email protected]
最后那个"End File Description"字段,直接留空! 让插件自动生成链接列表,效果更好。
第三章:解决配置过程中的各种"疑难杂症"
问题1:访问llms.txt跳转到首页
这是最常见的问题。你满怀期待地输入dashen.wang/llms.txt
,结果——唰的一下跳回首页了。我当时也遇到了,后来发现是WordPress的URL重写规则把llms.txt当成了"不存在的页面"。
解决方案(按顺序试):
方法一:刷新固定链接(80%管用)
- WordPress后台 → 设置 → 固定链接
- 啥都别改,直接点"保存更改"
- 再访问llms.txt,问题通常就解决了
方法二:修改Nginx配置(如果你用宝塔面板)
- 宝塔面板 → 网站 → 找到你的网站 → 设置
- 点"配置文件"标签
- 找到这段代码:
location / { try_files $uri $uri/ /index.php?$args; }
- 在它前面加上:
location = /llms.txt { try_files $uri =404; add_header Content-Type text/plain; }
location = /llms-full.txt {
try_files $uri =404;
add_header Content-Type text/plain;
}
5. 保存,问题搞定!
### 问题2:Google Search Console显示"Not Indexed"
看到这个状态,很多人第一反应是"完了,网站出问题了!"
**但其实,这正是我们想要的状态!** 😄
为什么?因为:
1. llms.txt默认带noindex标签
2. 它包含网站内容摘要,如果被Google索引会造成重复内容
3. AI不需要通过Google搜索找到它,直接访问URL就行
| 状态 | 含义 | 是否正常 |
|------|------|---------|
| **Pending** | 等待爬取 | ✅ 正常(新文件) |
| **Crawled, Not Indexed** | 已爬取但未索引 | ✅ 完美状态! |
| **Indexed** | 已被索引 | ⚠️ 可能有SEO风险 |
| **404 Error** | 文件不存在 | ❌ 需要修复 |
所以看到"Not Indexed",别慌,这说明配置是对的!
### 问题3:robots.txt该怎么配置?
llms.txt创建好了,robots.txt也要跟上。很多人不知道该写什么,导致AI访问不了。
**推荐配置(直接复制):**
```robots
# Robots.txt for dashen.wang
# Last updated: 2025-09-25
# ================================
# AI Crawlers - llms.txt访问规则
# ================================
# 允许所有AI访问llms.txt(推荐)
User-agent: *
Allow: /llms.txt
Allow: /llms-full.txt
# ================================
# WordPress标准规则
# ================================
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
# ================================
# Sitemap
# ================================
Sitemap: https://dashen.wang/sitemap.xml
# 注意:llms.txt不应加入sitemap
重点提醒:
- ✅ 一定要有
Allow: /llms.txt
这行 - ❌ 不要把llms.txt加入sitemap.xml
- ✅ 如果想限制AI训练,可以单独设置每个AI爬虫
限制AI训练的配置:
# OpenAI - 允许推理,禁止训练
User-agent: GPTBot
Disallow: /
Allow: /llms.txt
Allow: /llms-full.txt
# Anthropic Claude
User-agent: ClaudeBot
Disallow: /
Allow: /llms.txt
Allow: /llms-full.txt
# Google Gemini
User-agent: Google-Extended
Disallow: /
Allow: /llms.txt
这样配置后,AI可以读取llms.txt来回答用户问题,但不能用你的内容训练模型。
问题4:AI爬虫检测是否要开启?
插件有个"AI Crawler Detection"功能,问你要不要记录AI访问。
我的建议:果断开启! ✅
开启后你能看到:
- 🤖 哪些AI访问了你的llms.txt(GPTBot、ClaudeBot等)
- ⏰ 什么时间访问的
- 📊 访问频率统计
而且完全安全:
- 数据是加密和匿名的
- 只记录机器人名称、时间、域名哈希
- 不收集内容或个人信息
- 不影响网站性能
就像在餐厅门口装个客流统计器,知道哪些顾客来过,有啥不好的?而且这数据还能帮你优化内容策略!
第四章:配置完成后的验证和优化
验证llms.txt是否正常工作
配置完了,怎么知道有没有成功?做这几个测试:
测试1:直接访问
打开浏览器,输入:https://你的网站.com/llms.txt
应该看到类似这样的内容:
# 网站名称
> 网站描述
## 页面
- [关于我们](URL): 描述
- [联系方式](URL): 描述
## 文章
- [文章标题1](URL): 摘要
- [文章标题2](URL): 摘要
...
测试2:检查HTTP响应头
curl -I https://你的网站.com/llms.txt
应该看到:
HTTP/1.1 200 OK
Content-Type: text/plain
X-Robots-Tag: noindex ← 有这个最好
测试3:用AI工具测试
最直接的验证方式——问AI!
打开ChatGPT或Claude,输入:
请访问 https://你的网站.com/llms.txt 并告诉我这个网站是关于什么的
如果AI能准确描述你的网站内容,说明llms.txt工作正常! 🎉
性能优化建议
配置好基础功能后,还可以做这些优化:
1. 控制文件大小
llms.txt太大会影响AI加载速度。理想大小:
- 📄 50-500KB – 最佳范围
- ⚠️ 超过1MB – 考虑减少内容
- ❌ 超过5MB – AI可能处理不过来
如何减小?
- 减少Maximum posts per type(从50降到30)
- 减少Maximum words(从300降到200)
- 取消勾选"Include detailed content",只保留摘要
2. 定期更新内容
网站内容更新了,llms.txt也要跟上。在Advanced Settings里设置更新频率:
网站类型 | 推荐频率 | 理由 |
---|---|---|
新闻站 | Hourly | 内容变化快 |
博客 | Daily | 平衡更新和性能 |
企业官网 | Weekly | 内容很少变化 |
3. 监控AI访问情况
定期查看AI Crawler Detection的数据:
- 📈 访问量突然增加?可能某个AI开始重视你的内容了
- 📉 长期无访问?检查robots.txt配置
- 🤖 只有某些AI访问?考虑是否限制了其他AI
常见疑问解答
Q: llms.txt会影响SEO吗?
A: 不会!前提是保持noindex状态。它就像网站的"内部资料",给AI看但不参与搜索排名。
Q: 不装插件能手动创建吗?
A: 可以!创建一个文本文件,按照格式写好内容,上传到网站根目录即可。但插件的好处是自动更新、自动生成链接。
Q: 是否所有AI都会遵守robots.txt?
A: 大厂(OpenAI、Anthropic、Google)通常遵守,但不是所有AI都这么规矩。这也是为什么noindex很重要。
Q: llms.txt和sitemap.xml冲突吗?
A: 不冲突!它们服务不同对象。sitemap给搜索引擎看,llms.txt给AI看。就像餐厅的大众点评页面和外卖平台页面,都需要但内容侧重不同。
Q: 能不能让AI只引用不训练?
A: 可以!在robots.txt里单独配置每个AI爬虫,Disallow: /
但Allow: /llms.txt
。不过注意,这只是"君子协定",不是100%保证。
写在最后
从最初看到"Not Indexed"的慌张,到现在熟练配置llms.txt,这一路走来确实学到不少。这个新标准虽然还不是"官方认证",但AI时代的到来已经不可阻挡。
与其被动等待,不如主动拥抱变化。就像当年移动互联网兴起,早做响应式设计的网站现在都尝到了甜头。llms.txt也一样,虽然现在看起来是"锦上添花",但谁知道明年、后年会不会变成"必备配置"呢?
况且配置过程并不复杂,跟着这篇文章一步步操作,半小时就能搞定。投入这点时间,换来的是你的网站在AI眼中更清晰的形象,何乐而不为?
现在就去给你的WordPress网站加上llms.txt吧!未来某一天,当你的内容被AI准确引用、被更多人看到的时候,你会感谢今天的自己。💪
快速行动清单:
- [ ] 安装PHP mbstring扩展
- [ ] 安装WordPress LLMS.txt插件
- [ ] 配置Content Settings(30篇文章,250字)
- [ ] 设置Advanced Settings(全不勾选)
- [ ] 填写Custom Content
- [ ] 更新robots.txt(允许访问llms.txt)
- [ ] 测试访问 yoursite.com/llms.txt
- [ ] 开启AI Crawler Detection
- [ ] 用AI工具验证效果
每完成一项,就打个勾。全部完成后,你的网站就正式进入"AI友好"时代了!🚀