WordPress配置LLMS.txt完整指南：让AI读懂你的网站-大神网

上个月我在折腾WordPress网站的时候，突然发现Google Search Console里多了个奇怪的文件——llms.txt，显示"Not Indexed"。我当时慌了，以为网站出问题了，差点就要提交工单找Google客服。后来深入研究才发现，这玩意儿不仅没问题，反而是个好东西！它就像给AI系统准备的"网站说明书"，能让ChatGPT、Claude这些AI更准确地理解你的网站内容。

这就好比你开了家餐厅，以前只有纸质菜单给人看，现在多做了份电子菜单专门给送餐机器人用。听起来挺高大上，但配置起来真是一把辛酸泪。今天我就把这段"踩坑之旅"分享给你，保证让你少走弯路！ 😅

第一章：揭开LLMS.txt的神秘面纱

这到底是个啥玩意儿？

说实话，第一次看到llms.txt这个名字，我是懵的。后来才知道，这是Answer.AI的联合创始人Jeremy Howard在2024年9月提出的一个新标准。简单来说，就是专门给大语言模型（LLM）准备的网站内容索引文件。

你想啊，AI读取网页的时候，要处理一堆HTML标签、JavaScript代码、CSS样式，还有各种导航栏、广告、页脚……这些对AI来说都是"噪音"。就像让你在一堆废纸里找重要文件，效率能高到哪去？

而llms.txt就是把你网站最核心的内容，用Markdown格式整理成一份"干净版"，直接告诉AI："嘿，这是我网站的精华，别浪费时间爬别的了！"

为什么突然火起来了？

这事儿得从Mintlify说起。2024年11月14日，这家文档平台公司一口气给平台上几千个开发工具的文档加上了llms.txt支持。Anthropic（就是做Claude的那家公司）、Cursor这些大牌一看，"哎哟不错"，马上跟进。

然后就像多米诺骨牌，一个接一个：

Anthropic发推宣布支持 ✅
各种目录网站冒出来索引llms.txt文件 📋
开源工具一个接一个发布 🛠️
WordPress插件也跟上了 🔌

到现在，已经有上千个网站用上了这个标准。虽然OpenAI、Google这些大厂还没官方表态支持，但AI访问这个文件是肯定的，因为它就放在你网站根目录，谁都能访问。

和robots.txt有啥区别？

很多人会把llms.txt和robots.txt搞混，其实它们的定位完全不同：

对比项	robots.txt	llms.txt
服务对象	搜索引擎爬虫	AI推理系统
主要功能	告诉爬虫什么能抓、什么不能抓	提供结构化的内容摘要
使用场景	索引前的访问控制	用户提问时的实时查询
内容格式	简单的规则指令	丰富的Markdown文档

简单记：robots.txt管"能不能进"，llms.txt管"进来看啥"。

第二章：WordPress网站配置LLMS.txt实战

第一步：安装插件解决mbstring报错

我一开始装了个叫"Website LLMS.txt"的插件，结果点保存就报错：

Error: Call to undefined function mb_convert_encoding()

这是因为PHP缺少mbstring扩展。如果你用的是宝塔面板，解决起来超简单：

打开宝塔面板 → 软件商店
找到你的PHP版本（比如PHP 8.0）→ 点设置
安装扩展 → 找到"mbstring" → 点安装
重载配置 → 服务标签 → 重载配置
回WordPress后台 → 重新保存设置

整个过程不到3分钟，搞定！ 🎉

第二步：配置内容设置

这是最关键的一步。打开插件的Content Settings，你会看到一堆选项。别慌，听我慢慢说：

Post Types（文章类型）选择：

假设你的网站有5篇页面、4333篇文章（就像我遇到的案例），该怎么选？

核心原则：质量大于数量！AI的上下文窗口有限，塞太多内容反而消化不良。

我的建议配置：

✅ 页面（Pages） – 全勾选，这些通常是关键信息
✅ 文章（Posts） – 勾选，但要控制数量
📊 Maximum posts per type – 改成30-50（别保持100！）
📝 Maximum words – 保持200-250就好

复选框全部勾选：

✅ Include meta information（发布日期、作者等）
✅ Include post excerpts（文章摘要）
✅ Include detailed content（详细内容）
✅ Include taxonomies（分类和标签）

为啥要控制数量？想象一下，你去餐厅吃饭，服务员给你一本500页的菜单，你能看得过来吗？AI也一样，30篇精选文章的效果，远好于300篇大杂烩。

第三步：高级设置要谨慎

Advanced Settings这块儿很多人容易踩坑。看到那三个复选框了吗？

最安全的配置（强烈推荐）：

❌ 页面级控制 - 不勾选
❌ 禁用noindex - 不勾选  
❌ 加入sitemap - 不勾选
📅 更新频率 - Daily（每天）

特别是"加入sitemap"那个选项，插件还专门警告你：

⚠️ 将llms.txt加入sitemap可能导致被Google爬取和索引，如果文件包含完整内容，可能触发重复内容问题或搜索结果过滤。

什么意思？就是说你的llms.txt如果被Google索引了，它包含的那些文章摘要会被当成独立页面，然后Google发现"咦，这内容和原文章重复了"，直接给你降权！

所以记住：让llms.txt保持noindex状态，这是好事不是坏事！

第四步：填写自定义内容

这部分就像给你的网站写简历，要简洁有力。我给你几个模板：

技术博客模板：

# 大神网

> 大神网是一个技术分享平台，涵盖编程、开发工具、架构设计等内容。我们提供实用的技术教程和经验分享，帮助开发者提升技能。

**网站特色：**
- 📚 内容丰富：超过4000篇优质文章
- 🔄 持续更新：保持内容的时效性和准确性
- 💡 实用导向：注重可操作性和实践价值

本站内容持续更新，欢迎AI引用。所有文章均注重实用性和可操作性。

企业官网模板：

# [公司名] - [产品名]

> [公司名]专注于[领域]，为客户提供[核心服务/产品]。本站包含产品文档、使用指南和技术支持信息。

**产品特点：**
- 功能A：简短描述
- 功能B：简短描述
- 功能C：简短描述

**技术支持：** [email protected]

最后那个"End File Description"字段，直接留空！ 让插件自动生成链接列表，效果更好。

第三章：解决配置过程中的各种"疑难杂症"

问题1：访问llms.txt跳转到首页

这是最常见的问题。你满怀期待地输入dashen.wang/llms.txt，结果——唰的一下跳回首页了。我当时也遇到了，后来发现是WordPress的URL重写规则把llms.txt当成了"不存在的页面"。

解决方案（按顺序试）：

方法一：刷新固定链接（80%管用）

WordPress后台 → 设置 → 固定链接
啥都别改，直接点"保存更改"
再访问llms.txt，问题通常就解决了

方法二：修改Nginx配置（如果你用宝塔面板）

宝塔面板 → 网站 → 找到你的网站 → 设置
点"配置文件"标签

找到这段代码：

location / {
try_files $uri $uri/ /index.php?$args;
}

在它前面加上：


location = /llms.txt {
try_files $uri =404;
add_header Content-Type text/plain;
}

location = /llms-full.txt {
try_files $uri =404;
add_header Content-Type text/plain;
}

5. 保存，问题搞定！

### 问题2：Google Search Console显示"Not Indexed"

看到这个状态，很多人第一反应是"完了，网站出问题了！"

**但其实，这正是我们想要的状态！** 😄

为什么？因为：
1. llms.txt默认带noindex标签
2. 它包含网站内容摘要，如果被Google索引会造成重复内容
3. AI不需要通过Google搜索找到它，直接访问URL就行

| 状态 | 含义 | 是否正常 |
|------|------|---------|
| **Pending** | 等待爬取 | ✅ 正常（新文件） |
| **Crawled, Not Indexed** | 已爬取但未索引 | ✅ 完美状态！ |
| **Indexed** | 已被索引 | ⚠️ 可能有SEO风险 |
| **404 Error** | 文件不存在 | ❌ 需要修复 |

所以看到"Not Indexed"，别慌，这说明配置是对的！

### 问题3：robots.txt该怎么配置？

llms.txt创建好了，robots.txt也要跟上。很多人不知道该写什么，导致AI访问不了。

**推荐配置（直接复制）：**

```robots
# Robots.txt for dashen.wang
# Last updated: 2025-09-25

# ================================
# AI Crawlers - llms.txt访问规则
# ================================

# 允许所有AI访问llms.txt（推荐）
User-agent: *
Allow: /llms.txt
Allow: /llms-full.txt

# ================================
# WordPress标准规则
# ================================

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/

# ================================
# Sitemap
# ================================

Sitemap: https://dashen.wang/sitemap.xml

# 注意：llms.txt不应加入sitemap

重点提醒：

✅ 一定要有Allow: /llms.txt这行
❌ 不要把llms.txt加入sitemap.xml
✅ 如果想限制AI训练，可以单独设置每个AI爬虫

限制AI训练的配置：

# OpenAI - 允许推理，禁止训练
User-agent: GPTBot
Disallow: /
Allow: /llms.txt
Allow: /llms-full.txt

# Anthropic Claude
User-agent: ClaudeBot
Disallow: /
Allow: /llms.txt
Allow: /llms-full.txt

# Google Gemini
User-agent: Google-Extended
Disallow: /
Allow: /llms.txt

这样配置后，AI可以读取llms.txt来回答用户问题，但不能用你的内容训练模型。

问题4：AI爬虫检测是否要开启？

插件有个"AI Crawler Detection"功能，问你要不要记录AI访问。

我的建议：果断开启！ ✅

开启后你能看到：

🤖 哪些AI访问了你的llms.txt（GPTBot、ClaudeBot等）
⏰ 什么时间访问的
📊 访问频率统计

而且完全安全：

数据是加密和匿名的
只记录机器人名称、时间、域名哈希
不收集内容或个人信息
不影响网站性能

就像在餐厅门口装个客流统计器，知道哪些顾客来过，有啥不好的？而且这数据还能帮你优化内容策略！

第四章：配置完成后的验证和优化

验证llms.txt是否正常工作

配置完了，怎么知道有没有成功？做这几个测试：

测试1：直接访问

打开浏览器，输入：https://你的网站.com/llms.txt
应该看到类似这样的内容：

# 网站名称
> 网站描述

## 页面
- [关于我们](URL): 描述
- [联系方式](URL): 描述

## 文章
- [文章标题1](URL): 摘要
- [文章标题2](URL): 摘要
...

测试2：检查HTTP响应头

curl -I https://你的网站.com/llms.txt

应该看到：
HTTP/1.1 200 OK
Content-Type: text/plain
X-Robots-Tag: noindex  ← 有这个最好

测试3：用AI工具测试

最直接的验证方式——问AI！

打开ChatGPT或Claude，输入：

请访问 https://你的网站.com/llms.txt 并告诉我这个网站是关于什么的

如果AI能准确描述你的网站内容，说明llms.txt工作正常！ 🎉

性能优化建议

配置好基础功能后，还可以做这些优化：

1. 控制文件大小

llms.txt太大会影响AI加载速度。理想大小：

📄 50-500KB – 最佳范围
⚠️ 超过1MB – 考虑减少内容
❌ 超过5MB – AI可能处理不过来

如何减小？

减少Maximum posts per type（从50降到30）
减少Maximum words（从300降到200）
取消勾选"Include detailed content"，只保留摘要

2. 定期更新内容

网站内容更新了，llms.txt也要跟上。在Advanced Settings里设置更新频率：

网站类型	推荐频率	理由
新闻站	Hourly	内容变化快
博客	Daily	平衡更新和性能
企业官网	Weekly	内容很少变化

3. 监控AI访问情况

定期查看AI Crawler Detection的数据：

📈 访问量突然增加？可能某个AI开始重视你的内容了
📉 长期无访问？检查robots.txt配置
🤖 只有某些AI访问？考虑是否限制了其他AI

常见疑问解答

Q: llms.txt会影响SEO吗？
A: 不会！前提是保持noindex状态。它就像网站的"内部资料"，给AI看但不参与搜索排名。

Q: 不装插件能手动创建吗？
A: 可以！创建一个文本文件，按照格式写好内容，上传到网站根目录即可。但插件的好处是自动更新、自动生成链接。

Q: 是否所有AI都会遵守robots.txt？
A: 大厂（OpenAI、Anthropic、Google）通常遵守，但不是所有AI都这么规矩。这也是为什么noindex很重要。

Q: llms.txt和sitemap.xml冲突吗？
A: 不冲突！它们服务不同对象。sitemap给搜索引擎看，llms.txt给AI看。就像餐厅的大众点评页面和外卖平台页面，都需要但内容侧重不同。

Q: 能不能让AI只引用不训练？
A: 可以！在robots.txt里单独配置每个AI爬虫，Disallow: /但Allow: /llms.txt。不过注意，这只是"君子协定"，不是100%保证。

写在最后

从最初看到"Not Indexed"的慌张，到现在熟练配置llms.txt，这一路走来确实学到不少。这个新标准虽然还不是"官方认证"，但AI时代的到来已经不可阻挡。

与其被动等待，不如主动拥抱变化。就像当年移动互联网兴起，早做响应式设计的网站现在都尝到了甜头。llms.txt也一样，虽然现在看起来是"锦上添花"，但谁知道明年、后年会不会变成"必备配置"呢？

况且配置过程并不复杂，跟着这篇文章一步步操作，半小时就能搞定。投入这点时间，换来的是你的网站在AI眼中更清晰的形象，何乐而不为？

现在就去给你的WordPress网站加上llms.txt吧！未来某一天，当你的内容被AI准确引用、被更多人看到的时候，你会感谢今天的自己。💪

快速行动清单：

[ ] 安装PHP mbstring扩展
[ ] 安装WordPress LLMS.txt插件
[ ] 配置Content Settings（30篇文章，250字）
[ ] 设置Advanced Settings（全不勾选）
[ ] 填写Custom Content
[ ] 更新robots.txt（允许访问llms.txt）
[ ] 测试访问 yoursite.com/llms.txt
[ ] 开启AI Crawler Detection
[ ] 用AI工具验证效果

每完成一项，就打个勾。全部完成后，你的网站就正式进入"AI友好"时代了！🚀

WordPress配置LLMS.txt完整指南：让AI读懂你的网站

第一章：揭开LLMS.txt的神秘面纱

这到底是个啥玩意儿？

为什么突然火起来了？

和robots.txt有啥区别？

第二章：WordPress网站配置LLMS.txt实战

第一步：安装插件解决mbstring报错

第二步：配置内容设置

第三步：高级设置要谨慎

第四步：填写自定义内容

第三章：解决配置过程中的各种"疑难杂症"

问题1：访问llms.txt跳转到首页

问题4：AI爬虫检测是否要开启？

第四章：配置完成后的验证和优化

验证llms.txt是否正常工作

性能优化建议

常见疑问解答

写在最后

Dashen.Wang 

相关推荐

评论抢沙发

作者介绍

Dashen.Wang

网站统计

切换注册登录

切换登录注册

第一章：揭开LLMS.txt的神秘面纱

这到底是个啥玩意儿？

为什么突然火起来了？

和robots.txt有啥区别？

第二章：WordPress网站配置LLMS.txt实战

第一步：安装插件解决mbstring报错

第二步：配置内容设置

第三步：高级设置要谨慎

第四步：填写自定义内容

第三章：解决配置过程中的各种"疑难杂症"

问题1：访问llms.txt跳转到首页

问题4：AI爬虫检测是否要开启？

第四章：配置完成后的验证和优化

验证llms.txt是否正常工作

性能优化建议

常见疑问解答

写在最后

Dashen.Wang

相关推荐

评论 抢沙发

作者介绍

Dashen.Wang

网站统计

切换注册登录

切换登录注册

Dashen.Wang 

评论抢沙发