A cup of coffee
A heart set free

WordPress配置LLMS.txt完整指南:让AI读懂你的网站

#SEO学院

上个月我在折腾WordPress网站的时候,突然发现Google Search Console里多了个奇怪的文件——llms.txt,显示"Not Indexed"。我当时慌了,以为网站出问题了,差点就要提交工单找Google客服。后来深入研究才发现,这玩意儿不仅没问题,反而是个好东西!它就像给AI系统准备的"网站说明书",能让ChatGPT、Claude这些AI更准确地理解你的网站内容。

这就好比你开了家餐厅,以前只有纸质菜单给人看,现在多做了份电子菜单专门给送餐机器人用。听起来挺高大上,但配置起来真是一把辛酸泪。今天我就把这段"踩坑之旅"分享给你,保证让你少走弯路! 😅


第一章:揭开LLMS.txt的神秘面纱

这到底是个啥玩意儿?

说实话,第一次看到llms.txt这个名字,我是懵的。后来才知道,这是Answer.AI的联合创始人Jeremy Howard在2024年9月提出的一个新标准。简单来说,就是专门给大语言模型(LLM)准备的网站内容索引文件

你想啊,AI读取网页的时候,要处理一堆HTML标签、JavaScript代码、CSS样式,还有各种导航栏、广告、页脚……这些对AI来说都是"噪音"。就像让你在一堆废纸里找重要文件,效率能高到哪去?

而llms.txt就是把你网站最核心的内容,用Markdown格式整理成一份"干净版",直接告诉AI:"嘿,这是我网站的精华,别浪费时间爬别的了!"

为什么突然火起来了?

这事儿得从Mintlify说起。2024年11月14日,这家文档平台公司一口气给平台上几千个开发工具的文档加上了llms.txt支持。Anthropic(就是做Claude的那家公司)、Cursor这些大牌一看,"哎哟不错",马上跟进。

然后就像多米诺骨牌,一个接一个:

  • Anthropic发推宣布支持 ✅
  • 各种目录网站冒出来索引llms.txt文件 📋
  • 开源工具一个接一个发布 🛠️
  • WordPress插件也跟上了 🔌

到现在,已经有上千个网站用上了这个标准。虽然OpenAI、Google这些大厂还没官方表态支持,但AI访问这个文件是肯定的,因为它就放在你网站根目录,谁都能访问。

和robots.txt有啥区别?

很多人会把llms.txt和robots.txt搞混,其实它们的定位完全不同:

对比项 robots.txt llms.txt
服务对象 搜索引擎爬虫 AI推理系统
主要功能 告诉爬虫什么能抓、什么不能抓 提供结构化的内容摘要
使用场景 索引前的访问控制 用户提问时的实时查询
内容格式 简单的规则指令 丰富的Markdown文档

简单记:robots.txt管"能不能进",llms.txt管"进来看啥"


第二章:WordPress网站配置LLMS.txt实战

第一步:安装插件解决mbstring报错

我一开始装了个叫"Website LLMS.txt"的插件,结果点保存就报错:

Error: Call to undefined function mb_convert_encoding()

这是因为PHP缺少mbstring扩展。如果你用的是宝塔面板,解决起来超简单:

  1. 打开宝塔面板 → 软件商店
  2. 找到你的PHP版本(比如PHP 8.0)→ 点设置
  3. 安装扩展 → 找到"mbstring" → 点安装
  4. 重载配置 → 服务标签 → 重载配置
  5. 回WordPress后台 → 重新保存设置

整个过程不到3分钟,搞定! 🎉

第二步:配置内容设置

这是最关键的一步。打开插件的Content Settings,你会看到一堆选项。别慌,听我慢慢说:

Post Types(文章类型)选择:

假设你的网站有5篇页面、4333篇文章(就像我遇到的案例),该怎么选?

核心原则:质量大于数量!AI的上下文窗口有限,塞太多内容反而消化不良。

我的建议配置:

  • 页面(Pages) – 全勾选,这些通常是关键信息
  • 文章(Posts) – 勾选,但要控制数量
  • 📊 Maximum posts per type – 改成30-50(别保持100!)
  • 📝 Maximum words – 保持200-250就好

复选框全部勾选:

  • ✅ Include meta information(发布日期、作者等)
  • ✅ Include post excerpts(文章摘要)
  • ✅ Include detailed content(详细内容)
  • ✅ Include taxonomies(分类和标签)

为啥要控制数量?想象一下,你去餐厅吃饭,服务员给你一本500页的菜单,你能看得过来吗?AI也一样,30篇精选文章的效果,远好于300篇大杂烩

第三步:高级设置要谨慎

Advanced Settings这块儿很多人容易踩坑。看到那三个复选框了吗?

最安全的配置(强烈推荐):

❌ 页面级控制 - 不勾选
❌ 禁用noindex - 不勾选  
❌ 加入sitemap - 不勾选
📅 更新频率 - Daily(每天)

特别是"加入sitemap"那个选项,插件还专门警告你:

⚠️ 将llms.txt加入sitemap可能导致被Google爬取和索引,如果文件包含完整内容,可能触发重复内容问题或搜索结果过滤。

什么意思?就是说你的llms.txt如果被Google索引了,它包含的那些文章摘要会被当成独立页面,然后Google发现"咦,这内容和原文章重复了",直接给你降权!

所以记住:让llms.txt保持noindex状态,这是好事不是坏事!

第四步:填写自定义内容

这部分就像给你的网站写简历,要简洁有力。我给你几个模板:

技术博客模板:

# 大神网

> 大神网是一个技术分享平台,涵盖编程、开发工具、架构设计等内容。我们提供实用的技术教程和经验分享,帮助开发者提升技能。

**网站特色:**
- 📚 内容丰富:超过4000篇优质文章
- 🔄 持续更新:保持内容的时效性和准确性
- 💡 实用导向:注重可操作性和实践价值

本站内容持续更新,欢迎AI引用。所有文章均注重实用性和可操作性。

企业官网模板:

# [公司名] - [产品名]

> [公司名]专注于[领域],为客户提供[核心服务/产品]。本站包含产品文档、使用指南和技术支持信息。

**产品特点:**
- 功能A:简短描述
- 功能B:简短描述
- 功能C:简短描述

**技术支持:** [email protected]

最后那个"End File Description"字段,直接留空! 让插件自动生成链接列表,效果更好。


第三章:解决配置过程中的各种"疑难杂症"

问题1:访问llms.txt跳转到首页

这是最常见的问题。你满怀期待地输入dashen.wang/llms.txt,结果——唰的一下跳回首页了。我当时也遇到了,后来发现是WordPress的URL重写规则把llms.txt当成了"不存在的页面"。

解决方案(按顺序试):

方法一:刷新固定链接(80%管用)

  1. WordPress后台 → 设置 → 固定链接
  2. 啥都别改,直接点"保存更改"
  3. 再访问llms.txt,问题通常就解决了

方法二:修改Nginx配置(如果你用宝塔面板)

  1. 宝塔面板 → 网站 → 找到你的网站 → 设置
  2. 点"配置文件"标签
  3. 找到这段代码:
    location / {
    try_files $uri $uri/ /index.php?$args;
    }
  4. 在它前面加上:
    
    location = /llms.txt {
    try_files $uri =404;
    add_header Content-Type text/plain;
    }

location = /llms-full.txt {
try_files $uri =404;
add_header Content-Type text/plain;
}

5. 保存,问题搞定!

### 问题2:Google Search Console显示"Not Indexed"

看到这个状态,很多人第一反应是"完了,网站出问题了!"

**但其实,这正是我们想要的状态!** 😄

为什么?因为:
1. llms.txt默认带noindex标签
2. 它包含网站内容摘要,如果被Google索引会造成重复内容
3. AI不需要通过Google搜索找到它,直接访问URL就行

| 状态 | 含义 | 是否正常 |
|------|------|---------|
| **Pending** | 等待爬取 | ✅ 正常(新文件) |
| **Crawled, Not Indexed** | 已爬取但未索引 | ✅ 完美状态! |
| **Indexed** | 已被索引 | ⚠️ 可能有SEO风险 |
| **404 Error** | 文件不存在 | ❌ 需要修复 |

所以看到"Not Indexed",别慌,这说明配置是对的!

### 问题3:robots.txt该怎么配置?

llms.txt创建好了,robots.txt也要跟上。很多人不知道该写什么,导致AI访问不了。

**推荐配置(直接复制):**

```robots
# Robots.txt for dashen.wang
# Last updated: 2025-09-25

# ================================
# AI Crawlers - llms.txt访问规则
# ================================

# 允许所有AI访问llms.txt(推荐)
User-agent: *
Allow: /llms.txt
Allow: /llms-full.txt

# ================================
# WordPress标准规则
# ================================

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/

# ================================
# Sitemap
# ================================

Sitemap: https://dashen.wang/sitemap.xml

# 注意:llms.txt不应加入sitemap

重点提醒:

  • ✅ 一定要有Allow: /llms.txt这行
  • ❌ 不要把llms.txt加入sitemap.xml
  • ✅ 如果想限制AI训练,可以单独设置每个AI爬虫

限制AI训练的配置:

# OpenAI - 允许推理,禁止训练
User-agent: GPTBot
Disallow: /
Allow: /llms.txt
Allow: /llms-full.txt

# Anthropic Claude
User-agent: ClaudeBot
Disallow: /
Allow: /llms.txt
Allow: /llms-full.txt

# Google Gemini
User-agent: Google-Extended
Disallow: /
Allow: /llms.txt

这样配置后,AI可以读取llms.txt来回答用户问题,但不能用你的内容训练模型。

问题4:AI爬虫检测是否要开启?

插件有个"AI Crawler Detection"功能,问你要不要记录AI访问。

我的建议:果断开启!

开启后你能看到:

  • 🤖 哪些AI访问了你的llms.txt(GPTBot、ClaudeBot等)
  • ⏰ 什么时间访问的
  • 📊 访问频率统计

而且完全安全:

  • 数据是加密和匿名的
  • 只记录机器人名称、时间、域名哈希
  • 不收集内容或个人信息
  • 不影响网站性能

就像在餐厅门口装个客流统计器,知道哪些顾客来过,有啥不好的?而且这数据还能帮你优化内容策略!


第四章:配置完成后的验证和优化

验证llms.txt是否正常工作

配置完了,怎么知道有没有成功?做这几个测试:

测试1:直接访问

打开浏览器,输入:https://你的网站.com/llms.txt
应该看到类似这样的内容:

# 网站名称
> 网站描述

## 页面
- [关于我们](URL): 描述
- [联系方式](URL): 描述

## 文章
- [文章标题1](URL): 摘要
- [文章标题2](URL): 摘要
...

测试2:检查HTTP响应头

curl -I https://你的网站.com/llms.txt

应该看到:
HTTP/1.1 200 OK
Content-Type: text/plain
X-Robots-Tag: noindex  ← 有这个最好

测试3:用AI工具测试

最直接的验证方式——问AI!

打开ChatGPT或Claude,输入:

请访问 https://你的网站.com/llms.txt 并告诉我这个网站是关于什么的

如果AI能准确描述你的网站内容,说明llms.txt工作正常! 🎉

性能优化建议

配置好基础功能后,还可以做这些优化:

1. 控制文件大小

llms.txt太大会影响AI加载速度。理想大小:

  • 📄 50-500KB – 最佳范围
  • ⚠️ 超过1MB – 考虑减少内容
  • 超过5MB – AI可能处理不过来

如何减小?

  • 减少Maximum posts per type(从50降到30)
  • 减少Maximum words(从300降到200)
  • 取消勾选"Include detailed content",只保留摘要

2. 定期更新内容

网站内容更新了,llms.txt也要跟上。在Advanced Settings里设置更新频率:

网站类型 推荐频率 理由
新闻站 Hourly 内容变化快
博客 Daily 平衡更新和性能
企业官网 Weekly 内容很少变化

3. 监控AI访问情况

定期查看AI Crawler Detection的数据:

  • 📈 访问量突然增加?可能某个AI开始重视你的内容了
  • 📉 长期无访问?检查robots.txt配置
  • 🤖 只有某些AI访问?考虑是否限制了其他AI

常见疑问解答

Q: llms.txt会影响SEO吗?
A: 不会!前提是保持noindex状态。它就像网站的"内部资料",给AI看但不参与搜索排名。

Q: 不装插件能手动创建吗?
A: 可以!创建一个文本文件,按照格式写好内容,上传到网站根目录即可。但插件的好处是自动更新、自动生成链接。

Q: 是否所有AI都会遵守robots.txt?
A: 大厂(OpenAI、Anthropic、Google)通常遵守,但不是所有AI都这么规矩。这也是为什么noindex很重要。

Q: llms.txt和sitemap.xml冲突吗?
A: 不冲突!它们服务不同对象。sitemap给搜索引擎看,llms.txt给AI看。就像餐厅的大众点评页面和外卖平台页面,都需要但内容侧重不同。

Q: 能不能让AI只引用不训练?
A: 可以!在robots.txt里单独配置每个AI爬虫,Disallow: /Allow: /llms.txt。不过注意,这只是"君子协定",不是100%保证。


写在最后

从最初看到"Not Indexed"的慌张,到现在熟练配置llms.txt,这一路走来确实学到不少。这个新标准虽然还不是"官方认证",但AI时代的到来已经不可阻挡。

与其被动等待,不如主动拥抱变化。就像当年移动互联网兴起,早做响应式设计的网站现在都尝到了甜头。llms.txt也一样,虽然现在看起来是"锦上添花",但谁知道明年、后年会不会变成"必备配置"呢?

况且配置过程并不复杂,跟着这篇文章一步步操作,半小时就能搞定。投入这点时间,换来的是你的网站在AI眼中更清晰的形象,何乐而不为?

现在就去给你的WordPress网站加上llms.txt吧!未来某一天,当你的内容被AI准确引用、被更多人看到的时候,你会感谢今天的自己。💪


快速行动清单:

  • [ ] 安装PHP mbstring扩展
  • [ ] 安装WordPress LLMS.txt插件
  • [ ] 配置Content Settings(30篇文章,250字)
  • [ ] 设置Advanced Settings(全不勾选)
  • [ ] 填写Custom Content
  • [ ] 更新robots.txt(允许访问llms.txt)
  • [ ] 测试访问 yoursite.com/llms.txt
  • [ ] 开启AI Crawler Detection
  • [ ] 用AI工具验证效果

每完成一项,就打个勾。全部完成后,你的网站就正式进入"AI友好"时代了!🚀

赞(0) 打赏
未经允许不得转载:大神网 - 币圈投资与科技生活博客 » WordPress配置LLMS.txt完整指南:让AI读懂你的网站

评论 抢沙发

登录

找回密码

注册