AGENTUPDATE 技术博客

1000usdinchina.com开发总结(8)-多语言 SEO 与 GEO:sitemap、llms.txt 与 AI 引用

1000usdinchina.com开发总结(8)-多语言 SEO 与 GEO:sitemap、llms.txt 与 AI 引用
目录

上线前的最后一步不是功能 —— 是被找到。不只被 Google,还要被 ChatGPT、Perplexity、AI Overviews。 这篇讲一个四语言边缘应用的多语言 SEOGEO(生成式引擎优化):hreflang、sitemap、robots、 llms.txt、AI 引用就绪、分析,以及让这一切保持同步的维护纪律。

这是系列第 8 篇 —— 终篇。

目录

多语言 SEO 基建

四语言意味着每个页面有四个变体,搜索引擎需要知道它们是翻译,不是重复。hreflang 声明这层关系:

<link rel="alternate" hreflang="en" href="https://1000usdinchina.com/en/..." />
<link rel="alternate" hreflang="ja" href="https://1000usdinchina.com/ja/..." />
<link rel="alternate" hreflang="ko" href="https://1000usdinchina.com/ko/..." />
<link rel="alternate" hreflang="x-default" href="https://1000usdinchina.com/en/..." />

第 2 篇的货币耦合在这也关键:每个本地化页面显示 本地货币,这让翻译对该受众是真有用的 —— 一个真实信号,而不是机翻空壳。

sitemap、robots、llms.txt

三个文件告诉爬虫有什么、怎么读:

flowchart LR
    C[内容:100 城 × 4 语] --> SM[sitemap.xml]
    C --> RB[robots.txt]
    C --> LT[llms.txt + llms-full.txt]
    SM --> G[Google / Bing]
    RB --> G
    LT --> AI[ChatGPT / Perplexity / AI Overviews]
  • sitemap.xml —— 每种语言的每条路由,自动生成。
  • robots.txt —— 爬取规则;middleware 把对的根路径加白名单(包括搜索控制台验证文件)。
  • llms.txt + llms-full.txt —— 给 AI 爬虫的、策展过的机器可读站点摘要。llms.txt 是简洁索引; llms-full.txt 是展开版。这是 GEO 版的 sitemap:它告诉 LLM 你的站是什么、什么值得引用。

GEO:被 AI 引擎引用

SEO 让你被排名;GEO 让你被引用。 当有人问 AI「在中国玩一周多少钱」,你希望你的数字成为被引用的 答案。有帮助的:

  • 结构化数据(FAQ、Article schema),让引擎能抽出干净的问答对 —— 正是本系列每篇结尾做的。
  • 可引用、自包含的陈述 —— 一句清楚、不依赖周围页面就能回答问题的话。
  • llms.txt 指向规范的聚合事实(第 3 篇的合规数据)。

GEO 和 SEO 互相加固:干净结构 + 清晰答案,在 Google 排名同时被 AI 引用。

用 SEO skill 审计

审计用 SEO skill 跑,而不是临时检查,两条教训塑造了做法:

  • 抓原始 HTML,不抓渲染代理。 朴素的抓取会吞掉 <head> 标签 —— 正是你要审的 title、meta、 hreflang。读原始 HTML,让审计看到爬虫看到的。
  • 用项目自己的 Lighthouse CI 测性能,而不是需要 key 的外部 API。 第 7 篇的性能卡口兼作 SEO 性能检查。

手动维护的面

这是维护陷阱。加一座城或一个模块时,有些 SEO 面自动更新,有些必须手动改:

自动更新 必须手动更
sitemap.xml llms.txt / llms-full.txt
robots.txt site-stats / hero 统计
RSS 4 个 locale 文案文件(如「100 城」)
meta 描述

漏一个就 ship 出一个矛盾 —— 首页英文说「100 城」,日文还停在「67 城」,被 CI surfaces-check 抓红。 纪律是:一份手动维护面的清单,每次城数或模块集变化都跑一遍。(这正是住在 skill 里的那种制度知识。)

分析与搜索控制台提交

上线清单以测量和提交收尾:

  • Google Analytics 4 经 gtag.js,用 lazyOnload 策略加载,不撑爆 Total Blocking Time 预算 (第 7 篇那场 GA-vs-TBT 之战)。
  • 提交到 Google Search ConsoleBing Webmaster Tools,验证文件在站点根加白名单,让爬虫确认归属。

sitemap 提交、分析上线后,网站正式可被找到 —— 从内容 → sitemap/llms.txt → Google + AI 引擎的 闭环合上了。

要点

  • 多语言 SEO:用 hreflang 声明翻译,让每个 locale 真有用(本地货币),而不是机翻空壳。
  • sitemap + robots 服务搜索引擎;llms.txt + llms-full.txt 服务 AI 爬虫。
  • GEO 是 SEO 的姊妹:结构化数据和可引用陈述让你被 AI 引擎引用。
  • 在原始 HTML 上审计(不用吞 head 的代理),性能复用 Lighthouse CI。
  • 维护一份手动面清单(llms.txt、locale 文案、meta),让各语言计数永不矛盾。
  • 以 GA4(懒加载)和 Search Console / Bing 提交收尾。

常见问题

llms.txt 是什么,我需要吗? 一个告诉 AI 爬虫你的站是什么、什么值得引用的机器可读文件 —— GEO 版的 sitemap.xml。如果你想让 AI 引擎准确呈现你的内容,值得有,搭配展开版 llms-full.txt。

GEO(生成式引擎优化)是什么? 优化内容使其被 ChatGPT、Perplexity、AI Overviews 等 AI 引擎引用 —— 通过结构化数据、可引用的 自包含陈述、llms.txt —— 而不只是在经典搜索里排名。

多语言站点怎么做 SEO? 用 hreflang(加 x-default)声明翻译,生成覆盖每种语言的 sitemap,有意义地本地化(含货币), 并让手动维护的面跨 locale 同步。

怎么把站点提交给 Google 和 Bing? 加验证文件(在站点根加白名单),然后在 Google Search Console 和 Bing Webmaster Tools 提交 sitemap。


回到开头 → 产品与商业故事 · 试用:1000usdinchina.com