IndexShare
IndexShare 是一种稀疏注意力 (sparse attention) 的省算力打法:把原本每层都要重新算一遍的 token 选择 indexer,改成几层共用一个,省掉的正是上下文拉到几十万 token 以后占大头的那部分冗余计算。
智谱 AI 旗下的 Z.ai 在 GLM-5.2 技术博客 里公布了这个做法,发布时间是 2026 年 6 月 17 日,离这个 7530 亿参数模型上线只过了 4 天。做法是每 4 层稀疏注意力共用一个 indexer,1M token 上下文下单 token 的 FLOPs 直接砍掉 2.9 倍,同一套共享思路还把 MTP 投机解码的接受长度拉高了最多 20%。
GLM-5.2 把每 4 层稀疏注意力分成一组,共用一个 indexer,不再每层都重新做一遍 top-k 选择。原本每层都要跑的点积 + top-k 计算,现在 4 层只用算一次。智谱 AI 说,正是这一步优化才让 1M token 推理的成本降到能直接把它设成默认上下文窗口。
像送外卖的骑手先把路线摸清楚一次,接下来的四单都照着这条路线走,不用每一单都重新翻地图。
智谱 AI 自己把这项优化写进了英文博客,随后 Raschka 那种硬核架构解读、VentureBeat 的跑分对比也都跟上了——但页面列出的信源里没有一篇中文,这块技术拆解目前中文那边基本是空的。搜索量目前很薄、竞争也低 (页面上是 Google Trends 的粗略估算,别当精确数),现在写还来得及,只是这词技术门槛不低,写的人得真正搞懂稀疏注意力这套架构,写浅了留不住这批读者。
搜索热度
-
萌芽0–7 天
-
初现 ← 当前8–30 天
-
验证中31–90 天
-
上升91–180 天
-
成熟180 天以上
为什么是现在火?
Z.ai 2026 年 6 月 13 日放出的开源权重 GLM-5.2,让 IndexShare 成了今年被讨论最多的注意力效率优化:4 层共用一个稀疏注意力 indexer,1M token 上下文下单 token FLOPs 砍掉 2.9 倍。GLM-5.2 号称编程跑分打平 Claude Opus 4.8、超过 GPT-5.5,API 价格却只是零头,靠的就是这项技术。
前景
未来 6 个月的信号走势和商业化节奏。
智谱这套 indexer 共享打法,赶上了 DeepSeek Sparse Attention 被全行业采纳的这波节奏,两个季度内大概率会有别的实验室做出同类打法、另起一个名字。
风险 · 如果 DSA 这套路线最后输给别的稀疏注意力设计,IndexShare 就只是 GLM 自己的一个小注脚,成不了行业通用词汇。
类比 · MTP (multi-token prediction) · Grouped-Query Attention (GQA) · Mixture-of-Experts (MoE)
-
现在科普内容的搜索结果页还很空
目前只有 ML 博客在写,还没有专门的对比文章或工具类内容。
-
3-6 个月同行实验室开始跟进这套打法
DeepSeek、Kimi、MiniMax 大概率会在下一代模型里试这套 indexer 共享方案。
-
6-12 个月成为架构标配词汇
如果被广泛采用,以后模型对比文章里会像提 MoE、GQA 一样顺手提到它。
“IndexShare” 的竞争与机会 Placeholder
Needs at least one tracked query to compute — run enrich-trends or enrich-autocomplete to populate.
“IndexShare” 能做的点子
把这个词做成文章、网站、产品、帖子、邮件、视频或课程,随便挑一张卡片就能开干。
『IndexShare 是什么』这类大白话搜索词,目前排上去的都是 ML 博客的硬核文章,还没有面向普通读者的深度科普。这个词目前还圈在 Raschka 那种技术长文里,SEO 窗口还是空的。
把 IndexShare 和 Multi-Token Prediction、Grouped-Query Attention 放在一起对比,正好接住工程师选推理框架时常搜的『X vs Y』这类词。
自己搭环境的人在 mlx-lm 上经常撞见『缺少 per-layer indexer params』这个加载报错,得有一篇讲清楚 IndexShare 每层权重要求的实操指南,才能在消费级显卡上把 GLM-5.2 跑起来。
vLLM/SGLang/mlx-lm 用户经常因为缺 per-layer indexer params 而加载失败,还没有明确提示——给独立跑开源模型的基础设施工程师做一个部署前的检查工具,能补上这个坑。
GLM-5.3 还没发布,已经有三家实验室在抄智谱这套 4 层共享 indexer 的打法。
别的头部实验室还在把『1M 上下文』当参数表上的数字卖,GLM-5.2 已经把真正让它跑得起来的那处架构改动做出来了。
我喂给它一个 80 万 token 的代码库,每次响应都拿 Claude Opus 4.8 对照计时,省下来的算力刚好出现在文档说的那些地方,别的地方没有。
大家在搜什么 Placeholder
Long-tail queries to rank for — SERP-verified volumes pending enrichment.
make et-enrich-trends to populate real queries.“IndexShare” 的搜索结果
现在搜索的人会看到的页面:自然结果在上,有人投广告就显示在那。广告多少是实时的商业化信号。
常见问题
什么是 IndexShare?
IndexShare 是一种稀疏注意力 (sparse attention) 的省算力打法:把原本每层都要重新算一遍的 token 选择 indexer,改成几层共用一个,省掉的正是上下文拉到几十万 token 以后占大头的那部分冗余计算。
IndexShare 为什么现在火?
Z.ai 2026 年 6 月 13 日放出的开源权重 GLM-5.2,让 IndexShare 成了今年被讨论最多的注意力效率优化:4 层共用一个稀疏注意力 indexer,1M token 上下文下单 token FLOPs 砍掉 2.9 倍。GLM-5.2 号称编程跑分打平 Claude Opus 4.8、超过 GPT-5.5,API 价格却只是零头,靠的就是这项技术。
IndexShare 是什么时候出现的?
约于 2026-06-17 公开出现(截至 2026-07-04 约 17 天前)。EarlyTerms 最早于 2026-06-18 记录到信号。
相关词
同一领域里的其他词:别名、子类、竞品,以及值得接着看的邻近词。
- 属于 GLM-5.2 GLM-5.2 是智谱 AI(Z.ai)发布的开源 MoE 大模型,744B 参数,专门针对长任务编程和自主工程场景,MIT 协议。其 IndexShare 架构在百万 token 上下文窗口下把单 token 计算量压低了 2.9 倍,超长上下文不是噱头,真能用起来。 →
- 竞品 Claude Opus 4.8 Claude Opus 4.8 是 Anthropic 于 2026 年 5 月 28 日发布的最新旗舰大模型,定价维持不变($5/$25 per million tokens)。相比 Opus 4.7,这版在 agent… →
- 竞品 GPT-5.5 GPT-5.5 是 OpenAI 于 2026 年 4 月 23 日发布的前沿大模型。这是 GPT-4.5 之后首次完整重训的基础模型,此前 GPT-5.x 系列的每个版本都只是在同一套权重上做后训练迭代。这次从头重训,目标是自主完成多步骤的 agentic 任务,单… →
- 竞品 Kimi K2.6 Kimi K2.6 是 Moonshot AI 于 2026 年 4 月 20 日发布的开权重旗舰模型,1T 参数的 Mixture-of-Experts 架构(32B 激活,384 个专家,256K 上下文,原生多模态),在 Hugging Face 以… →
- 竞品 MiniMax-M3 MiniMax M3 是上海 MiniMax (稀宇科技) 发布的一款 428B 参数 MoE 大模型,每次推理激活 22B 参数。它是首个在单一架构里同时具备三项能力的开源权重模型:前沿级代码水平、100 万 token 上下文窗口、原生多模态输入。 →
- 相关 MTP MTP (Multi-Token Prediction,多 token 预测) 是一种推理加速技术:用一个轻量级的 drafter 模型同时预测接下来的几个 token,再由更大的目标模型在一次前向传播里集中验证,吞吐量提升 2–3 倍,质量不变。 →
- 相关 DeepSeek V4 Pro DeepSeek V4 Pro 是 DeepSeek V4 系列的旗舰档:1.6 万亿参数、49 亿激活参数的 MoE 大模型,上下文窗口 100 万 token,MIT 许可开源。截至 2026 年 4 月,这是全球参数量最大的开放权重模型,在编程 benchmark… →
- 相关 Context Window Context window 是大模型在一次推理里能读入和处理的 token 总量上限。2025 到 2026 年间,这个词完成了一次身份转变:从当初「8K 还是 1M」的规格对比项,变成了 agent 团队每次会话都要主动预算、监控、并为之付钱的工程资源。 →
- 相关 Context Rot Context Rot 指大模型输出质量随输入长度增加而出现的可测量衰退,即便提示词还远没触及广告宣传的 context window 上限。模型处理第 10,000 个 token 的可靠程度,远不如处理第 100… →
- 相关 Agentic Coding Agentic coding 是让 AI agent 自主完成开发任务的工作方式:agent 自己规划、写代码、跑测试、读报错、修改,一轮轮迭代直到跑通,不需要人在每一步之间点头。这和 autocomplete 式的「AI pair… →
- 相关 Coding Agents Coding Agents 是一类 AI 编程工具的品类名。这类工具能自主完成代码工作:读仓库、想改法、改文件、跑测试、开 PR,而不是像 2021 年那批 copilot 只在光标处补几行。 →
- 相关 GLM-5.1 GLM-5.1 是 Z.ai 发布的 7540 亿参数开权重大模型,专为 agentic 工程和长周期编程任务设计。它是 GLM-5 的训练后升级版,共用同一套 Mixture-of-Experts Dynamic Sparse Architecture,以 MIT 许可证发布。 →
来源
这份报告引用的一手链接,点开任意一条都能自己核对。
- 01 Z.ai — GLM-5.2: Built for Long-Horizon Tasks (官方博客) z.ai ↗
- 02 Sebastian Raschka — GLM-5.2 的 IndexShare 架构解读笔记 sebastianraschka.com ↗
- 03 MindStudio — 《什么是 Index Share?》 mindstudio.ai ↗
- 04 VentureBeat — Z.ai 开源权重的 GLM-5.2,用六分之一成本打赢 GPT-5.5 venturebeat.com ↗
- 05 Hacker News — 《GLM 5.2 在我们的跑分里赢了 Claude》 news.ycombinator.com ↗
- 06 GitHub zai-org/GLM-5 Issue #94 — IndexShare 压力测试提案 github.com ↗
- 07 PhantomByte — 《1M 上下文的海市蜃楼:IndexShare 到底兑现了什么》 articles.phantom-byte.com ↗