DiffusionGemma
DiffusionGemma 是 Google DeepMind 的一个 26B 开权重语言大模型,采用离散扩散 (discrete diffusion) 生成文字,跳过了传统的逐 token 顺序预测。具体做法:对整个 256-token 块同时去噪,一次出 256 个 token,把 GPU 并行算力吃满,正好契合 GPU 的硬件强项。
2026 年 6 月 10 日以 Apache 2.0 协议发布,基于 Gemma 4 MoE 架构,推理时只激活 3.8B 参数,量化后 18 GB 显存就能装下,单张 H100 上跑到 1,000+ tok/s,是第一个来自一线 AI 实验室的重量级开源 dLLM。
把它想成印刷机:普通大模型像打字机,一个 token 一个 token 往外敲;DiffusionGemma 一次压印整整 256 个。
搜索热度
-
萌芽0–7 天
-
初现 ← 当前8–30 天
-
验证中31–90 天
-
上升91–180 天
-
成熟180 天以上
为什么是现在火?
Google DeepMind 在 2026 年 6 月 10 日发布了 DiffusionGemma,是大型 AI 实验室中第一个开权重的离散扩散大模型。NVIDIA 同日跟进,RTX 和 DGX 平台首日支持。单张 H100 跑到 1,000+ tok/s,Apache 2.0 协议,给本地优先、延迟敏感的 AI 应用打开了一个自回归模型填不上的设计空间。
前景
未来 6 个月的信号走势和商业化节奏。
一线大厂发布的第一个开权重 dLLM;NVIDIA day-1 支持加上 Apache 2.0 协议,生态跟进会很快。
风险 · 输出质量目前还跑不赢标准的 Gemma 4;这个差距迟迟不缩小的话,在非速度敏感场景的普及就会受限。
类比 · gemma-4 · mtp · mercury
-
现在开放权重,NVIDIA API 免费
Apache 2.0 权重已在 HuggingFace 上线;NVIDIA 在 build.nvidia.com 提供免费推理接口。
-
3-6 个月速度敏感型产品入场
内联编辑器、本地代码补全工具和实时聊天应用,这些基于 dLLM 速度优势的产品开始进入市场。
-
6-12 个月质量差距决定天花板
与 Gemma 4 的质量差距缩小,普及面才会扩大;差距持续存在就只能在速度敏感和边缘推理场景站稳。
“DiffusionGemma” 的竞争与机会
三个启发式信号,来自追踪到的搜索词、这个词的变现卡片,还有它的相关词。仅供参考,未经核实。
“DiffusionGemma” 能做的点子
把这个词做成文章、网站、产品、帖子、邮件、视频或课程,随便挑一张卡片就能开干。
覆盖「diffusiongemma vs」和「diffusion vs autoregressive」等搜索词。带基准对比表的常青对比指南,目标读者是在选本地 LLM 方案的开发者。
瞄准「diffusiongemma local setup」和「diffusion llm vllm」搜索词。附 Docker 命令和示例输出的分步教程,开发者上手最快的路径。
填补概念空白:搜到这个词的读者多半没有 discrete diffusion 背景。靠「what is diffusion llm」等搜索词持续带来流量。
双向注意力机制支持 infilling(中间填充,不只是从左往右续写)。瞄准 VS Code 插件市场,在延迟层面和 Copilot 的自回归方案有明显差异。
可视化去噪动画(token 从噪声状态逐渐收敛)是 dLLM 独有的效果,本身就是很好的演示 hook。适合做开源 UI 套件或面向本地模型玩家的 SaaS。
顺序生成和并行生成的直观对比。diffusion「填充」动画天然适合视频,文字难以还原,传播性强。
dLLM 这个品类刚刚起步,一份精选周报现在进场还来得及成为这个领域的标杆。以 DiffusionGemma 发布为起点,逐步覆盖研究进展和微调实践。
Mercury 跑得快,但闭源、只有云端。DiffusionGemma 是 Apache 2.0,18 GB 显存就能跑,RTX 5090 上能到 700 tok/s,diffusion 阵营等的就是这一刻。
DiffusionGemma 发布两天后,.com、.org、.xyz 就被抢注完了。速度敏感的产品,先动者优势就在眼前。
快 4 倍,差 15%。用了七天,写代码、写作、聊天都试过了,现在很清楚哪些任务这个折扣值得接受。
大家在搜什么
来自 Google Suggest 和 Trends 的长尾词。热度和竞争度是估算,仅供参考,未经核实。内容类型由搜索词的写法推断。
“DiffusionGemma” 的搜索结果
现在搜索的人会看到的页面:自然结果在上,有人投广告就显示在那。广告多少是实时的商业化信号。
常见问题
什么是 DiffusionGemma?
DiffusionGemma 是 Google DeepMind 的一个 26B 开权重语言大模型,采用离散扩散 (discrete diffusion) 生成文字,跳过了传统的逐 token 顺序预测。具体做法:对整个 256-token 块同时去噪,一次出 256 个 token,把 GPU 并行算力吃满,正好契合 GPU 的硬件强项。
DiffusionGemma 为什么现在火?
Google DeepMind 在 2026 年 6 月 10 日发布了 DiffusionGemma,是大型 AI 实验室中第一个开权重的离散扩散大模型。NVIDIA 同日跟进,RTX 和 DGX 平台首日支持。单张 H100 跑到 1,000+ tok/s,Apache 2.0 协议,给本地优先、延迟敏感的 AI 应用打开了一个自回归模型填不上的设计空间。
DiffusionGemma 是什么时候出现的?
约于 2026-06-10 公开出现(截至 2026-07-02 约 22 天前)。EarlyTerms 最早于 2026-06-12 记录到信号。
相关词
同一领域里的其他词:别名、子类、竞品,以及值得接着看的邻近词。
- 属于 Gemma 4 Gemma 4 是 Google DeepMind 第四代开权重多模态模型系列,2026 年 4 月 2 日以 Apache 2.0 协议发布。四个尺寸覆盖手机到数据中心:E2B、E4B、26B Mixture-of-Experts,以及一个 31B… →
- 属于 gemma-4 Gemma 4 是 Google DeepMind 第四代开权重多模态模型系列,2026 年 4 月 2 日以 Apache 2.0 协议发布。四个尺寸覆盖手机到数据中心:E2B、E4B、26B Mixture-of-Experts,以及一个 31B… →
- 相关 mtp MTP (Multi-Token Prediction,多 token 预测) 是一种推理加速技术:用一个轻量级的 drafter 模型同时预测接下来的几个 token,再由更大的目标模型在一次前向传播里集中验证,吞吐量提升 2–3 倍,质量不变。 →
- 相关 dgx-spark DGX Spark 是 NVIDIA 的桌面 AI 超级计算机,售价 $3,000-$4,000,整机重 1.2 kg,核心是 GB10 Grace Blackwell Superchip,配有 128 GB CPU-GPU 统一内存和 1 petaFLOP 的稀疏… →
- 相关 vibe-island Vibe Island 是 macOS 原生的刘海区工具,把 MacBook 的灵动岛 (Dynamic Island) 变成 AI 编程 agent 的状态与审批面板。它同时监听 Claude Code、Codex、Cursor、Gemini CLI 以及另外七款… →
- 相关 gemma-4-12b Gemma 4 12B 是 Google DeepMind 推出的 120 亿参数开放权重多模态模型,最大特点是无编码器架构:文本、图像、音频、视频全部通过同一个纯解码器 Transformer 处理,没有单独的视觉或音频编码器模块。 →
- 相关 mlx MLX 是 Apple 开源的 Apple Silicon 机器学习框架,API 风格和 NumPy、PyTorch 基本一致,但整个 runtime 跑在 Metal 和统一内存架构上,CPU、GPU、Neural Engine 共享同一块内存,张量不需要在它们之间来回拷贝。 →
- 别名
- 属于 ·
- 竞品 ·
来源
这份报告引用的一手链接,点开任意一条都能自己核对。
- 01 DiffusionGemma:文本生成速度提升 4 倍 — Google Blog blog.google ↗
- 02 DiffusionGemma 模型概览 — Google AI for Developers ai.google.dev ↗
- 03 DiffusionGemma:开发者指南 — Google Developers Blog developers.googleblog.com ↗
- 04 DiffusionGemma:首个原生支持 vLLM 的 dLLM — vLLM Blog vllm.ai ↗
- 05 NVIDIA 首日支持 DiffusionGemma,覆盖 RTX 和 DGX — NVIDIA Blog blogs.nvidia.com ↗
- 06 DiffusionGemma:文本生成速度提升 4 倍 — Hacker News 讨论 (323 分) news.ycombinator.com ↗
- 07 DiffusionGemma — Google DeepMind 模型页 deepmind.google ↗