Unlimited OCR
Unlimited OCR 是百度开源的一个 30 亿参数模型,可以把多页文档在一次推理里扫完,不需要传统 OCR 管道那种逐页切片再拼接的做法。核心技术是 Reference Sliding Window Attention (R-SWA),让 KV cache 的大小不随输出长度增长。
百度在 2026 年 6 月 22 日 以 MIT 协议发布了模型和论文 "Unlimited OCR Works: Welcome the Era of One-shot Long-horizon Parsing"。在 OmniDocBench v1.6 上,它跑出了 93.92% 的准确率,比 DeepSeek OCR 高 6 分以上,可以在 32K token 上下文里一次性处理 40 页以上的 PDF。
法律团队要处理 50 页合同,直接用 Ollama 本地跑 `baidu/Unlimited-OCR`,模型一口气吃下整份 PDF 图像,表格、公式、密集文本都能提取出来,布局感知全程连贯,输出结构化 Markdown。不用对齐页面边界,也没有上下文中途断掉的问题。
可以把它想成扫描仪的「过目不忘」:对着整叠纸看一遍,然后原样写出来。
百度只发了模型,没提供托管 API,这个口子目前还空着。对想做出海产品的 builder,把 Unlimited OCR 封装成按页计费的 SaaS 是最直接的切入点,而且百度自己不会来填这个产品形态。
搜索热度
-
萌芽0–7 天
-
初现 ← 当前8–30 天
-
验证中31–90 天
-
上升91–180 天
-
成熟180 天以上
为什么是现在火?
百度在 2026 年 6 月 22 日发布了 Unlimited OCR,解决了 KV cache 随页数暴增的问题。以前这个问题逼着每个长文档 OCR 管道都得按页切片。MIT 协议加 Ollama/vLLM 兼容,团队不需要托管 API 就能换上它,OmniDocBench v1.6 的 93.92% 比 DeepSeek OCR 高 6 分以上。
前景
未来 6 个月的信号走势和商业化节奏。
MIT 协议、Ollama/vLLM 支持,加上定长内存的长文档解析,企业文档处理这个坑确实是真空的。
风险 · 没有托管 API,团队得自己架 GPU,能用到的人就限于有基础设施能力的买家。
类比 · deepseek-ocr · mistral-ocr · surya
-
现在自托管管道工具
把模型封装成 REST API,卖给要从云端 OCR 供应商迁出来的文档团队。
-
3-6 个月托管 API + 对比内容
第一批托管 API 封装 SaaS 上线,同时抢占「unlimited ocr vs mistral ocr」类搜索词的排名。
-
6-12 个月企业合同解析
法律、合规、金融垂直行业开始大规模采用长文档 OCR 管道。
“Unlimited OCR” 的竞争与机会
三个启发式信号,来自追踪到的搜索词、这个词的变现卡片,还有它的相关词。仅供参考,未经核实。
“Unlimited OCR” 能做的点子
把这个词做成文章、网站、产品、帖子、邮件、视频或课程,随便挑一张卡片就能开干。
搜索意图明确,autocomplete 里「unlimited ocr api」和「unlimited ocr vs」已经在成形。覆盖准确率、成本、自托管 vs API 的取舍。
教程需求是即时的,48 小时 45k HF 下载量就是开发者跟进的信号。瞄准「unlimited ocr free」和「unlimited ocr pdf」的长尾搜索。
SEO 空缺:这个技术名词是新的,目前几乎没有解读内容,能捕获 ML 工程师搜「R-SWA unlimited ocr」和「constant KV cache OCR」的流量。
百度没提供托管 API,这里有个大口子:面向不想自己架 GPU 的 OCR 团队,文档量大的业务可以直接跑通订阅收入。
把 Unlimited OCR 的长文档准确率和下游向量索引接在一起,面向要从 AWS Textract 或 Azure Document Intelligence 迁出来的法律、合规和研究团队。
这个品类正在快速成型,社区维护的 benchmark 跟踪站能填上散落各处的博客帖子留下的空白,还能捕获大量对比长尾搜索词。
视觉形式适合做对比,直接把输出结果并排展示,在开发者和法律科技社区里传播度高。
其他所有长文档 OCR 系统都把 PDF 按页切开,各页独立处理,再把结果拼回来。Unlimited OCR 一次跑完,KV cache 不会随之增长。
unlimitedocr.com 是百度发论文当天就被注册的。第二天 .org 和 .xyz 也没了。这个模型拿到 5k star 的时候,大多数人还没来得及看完摘要。
AWS Textract 按页收费。Azure Document Intelligence 按页收费。Unlimited OCR 收 $0,跑在你自己的 GPU 上,MIT 协议,在标准 benchmark 上准确率对得上。
大家在搜什么
来自 Google Suggest 和 Trends 的长尾词。热度和竞争度是估算,仅供参考,未经核实。内容类型由搜索词的写法推断。
“Unlimited OCR” 的搜索结果
现在搜索的人会看到的页面:自然结果在上,有人投广告就显示在那。广告多少是实时的商业化信号。
常见问题
什么是 Unlimited OCR?
Unlimited OCR 是百度开源的一个 30 亿参数模型,可以把多页文档在一次推理里扫完,不需要传统 OCR 管道那种逐页切片再拼接的做法。核心技术是 Reference Sliding Window Attention (R-SWA),让 KV cache 的大小不随输出长度增长。
Unlimited OCR 为什么现在火?
百度在 2026 年 6 月 22 日发布了 Unlimited OCR,解决了 KV cache 随页数暴增的问题。以前这个问题逼着每个长文档 OCR 管道都得按页切片。MIT 协议加 Ollama/vLLM 兼容,团队不需要托管 API 就能换上它,OmniDocBench v1.6 的 93.92% 比 DeepSeek OCR 高 6 分以上。
Unlimited OCR 是什么时候出现的?
约于 2026-06-22 公开出现(截至 2026-06-30 约 8 天前)。EarlyTerms 最早于 2026-06-24 记录到信号。
相关词
同一领域里的其他词:别名、子类、竞品,以及值得接着看的邻近词。
- 属于 ·
- 包含
- 竞品 ·
- 相关 ···
来源
这份报告引用的一手链接,点开任意一条都能自己核对。
- 01 baidu/Unlimited-OCR — 官方 GitHub 仓库 github.com ↗
- 02 Unlimited OCR Works — arXiv 论文 (Jun 22, 2026) arxiv.org ↗
- 03 baidu/Unlimited-OCR — Hugging Face 模型页 huggingface.co ↗
- 04 Hacker News — Unlimited OCR: One-shot long-horizon parsing (478 pts) news.ycombinator.com ↗
- 05 AI Weekly — 百度发布 MIT 协议 3B 参数长文档 OCR 模型 aiweekly.co ↗
- 06 Data Science in Your Pocket — 百度 Unlimited OCR:跑赢 DeepSeek OCR,整本书一次解析完 medium.com ↗