100万token,约75万汉字。现在,这个量级的上下文处理不再需要额外付费。

从4K到32K、128K,再到今天的1M,大模型的"记忆容量"战争打了两年。每个厂商都在卷上下文窗口,但定价策略却走向了两条路:有人把长文本做成高端增值服务,有人选择规模效应压低边际成本。

3月16日,Anthropic宣布Claude Sonnet 4.6和Opus 4.6的1M token上下文窗口正式全面可用。最关键的是——按标准定价,无长文本溢价。

Anthropic的"核弹"

这次更新的核心有三个点:

无溢价定价。 处理1M token和1K token的单价完全相同。对比竞品:Gemini 3.1 Pro超过20万token需加价,GPT-5.4超过27万token同样有额外收费。Anthropic选择用规模效应摊薄成本,而不是把长文本当成"高级功能"。

全模型覆盖。 不是某个高端型号独占,而是Sonnet和Opus全系支持。这意味着开发者可以在性价比和性能之间自由选择,而不用担心上下文长度限制。

即时可用。 不是预览版、不是waitlist,而是直接开放给所有用户。

Anthropic的商业逻辑很清晰:长上下文不是奢侈品,而是基础设施。当边际成本足够低,薄利多销比"功能税"更能建立生态护城河。

对开发者意味着什么

RAG架构的终结?

这是很多开发者的第一反应。如果模型能"记住"整个知识库,为什么还需要检索增强生成?

现实比理论复杂。

RAG仍然有价值的场景:

  • 实时数据:股票价格、新闻资讯,上下文窗口再大也存不了"未来"
  • 隐私合规:企业数据不能发送到云端,本地检索+小模型生成
  • 成本敏感:1M token虽然不加价,但输入成本依然存在

“全量喂入"成为新常态的场景:

  • 代码库理解:把整个项目喂给模型,无需复杂的文件切分
  • 长文档分析:法律合同、学术论文,一次读完直接对话
  • 多轮深度对话:用户历史交互全部保留,上下文不再是"滑动窗口”

我的判断:RAG不会消失,但会从"默认方案"变成"特定场景方案"。很多原本需要复杂检索逻辑的应用,现在可以简化为"直接塞进去"。

Prompt Engineering 2.0

当上下文从几千token扩展到百万级,提示词工程也需要升级。

旧范式: 精心设计系统提示,压缩指令,最大化利用有限窗口。

新范式: 结构化组织海量上下文。如何在100万token中让模型找到关键信息?如何避免"中间迷失"(模型更容易关注开头和结尾)?这些问题将成为新的技术挑战。

实用建议:

  • 重要信息放在开头或结尾
  • 使用清晰的分隔符和结构标记
  • 对于超长文档,可以在关键段落前后添加"路标"提示

行业格局预判

三大厂商的策略差异越来越明显:

厂商策略逻辑
Anthropic无溢价长上下文规模效应,生态绑定
Google分层收费云端捆绑,企业付费意愿高
OpenAI功能锁定模型能力差异化,高利润优先

Anthropic在赌一件事:当开发者习惯了"无限上下文",就很难再回到"切分+检索"的复杂架构。这是一种生态锁定——不是技术绑定,而是心智绑定。

对中小创业公司来说,这是利好。原本需要搭建复杂RAG系统的场景,现在可以更低成本实现。AI应用的"原型验证"门槛进一步降低。

未来6个月,我预计会看到:

  • 大量"全量喂入"类应用涌现
  • RAG框架开始强调"混合架构"(部分检索+大上下文)
  • 新的长上下文评测基准出现,验证模型在超长文本中的真实表现

写在最后

长上下文不再是奢侈品,而是标配。

这个变化的深远影响可能超出我们今天的想象。当AI可以"记住一切",人机交互的范式会发生什么变化?知识管理、创意写作、代码开发……每个领域都可能被重新定义。

一个开放问题:你准备好把整个代码库或知识库直接喂给AI了吗?


参考链接:

  • Anthropic官方公告:https://www.anthropic.com/news/claude-1m-context
  • Claude定价页面:https://www.anthropic.com/pricing