100万token,约75万汉字。现在,这个量级的上下文处理不再需要额外付费。
从4K到32K、128K,再到今天的1M,大模型的"记忆容量"战争打了两年。每个厂商都在卷上下文窗口,但定价策略却走向了两条路:有人把长文本做成高端增值服务,有人选择规模效应压低边际成本。
3月16日,Anthropic宣布Claude Sonnet 4.6和Opus 4.6的1M token上下文窗口正式全面可用。最关键的是——按标准定价,无长文本溢价。
Anthropic的"核弹"
这次更新的核心有三个点:
无溢价定价。 处理1M token和1K token的单价完全相同。对比竞品:Gemini 3.1 Pro超过20万token需加价,GPT-5.4超过27万token同样有额外收费。Anthropic选择用规模效应摊薄成本,而不是把长文本当成"高级功能"。
全模型覆盖。 不是某个高端型号独占,而是Sonnet和Opus全系支持。这意味着开发者可以在性价比和性能之间自由选择,而不用担心上下文长度限制。
即时可用。 不是预览版、不是waitlist,而是直接开放给所有用户。
Anthropic的商业逻辑很清晰:长上下文不是奢侈品,而是基础设施。当边际成本足够低,薄利多销比"功能税"更能建立生态护城河。
对开发者意味着什么
RAG架构的终结?
这是很多开发者的第一反应。如果模型能"记住"整个知识库,为什么还需要检索增强生成?
现实比理论复杂。
RAG仍然有价值的场景:
- 实时数据:股票价格、新闻资讯,上下文窗口再大也存不了"未来"
- 隐私合规:企业数据不能发送到云端,本地检索+小模型生成
- 成本敏感:1M token虽然不加价,但输入成本依然存在
“全量喂入"成为新常态的场景:
- 代码库理解:把整个项目喂给模型,无需复杂的文件切分
- 长文档分析:法律合同、学术论文,一次读完直接对话
- 多轮深度对话:用户历史交互全部保留,上下文不再是"滑动窗口”
我的判断:RAG不会消失,但会从"默认方案"变成"特定场景方案"。很多原本需要复杂检索逻辑的应用,现在可以简化为"直接塞进去"。
Prompt Engineering 2.0
当上下文从几千token扩展到百万级,提示词工程也需要升级。
旧范式: 精心设计系统提示,压缩指令,最大化利用有限窗口。
新范式: 结构化组织海量上下文。如何在100万token中让模型找到关键信息?如何避免"中间迷失"(模型更容易关注开头和结尾)?这些问题将成为新的技术挑战。
实用建议:
- 重要信息放在开头或结尾
- 使用清晰的分隔符和结构标记
- 对于超长文档,可以在关键段落前后添加"路标"提示
行业格局预判
三大厂商的策略差异越来越明显:
| 厂商 | 策略 | 逻辑 |
|---|---|---|
| Anthropic | 无溢价长上下文 | 规模效应,生态绑定 |
| 分层收费 | 云端捆绑,企业付费意愿高 | |
| OpenAI | 功能锁定 | 模型能力差异化,高利润优先 |
Anthropic在赌一件事:当开发者习惯了"无限上下文",就很难再回到"切分+检索"的复杂架构。这是一种生态锁定——不是技术绑定,而是心智绑定。
对中小创业公司来说,这是利好。原本需要搭建复杂RAG系统的场景,现在可以更低成本实现。AI应用的"原型验证"门槛进一步降低。
未来6个月,我预计会看到:
- 大量"全量喂入"类应用涌现
- RAG框架开始强调"混合架构"(部分检索+大上下文)
- 新的长上下文评测基准出现,验证模型在超长文本中的真实表现
写在最后
长上下文不再是奢侈品,而是标配。
这个变化的深远影响可能超出我们今天的想象。当AI可以"记住一切",人机交互的范式会发生什么变化?知识管理、创意写作、代码开发……每个领域都可能被重新定义。
一个开放问题:你准备好把整个代码库或知识库直接喂给AI了吗?
参考链接:
- Anthropic官方公告:https://www.anthropic.com/news/claude-1m-context
- Claude定价页面:https://www.anthropic.com/pricing
