CEO应该是最没时间写代码的人。
管理会议、战略决策、投资人沟通……每个职责都在挤压技术实践的空间。但Shopify CEO Tobias Lütke刚刚做了一件让整个技术社区侧目的事:用AI coding agent给一个维护了20年的开源项目提交了93个commit,带来53%的性能提升。
关键不是他写了什么代码,而是他怎么做到的。
一个CEO的重构实验
Liquid是Shopify开源的模板引擎,从2006年至今已经维护了近20年。这是一个成熟、稳定、被广泛使用的项目——也是性能优化的"硬骨头":该优化的早就优化了,剩下的都是难啃的。
Lütke的做法完全颠覆传统:
他不是坐在电脑前逐行审查代码,而是让coding agent批量生成优化方案。每个方案都自动跑完整测试套件,通过性能基准测试的才会被保留。整个过程像在跑科学实验——提出假设、批量验证、择优录取。
结果令人震惊:
- 53%更快的解析渲染
- 61%更少的内存分配
- 93个commit,全部由agent完成
- 零回归问题
这不是AI"辅助写代码",而是AI"自主实验"。Lütke的角色从"写代码的人"变成了"实验的设计者"。
autoresearch模式的工作原理
这种工作方式被称为autoresearch——由Karpathy提出的概念,核心是让AI agent进行大规模并行实验,而不是单线程的人工编码。
核心三要素
要让autoresearch成功,需要三个前提条件:
完善的测试套件。 AI生成的每个优化方案都需要自动验证,测试覆盖率越高,agent越能大胆尝试。Liquid项目有超过1000个测试用例,覆盖了各种边界情况。
清晰的性能指标。 agent需要知道"更好"的定义。是更快的执行速度?更低的内存占用?还是更小的代码体积?Liquid有标准化的性能基准测试,每个优化方案的收益都可以量化。
自动化CI/CD。 不需要人工介入就能验证和提交。Lütke的93个commit都是在agent自动验证通过后直接合并的。
与传统AI编程的区别
传统AI编程是"对话式"的:开发者描述需求,AI生成代码,人来审查和修改。这仍然是"人在循环中"的模式,效率受限于人的审查速度。
autoresearch是"实验式"的:开发者设定目标,AI批量生成方案,自动验证筛选,人只看最终结果。这是"人在循环外"的模式,可以并行处理数百个优化方向。
适用场景
autoresearch不是万能的。它最适合:
- 存量代码改进:成熟项目、遗留系统,有测试但缺乏优化动力
- 性能优化:有明确指标,可以自动验证收益
- 重构迁移:有明确规则,可以批量应用
它不适合:
- 新功能开发:没有历史代码作为实验对象
- 创意性工作:没有客观的"更好"标准
- 高风险场景:测试覆盖不足,无法自动验证
组织结构的深层影响
这个案例揭示了一个趋势:AI coding agent正在改变"谁可以写代码"的定义。
“高打扰角色"的复兴
CEO、CTO、管理者……这些角色的共同特征是被会议和沟通打断,难以进入深度工作状态。传统编程需要连续几小时的专注,这让技术管理者逐渐远离代码实践。
autoresearch改变了这个前提:
你可以在会议间隙设定实验目标,让agent在后台运行。几小时后回来看结果,挑出有价值的方案。整个过程不需要连续专注,只需要"开始"和"验收"两个节点。
Lütke的93个commit可能分散在几周的碎片时间里完成,每次只需要几分钟设定目标和查看结果。
对传统开发者意味着什么
当老板都能用AI写出高质量代码,专业开发者的价值在哪里?
我看到的不是威胁,而是角色升级:
- 从代码生产者变成代码架构师:重点是设计系统、设定边界、定义"更好"的标准
- 从实现者变成验证者:工作重心从"怎么写"变成"写得好不好”
- 从单人作战变成团队指挥:管理agent的"队伍",协调多个优化方向
Lütke没有取代Liquid项目的维护者,而是用AI加速了那些"想做但没时间做"的优化。专业开发者仍然在架构设计、复杂问题解决上不可替代。
一个开放问题
你有没有一个维护多年的老项目?
那些你一直想优化但没时间的代码、那些"能跑就行"的历史遗留、那些因为ROI不够被搁置的技术债务……
autoresearch可能给了你一个重新审视的机会。不是让你重新成为全职程序员,而是让你用碎片时间,让AI帮你完成那些"值得做但没空做"的改进。
Lütke证明了:20年代码库可以,你的项目也可以。
参考链接:
- Liquid优化PR:https://github.com/Shopify/liquid/pull/2056
- Simon Willison的分析:https://simonwillison.net/2026/Mar/13/liquid/
