
开源大模型推理优化实战:从vLLM到SGLang的技术演进
推理优化的军备竞赛 过去两年,大模型领域最激烈的竞争不只发生在模型层,更发生在推理层。 从HuggingFace Transformers的原始实现,到vLLM横空出世,再到SGLang、TensorRT-LLM等框架百花齐放,推理优化的战 …

推理优化的军备竞赛 过去两年,大模型领域最激烈的竞争不只发生在模型层,更发生在推理层。 从HuggingFace Transformers的原始实现,到vLLM横空出世,再到SGLang、TensorRT-LLM等框架百花齐放,推理优化的战 …

你有没有发现,现在打开一个普通博客首页都要等好几秒?明明只是展示几行文字和图片,加载进度条却要转半天。打开开发者工具一看,吓一跳:十几MB的资源,JavaScript占了一大半。 十年前,网页平均大小不到1MB。现在呢?随随便便就突破 …

CEO应该是最没时间写代码的人。 管理会议、战略决策、投资人沟通……每个职责都在挤压技术实践的空间。但Shopify CEO Tobias Lütke刚刚做了一件让整个技术社区侧目的事:用AI coding agent给一个维护了20年的开 …