大模型推理

开源大模型推理优化实战：从vLLM到SGLang的技术演进

推理优化的军备竞赛过去两年，大模型领域最激烈的竞争不只发生在模型层，更发生在推理层。从HuggingFace Transformers的原始实现，到vLLM横空出世，再到SGLang、TensorRT-LLM等框架百花齐放，推理优化的战 …