vLLM 部落格 | vLLM 是一個用於LLM推理和服務的快速易用庫。

2025年6月30日
MiniMax-M1 混合架構攜手 vLLM：長上下文，快推理
2025年5月12日
推出 vLLM 硬體外掛，來自昇騰NPU的最佳實踐
2025年4月23日
使用 vLLM 加速 RLHF，來自 OpenRLHF 的最佳實踐
2025年4月11日
Transformers 後端在 vLLM 中的整合
2025年4月5日
vLLM 中的 Llama 4
2025年2月24日
PTPC-FP8：在 AMD ROCm 上提升 vLLM 效能
2025年2月21日
推出 AIBrix：一個可擴充套件、經濟高效的 vLLM 控制平面
2025年2月17日
使用 vLLM 進行分散式推理
2025年1月27日
vLLM V1：vLLM 核心架構的一次重大升級
2025年1月27日
在 Llama Stack 中推出 vLLM 推理提供程式
2025年1月21日
使用“vLLM production-stack”在 K8S 中高效能輕鬆部署 vLLM
2025年1月14日
vLLM 中的結構化解碼：簡明入門
2025年1月10日
vLLM 2024 年回顧與 2025 年展望
2025年1月10日
輕鬆安裝和開發 vLLM
2024年10月23日
在 AMD MI300X 上提供 LLM 服務：最佳實踐
2024年10月17日
投機解碼如何將 vLLM 效能提升高達 2.8 倍
2024年9月5日
vLLM v0.6.0：吞吐量提升 2.7 倍，延遲降低 5 倍
2024年7月25日
vLLM 的開放治理與效能路線圖
2024年7月23日
宣佈 vLLM 支援 Llama 3.1
2023年11月14日
關於 vLLM 對比 DeepSpeed-FastGen 的說明
2023年6月20日
vLLM：藉助 PagedAttention 實現簡單、快速且經濟的 LLM 服務