-
MiniMax-M1 混合架構攜手 vLLM:長上下文,快推理
-
推出 vLLM 硬體外掛,來自昇騰NPU的最佳實踐
-
使用 vLLM 加速 RLHF,來自 OpenRLHF 的最佳實踐
-
Transformers 後端在 vLLM 中的整合
-
vLLM 中的 Llama 4
-
PTPC-FP8:在 AMD ROCm 上提升 vLLM 效能
-
推出 AIBrix:一個可擴充套件、經濟高效的 vLLM 控制平面
-
使用 vLLM 進行分散式推理
-
vLLM V1:vLLM 核心架構的一次重大升級
-
在 Llama Stack 中推出 vLLM 推理提供程式
-
使用“vLLM production-stack”在 K8S 中高效能輕鬆部署 vLLM
-
vLLM 中的結構化解碼:簡明入門
-
vLLM 2024 年回顧與 2025 年展望
-
輕鬆安裝和開發 vLLM
-
在 AMD MI300X 上提供 LLM 服務:最佳實踐
-
投機解碼如何將 vLLM 效能提升高達 2.8 倍
-
vLLM v0.6.0:吞吐量提升 2.7 倍,延遲降低 5 倍
-
vLLM 的開放治理與效能路線圖
-
宣佈 vLLM 支援 Llama 3.1
-
關於 vLLM 對比 DeepSpeed-FastGen 的說明
-
vLLM:藉助 PagedAttention 實現簡單、快速且經濟的 LLM 服務