vLLM 部落格
  • 2025年6月30日

    MiniMax-M1 混合架構攜手 vLLM:長上下文,快推理

  • 2025年5月12日

    推出 vLLM 硬體外掛,來自昇騰NPU的最佳實踐

  • 2025年4月23日

    使用 vLLM 加速 RLHF,來自 OpenRLHF 的最佳實踐

  • 2025年4月11日

    Transformers 後端在 vLLM 中的整合

  • 2025年4月5日

    vLLM 中的 Llama 4

  • 2025年2月24日

    PTPC-FP8:在 AMD ROCm 上提升 vLLM 效能

  • 2025年2月21日

    推出 AIBrix:一個可擴充套件、經濟高效的 vLLM 控制平面

  • 2025年2月17日

    使用 vLLM 進行分散式推理

  • 2025年1月27日

    vLLM V1:vLLM 核心架構的一次重大升級

  • 2025年1月27日

    在 Llama Stack 中推出 vLLM 推理提供程式

  • 2025年1月21日

    使用“vLLM production-stack”在 K8S 中高效能輕鬆部署 vLLM

  • 2025年1月14日

    vLLM 中的結構化解碼:簡明入門

  • 2025年1月10日

    vLLM 2024 年回顧與 2025 年展望

  • 2025年1月10日

    輕鬆安裝和開發 vLLM

  • 2024年10月23日

    在 AMD MI300X 上提供 LLM 服務:最佳實踐

  • 2024年10月17日

    投機解碼如何將 vLLM 效能提升高達 2.8 倍

  • 2024年9月5日

    vLLM v0.6.0:吞吐量提升 2.7 倍,延遲降低 5 倍

  • 2024年7月25日

    vLLM 的開放治理與效能路線圖

  • 2024年7月23日

    宣佈 vLLM 支援 Llama 3.1

  • 2023年11月14日

    關於 vLLM 對比 DeepSpeed-FastGen 的說明

  • 2023年6月20日

    vLLM:藉助 PagedAttention 實現簡單、快速且經濟的 LLM 服務

訂閱

  • © 2025. vLLM 團隊。保留所有權利。

vLLM 是一個用於LLM推理和服務的快速易用庫。