我們想與 vLLM 社群分享兩個更新。

vLLM 的未來是開放的

我們很高興看到 vLLM 正在成為 LLM 推理和服務的標準。在最近的 Meta Llama 3.1 公告中,10 個官方即時推理合作伙伴中有 8 個執行 vLLM 作為 Llama 3.1 模型的服務引擎。我們還從非官方渠道瞭解到,vLLM 正被用於我們日常生活中的許多 AI 功能。

我們相信 vLLM 的成功來自於強大的開源社群的力量。vLLM 正在由包括加州大學伯克利分校、Anyscale、AWS、CentML、Databricks、IBM、Neural Magic、Roblox、Snowflake 等多個團體組成的聯盟積極維護。為此,我們希望確保該專案的所有權和治理也是開放和透明的。

我們很高興地宣佈,vLLM 已經啟動了在 LF AI & Data Foundation 中孵化的過程。這意味著任何一方都不會對 vLLM 的未來擁有獨家控制權。許可證和商標將是不可撤銷地開放的。您可以相信 vLLM 將會持續存在,並在未來得到積極的維護和改進。

效能是首要任務

vLLM 的貢獻者們正在加倍努力,以確保 vLLM 成為最快且最易於使用的 LLM 推理和服務引擎。

回顧我們的路線圖,我們將 vLLM 的重點放在六個目標上:廣泛的模型覆蓋、廣泛的硬體支援、頂級的效能、生產就緒、蓬勃發展的開源社群以及可擴充套件的架構。

在我們的效能最佳化目標中,我們迄今已取得以下進展

  • 基準測試的釋出
    • 在我們的公共基準測試中,於 perf.vllm.ai 釋出了每次提交的效能跟蹤器。此舉的目的是跟蹤效能提升和衰退。
    • 釋出了 vLLM 與 LMDeploy、TGI 和 TensorRT-LLM 相比的可復現基準測試(文件)。目的是找出效能差距並彌合它們。
  • 高度最佳化核心的開發和整合
    • 集成了帶有 PagedAttention 的 FlashAttention2 和 FlashInfer。我們計劃整合 FlashAttention3
    • 整合 Flux,它可以重疊計算和集體通訊。
    • 為量化推理開發了最先進的核心,包括 INT8 和 FP8 啟用量化(透過 cutlass)以及 GPTQ 和 AWQ 的 INT4、INT8 和 FP8 僅權重化量化(透過 marlin)。
  • 啟動了多個工作流程以降低關鍵開銷
    • 我們發現 vLLM 的同步和阻塞排程器是在快速 GPU (H100) 上執行模型的關鍵瓶頸。我們正在努力使排程非同步化,並提前規劃步驟。
    • 我們發現 vLLM 的 OpenAI 相容 API 前端具有高於預期的開銷。我們正在努力將其與排程器和模型推理的關鍵路徑隔離。
    • 我們發現 vLLM 的輸入準備和輸出處理無法隨資料大小進行次優擴充套件。許多操作可以向量化,並透過將它們移出關鍵路徑來增強。

我們將繼續更新社群關於 vLLM 在彌合效能差距方面的進展。您可以在此處跟蹤我們的整體進展。請繼續提出新的想法並貢獻您的改進!

更多資源

我們想重點介紹以下正在積極開發的 RPC

有一個蓬勃發展的研究社群在 vLLM 之上構建他們的研究專案。我們對這些令人印象深刻的工作深感榮幸,並希望合作和整合。論文列表包括但不限於