vLLM 的開放治理和效能路線圖

我們想與 vLLM 社群分享兩個更新。

vLLM 的未來是開放的

我們很高興看到 vLLM 正在成為 LLM 推理和服務的標準。在最近的 Meta Llama 3.1 公告中，10 個官方即時推理合作伙伴中有 8 個執行 vLLM 作為 Llama 3.1 模型的服務引擎。我們還從非官方渠道瞭解到，vLLM 正被用於我們日常生活中的許多 AI 功能。

我們相信 vLLM 的成功來自於強大的開源社群的力量。vLLM 正在由包括加州大學伯克利分校、Anyscale、AWS、CentML、Databricks、IBM、Neural Magic、Roblox、Snowflake 等多個團體組成的聯盟積極維護。為此，我們希望確保該專案的所有權和治理也是開放和透明的。

我們很高興地宣佈，vLLM 已經啟動了在 LF AI & Data Foundation 中孵化的過程。這意味著任何一方都不會對 vLLM 的未來擁有獨家控制權。許可證和商標將是不可撤銷地開放的。您可以相信 vLLM 將會持續存在，並在未來得到積極的維護和改進。

效能是首要任務

vLLM 的貢獻者們正在加倍努力，以確保 vLLM 成為最快且最易於使用的 LLM 推理和服務引擎。

回顧我們的路線圖，我們將 vLLM 的重點放在六個目標上：廣泛的模型覆蓋、廣泛的硬體支援、頂級的效能、生產就緒、蓬勃發展的開源社群以及可擴充套件的架構。

在我們的效能最佳化目標中，我們迄今已取得以下進展

基準測試的釋出
- 在我們的公共基準測試中，於 perf.vllm.ai 釋出了每次提交的效能跟蹤器。此舉的目的是跟蹤效能提升和衰退。
- 釋出了 vLLM 與 LMDeploy、TGI 和 TensorRT-LLM 相比的可復現基準測試（文件）。目的是找出效能差距並彌合它們。
高度最佳化核心的開發和整合
- 集成了帶有 PagedAttention 的 FlashAttention2 和 FlashInfer。我們計劃整合 FlashAttention3。
- 整合 Flux，它可以重疊計算和集體通訊。
- 為量化推理開發了最先進的核心，包括 INT8 和 FP8 啟用量化（透過 cutlass）以及 GPTQ 和 AWQ 的 INT4、INT8 和 FP8 僅權重化量化（透過 marlin）。
啟動了多個工作流程以降低關鍵開銷
- 我們發現 vLLM 的同步和阻塞排程器是在快速 GPU (H100) 上執行模型的關鍵瓶頸。我們正在努力使排程非同步化，並提前規劃步驟。
- 我們發現 vLLM 的 OpenAI 相容 API 前端具有高於預期的開銷。我們正在努力將其與排程器和模型推理的關鍵路徑隔離。
- 我們發現 vLLM 的輸入準備和輸出處理無法隨資料大小進行次優擴充套件。許多操作可以向量化，並透過將它們移出關鍵路徑來增強。

我們將繼續更新社群關於 vLLM 在彌合效能差距方面的進展。您可以在此處跟蹤我們的整體進展。請繼續提出新的想法並貢獻您的改進！

vLLM 的未來是開放的

效能是首要任務

更多資源