TL;DR（摘要）

vLLM 擁有最大的開源社群，但是要將 vLLM 從最佳單節點 LLM 引擎轉變為一流的 LLM 服務系統，還需要做些什麼呢？
今天，我們釋出 “vLLM production-stack”，這是一個基於 vLLM 的完整推理堆疊，它引入了兩大主要優勢
- 效能提升 10 倍（響應延遲降低 3-10 倍，吞吐量提高 2-5 倍），這得益於字首感知請求路由和 KV 快取共享。
- 簡易的叢集部署，內建支援容錯、自動擴縮容和可觀測性。
最棒的是，它是開源的——因此每個人都可以立即開始使用！ [https://github.com/vllm-project/production-stack]

背景

在 AI 軍備競賽中，重要的不再僅僅是誰擁有最好的模型，而是誰擁有最好的 LLM 服務系統。

vLLM 以其無與倫比的硬體和模型支援，以及由頂尖貢獻者組成的活躍生態系統，在開源社群中掀起了一股熱潮。但到目前為止，vLLM 主要專注於單節點部署。

我們如何將其能力擴充套件到一個全棧推理系統，以便任何組織都能夠以高可靠性、高吞吐量和低延遲進行大規模部署？這正是 LMCache 團隊和 vLLM 團隊構建 vLLM production-stack 的原因。

vLLM Production-stack 是一個開源的 參考實現，它是一個構建在 vLLM 之上的 推理堆疊，旨在叢集 GPU 節點上無縫執行。它添加了四個關鍵功能，以補充 vLLM 的原生優勢

以下是一個快速快照，將 vLLM production-stack 與其最接近的競爭對手進行了比較

vLLM production-stack 架構構建在 vLLM 強大的單節點引擎之上，以提供叢集範圍的解決方案。

在高層次上

透過執行單個命令，使用 helm chart 將 vLLM production-stack 部署到您的 k8s 叢集

sudo helm repo add llmstack-repo https://lmcache.github.io/helm/ &&\
  sudo helm install llmstack llmstack-repo/vllm-stack 

有關更多詳細資訊，請參閱 vLLM production-stack repo 中的詳細 README。關於設定 k8s 叢集和自定義 helm charts 的教程也已提供。

我們對 vLLM production-stack 和其他設定（包括 vLLM + KServe 和商業端點服務）進行了多輪問答工作負載的基準測試。結果表明，在關鍵指標（首個令牌時間和令牌間延遲）方面，vLLM stack 優於其他設定。

透過關鍵指標（包括延遲分佈、隨時間變化的請求數量、KV 快取命中率），即時跟蹤您的 LLM 推理叢集。

我們很高興推出 vLLM Production Stack——將 vLLM 從一流的單節點引擎轉變為全規模 LLM 服務系統的下一步。我們相信 vLL stack 將為尋求構建、測試和部署大規模 LLM 應用程式的組織開啟新的大門，同時不犧牲效能或簡易性。

如果您和我們一樣興奮，請不要等待！

加入我們，共同構建一個未來，讓每個應用程式都能可靠地、大規模地、輕鬆地利用 LLM 推理的力量。部署愉快！

聯絡方式