" target="_blank" rel="noopener noreferrer">issue #39762 (2026년 4월 14일 제출 ): --port 없이 실행된 여러 vLLM 인스턴스가 인스턴스 간 요청을 무작위로 조용히 라우팅합니다. 근본 원인: --api-server-count > 1 설정 시 API 서버 프로세스가 설계상 단일 소켓을 공유합니다. 문제는 서버 생성 시 포트 가용성 검사가 이루어지지 않아 잘못 구성된 배포가 조용히 실패한다는 점입니다. PR #39777은 사전 점검을 제안하며, 2026년 5월 29일 기준 머지 여부는 미확인입니다.
vLLM v0.21.0이 DeepSeek-R1의 스펙큘레이티브 디코딩을 수정했나요?
네. 스펙큘레이티브 디코딩이 이제 추론 및 사고 예산 제약을 올바르게 준수합니다. 이 수정 이전에는 DeepSeek-R1의 연쇄 추론(chain-of-thought)이 스펙 디코딩 중 예산 제한을 적용할 때 잘못된 출력을 생성했습니다. 이번 릴리스에는 NVIDIA Blackwell GPU에서 DeepSeek-R1 및 Kimi-K25를 추가 최적화하는 TOKENSPEED_MLA 어텐션 백엔드도 추가되었습니다.
vLLM v0.21.0의 C++20 컴파일러 요구 사항은 무엇을 의미하나요?
소스 빌드나 커스텀 익스텐션 컴파일을 위해 gcc 10+ 또는 clang 12+가 필요합니다. PyPI에서 제공하는 사전 빌드 휠은 이를 내부적으로 처리하므로 표준 pip install vllm==0.21.0은 영향을 받지 않습니다. 커스텀 빌드 환경 — CI 컨테이너, 구형 Docker 베이스 이미지, Dockerfile 기반 설치 — 은 빌드 진행 전에 C++20 지원 컴파일러로 업데이트해야 합니다.
vLLM v0.21.0을 위해 HuggingFace Transformers v5로 업그레이드해야 하나요?
네 — 필수 요건입니다. Transformers v4는 이번 릴리스에서 더 이상 지원되지 않으며, transformers>=5가 필수입니다. 프로덕션에서 업그레이드하기 전에 서비스에서 사용하는 모든 파인튜닝 체크포인트에 대해 전체 모델 로드 스모크 테스트를 실행하세요. 일부 v4 시대의 토크나이저 구성은 상위 버전과 호환되지 않으므로 프로모션 전에 수정이 필요합니다.
앞으로 주목할 사항
단기적으로 두 가지 신호가 중요합니다. 첫째, PR #39777의 머지 여부입니다. v0.21.x 패치에 반영될 경우 멀티 서버 포트 동작을 수동 조치 없이 안전하게 사용할 수 있게 됩니다. 수정 사항을 명시적으로 언급하는 변경 로그 항목을 확인하기 위해 릴리스 페이지를 주시하세요. 둘째, 격주 릴리스 주기상 v0.22.0은 2026년 6월 초에 출시될 가능성이 있지만 — GitHub 또는 PyPI에 태그가 등장하기 전까지 v0.21.0이 유일한 프로덕션 안전 버전입니다.
v0.20.x 사용 팀의 경우, 스펙큘레이티브 디코딩 수정과 HMA 통합이 지금 당장 업그레이드해야 할 주요 이유입니다. KV 오프로드는 하드웨어 변경 없이 더 긴 유효 컨텍스트를 가능하게 하지만, SLA 약정 전에 호스트 DRAM 테일 레이턴시를 벤치마킹해야 합니다. Transformers v5 마이그레이션을 필수 게이트로 취급하세요 — 체크포인트 검증이 먼저, 업그레이드는 그 다음입니다.
마지막 업데이트: 2026-05-29. 2026년 5월 29일 기준 vLLM GitHub 릴리스 페이지, PyPI 인덱스, GitHub 이슈 트래커를 기반으로 합니다.


