vllm-project/vllm View GitHub Homepage for Latest Official Releases

vllm es una biblioteca rápida y fácil de usar para la inferencia rápida de modelos de lenguaje grandes.

Apache-2.0Pythonvllmvllm-project 63.0k Last Updated: November 13, 2025

vLLM: Motor de Inferencia y Servicio de LLM Rápido y Fácil de Usar

Introducción:

vLLM es una biblioteca de Python de alto rendimiento y eficiente para la inferencia y el servicio de modelos de lenguaje grandes (LLM). Está diseñado para simplificar la implementación de LLM y mejorar significativamente la velocidad de inferencia, al tiempo que reduce los costos. vLLM se centra en la optimización de la gestión de la memoria y la programación para lograr un rendimiento excepcional.

Características Principales:

PagedAttention: La innovación central de vLLM es el algoritmo PagedAttention. Los mecanismos de atención tradicionales requieren almacenar todas las claves y valores anteriores para cada token, lo que genera una gran huella de memoria, especialmente en secuencias largas. PagedAttention divide las claves y valores de atención en páginas, similar a la paginación de memoria virtual en los sistemas operativos. Esto permite a vLLM administrar y compartir dinámicamente la memoria de atención, lo que reduce significativamente el desperdicio de memoria y admite secuencias más largas y tamaños de lote más grandes.
Procesamiento por Lotes Continuo: vLLM admite el procesamiento por lotes continuo, lo que significa que puede combinar dinámicamente tokens de diferentes solicitudes en un lote para su procesamiento. Esto maximiza la utilización de los recursos de la GPU y aumenta el rendimiento.
Núcleos CUDA Eficientes: vLLM utiliza núcleos CUDA altamente optimizados para implementar PagedAttention y otras operaciones. Estos núcleos están cuidadosamente diseñados para aprovechar al máximo las capacidades de procesamiento paralelo de la GPU.
Fácil de Usar: vLLM proporciona una API de Python simple y fácil de usar que se puede integrar fácilmente en las aplicaciones LLM existentes. También es compatible con varios marcos LLM populares, como Hugging Face Transformers.
Soporte para Múltiples Arquitecturas de Modelos: vLLM admite varias arquitecturas de LLM populares, incluyendo:
- Llama 2
- Llama
- Mistral
- MPT
- Falcon
- GPT-2
- GPT-J
- GPTNeoX
- Se están agregando más modelos.
Inferencia Distribuida: vLLM admite la inferencia distribuida, lo que le permite escalar la inferencia de LLM en múltiples GPU.
Paralelismo Tensor: Soporte para paralelismo tensor, mejorando aún más el rendimiento de la inferencia distribuida.
Salida en Streaming: vLLM admite la salida en streaming, lo que le permite recibir tokens a medida que se generan, sin tener que esperar a que se complete toda la secuencia.
Compatibilidad con la API de OpenAI: vLLM proporciona un servidor compatible con la API de OpenAI, lo que facilita la migración o integración desde OpenAI.

Principales Ventajas:

Mayor Rendimiento: vLLM puede aumentar significativamente el rendimiento en comparación con los métodos de inferencia LLM tradicionales, a menudo en un factor de 10 o más.
Menor Latencia: vLLM puede reducir la latencia, lo que proporciona tiempos de respuesta más rápidos.
Menores Costos: Al mejorar la utilización de la GPU, vLLM puede reducir los costos de inferencia de LLM.
Soporte para Secuencias Más Largas: PagedAttention permite a vLLM procesar secuencias más largas sin quedarse sin memoria.
Fácil de Implementar: vLLM se puede implementar fácilmente en varios entornos, incluidos servidores en la nube, máquinas locales y dispositivos perimetrales.

Instalación:

vLLM se puede instalar usando pip:

pip install vllm

Inicio Rápido:

El siguiente es un ejemplo simple de cómo usar vLLM para la generación de texto:

from vllm import LLM, SamplingParams

# Cargar el modelo
llm = LLM(model="facebook/opt-125m")

# Definir los parámetros de muestreo
sampling_params = SamplingParams(temperature=0.8, top_p=0.95, max_tokens=256)

# Generar texto
prompts = ["Hola, mi nombre es", "La capital de Francia es"]
outputs = llm.generate(prompts, sampling_params)

# Imprimir la salida
for output in outputs:
    print(output.prompt)
    print(output.outputs[0].text)

Casos de Uso:

vLLM es adecuado para una variedad de aplicaciones LLM, incluyendo:

Chatbots: Construir chatbots de alto rendimiento que puedan manejar conversaciones complejas.
Generación de Texto: Generar texto de alta calidad para diversos fines, como la creación de contenido, la generación de código y el resumen.
Traducción Automática: Proporcionar servicios de traducción automática rápidos y precisos.
Preguntas y Respuestas: Construir sistemas de preguntas y respuestas que puedan responder preguntas complejas.
Autocompletado de Código: Proporcionar sugerencias de autocompletado de código rápidas y precisas.

Contribuciones:

vLLM es un proyecto de código abierto y las contribuciones de la comunidad son bienvenidas. Puede participar enviando problemas, proponiendo solicitudes de funciones o enviando solicitudes de extracción.

Resumen:

vLLM es un potente motor de inferencia y servicio de LLM que ofrece un rendimiento, facilidad de uso y flexibilidad excepcionales. Ya sea que esté construyendo chatbots, generando texto o realizando otras tareas de LLM, vLLM puede ayudarlo a mejorar la eficiencia y reducir los costos. Su mecanismo PagedAttention es su innovación central, lo que le permite manejar secuencias largas y lograr un alto rendimiento. Se recomienda encarecidamente que pruebe vLLM y vea cómo puede mejorar su flujo de trabajo de LLM.

vllm es una biblioteca rápida y fácil de usar para la inferencia rápida de modelos de lenguaje grandes.

vLLM: Motor de Inferencia y Servicio de LLM Rápido y Fácil de Usar

Todos los detalles están sujetos al anuncio oficial en el sitio web oficial (https://github.com/vllm-project/vllm)