QwenLM/Qwen3-CoderView GitHub Homepage for Latest Official Releases

El modelo de programación de IA de código abierto más avanzado de Alibaba, diseñado para tareas de programación de agentes inteligentes.

PythonQwen3-CoderQwenLM 10.4k Last Updated: July 30, 2025

Descripción detallada del proyecto Qwen3-Coder

Resumen del Proyecto

Qwen3-Coder es el modelo de lenguaje grande de programación de IA de código abierto más avanzado, desarrollado por el equipo Qwen de Alibaba, diseñado específicamente para tareas de programación de agentes inteligentes. Este modelo emplea una arquitectura de Mezcla de Expertos (MoE), con un total de 480 mil millones de parámetros, de los cuales 35 mil millones de parámetros se activan en cada inferencia.

Características Principales

🚀 Rendimiento Excepcional

Establece nuevos récords de rendimiento entre los modelos de código abierto en programación de agentes inteligentes, uso de navegadores por agentes inteligentes y uso de herramientas por agentes inteligentes, comparable con Claude Sonnet-4.
Supera a competidores nacionales como DeepSeek y el modelo K2 de Moonshot AI en benchmarks de tareas de ingeniería de software del mundo real como SWE-Bench.

📚 Capacidad de Contexto Largo

Soporta nativamente una longitud de contexto de 256K tokens, extensible a 1 millón de tokens mediante métodos de extrapolación.
Optimizado para la comprensión a escala de bases de código, capaz de procesar bases de código masivas en una sola sesión.

🛠 Programación de Agentes Inteligentes

Soporta la mayoría de las plataformas como Qwen Code, CLINE, con un formato de llamada a funciones diseñado específicamente.
Los desarrolladores pueden definir herramientas personalizadas, permitiendo a Qwen3-Coder invocar dinámicamente estas herramientas en tareas de conversación o generación de código.

🌍 Amplio Soporte de Idiomas

Soporta 358 lenguajes de programación, incluyendo una variedad de lenguajes de programación principales y de nicho, desde ABAP hasta Zig.
Mantiene las ventajas del modelo base en matemáticas y capacidades generales.

Arquitectura Técnica

Arquitectura del Modelo

Tipo de Arquitectura: Modelo de Mezcla de Expertos (MoE)
Parámetros Totales: 480 mil millones de parámetros
Parámetros Activados: 35 mil millones de parámetros activados por consulta
Configuración de Expertos: 8 expertos activados de 160

Datos de Entrenamiento

El tamaño de los datos de entrenamiento alcanza los 7.5 billones de tokens, de los cuales el 70% son datos de código.
Utiliza Qwen2.5-Coder para limpiar y reescribir datos ruidosos, mejorando significativamente la calidad general de los datos.

Optimización por Aprendizaje por Refuerzo

Emplea entrenamiento de aprendizaje por refuerzo de código, cubriendo una gama más amplia de tareas de programación del mundo real.
Introduce el aprendizaje por refuerzo a largo plazo (Agent RL) para animar al modelo a resolver tareas del mundo real utilizando herramientas a través de interacciones de múltiples turnos.

Modo de Uso

Ejemplo de Conversación Básica

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-Coder-480B-A35B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "write a quick sort algorithm."
messages = [
    {"role": "user", "content": prompt}
]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=65536
)

generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

Relleno de Código (Fill-in-the-Middle)

input_text = """<|fim_prefix|>def quicksort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[len(arr) // 2]
    <|fim_suffix|>
    middle = [x for x in arr if x == pivot]
    right = [x for x in arr if x > pivot]
    return quicksort(left) + middle + quicksort(right)<|fim_middle|>"""

messages = [
    {"role": "system", "content": "You are a code completion assistant."},
    {"role": "user", "content": input_text}
]

# Procesar la tarea de relleno de código
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

Herramientas Complementarias

Herramienta CLI Qwen Code

Alibaba también ha lanzado Qwen Code como código abierto, una potente herramienta de interfaz de línea de comandos (CLI) que permite a los desarrolladores delegar tareas de ingeniería a la IA utilizando lenguaje natural.

Funciones principales:

Comprensión y Edición de Código: Consulta y edición de grandes bases de código que superan los límites de la ventana de contexto tradicional.
Automatización de Flujos de Trabajo: Automatización de tareas operativas, como el manejo de solicitudes de extracción (pull requests) y operaciones complejas de rebase.
Analizador Mejorado: Un analizador optimizado específicamente para el modelo Qwen-Coder.

Instalación y Configuración

Asegúrese de tener Node.js 20 o superior instalado, luego configure la clave API de Qwen:

# Cree un archivo .env en el directorio raíz del proyecto
echo "QWEN_API_KEY=your_api_key_here" > .env

Benchmarks de Rendimiento

Rendimiento en Modelos de Código Abierto

Excelente rendimiento en el benchmark SWE-Bench, superando a los modelos competidores de Moonshot AI y DeepSeek.
Establece nuevos récords de modelos de código abierto en programación de agentes inteligentes, uso de navegadores por agentes inteligentes y uso de herramientas por agentes inteligentes.

Comparación con Modelos Comerciales

En algunas áreas, el rendimiento es comparable o ligeramente inferior al de Claude Sonnet-4 de Anthropic y GPT-4.1 de OpenAI.
En dominios específicos, el rendimiento es comparable al de los modelos líderes estadounidenses (incluidos Claude de Anthropic y GPT-4 de OpenAI).

Métodos de Acceso

Obtención del Modelo

Acceso a la API

Acceso directo a la API de Qwen3-Coder a través de Alibaba Cloud Model Studio.
La API de Qwen3-Coder ya está disponible en la plataforma Bailian de Alibaba Cloud.

Escenarios de Aplicación Empresarial

Para las empresas, Qwen3-Coder ofrece una alternativa abierta y de alto rendimiento a los modelos propietarios de código cerrado. Con su excelente rendimiento en la ejecución de código y el razonamiento de contexto largo, es particularmente adecuado para:

Comprensión a Nivel de Base de Código: Adecuado para sistemas de IA que deben comprender grandes bases de código, documentación técnica o patrones de arquitectura.
Desarrollo de Agentes Inteligentes: Soporta la construcción de agentes de IA capaces de abordar desafíos de programación de forma autónoma.
Desarrollo de Software a Gran Escala: Manejo de flujos de trabajo de programación complejos y de múltiples pasos.

Documentación Técnica

La descripción detallada del rendimiento y la documentación técnica se pueden encontrar en las siguientes ubicaciones:

Qwen3-Coder representa el último avance en modelos de programación de IA de código abierto, proporcionando a desarrolladores y empresas potentes herramientas de programación inteligente, impulsando la vanguardia del desarrollo de software asistido por IA.