Qwen Code

Programación agéntica que resuelve issues reales de GitHub, domina flujos de terminal y supera a Claude en SkillsBench

La familia Qwen 3.6 ofrece rendimiento de programación de élite en todas las dimensiones. El modelo Plus obtiene 78.8% en SWE-bench Verified y 61.6 en Terminal-Bench 2.0. El modelo denso 27B alcanza 77.2% en SWE-bench, 48.2 en SkillsBench (superando a Claude 4.5 Opus con 45.3) y 1487 en QwenWebBench para generación de código frontend. El 35B A3B MoE trae 73.4% en SWE-bench en un formato para GPU de consumo. Todos los modelos funcionan con Claude Code, OpenClaw, Aider y Continue.dev vía la API compatible con OpenAI. preserve_thinking mantiene el estado de razonamiento entre iteraciones del ciclo de agentes para desarrollo iterativo.

Capacidades de programación

Programación full-stack desde la terminal hasta producción - con preservación de razonamiento

Los modelos Qwen 3.6 sobresalen en cada etapa del ciclo de vida del desarrollo de software. Desde entender bases de código grandes y generar código hasta depurar, probar y desplegar a través de flujos de terminal. El parámetro preserve_thinking mantiene el contexto de razonamiento a través de ciclos de desarrollo iterativo.

Programación agéntica (SWE-bench)

Resuelve autónomamente issues reales de GitHub de principio a fin. 78.8% en SWE-bench Verified (Plus) y 77.2% (27B) demuestran la capacidad de navegar repositorios, identificar causas raíz, implementar correcciones y enviar parches funcionales sin intervención humana. El 35B A3B alcanza 73.4% en un formato para GPU de consumo. Estos puntajes colocan a Qwen 3.6 entre los mejores modelos para ingeniería de software autónoma.

Generación de código frontend (QwenWebBench)

El modelo 27B obtiene 1487 en QwenWebBench y el 35B A3B obtiene 1397, demostrando fuertes capacidades de generación de código frontend. Genera componentes completos de React, Vue y Next.js con tipado TypeScript adecuado, atributos de accesibilidad, layouts responsivos e integración con sistemas de diseño. Maneja CSS-in-JS, Tailwind CSS y patrones de librerías de componentes. El parámetro preserve_thinking ayuda a mantener el contexto de diseño en scaffolding frontend de múltiples archivos.

Operaciones de terminal (Terminal-Bench)

61.6 en Terminal-Bench 2.0 (Plus) y 59.3 (27B) - dominio de terminal a nivel experto. Maneja flujos de trabajo complejos de shell de múltiples pasos, tareas de administración de sistemas, sesiones de depuración, gestión de pipelines CI/CD, orquestación de Docker y automatización de infraestructura. El 35B A3B obtiene 51.5, aún fuerte para un modelo de GPU de consumo.

SkillsBench - supera a Claude 4.5 Opus

El modelo 27B obtiene 48.2 en SkillsBench, superando a Claude 4.5 Opus con 45.3. SkillsBench evalúa habilidades prácticas de programación incluyendo revisión de código, refactorización, diseño de APIs, estrategia de pruebas y toma de decisiones arquitectónicas. Este benchmark mide el tipo de juicio de ingeniería matizado que importa en el desarrollo del mundo real, no solo generación de código.

Razonamiento a nivel de repositorio (NL2Repo)

El modelo 27B obtiene 36.2 en NL2Repo, demostrando la capacidad de traducir descripciones en lenguaje natural a estructuras completas de repositorio. Entiende dependencias entre archivos, límites de módulos, patrones arquitectónicos y convenciones de proyecto a través de repositorios completos. La ventana de contexto de 1M (Plus) permite procesar bases de código completas en una sola pasada para comprensión integral.

Generación de código (LiveCodeBench)

83.9 en LiveCodeBench (27B) y 80.4 (35B A3B) para generación de código de nivel competitivo. Produce código limpio e idiomático en Python, TypeScript, Rust, Go, Java, C++ y más de 20 lenguajes con manejo adecuado de errores, documentación y cobertura de pruebas. Maneja problemas algorítmicos, implementaciones de estructuras de datos y desafíos de diseño de sistemas.

Integración con herramientas de programación

Funciona con Claude Code, OpenClaw, Aider, Continue.dev y Qwen Code vía la API compatible con OpenAI. Configura la URL base a tu endpoint de DashScope, OpenRouter u Ollama local y empieza a programar de inmediato. El parámetro preserve_thinking es especialmente valioso en ciclos de agentes de Claude Code y OpenClaw donde mantener el estado de razonamiento entre iteraciones reduce el re-razonamiento redundante y mejora la precisión de las correcciones.

Depuración, pruebas y Claw-Eval

El modelo 27B obtiene 72.4 en promedio de Claw-Eval y el 35B A3B obtiene 68.7, midiendo la capacidad de programación agéntica de principio a fin. Rastrea bugs a través de pilas de llamadas complejas, identifica causas raíz desde logs de errores y genera suites de pruebas completas. Soporta pruebas unitarias, pruebas de integración, frameworks de pruebas end-to-end y pruebas basadas en propiedades en todos los lenguajes y frameworks principales.

Benchmarks de programación

Resultados de primer nivel en cada evaluación de programación

Los modelos Qwen 3.6 se posicionan consistentemente entre los mejores en benchmarks de ingeniería de software, generación de código, operaciones de terminal y habilidades prácticas de programación.

Benchmarks de ingeniería de software

  • SWE-bench Verified: 78.8% (Plus) / 77.2% (27B) / 73.4% (35B A3B)
  • Terminal-Bench 2.0: 61.6 (Plus) / 59.3 (27B) / 51.5 (35B A3B)
  • SkillsBench: 48.2 (27B) - supera a Claude 4.5 Opus (45.3)
  • Claw-Eval Avg: 72.4 (27B) / 68.7 (35B A3B)
  • LiveCodeBench: 83.9 (27B) / 80.4 (35B A3B)
  • QwenWebBench: 1487 (27B) / 1397 (35B A3B) - generación frontend
  • NL2Repo: 36.2 (27B) - lenguaje natural a repositorio
  • SWE-bench Pro: 56.6 (Plus)

Herramientas y opciones de modelos

  • Funciona con: Claude Code, OpenClaw, Aider, Continue.dev, Qwen Code
  • 27B Denso: Mejor modelo de pesos abiertos para programación, 77.2% SWE-bench
  • 35B A3B MoE: 73.4% SWE-bench en GPU de consumo (~21GB VRAM)
  • Plus: 78.8% SWE-bench, 1M de contexto, preserve_thinking
  • Frontend: React, Vue, Next.js con soporte TypeScript
  • preserve_thinking: mantiene razonamiento entre iteraciones de agentes

Ecosistema Qwen

Modelos de programación para cada escala - desde GPU de consumo hasta rendimiento de frontera

Desde el 35B A3B que corre en una sola GPU de consumo hasta el Plus con 1M de contexto y preserve_thinking, la familia Qwen 3.6 cubre cada escenario de despliegue para programación. Todos los modelos funcionan con Claude Code, OpenClaw, Aider y Continue.dev.

Qwen 3.6 27B

Denso, 77.2% SWE-bench, 48.2 SkillsBench

Más información

Qwen 3.6 35B A3B

MoE, 73.4% SWE-bench, GPU de consumo

Más información

Qwen 3.6 Plus

78.8% SWE-bench, 1M de contexto, preserve_thinking

Más información

Configuración Ollama

Ejecuta Qwen Code localmente con un comando

Comenzar

Referencia de API

Endpoints compatibles con OpenAI para tareas de programación

Ver API

Comunidad

Únete a la comunidad de desarrolladores Qwen

Unirse

Empezar a programar

¿Listo para programar con Qwen 3.6? 78.8% SWE-bench, funciona con tus herramientas favoritas

Empieza a chatear gratis o integra vía la API compatible con OpenAI. Funciona con Claude Code, OpenClaw, Aider y Continue.dev. Elige entre modelos de pesos abiertos que puedes ejecutar localmente o el Plus para máximo rendimiento con preserve_thinking.