Qwen 3.6 35B A3B

35 mil millones de parámetros, 3 mil millones activos - MoE de frontera en hardware de consumo

Qwen 3.6 35B A3B es un modelo Mixture-of-Experts que activa solo 3B parámetros por token de 256 expertos. Con 73.4% en SWE-bench Verified, 92.7% en AIME 2026 y licencia Apache 2.0, lleva capacidades de programación y razonamiento de clase frontera a GPUs de consumo.

Comenzar a chatear Ver benchmarks

Variantes del modelo

MoE open-weight para despliegue local y en la nube

Qwen 3.6 35B A3B ofrece un rendimiento sólido con mínimos parámetros activos. Elige la variante ajustada para instrucciones para chat y programación, o el modelo base para fine-tuning.

Arquitectura Mixture-of-Experts

35B parámetros totales, 3B activos por token, 256 expertos

Qwen 3.6 35B A3B usa un diseño Hybrid Gated DeltaNet + Gated Attention + MoE con 256 expertos, enrutando 8 expertos más 1 compartido por token. El contexto nativo de 262K es extensible a 1M de tokens, y la licencia Apache 2.0 permite uso comercial sin restricciones.

Con solo 3B parámetros activos por token, este modelo funciona eficientemente en GPUs de consumo mientras ofrece un rendimiento que rivaliza con modelos densos mucho más grandes.

Comenzar a chatear Ver capacidades

Ajustado para instrucciones

35B A3B Instruct

Optimizado para IA conversacional, programación y tareas agénticas en hardware de consumo

Ajustado para seguimiento de instrucciones y diálogo multi-turno con eficiencia MoE

Disponible ahora - Apache 2.0

Comenzar a chatear Descargar pesos

Pre-entrenado

35B A3B Base

Modelo MoE base para fine-tuning y aplicaciones especializadas

Pre-entrenado con enrutamiento MoE de 256 expertos en datos diversos

Disponible ahora - Apache 2.0

Ver en HuggingFace Guía de fine-tuning

Capacidades

256 expertos, 3B activos - máxima eficiencia con rendimiento sólido

Qwen 3.6 35B A3B combina un enorme grupo de expertos con mínimo cómputo activo para ofrecer capacidades impresionantes de programación, razonamiento y tareas agénticas en hardware de consumo.

Ingeniería de software real

73.4% en SWE-bench Verified - resolviendo issues reales de GitHub con solo 3B parámetros activos por token. Competitivo con modelos que usan 10x más cómputo en tiempo de inferencia.

Operaciones de terminal

51.5 en Terminal-Bench 2.0 para flujos de trabajo complejos de terminal con múltiples pasos. Maneja depuración, administración de sistemas y tareas de pipelines de compilación con gran competencia.

Matemáticas avanzadas

92.7% en AIME 2026 - razonamiento matemático casi de frontera desde un modelo que funciona en GPUs de consumo. El modo de pensamiento paso a paso permite resolución transparente de problemas.

Contexto de 262K a 1M

Ventana de contexto nativa de 262K extensible a 1M de tokens. Analiza bases de código completas, documentos largos y conversaciones complejas multi-turno sin truncamiento.

Programación competitiva

80.4 en LiveCodeBench v6 para resolución de problemas algorítmicos. Fuertes capacidades de generación de código, depuración y refactorización en múltiples lenguajes de programación.

Libertad open-weight

La licencia Apache 2.0 permite uso comercial sin restricciones, fine-tuning y redistribución. Transparencia total de los pesos del modelo para investigación y personalización.

Puntos clave

Rendimiento MoE de frontera en hardware de consumo

Qwen 3.6 35B A3B logra resultados sólidos en benchmarks de programación, razonamiento y tareas agénticas activando solo 3B parámetros por token.

Logros principales

SWE-bench Verified: 73.4% - ingeniería de software real
Terminal-Bench 2.0: 51.5 - operaciones complejas de terminal
AIME 2026: 92.7% - matemáticas avanzadas
LiveCodeBench v6: 80.4 - programación competitiva
Licencia Apache 2.0 - completamente open-weight

Especificaciones técnicas

35B parámetros totales, 3B activos por token
256 expertos: 8 enrutados + 1 compartido activo por token
Arquitectura Hybrid Gated DeltaNet + Gated Attention + MoE
Contexto nativo de 262K, extensible a 1M de tokens
Funciona localmente en GPUs de consumo

Chat gratuito Descargar pesos

Rendimiento

Rendimiento MoE sólido con costo de inferencia de 3B activos

Qwen 3.6 35B A3B obtiene 73.4% en SWE-bench Verified y 92.7% en AIME 2026 activando solo 3B parámetros por token - llevando capacidades de clase frontera al hardware de consumo.

Qwen 3.6 35B A3B demuestra que las arquitecturas MoE dispersas con 256 expertos pueden ofrecer resultados impresionantes en ingeniería de software, matemáticas y programación competitiva a una fracción del costo de cómputo.

Comenzar a chatear Ver ficha del modelo

Gráfica comparativa de rendimiento de Qwen 3.6 35B A3B en benchmarks de programación y razonamiento

SWE-bench Verified: 73.4% con solo 3B parámetros activos

Terminal-Bench 2.0: 51.5 en operaciones de terminal

AIME 2026: 92.7% en matemáticas avanzadas

LiveCodeBench v6: 80.4 en programación competitiva

Licencia open-weight Apache 2.0

Comparación de benchmarks

Qwen 3.6 35B A3B vs la familia Qwen 3.6 y competidores

Qwen 3.6 35B A3B ofrece un rendimiento sólido en benchmarks de ingeniería de software, operaciones de terminal y razonamiento con un costo mínimo de inferencia.

Benchmark	Qwen 3.6 35B A3B MoE Destacado	Qwen 3.6 27B Denso	Qwen 3.6 Plus Propietario	Qwen 3 235B A22B MoE
SWE-bench Verified Ingeniería de software real	73.4%	77.2%	78.8%	76.2%
Terminal-Bench 2.0 Operaciones de terminal	51.5	59.3	61.6	-
AIME 2026 Matemáticas No tools	92.7%	94.1%	-	-
LiveCodeBench v6 Programación competitiva	80.4	83.9	-	-

Resultados de benchmarks de la ficha oficial del modelo Qwen 3.6 y evaluaciones de HuggingFace.

MoE de 256 Expertos

Capacidad de 35B, costo de inferencia de 3B - funciona en GPUs de consumo

El diseño Mixture-of-Experts enruta cada token a través de 8 de 256 expertos más 1 experto compartido. Los 35B parámetros se cargan para diversidad de enrutamiento, pero solo 3B se activan por paso forward. Combinado con la arquitectura Hybrid Gated DeltaNet + Gated Attention, esto permite despliegue en GPUs de consumo con rendimiento sólido.

3B parámetros activos por token de 35B de capacidad total
256 expertos: 8 enrutados + 1 compartido activo por token
Funciona localmente en GPUs de consumo con cuantización

Comenzar a chatear Ver detalles de arquitectura

Capacidad de 35B, costo de inferencia de 3B - funciona en GPUs de consumo

Open Weight

Apache 2.0 - completamente abierto para uso comercial y fine-tuning

Qwen 3.6 35B A3B se publica bajo la licencia Apache 2.0, permitiendo despliegue comercial sin restricciones, fine-tuning y redistribución. Descarga los pesos desde HuggingFace y despliega en tu propia infraestructura con control total.

Licencia Apache 2.0 - sin restricciones de uso
Acceso completo a los pesos para fine-tuning y personalización
Ecosistema impulsado por la comunidad con amplio soporte de frameworks

Comenzar

Prueba Qwen 3.6 35B A3B ahora

Comienza a chatear al instante, o descarga modelos open-weight para despliegue propio.

Chatear con Qwen 3.6 35B A3B

Prueba el modelo MoE de 256 expertos al instante - sin configuración necesaria

Documentación de la API

Integra vía endpoints de API compatibles con OpenAI

Ficha del modelo

Especificaciones técnicas completas y resultados de benchmarks

HuggingFace

Repositorio oficial del modelo con pesos Apache 2.0

Despliegue local

Ejecuta en tu propio hardware

Despliega localmente en GPUs de consumo con pesos cuantizados. Licencia Apache 2.0 para uso sin restricciones.

Pesos GGUF

Pesos cuantizados para llama.cpp y Ollama

Ollama

Despliegue local con un solo comando en hardware de consumo

vLLM

Servicio MoE de alto rendimiento para producción

Ecosistema Qwen

Parte de la familia de modelos Qwen 3.6

Qwen 3.6 35B A3B es la variante MoE open-weight de la última familia de modelos de Alibaba, diseñada para máxima accesibilidad en hardware de consumo.

Explorar modelos Qwen Página oficial