Ejecutar Qwen 3.6 en local

Despliega Qwen 3.6 en tu propio hardware, desde Mac M4 16 GB hasta servidores de producción

Los modelos de pesos abiertos de Qwen 3.6 están diseñados para despliegue local en una amplia gama de hardware. El modelo denso 27B puede funcionar con 16 GB de VRAM usando IQ4_XS GGUF con compresión de caché KV y soporte para hasta 100K de contexto. El modelo 35B A3B MoE ofrece 20-40 tokens por segundo en hardware de consumo con cuantización de 4 bits. Informes de la comunidad confirman que Mac M4 16 GB ejecuta el 35B A3B con cuantización Q3. Soporte completo para Ollama, vLLM, llama.cpp, SGLang y KTransformers. Las capacidades de visión y multimodal funcionan en local.

Empezar a chatear Ver guía de hardware

Despliegue local

Todo lo que necesitas para ejecutar Qwen 3.6 en tu propio ordenador

Desde la selección de hardware hasta el ajuste de cuantización, esta guía cubre todos los aspectos del despliegue local de modelos Qwen 3.6 para desarrollo, pruebas y uso en producción. Seis frameworks de inferencia compatibles, con configuraciones de hardware desde portátiles de 16 GB hasta estaciones de trabajo de 96 GB.

Requisitos de hardware - 35B A3B MoE

El modelo 35B A3B MoE con solo 3B de parámetros activos es la opción más amigable con el hardware. Cuantización Q3_K_M: ~17 GB de VRAM, confirmado funcionando en Mac M4 16 GB. Q4_K_M: ~21-23 GB de VRAM, cabe en RTX 4090 24 GB. Q8_0: ~35 GB. BF16 precisión completa: ~70 GB, cabe en RTX 6000 96 GB. Se esperan 20-40 tokens por segundo en hardware de consumo con cuantización de 4 bits según benchmarks de la comunidad Unsloth.

Requisitos de hardware - 27B Denso

El modelo denso 27B ofrece la máxima calidad de pesos abiertos con todos los parámetros activos. IQ4_XS GGUF: puede funcionar con 16 GB de VRAM con compresión de caché KV, soportando hasta 100K de longitud de contexto. Q4_K_M: ~16 GB, necesita GPU de 24 GB o más para operación cómoda con contexto. FP16 precisión completa: ~55,6 GB, requiere 2x RTX 4090 o A100 80 GB. Ideal para despliegues en estaciones de trabajo donde la calidad es la máxima prioridad.

Configuración con un solo comando en Ollama

La vía más rápida al despliegue local: 'ollama run qwen3.6:35b-a3b'. Descarga automática del modelo, selección de cuantización y detección de GPU. Soporta aceleración NVIDIA CUDA y Apple Metal. La API compatible con OpenAI en localhost:11434 se integra con Claude Code, Aider, Continue.dev y otras herramientas de programación. Tanto la visión como las llamadas a herramientas funcionan de serie, corrigiendo los problemas de Qwen 3.5.

Servicio en producción con vLLM

Servicio de nivel producción con batching continuo, PagedAttention y endpoints de API compatibles con OpenAI. Ideal para despliegues multiusuario e inferencia de alto rendimiento en hardware de servidor. Soporta paralelismo tensorial para dividir el modelo 27B entre múltiples GPUs. PagedAttention permite una gestión eficiente de la memoria para solicitudes de contexto largo hasta la longitud completa del modelo.

llama.cpp y SGLang

llama.cpp proporciona inferencia ligera en C++ con soporte de CPU y GPU, ideal para despliegues en el borde y entornos con recursos limitados. SGLang ofrece servicio de alto rendimiento con RadixAttention para caché eficiente de prefijos. Ambos soportan modelos cuantizados GGUF y proporcionan endpoints de API compatibles con OpenAI. KTransformers también es compatible para escenarios de despliegue avanzados.

Visión y multimodal en local

Tanto el modelo 27B como el 35B A3B soportan entradas de visión y multimodales cuando se despliegan en local. Analiza capturas de pantalla de código, revisa diseños de interfaz, interpreta diagramas de arquitectura y depura problemas visuales. Esta capacidad funciona en Ollama, vLLM y otros frameworks compatibles. Una mejora significativa respecto a Qwen 3.5 donde la visión local estaba rota.

Privacidad y soberanía de datos

Todos los datos permanecen en tu ordenador. Sin llamadas a API, sin dependencias de la nube, sin seguimiento de uso, sin datos saliendo de tu red. Perfecto para bases de código sensibles, datos propietarios, aplicaciones sanitarias y financieras, y entornos aislados donde la soberanía de datos es un requisito legal. La licencia Apache 2.0 permite uso comercial sin restricciones.

Análisis de costes frente a la API

Sin coste por token tras la inversión inicial en hardware. Una sola RTX 4090 (~1.600 $) ejecutando el modelo 35B A3B a 20-40 tok/s puede gestionar miles de solicitudes al día. Con los precios de DashScope de $0,40/$2,40 por millón de tokens, la GPU se amortiza en semanas para uso intensivo. Para equipos que procesan millones de tokens al día, el despliegue local ofrece un ahorro de 10-100 veces frente al acceso por API.

Referencia rápida

Configuraciones de hardware y opciones de frameworks

Especificaciones clave para el despliegue local de Qwen 3.6 en diferentes configuraciones de hardware y frameworks de inferencia.

Configuraciones del 35B A3B MoE

Q3_K_M: ~17 GB de VRAM - Mac M4 16 GB confirmado funcionando
Q4_K_M: ~21-23 GB de VRAM - RTX 4090 24 GB recomendada
Q8_0: ~35 GB de VRAM - RTX A6000 48 GB o doble GPU
BF16: ~70 GB de VRAM - RTX 6000 96 GB precisión completa
20-40 tok/s en hardware de consumo en 4 bits (benchmarks Unsloth)
3B de parámetros activos por token, inferencia eficiente

Configuraciones del 27B Denso

IQ4_XS GGUF: 16 GB de VRAM con compresión de caché KV (contexto de 100K)
Q4_K_M: ~16 GB de VRAM - RTX 4090 24 GB con margen para contexto
FP16: ~55,6 GB de VRAM - 2x RTX 4090 o A100 80 GB
Los 27B de parámetros activos para máxima calidad
Mejor modelo de pesos abiertos para programación: 77,2% SWE-bench

Frameworks compatibles

Ollama: configuración más sencilla, despliegue con un comando, visión + llamadas a herramientas
vLLM: servicio en producción, batching continuo, paralelismo tensorial
llama.cpp: inferencia ligera en C++, CPU + GPU, despliegue en el borde
SGLang: servicio de alto rendimiento con caché de prefijos RadixAttention
KTransformers: despliegue y optimización avanzados
HuggingFace Transformers: Python nativo, soporte completo de ajuste fino

Empezar a chatear Descargar modelos

Guías de configuración

Despliegue local paso a paso para cada framework

Sigue estas guías para tener Qwen 3.6 funcionando en tu hardware en minutos, con consejos de optimización específicos para cada plataforma.

Inicio rápido con Ollama

Instala Ollama y ejecuta Qwen 3.6 en menos de 5 minutos

Despliegue con vLLM

Configura servicio de nivel producción con API compatible con OpenAI

Guía de llama.cpp

Inferencia ligera con soporte de CPU y GPU

Configuración de SGLang

Servicio de alto rendimiento con RadixAttention

box

Configuración con Docker

Despliegue en contenedores para entornos reproducibles

Guía para Mac M4

Ejecuta 35B A3B en Mac M4 16 GB con cuantización Q3

Optimización

Saca el máximo partido a tu hardware

Ajusta la cuantización, el tamaño de lote, la asignación de memoria y la longitud de contexto para un rendimiento óptimo en tu hardware específico.

Comparativa de cuantización

Equilibrio entre calidad, velocidad y VRAM para cada nivel GGUF

Configuración multi-GPU

Paralelismo tensorial para el modelo denso 27B entre GPUs

Guía para Apple Silicon

Ajustes optimizados para Macs M1/M2/M3/M4 con Metal

Compresión de caché KV

Ajusta el 27B en 16 GB de VRAM con contexto de 100K usando IQ4_XS

Integración con herramientas de programación

Conecta Qwen local a Claude Code, Aider, Continue.dev

Ecosistema Qwen

Modelos de pesos abiertos diseñados para despliegue local, con licencia Apache 2.0

Los modelos de pesos abiertos de Qwen 3.6 se publican con licencia Apache 2.0 con soporte completo para seis frameworks de inferencia. Desde portátiles Mac M4 hasta servidores multi-GPU, despliega con confianza y sin coste recurrente.

Explorar todos los modelos Colección en HuggingFace

Qwen 3.6 35B A3B

MoE, 3B parámetros activos, 20-40 tok/s en GPU de consumo

Descargar

Qwen 3.6 27B

Denso, 16 GB de VRAM con IQ4_XS, máxima calidad

Descargar

Librería de Ollama

Etiquetas de modelos preconstruidas para configuración con un comando

Explorar

Modelos GGUF

Modelos cuantizados para cada presupuesto de VRAM

Descargar

Docs de vLLM

Servicio en producción con batching continuo

Leer docs

Comunidad

Obtén ayuda de la comunidad Qwen

Unirse

Primeros pasos

¿Listo para ejecutar Qwen 3.6 en tu propio hardware? Empieza con un solo comando

Prueba Qwen 3.6 primero en el navegador y luego despliégalo en local con Ollama, vLLM, llama.cpp o SGLang. El 35B A3B funciona en Mac M4 16 GB, el 27B cabe en 16 GB de VRAM con IQ4_XS. Sin coste por token, total privacidad de datos, licencia Apache 2.0.

Empezar a chatear Descargar modelos