Ejecutar Qwen 3.6 en local
Despliega Qwen 3.6 en tu propio hardware, desde Mac M4 16 GB hasta servidores de producción
Los modelos de pesos abiertos de Qwen 3.6 están diseñados para despliegue local en una amplia gama de hardware. El modelo denso 27B puede funcionar con 16 GB de VRAM usando IQ4_XS GGUF con compresión de caché KV y soporte para hasta 100K de contexto. El modelo 35B A3B MoE ofrece 20-40 tokens por segundo en hardware de consumo con cuantización de 4 bits. Informes de la comunidad confirman que Mac M4 16 GB ejecuta el 35B A3B con cuantización Q3. Soporte completo para Ollama, vLLM, llama.cpp, SGLang y KTransformers. Las capacidades de visión y multimodal funcionan en local.
Despliegue local
Todo lo que necesitas para ejecutar Qwen 3.6 en tu propio ordenador
Desde la selección de hardware hasta el ajuste de cuantización, esta guía cubre todos los aspectos del despliegue local de modelos Qwen 3.6 para desarrollo, pruebas y uso en producción. Seis frameworks de inferencia compatibles, con configuraciones de hardware desde portátiles de 16 GB hasta estaciones de trabajo de 96 GB.
Requisitos de hardware - 35B A3B MoE
El modelo 35B A3B MoE con solo 3B de parámetros activos es la opción más amigable con el hardware. Cuantización Q3_K_M: ~17 GB de VRAM, confirmado funcionando en Mac M4 16 GB. Q4_K_M: ~21-23 GB de VRAM, cabe en RTX 4090 24 GB. Q8_0: ~35 GB. BF16 precisión completa: ~70 GB, cabe en RTX 6000 96 GB. Se esperan 20-40 tokens por segundo en hardware de consumo con cuantización de 4 bits según benchmarks de la comunidad Unsloth.
Requisitos de hardware - 27B Denso
El modelo denso 27B ofrece la máxima calidad de pesos abiertos con todos los parámetros activos. IQ4_XS GGUF: puede funcionar con 16 GB de VRAM con compresión de caché KV, soportando hasta 100K de longitud de contexto. Q4_K_M: ~16 GB, necesita GPU de 24 GB o más para operación cómoda con contexto. FP16 precisión completa: ~55,6 GB, requiere 2x RTX 4090 o A100 80 GB. Ideal para despliegues en estaciones de trabajo donde la calidad es la máxima prioridad.
Configuración con un solo comando en Ollama
La vía más rápida al despliegue local: 'ollama run qwen3.6:35b-a3b'. Descarga automática del modelo, selección de cuantización y detección de GPU. Soporta aceleración NVIDIA CUDA y Apple Metal. La API compatible con OpenAI en localhost:11434 se integra con Claude Code, Aider, Continue.dev y otras herramientas de programación. Tanto la visión como las llamadas a herramientas funcionan de serie, corrigiendo los problemas de Qwen 3.5.
Servicio en producción con vLLM
Servicio de nivel producción con batching continuo, PagedAttention y endpoints de API compatibles con OpenAI. Ideal para despliegues multiusuario e inferencia de alto rendimiento en hardware de servidor. Soporta paralelismo tensorial para dividir el modelo 27B entre múltiples GPUs. PagedAttention permite una gestión eficiente de la memoria para solicitudes de contexto largo hasta la longitud completa del modelo.
llama.cpp y SGLang
llama.cpp proporciona inferencia ligera en C++ con soporte de CPU y GPU, ideal para despliegues en el borde y entornos con recursos limitados. SGLang ofrece servicio de alto rendimiento con RadixAttention para caché eficiente de prefijos. Ambos soportan modelos cuantizados GGUF y proporcionan endpoints de API compatibles con OpenAI. KTransformers también es compatible para escenarios de despliegue avanzados.
Visión y multimodal en local
Tanto el modelo 27B como el 35B A3B soportan entradas de visión y multimodales cuando se despliegan en local. Analiza capturas de pantalla de código, revisa diseños de interfaz, interpreta diagramas de arquitectura y depura problemas visuales. Esta capacidad funciona en Ollama, vLLM y otros frameworks compatibles. Una mejora significativa respecto a Qwen 3.5 donde la visión local estaba rota.
Privacidad y soberanía de datos
Todos los datos permanecen en tu ordenador. Sin llamadas a API, sin dependencias de la nube, sin seguimiento de uso, sin datos saliendo de tu red. Perfecto para bases de código sensibles, datos propietarios, aplicaciones sanitarias y financieras, y entornos aislados donde la soberanía de datos es un requisito legal. La licencia Apache 2.0 permite uso comercial sin restricciones.
Análisis de costes frente a la API
Sin coste por token tras la inversión inicial en hardware. Una sola RTX 4090 (~1.600 $) ejecutando el modelo 35B A3B a 20-40 tok/s puede gestionar miles de solicitudes al día. Con los precios de DashScope de $0,40/$2,40 por millón de tokens, la GPU se amortiza en semanas para uso intensivo. Para equipos que procesan millones de tokens al día, el despliegue local ofrece un ahorro de 10-100 veces frente al acceso por API.
Referencia rápida
Configuraciones de hardware y opciones de frameworks
Especificaciones clave para el despliegue local de Qwen 3.6 en diferentes configuraciones de hardware y frameworks de inferencia.
Configuraciones del 35B A3B MoE
- Q3_K_M: ~17 GB de VRAM - Mac M4 16 GB confirmado funcionando
- Q4_K_M: ~21-23 GB de VRAM - RTX 4090 24 GB recomendada
- Q8_0: ~35 GB de VRAM - RTX A6000 48 GB o doble GPU
- BF16: ~70 GB de VRAM - RTX 6000 96 GB precisión completa
- 20-40 tok/s en hardware de consumo en 4 bits (benchmarks Unsloth)
- 3B de parámetros activos por token, inferencia eficiente
Configuraciones del 27B Denso
- IQ4_XS GGUF: 16 GB de VRAM con compresión de caché KV (contexto de 100K)
- Q4_K_M: ~16 GB de VRAM - RTX 4090 24 GB con margen para contexto
- FP16: ~55,6 GB de VRAM - 2x RTX 4090 o A100 80 GB
- Los 27B de parámetros activos para máxima calidad
- Mejor modelo de pesos abiertos para programación: 77,2% SWE-bench
Frameworks compatibles
- Ollama: configuración más sencilla, despliegue con un comando, visión + llamadas a herramientas
- vLLM: servicio en producción, batching continuo, paralelismo tensorial
- llama.cpp: inferencia ligera en C++, CPU + GPU, despliegue en el borde
- SGLang: servicio de alto rendimiento con caché de prefijos RadixAttention
- KTransformers: despliegue y optimización avanzados
- HuggingFace Transformers: Python nativo, soporte completo de ajuste fino
Guías de configuración
Despliegue local paso a paso para cada framework
Sigue estas guías para tener Qwen 3.6 funcionando en tu hardware en minutos, con consejos de optimización específicos para cada plataforma.
Instala Ollama y ejecuta Qwen 3.6 en menos de 5 minutos
Configura servicio de nivel producción con API compatible con OpenAI
Inferencia ligera con soporte de CPU y GPU
Servicio de alto rendimiento con RadixAttention
Despliegue en contenedores para entornos reproducibles
Ejecuta 35B A3B en Mac M4 16 GB con cuantización Q3
Optimización
Saca el máximo partido a tu hardware
Ajusta la cuantización, el tamaño de lote, la asignación de memoria y la longitud de contexto para un rendimiento óptimo en tu hardware específico.
Equilibrio entre calidad, velocidad y VRAM para cada nivel GGUF
Paralelismo tensorial para el modelo denso 27B entre GPUs
Ajustes optimizados para Macs M1/M2/M3/M4 con Metal
Ajusta el 27B en 16 GB de VRAM con contexto de 100K usando IQ4_XS
Conecta Qwen local a Claude Code, Aider, Continue.dev
Ecosistema Qwen
Modelos de pesos abiertos diseñados para despliegue local, con licencia Apache 2.0
Los modelos de pesos abiertos de Qwen 3.6 se publican con licencia Apache 2.0 con soporte completo para seis frameworks de inferencia. Desde portátiles Mac M4 hasta servidores multi-GPU, despliega con confianza y sin coste recurrente.
Primeros pasos
¿Listo para ejecutar Qwen 3.6 en tu propio hardware? Empieza con un solo comando
Prueba Qwen 3.6 primero en el navegador y luego despliégalo en local con Ollama, vLLM, llama.cpp o SGLang. El 35B A3B funciona en Mac M4 16 GB, el 27B cabe en 16 GB de VRAM con IQ4_XS. Sin coste por token, total privacidad de datos, licencia Apache 2.0.