Ejecutar Qwen 3.6 localmente
Despliega Qwen 3.6 en tu propio hardware - desde Mac M4 16GB hasta servidores de producción
Los modelos de pesos abiertos de Qwen 3.6 están diseñados para despliegue local en una amplia gama de hardware. El modelo denso 27B puede correr con 16GB de VRAM usando IQ4_XS GGUF con compresión de caché KV soportando hasta 100K de contexto. El modelo 35B A3B MoE entrega 20-40 tokens por segundo en hardware de consumo con cuantización de 4 bits. Reportes de la comunidad confirman que Mac M4 16GB ejecuta el 35B A3B con cuantización Q3. Soporte completo para Ollama, vLLM, llama.cpp, SGLang y KTransformers. Las capacidades de visión y multimodal funcionan localmente.
Despliegue local
Todo lo que necesitas para ejecutar Qwen 3.6 en tu propia computadora
Desde la selección de hardware hasta el ajuste de cuantización, esta guía cubre cada aspecto del despliegue local de modelos Qwen 3.6 para desarrollo, pruebas y uso en producción. Seis frameworks de inferencia soportados, con configuraciones de hardware desde laptops de 16GB hasta estaciones de trabajo de 96GB.
Requisitos de hardware - 35B A3B MoE
El modelo 35B A3B MoE con solo 3B de parámetros activos es la opción más amigable con el hardware. Cuantización Q3_K_M: ~17GB de VRAM, confirmado funcionando en Mac M4 16GB. Q4_K_M: ~21-23GB de VRAM, cabe en RTX 4090 24GB. Q8_0: ~35GB. BF16 precisión completa: ~70GB, cabe en RTX 6000 96GB. Espera 20-40 tokens por segundo en hardware de consumo con cuantización de 4 bits según benchmarks de la comunidad Unsloth.
Requisitos de hardware - 27B Denso
El modelo denso 27B entrega la máxima calidad de pesos abiertos con todos los parámetros activos. IQ4_XS GGUF: puede correr con 16GB de VRAM con compresión de caché KV, soportando hasta 100K de longitud de contexto. Q4_K_M: ~16GB, necesita GPU de 24GB+ para operación cómoda con contexto. FP16 precisión completa: ~55.6GB, requiere 2x RTX 4090 o A100 80GB. Ideal para despliegues en estaciones de trabajo donde la calidad es la máxima prioridad.
Configuración con un comando en Ollama
La forma más rápida de desplegar localmente: 'ollama run qwen3.6:35b-a3b'. Descarga automática del modelo, selección de cuantización y detección de GPU. Soporta aceleración NVIDIA CUDA y Apple Metal. La API compatible con OpenAI en localhost:11434 se integra con Claude Code, Aider, Continue.dev y otras herramientas de programación. Visión y llamadas a herramientas funcionan de forma nativa - correcciones respecto a Qwen 3.5.
Servicio en producción con vLLM
Servicio de grado producción con batching continuo, PagedAttention y endpoints de API compatibles con OpenAI. Ideal para despliegues multi-usuario e inferencia de alto rendimiento en hardware de servidor. Soporta paralelismo de tensores para dividir el modelo 27B entre múltiples GPUs. PagedAttention permite gestión eficiente de memoria para solicitudes de contexto largo hasta la longitud completa de contexto del modelo.
llama.cpp y SGLang
llama.cpp proporciona inferencia ligera en C++ con soporte de CPU y GPU, ideal para despliegues en el borde y entornos con recursos limitados. SGLang ofrece servicio de alto rendimiento con RadixAttention para caché eficiente de prefijos. Ambos soportan modelos cuantizados GGUF y proporcionan endpoints de API compatibles con OpenAI. KTransformers también está soportado para escenarios de despliegue avanzados.
Visión y multimodal localmente
Tanto el modelo 27B como el 35B A3B soportan entradas de visión y multimodales cuando se despliegan localmente. Analiza capturas de pantalla de código, revisa diseños de interfaz, interpreta diagramas de arquitectura y depura problemas visuales. Esta capacidad funciona en Ollama, vLLM y otros frameworks soportados. Una mejora significativa respecto a Qwen 3.5 donde la visión local estaba rota.
Privacidad y soberanía de datos
Todos los datos se quedan en tu computadora. Sin llamadas API, sin dependencias de la nube, sin rastreo de uso, sin datos saliendo de tu red. Perfecto para bases de código sensibles, datos propietarios, aplicaciones de salud y finanzas, y entornos aislados donde la soberanía de datos es legalmente requerida. La licencia Apache 2.0 permite uso comercial sin restricciones.
Análisis de costos vs API
Cero costos por token después de la inversión inicial en hardware. Una sola RTX 4090 (~$1,600) ejecutando el modelo 35B A3B a 20-40 tok/s puede manejar miles de solicitudes por día. Con los precios de DashScope de $0.40/$2.40 por millón de tokens, la GPU se paga sola en semanas para uso intensivo. Para equipos que procesan millones de tokens diariamente, el despliegue local ofrece ahorros de 10-100x sobre el acceso por API.
Referencia rápida
Configuraciones de hardware y opciones de frameworks
Especificaciones clave para el despliegue local de Qwen 3.6 en diferentes configuraciones de hardware y frameworks de inferencia.
Configuraciones 35B A3B MoE
- Q3_K_M: ~17GB VRAM - Mac M4 16GB confirmado funcionando
- Q4_K_M: ~21-23GB VRAM - RTX 4090 24GB recomendado
- Q8_0: ~35GB VRAM - RTX A6000 48GB o GPU dual
- BF16: ~70GB VRAM - RTX 6000 96GB precisión completa
- 20-40 tok/s en hardware de consumo a 4 bits (benchmarks Unsloth)
- 3B parámetros activos por token, inferencia eficiente
Configuraciones 27B Denso
- IQ4_XS GGUF: 16GB VRAM con compresión de caché KV (100K de contexto)
- Q4_K_M: ~16GB VRAM - RTX 4090 24GB con espacio para contexto
- FP16: ~55.6GB VRAM - 2x RTX 4090 o A100 80GB
- Todos los 27B parámetros activos para máxima calidad
- Mejor modelo de pesos abiertos para programación: 77.2% SWE-bench
Frameworks soportados
- Ollama: Configuración más fácil, despliegue con un comando, visión + llamadas a herramientas
- vLLM: Servicio en producción, batching continuo, paralelismo de tensores
- llama.cpp: Inferencia ligera en C++, CPU + GPU, despliegue en el borde
- SGLang: Servicio de alto rendimiento con caché de prefijos RadixAttention
- KTransformers: Despliegue y optimización avanzados
- HuggingFace Transformers: Python nativo, soporte completo de ajuste fino
Guías de configuración
Despliegue local paso a paso para cada framework
Sigue estas guías para tener Qwen 3.6 funcionando en tu hardware en minutos, con consejos de optimización específicos por plataforma.
Instala Ollama y ejecuta Qwen 3.6 en menos de 5 minutos
Configura servicio de grado producción con API compatible con OpenAI
Inferencia ligera con soporte de CPU y GPU
Servicio de alto rendimiento con RadixAttention
Despliegue en contenedores para entornos reproducibles
Ejecuta 35B A3B en Mac M4 16GB con cuantización Q3
Optimización
Saca el máximo provecho de tu hardware
Ajusta cuantización, tamaño de lote, asignación de memoria y longitud de contexto para rendimiento óptimo en tu hardware específico.
Compensaciones de calidad vs velocidad vs VRAM para cada nivel GGUF
Paralelismo de tensores para el modelo denso 27B entre GPUs
Configuraciones optimizadas para Macs M1/M2/M3/M4 con Metal
Ajusta el 27B en 16GB de VRAM con 100K de contexto usando IQ4_XS
Conecta Qwen local a Claude Code, Aider, Continue.dev
Ecosistema Qwen
Modelos de pesos abiertos diseñados para despliegue local - licencia Apache 2.0
Los modelos de pesos abiertos de Qwen 3.6 se publican bajo la licencia Apache 2.0 con soporte completo para seis frameworks de inferencia. Desde laptops Mac M4 hasta servidores multi-GPU, despliega con confianza y sin costos recurrentes.
Primeros pasos
¿Listo para ejecutar Qwen 3.6 en tu propio hardware? Empieza con un solo comando
Prueba Qwen 3.6 en el navegador primero, luego despliega localmente con Ollama, vLLM, llama.cpp o SGLang. El 35B A3B funciona en Mac M4 16GB, el 27B cabe en 16GB de VRAM con IQ4_XS. Sin costos por token, privacidad total de datos, licencia Apache 2.0.