Ejecutar Qwen 3.6 localmente

Despliega Qwen 3.6 en tu propio hardware - desde Mac M4 16GB hasta servidores de producción

Los modelos de pesos abiertos de Qwen 3.6 están diseñados para despliegue local en una amplia gama de hardware. El modelo denso 27B puede correr con 16GB de VRAM usando IQ4_XS GGUF con compresión de caché KV soportando hasta 100K de contexto. El modelo 35B A3B MoE entrega 20-40 tokens por segundo en hardware de consumo con cuantización de 4 bits. Reportes de la comunidad confirman que Mac M4 16GB ejecuta el 35B A3B con cuantización Q3. Soporte completo para Ollama, vLLM, llama.cpp, SGLang y KTransformers. Las capacidades de visión y multimodal funcionan localmente.

Despliegue local

Todo lo que necesitas para ejecutar Qwen 3.6 en tu propia computadora

Desde la selección de hardware hasta el ajuste de cuantización, esta guía cubre cada aspecto del despliegue local de modelos Qwen 3.6 para desarrollo, pruebas y uso en producción. Seis frameworks de inferencia soportados, con configuraciones de hardware desde laptops de 16GB hasta estaciones de trabajo de 96GB.

Requisitos de hardware - 35B A3B MoE

El modelo 35B A3B MoE con solo 3B de parámetros activos es la opción más amigable con el hardware. Cuantización Q3_K_M: ~17GB de VRAM, confirmado funcionando en Mac M4 16GB. Q4_K_M: ~21-23GB de VRAM, cabe en RTX 4090 24GB. Q8_0: ~35GB. BF16 precisión completa: ~70GB, cabe en RTX 6000 96GB. Espera 20-40 tokens por segundo en hardware de consumo con cuantización de 4 bits según benchmarks de la comunidad Unsloth.

Requisitos de hardware - 27B Denso

El modelo denso 27B entrega la máxima calidad de pesos abiertos con todos los parámetros activos. IQ4_XS GGUF: puede correr con 16GB de VRAM con compresión de caché KV, soportando hasta 100K de longitud de contexto. Q4_K_M: ~16GB, necesita GPU de 24GB+ para operación cómoda con contexto. FP16 precisión completa: ~55.6GB, requiere 2x RTX 4090 o A100 80GB. Ideal para despliegues en estaciones de trabajo donde la calidad es la máxima prioridad.

Configuración con un comando en Ollama

La forma más rápida de desplegar localmente: 'ollama run qwen3.6:35b-a3b'. Descarga automática del modelo, selección de cuantización y detección de GPU. Soporta aceleración NVIDIA CUDA y Apple Metal. La API compatible con OpenAI en localhost:11434 se integra con Claude Code, Aider, Continue.dev y otras herramientas de programación. Visión y llamadas a herramientas funcionan de forma nativa - correcciones respecto a Qwen 3.5.

Servicio en producción con vLLM

Servicio de grado producción con batching continuo, PagedAttention y endpoints de API compatibles con OpenAI. Ideal para despliegues multi-usuario e inferencia de alto rendimiento en hardware de servidor. Soporta paralelismo de tensores para dividir el modelo 27B entre múltiples GPUs. PagedAttention permite gestión eficiente de memoria para solicitudes de contexto largo hasta la longitud completa de contexto del modelo.

llama.cpp y SGLang

llama.cpp proporciona inferencia ligera en C++ con soporte de CPU y GPU, ideal para despliegues en el borde y entornos con recursos limitados. SGLang ofrece servicio de alto rendimiento con RadixAttention para caché eficiente de prefijos. Ambos soportan modelos cuantizados GGUF y proporcionan endpoints de API compatibles con OpenAI. KTransformers también está soportado para escenarios de despliegue avanzados.

Visión y multimodal localmente

Tanto el modelo 27B como el 35B A3B soportan entradas de visión y multimodales cuando se despliegan localmente. Analiza capturas de pantalla de código, revisa diseños de interfaz, interpreta diagramas de arquitectura y depura problemas visuales. Esta capacidad funciona en Ollama, vLLM y otros frameworks soportados. Una mejora significativa respecto a Qwen 3.5 donde la visión local estaba rota.

Privacidad y soberanía de datos

Todos los datos se quedan en tu computadora. Sin llamadas API, sin dependencias de la nube, sin rastreo de uso, sin datos saliendo de tu red. Perfecto para bases de código sensibles, datos propietarios, aplicaciones de salud y finanzas, y entornos aislados donde la soberanía de datos es legalmente requerida. La licencia Apache 2.0 permite uso comercial sin restricciones.

Análisis de costos vs API

Cero costos por token después de la inversión inicial en hardware. Una sola RTX 4090 (~$1,600) ejecutando el modelo 35B A3B a 20-40 tok/s puede manejar miles de solicitudes por día. Con los precios de DashScope de $0.40/$2.40 por millón de tokens, la GPU se paga sola en semanas para uso intensivo. Para equipos que procesan millones de tokens diariamente, el despliegue local ofrece ahorros de 10-100x sobre el acceso por API.

Referencia rápida

Configuraciones de hardware y opciones de frameworks

Especificaciones clave para el despliegue local de Qwen 3.6 en diferentes configuraciones de hardware y frameworks de inferencia.

Configuraciones 35B A3B MoE

  • Q3_K_M: ~17GB VRAM - Mac M4 16GB confirmado funcionando
  • Q4_K_M: ~21-23GB VRAM - RTX 4090 24GB recomendado
  • Q8_0: ~35GB VRAM - RTX A6000 48GB o GPU dual
  • BF16: ~70GB VRAM - RTX 6000 96GB precisión completa
  • 20-40 tok/s en hardware de consumo a 4 bits (benchmarks Unsloth)
  • 3B parámetros activos por token, inferencia eficiente

Configuraciones 27B Denso

  • IQ4_XS GGUF: 16GB VRAM con compresión de caché KV (100K de contexto)
  • Q4_K_M: ~16GB VRAM - RTX 4090 24GB con espacio para contexto
  • FP16: ~55.6GB VRAM - 2x RTX 4090 o A100 80GB
  • Todos los 27B parámetros activos para máxima calidad
  • Mejor modelo de pesos abiertos para programación: 77.2% SWE-bench

Frameworks soportados

  • Ollama: Configuración más fácil, despliegue con un comando, visión + llamadas a herramientas
  • vLLM: Servicio en producción, batching continuo, paralelismo de tensores
  • llama.cpp: Inferencia ligera en C++, CPU + GPU, despliegue en el borde
  • SGLang: Servicio de alto rendimiento con caché de prefijos RadixAttention
  • KTransformers: Despliegue y optimización avanzados
  • HuggingFace Transformers: Python nativo, soporte completo de ajuste fino

Ecosistema Qwen

Modelos de pesos abiertos diseñados para despliegue local - licencia Apache 2.0

Los modelos de pesos abiertos de Qwen 3.6 se publican bajo la licencia Apache 2.0 con soporte completo para seis frameworks de inferencia. Desde laptops Mac M4 hasta servidores multi-GPU, despliega con confianza y sin costos recurrentes.

Qwen 3.6 35B A3B

MoE, 3B parámetros activos, 20-40 tok/s en GPU de consumo

Descargar

Qwen 3.6 27B

Denso, 16GB VRAM con IQ4_XS, máxima calidad

Descargar

Librería Ollama

Tags de modelos preconstruidos para configuración con un comando

Explorar

Modelos GGUF

Modelos cuantizados para cada presupuesto de VRAM

Descargar

Docs de vLLM

Servicio en producción con batching continuo

Leer docs

Comunidad

Obtén ayuda de la comunidad Qwen

Unirse

Primeros pasos

¿Listo para ejecutar Qwen 3.6 en tu propio hardware? Empieza con un solo comando

Prueba Qwen 3.6 en el navegador primero, luego despliega localmente con Ollama, vLLM, llama.cpp o SGLang. El 35B A3B funciona en Mac M4 16GB, el 27B cabe en 16GB de VRAM con IQ4_XS. Sin costos por token, privacidad total de datos, licencia Apache 2.0.