Qwen 3.6 + Ollama
Ejecuta Qwen 3.6 localmente con un solo comando - sin configuración necesaria
Ollama hace que ejecutar Qwen 3.6 sea tan simple como 'ollama run qwen3.6:35b-a3b'. Detección automática de GPU, descarga de modelos y selección de cuantización. Soporta tanto el modelo denso 27B como el 35B A3B MoE con aceleración NVIDIA CUDA y Apple Metal. Espera 20-40 tokens por segundo en hardware de consumo para el modelo 35B A3B de 4 bits. La API compatible con OpenAI en localhost:11434 se integra directamente con Claude Code, Aider, Continue.dev y otras herramientas de programación. Soporte de visión y entrada multimodal de forma nativa - una corrección clave respecto a Qwen 3.5 donde la visión y las llamadas a herramientas estaban rotas.
Guía de Ollama
De la instalación a la inferencia en menos de 5 minutos
Ollama maneja la complejidad del despliegue local de modelos - detección de GPU, gestión de memoria, cuantización y servicio de API - para que puedas enfocarte en usar el modelo. Qwen 3.6 corrige los problemas de visión y llamadas a herramientas que afectaban a Qwen 3.5 en Ollama.
Configuración con un comando
Instala Ollama, luego ejecuta 'ollama run qwen3.6:35b-a3b' (tag predeterminado) u 'ollama run qwen3.6:27b'. Descarga automática del modelo, detección de GPU y selección óptima de cuantización. Funciona en macOS (Apple Silicon con Metal), Linux (NVIDIA CUDA) y Windows (WSL2 o nativo). El 35B A3B es el modelo recomendado por defecto para la mayoría de los usuarios por su balance entre calidad y requisitos de hardware.
Selección de tags de modelos
Elige la variante correcta del modelo: 'qwen3.6:35b-a3b' para GPUs de consumo (tag predeterminado), 'qwen3.6:27b' para máximo rendimiento en hardware de estación de trabajo, 'qwen3.6:35b-a3b-q4_k_m' para control específico de cuantización, o 'qwen3.6:35b-a3b-q3_k_m' para presupuestos de VRAM más ajustados (~17GB). Los tags se mapean directamente a niveles de cuantización GGUF. Usa 'ollama list' para ver modelos descargados y 'ollama show qwen3.6:35b-a3b' para inspeccionar detalles del modelo.
Requisitos de VRAM y cuantización
Opciones de cuantización del 35B A3B: Q2_K (~13GB, más rápido, menor calidad), Q3_K_M (~17GB, bueno para Mac M4 16GB), Q4_K_M (~21GB, calidad/velocidad balanceada en GPU de 24GB), Q5_K_M (~25GB), Q8_0 (~35GB, casi sin pérdida). 27B denso: Q4_K_M ~16GB, necesita GPU de 24GB+. BF16 precisión completa para 35B A3B requiere ~70GB de VRAM. Reportes de la comunidad confirman que Mac M4 16GB ejecuta el 35B A3B con cuantización Q3 exitosamente.
Soporte de visión y multimodal
Los modelos Qwen 3.6 soportan entradas multimodales a través de Ollama - una mejora importante respecto a Qwen 3.5 donde la visión estaba rota. Pasa imágenes junto con prompts de texto para análisis de capturas de pantalla de código, revisión de UI, comprensión de diagramas, interpretación de diagramas de arquitectura y flujos de depuración visual. Usa el comando /image en el chat de Ollama o pasa imágenes codificadas en base64 vía la API.
Benchmarks de rendimiento en hardware de consumo
Los benchmarks de la comunidad Unsloth muestran 20-40 tokens por segundo en equipos locales para el modelo 35B A3B de 4 bits. Usuarios de Mac M4 16GB reportan velocidades utilizables con cuantización Q3. RTX 4090 24GB maneja Q4_K_M con espacio para contexto. RTX 6000 96GB puede ejecutar despliegue a precisión completa. El rendimiento escala linealmente con el ancho de banda de memoria de la GPU - memoria más rápida significa inferencia más rápida.
Personalización con Modelfile
Crea Modelfiles personalizados para configurar prompts de sistema, temperatura, longitud de contexto (num_ctx), descarga de capas a GPU (num_gpu), tamaño de lote (num_batch) y conteo de hilos. Configura num_ctx hasta 131072 para tareas de contexto largo. Personaliza la plantilla de chat para casos de uso específicos como asistentes de programación, escritura técnica o flujos de trabajo agénticos. Los Modelfiles son texto plano y versionables.
Llamadas a herramientas y soporte de funciones
Qwen 3.6 en Ollama soporta llamadas a herramientas e invocación de funciones - otra corrección respecto a Qwen 3.5 donde las llamadas a herramientas estaban rotas. Define herramientas en el formato compatible con OpenAI y el modelo generará llamadas a funciones estructuradas. Esto permite la integración con frameworks agénticos como LangChain, AutoGen y CrewAI a través del endpoint localhost:11434.
Integración con herramientas de programación
Ollama expone una API compatible con OpenAI en localhost:11434. Conéctate directamente a Claude Code (vía API compatible con OpenAI), OpenClaw, Aider, Continue.dev, Cursor y otras herramientas de programación que soporten endpoints personalizados de OpenAI. Configura la URL base a http://localhost:11434/v1 y usa cualquier cadena como clave API. Los modelos Qwen 3.6 soportan el mismo formato de completaciones de chat que OpenAI.
Referencia rápida
Comandos de Ollama, tags de modelos y requisitos de hardware
Comandos esenciales, opciones de configuración y requisitos de hardware para ejecutar Qwen 3.6 con Ollama en diferentes plataformas.
Comandos esenciales
- ollama run qwen3.6:35b-a3b - Ejecutar modelo MoE (tag predeterminado, GPU de consumo)
- ollama run qwen3.6:27b - Ejecutar modelo denso (GPU de estación de trabajo)
- ollama pull qwen3.6:35b-a3b-q3_k_m - Descargar cuantización Q3 (~17GB, amigable con Mac M4)
- ollama pull qwen3.6:35b-a3b-q4_k_m - Descargar cuantización Q4 (~21GB, balanceado)
- ollama serve - Iniciar servidor API en localhost:11434
- ollama list - Mostrar modelos descargados y tamaños
- ollama show qwen3.6:35b-a3b - Inspeccionar detalles y parámetros del modelo
Requisitos de hardware
- 35B A3B Q3_K_M: ~17GB VRAM (Mac M4 16GB confirmado funcionando)
- 35B A3B Q4_K_M: ~21GB VRAM (RTX 4090 24GB recomendado)
- 35B A3B BF16: ~70GB VRAM (RTX 6000 96GB o multi-GPU)
- 27B Denso Q4_K_M: ~16GB VRAM (RTX 4090 24GB mínimo)
- 27B Denso IQ4_XS: cabe en 16GB VRAM con compresión de caché KV
- macOS: Apple Silicon con aceleración Metal (M1 Pro+ recomendado)
- 20-40 tok/s en hardware de consumo para 35B A3B de 4 bits
- Respaldo en CPU disponible pero significativamente más lento (~2-5 tok/s)
Correcciones respecto a Qwen 3.5
- Entrada de visión/multimodal: rota en 3.5, completamente funcional en 3.6
- Llamadas a herramientas/invocación de funciones: rotas en 3.5, corregidas en 3.6
- Manejo de contexto y eficiencia de memoria mejorados
- Mejor calidad de cuantización en anchos de bits más bajos
Guías de configuración
Pon Qwen 3.6 a funcionar con Ollama en cualquier plataforma
Guías paso a paso para instalar Ollama y configurar Qwen 3.6 en tu plataforma, con consejos de optimización específicos por hardware.
Instala Ollama y ejecuta Qwen 3.6 en Macs M1/M2/M3/M4 con aceleración Metal
Configuración de GPU NVIDIA con aceleración CUDA para máximo rendimiento
Instalación en WSL2 y Windows nativo con paso de GPU
Ejecuta Ollama en un contenedor con acceso a GPU para despliegues reproducibles
Ejecuta 35B A3B con cuantización Q3 en Mac M4 con 16GB de RAM
Divide modelos grandes entre múltiples GPUs para mejor rendimiento
Configuración avanzada
Optimiza el rendimiento de Qwen 3.6 e intégralo con herramientas de programación
Ajusta el rendimiento del modelo con Modelfiles, configuración de GPU, ajustes de contexto y conéctalo a tu entorno de desarrollo.
Prompts de sistema personalizados, temperatura, longitud de contexto y plantillas de chat
Gestión de VRAM, descarga de capas y ajuste de tamaño de lote
Usa Qwen 3.6 vía Ollama como backend para Claude Code
Asistente de programación IA en VS Code con Qwen 3.6 local
Programación en pareja con IA usando Qwen 3.6 alojado en Ollama
Conecta localhost:11434 de Ollama a cualquier herramienta compatible con OpenAI
Ecosistema Qwen
Ollama es la forma más rápida de usar Qwen 3.6 localmente - un comando, capacidades completas
Configuración con un comando con detección automática de GPU, gestión de modelos, soporte de visión, llamadas a herramientas y una API compatible con OpenAI en localhost:11434 para integración fluida con Claude Code, Aider, Continue.dev y más.
Primeros pasos
¿Listo para ejecutar Qwen 3.6 con Ollama? Un solo comando es todo lo que necesitas
Prueba Qwen 3.6 en el navegador primero, luego instala Ollama para despliegue local. Ejecuta 'ollama run qwen3.6:35b-a3b' para descargar, configurar y empezar a chatear con 20-40 tok/s en hardware de consumo. Visión, llamadas a herramientas e integración con herramientas de programación funcionan de forma nativa.