Qwen 3.6 + Ollama

Ejecuta Qwen 3.6 localmente con un solo comando - sin configuración necesaria

Ollama hace que ejecutar Qwen 3.6 sea tan simple como 'ollama run qwen3.6:35b-a3b'. Detección automática de GPU, descarga de modelos y selección de cuantización. Soporta tanto el modelo denso 27B como el 35B A3B MoE con aceleración NVIDIA CUDA y Apple Metal. Espera 20-40 tokens por segundo en hardware de consumo para el modelo 35B A3B de 4 bits. La API compatible con OpenAI en localhost:11434 se integra directamente con Claude Code, Aider, Continue.dev y otras herramientas de programación. Soporte de visión y entrada multimodal de forma nativa - una corrección clave respecto a Qwen 3.5 donde la visión y las llamadas a herramientas estaban rotas.

Guía de Ollama

De la instalación a la inferencia en menos de 5 minutos

Ollama maneja la complejidad del despliegue local de modelos - detección de GPU, gestión de memoria, cuantización y servicio de API - para que puedas enfocarte en usar el modelo. Qwen 3.6 corrige los problemas de visión y llamadas a herramientas que afectaban a Qwen 3.5 en Ollama.

Configuración con un comando

Instala Ollama, luego ejecuta 'ollama run qwen3.6:35b-a3b' (tag predeterminado) u 'ollama run qwen3.6:27b'. Descarga automática del modelo, detección de GPU y selección óptima de cuantización. Funciona en macOS (Apple Silicon con Metal), Linux (NVIDIA CUDA) y Windows (WSL2 o nativo). El 35B A3B es el modelo recomendado por defecto para la mayoría de los usuarios por su balance entre calidad y requisitos de hardware.

Selección de tags de modelos

Elige la variante correcta del modelo: 'qwen3.6:35b-a3b' para GPUs de consumo (tag predeterminado), 'qwen3.6:27b' para máximo rendimiento en hardware de estación de trabajo, 'qwen3.6:35b-a3b-q4_k_m' para control específico de cuantización, o 'qwen3.6:35b-a3b-q3_k_m' para presupuestos de VRAM más ajustados (~17GB). Los tags se mapean directamente a niveles de cuantización GGUF. Usa 'ollama list' para ver modelos descargados y 'ollama show qwen3.6:35b-a3b' para inspeccionar detalles del modelo.

Requisitos de VRAM y cuantización

Opciones de cuantización del 35B A3B: Q2_K (~13GB, más rápido, menor calidad), Q3_K_M (~17GB, bueno para Mac M4 16GB), Q4_K_M (~21GB, calidad/velocidad balanceada en GPU de 24GB), Q5_K_M (~25GB), Q8_0 (~35GB, casi sin pérdida). 27B denso: Q4_K_M ~16GB, necesita GPU de 24GB+. BF16 precisión completa para 35B A3B requiere ~70GB de VRAM. Reportes de la comunidad confirman que Mac M4 16GB ejecuta el 35B A3B con cuantización Q3 exitosamente.

Soporte de visión y multimodal

Los modelos Qwen 3.6 soportan entradas multimodales a través de Ollama - una mejora importante respecto a Qwen 3.5 donde la visión estaba rota. Pasa imágenes junto con prompts de texto para análisis de capturas de pantalla de código, revisión de UI, comprensión de diagramas, interpretación de diagramas de arquitectura y flujos de depuración visual. Usa el comando /image en el chat de Ollama o pasa imágenes codificadas en base64 vía la API.

Benchmarks de rendimiento en hardware de consumo

Los benchmarks de la comunidad Unsloth muestran 20-40 tokens por segundo en equipos locales para el modelo 35B A3B de 4 bits. Usuarios de Mac M4 16GB reportan velocidades utilizables con cuantización Q3. RTX 4090 24GB maneja Q4_K_M con espacio para contexto. RTX 6000 96GB puede ejecutar despliegue a precisión completa. El rendimiento escala linealmente con el ancho de banda de memoria de la GPU - memoria más rápida significa inferencia más rápida.

Personalización con Modelfile

Crea Modelfiles personalizados para configurar prompts de sistema, temperatura, longitud de contexto (num_ctx), descarga de capas a GPU (num_gpu), tamaño de lote (num_batch) y conteo de hilos. Configura num_ctx hasta 131072 para tareas de contexto largo. Personaliza la plantilla de chat para casos de uso específicos como asistentes de programación, escritura técnica o flujos de trabajo agénticos. Los Modelfiles son texto plano y versionables.

Llamadas a herramientas y soporte de funciones

Qwen 3.6 en Ollama soporta llamadas a herramientas e invocación de funciones - otra corrección respecto a Qwen 3.5 donde las llamadas a herramientas estaban rotas. Define herramientas en el formato compatible con OpenAI y el modelo generará llamadas a funciones estructuradas. Esto permite la integración con frameworks agénticos como LangChain, AutoGen y CrewAI a través del endpoint localhost:11434.

Integración con herramientas de programación

Ollama expone una API compatible con OpenAI en localhost:11434. Conéctate directamente a Claude Code (vía API compatible con OpenAI), OpenClaw, Aider, Continue.dev, Cursor y otras herramientas de programación que soporten endpoints personalizados de OpenAI. Configura la URL base a http://localhost:11434/v1 y usa cualquier cadena como clave API. Los modelos Qwen 3.6 soportan el mismo formato de completaciones de chat que OpenAI.

Referencia rápida

Comandos de Ollama, tags de modelos y requisitos de hardware

Comandos esenciales, opciones de configuración y requisitos de hardware para ejecutar Qwen 3.6 con Ollama en diferentes plataformas.

Comandos esenciales

  • ollama run qwen3.6:35b-a3b - Ejecutar modelo MoE (tag predeterminado, GPU de consumo)
  • ollama run qwen3.6:27b - Ejecutar modelo denso (GPU de estación de trabajo)
  • ollama pull qwen3.6:35b-a3b-q3_k_m - Descargar cuantización Q3 (~17GB, amigable con Mac M4)
  • ollama pull qwen3.6:35b-a3b-q4_k_m - Descargar cuantización Q4 (~21GB, balanceado)
  • ollama serve - Iniciar servidor API en localhost:11434
  • ollama list - Mostrar modelos descargados y tamaños
  • ollama show qwen3.6:35b-a3b - Inspeccionar detalles y parámetros del modelo

Requisitos de hardware

  • 35B A3B Q3_K_M: ~17GB VRAM (Mac M4 16GB confirmado funcionando)
  • 35B A3B Q4_K_M: ~21GB VRAM (RTX 4090 24GB recomendado)
  • 35B A3B BF16: ~70GB VRAM (RTX 6000 96GB o multi-GPU)
  • 27B Denso Q4_K_M: ~16GB VRAM (RTX 4090 24GB mínimo)
  • 27B Denso IQ4_XS: cabe en 16GB VRAM con compresión de caché KV
  • macOS: Apple Silicon con aceleración Metal (M1 Pro+ recomendado)
  • 20-40 tok/s en hardware de consumo para 35B A3B de 4 bits
  • Respaldo en CPU disponible pero significativamente más lento (~2-5 tok/s)

Correcciones respecto a Qwen 3.5

  • Entrada de visión/multimodal: rota en 3.5, completamente funcional en 3.6
  • Llamadas a herramientas/invocación de funciones: rotas en 3.5, corregidas en 3.6
  • Manejo de contexto y eficiencia de memoria mejorados
  • Mejor calidad de cuantización en anchos de bits más bajos

Ecosistema Qwen

Ollama es la forma más rápida de usar Qwen 3.6 localmente - un comando, capacidades completas

Configuración con un comando con detección automática de GPU, gestión de modelos, soporte de visión, llamadas a herramientas y una API compatible con OpenAI en localhost:11434 para integración fluida con Claude Code, Aider, Continue.dev y más.

Qwen 3.6 35B A3B

Modelo MoE, 20-40 tok/s en GPU de consumo

Ejecutar localmente

Qwen 3.6 27B

Modelo denso, máximo rendimiento local

Ejecutar localmente

Librería Ollama

Explora todos los tags y cuantizaciones de modelos Qwen disponibles

Explorar

Referencia de Modelfile

Personaliza comportamiento, contexto y parámetros del modelo

Leer docs

Referencia de API

API compatible con OpenAI en localhost:11434

Ver API

Comunidad

Obtén ayuda de las comunidades de Ollama y Qwen

Unirse

Primeros pasos

¿Listo para ejecutar Qwen 3.6 con Ollama? Un solo comando es todo lo que necesitas

Prueba Qwen 3.6 en el navegador primero, luego instala Ollama para despliegue local. Ejecuta 'ollama run qwen3.6:35b-a3b' para descargar, configurar y empezar a chatear con 20-40 tok/s en hardware de consumo. Visión, llamadas a herramientas e integración con herramientas de programación funcionan de forma nativa.