Qwen 3.6 + Ollama

Ejecuta Qwen 3.6 en local con un solo comando, sin configuración necesaria

Ollama hace que ejecutar Qwen 3.6 sea tan sencillo como 'ollama run qwen3.6:35b-a3b'. Detección automática de GPU, descarga del modelo y selección de cuantización. Soporta tanto el modelo denso 27B como el 35B A3B MoE con aceleración NVIDIA CUDA y Apple Metal. Se esperan 20-40 tokens por segundo en hardware de consumo para el modelo 35B A3B en 4 bits. La API compatible con OpenAI en localhost:11434 se integra directamente con Claude Code, Aider, Continue.dev y otras herramientas de programación. Soporte de visión y entrada multimodal de serie, una corrección clave respecto a Qwen 3.5 donde la visión y las llamadas a herramientas estaban rotas.

Guía de Ollama

De la instalación a la inferencia en menos de 5 minutos

Ollama gestiona la complejidad del despliegue local de modelos: detección de GPU, gestión de memoria, cuantización y servicio de API, para que puedas centrarte en usar el modelo. Qwen 3.6 corrige los problemas de visión y llamadas a herramientas que afectaban a Qwen 3.5 en Ollama.

Configuración con un solo comando

Instala Ollama y luego ejecuta 'ollama run qwen3.6:35b-a3b' (etiqueta por defecto) u 'ollama run qwen3.6:27b'. Descarga automática del modelo, detección de GPU y selección óptima de cuantización. Funciona en macOS (Apple Silicon con Metal), Linux (NVIDIA CUDA) y Windows (WSL2 o nativo). El 35B A3B es el modelo recomendado por defecto para la mayoría de usuarios por su equilibrio entre calidad y requisitos de hardware.

Selección de etiquetas de modelo

Elige la variante adecuada: 'qwen3.6:35b-a3b' para GPUs de consumo (etiqueta por defecto), 'qwen3.6:27b' para máximo rendimiento en hardware de estación de trabajo, 'qwen3.6:35b-a3b-q4_k_m' para control específico de cuantización, o 'qwen3.6:35b-a3b-q3_k_m' para presupuestos de VRAM más ajustados (~17 GB). Las etiquetas corresponden directamente a niveles de cuantización GGUF. Usa 'ollama list' para ver los modelos descargados y 'ollama show qwen3.6:35b-a3b' para inspeccionar los detalles del modelo.

Requisitos de VRAM y cuantización

Opciones de cuantización del 35B A3B: Q2_K (~13 GB, más rápido, menor calidad), Q3_K_M (~17 GB, bueno para Mac M4 16 GB), Q4_K_M (~21 GB, calidad/velocidad equilibrada en GPU de 24 GB), Q5_K_M (~25 GB), Q8_0 (~35 GB, casi sin pérdida). 27B denso: Q4_K_M ~16 GB, necesita GPU de 24 GB o más. BF16 precisión completa para 35B A3B requiere ~70 GB de VRAM. Informes de la comunidad confirman que Mac M4 16 GB ejecuta el 35B A3B con cuantización Q3 correctamente.

Soporte de visión y multimodal

Los modelos Qwen 3.6 soportan entradas multimodales a través de Ollama, una mejora importante respecto a Qwen 3.5 donde la visión estaba rota. Pasa imágenes junto con prompts de texto para análisis de capturas de pantalla de código, revisión de interfaces, comprensión de diagramas, interpretación de diagramas de arquitectura y flujos de trabajo de depuración visual. Usa el comando /image en el chat de Ollama o pasa imágenes codificadas en base64 a través de la API.

Benchmarks de rendimiento en hardware de consumo

Los benchmarks de la comunidad Unsloth muestran 20-40 tokens por segundo en equipos locales para el modelo 35B A3B en 4 bits. Los usuarios de Mac M4 16 GB reportan velocidades utilizables con cuantización Q3. RTX 4090 24 GB gestiona Q4_K_M con margen para contexto. RTX 6000 96 GB puede ejecutar el despliegue a precisión completa. El rendimiento escala linealmente con el ancho de banda de memoria de la GPU: más velocidad de memoria significa inferencia más rápida.

Personalización con Modelfile

Crea Modelfiles personalizados para configurar prompts de sistema, temperatura, longitud de contexto (num_ctx), descarga de capas a GPU (num_gpu), tamaño de lote (num_batch) y número de hilos. Establece num_ctx hasta 131072 para tareas de contexto largo. Personaliza la plantilla de chat para casos de uso específicos como asistentes de programación, redacción técnica o flujos de trabajo agénticos. Los Modelfiles son texto plano y se pueden versionar.

Llamadas a herramientas y soporte de funciones

Qwen 3.6 en Ollama soporta llamadas a herramientas e invocación de funciones, otra corrección respecto a Qwen 3.5 donde las llamadas a herramientas estaban rotas. Define herramientas en el formato compatible con OpenAI y el modelo generará llamadas a funciones estructuradas. Esto permite la integración con frameworks agénticos como LangChain, AutoGen y CrewAI a través del endpoint localhost:11434.

Integración con herramientas de programación

Ollama expone una API compatible con OpenAI en localhost:11434. Conéctala directamente a Claude Code (a través de la API compatible con OpenAI), OpenClaw, Aider, Continue.dev, Cursor y otras herramientas de programación que soporten endpoints personalizados de OpenAI. Configura la URL base a http://localhost:11434/v1 y usa cualquier cadena como clave API. Los modelos Qwen 3.6 soportan el mismo formato de completado de chat que OpenAI.

Referencia rápida

Comandos de Ollama, etiquetas de modelos y requisitos de hardware

Comandos esenciales, opciones de configuración y requisitos de hardware para ejecutar Qwen 3.6 con Ollama en diferentes plataformas.

Comandos esenciales

  • ollama run qwen3.6:35b-a3b - Ejecutar modelo MoE (etiqueta por defecto, GPU de consumo)
  • ollama run qwen3.6:27b - Ejecutar modelo denso (GPU de estación de trabajo)
  • ollama pull qwen3.6:35b-a3b-q3_k_m - Descargar cuantización Q3 (~17 GB, compatible con Mac M4)
  • ollama pull qwen3.6:35b-a3b-q4_k_m - Descargar cuantización Q4 (~21 GB, equilibrada)
  • ollama serve - Iniciar servidor API en localhost:11434
  • ollama list - Mostrar modelos descargados y tamaños
  • ollama show qwen3.6:35b-a3b - Inspeccionar detalles y parámetros del modelo

Requisitos de hardware

  • 35B A3B Q3_K_M: ~17 GB de VRAM (Mac M4 16 GB confirmado funcionando)
  • 35B A3B Q4_K_M: ~21 GB de VRAM (RTX 4090 24 GB recomendada)
  • 35B A3B BF16: ~70 GB de VRAM (RTX 6000 96 GB o multi-GPU)
  • 27B Denso Q4_K_M: ~16 GB de VRAM (RTX 4090 24 GB mínimo)
  • 27B Denso IQ4_XS: cabe en 16 GB de VRAM con compresión de caché KV
  • macOS: Apple Silicon con aceleración Metal (M1 Pro o superior recomendado)
  • 20-40 tok/s en hardware de consumo para 35B A3B en 4 bits
  • Respaldo en CPU disponible pero significativamente más lento (~2-5 tok/s)

Correcciones respecto a Qwen 3.5

  • Entrada de visión/multimodal: rota en 3.5, completamente funcional en 3.6
  • Llamadas a herramientas/invocación de funciones: rotas en 3.5, corregidas en 3.6
  • Mejor gestión de contexto y eficiencia de memoria
  • Mejor calidad de cuantización en anchos de bits bajos

Ecosistema Qwen

Ollama es la vía más rápida a Qwen 3.6 en local: un comando, todas las capacidades

Configuración con un solo comando con detección automática de GPU, gestión de modelos, soporte de visión, llamadas a herramientas y una API compatible con OpenAI en localhost:11434 para integración fluida con Claude Code, Aider, Continue.dev y más.

Qwen 3.6 35B A3B

Modelo MoE, 20-40 tok/s en GPU de consumo

Ejecutar en local

Qwen 3.6 27B

Modelo denso, máximo rendimiento local

Ejecutar en local

Librería de Ollama

Explora todas las etiquetas y cuantizaciones de modelos Qwen disponibles

Explorar

Referencia de Modelfile

Personaliza el comportamiento, contexto y parámetros del modelo

Leer docs

Referencia de la API

API compatible con OpenAI en localhost:11434

Ver API

Comunidad

Obtén ayuda de las comunidades de Ollama y Qwen

Unirse

Primeros pasos

¿Listo para ejecutar Qwen 3.6 con Ollama? Un solo comando es todo lo que necesitas

Prueba Qwen 3.6 primero en el navegador y luego instala Ollama para despliegue local. Ejecuta 'ollama run qwen3.6:35b-a3b' para descargar, configurar y empezar a chatear con 20-40 tok/s en hardware de consumo. Visión, llamadas a herramientas e integración con herramientas de programación funcionan de serie.