Qwen 3.6 + Ollama

Ejecuta Qwen 3.6 en local con un solo comando, sin configuración necesaria

Ollama hace que ejecutar Qwen 3.6 sea tan sencillo como 'ollama run qwen3.6:35b-a3b'. Detección automática de GPU, descarga del modelo y selección de cuantización. Soporta tanto el modelo denso 27B como el 35B A3B MoE con aceleración NVIDIA CUDA y Apple Metal. Se esperan 20-40 tokens por segundo en hardware de consumo para el modelo 35B A3B en 4 bits. La API compatible con OpenAI en localhost:11434 se integra directamente con Claude Code, Aider, Continue.dev y otras herramientas de programación. Soporte de visión y entrada multimodal de serie, una corrección clave respecto a Qwen 3.5 donde la visión y las llamadas a herramientas estaban rotas.

Empezar a chatear Ver etiquetas de modelos

Guía de Ollama

De la instalación a la inferencia en menos de 5 minutos

Ollama gestiona la complejidad del despliegue local de modelos: detección de GPU, gestión de memoria, cuantización y servicio de API, para que puedas centrarte en usar el modelo. Qwen 3.6 corrige los problemas de visión y llamadas a herramientas que afectaban a Qwen 3.5 en Ollama.

Configuración con un solo comando

Instala Ollama y luego ejecuta 'ollama run qwen3.6:35b-a3b' (etiqueta por defecto) u 'ollama run qwen3.6:27b'. Descarga automática del modelo, detección de GPU y selección óptima de cuantización. Funciona en macOS (Apple Silicon con Metal), Linux (NVIDIA CUDA) y Windows (WSL2 o nativo). El 35B A3B es el modelo recomendado por defecto para la mayoría de usuarios por su equilibrio entre calidad y requisitos de hardware.

Selección de etiquetas de modelo

Elige la variante adecuada: 'qwen3.6:35b-a3b' para GPUs de consumo (etiqueta por defecto), 'qwen3.6:27b' para máximo rendimiento en hardware de estación de trabajo, 'qwen3.6:35b-a3b-q4_k_m' para control específico de cuantización, o 'qwen3.6:35b-a3b-q3_k_m' para presupuestos de VRAM más ajustados (~17 GB). Las etiquetas corresponden directamente a niveles de cuantización GGUF. Usa 'ollama list' para ver los modelos descargados y 'ollama show qwen3.6:35b-a3b' para inspeccionar los detalles del modelo.

Requisitos de VRAM y cuantización

Opciones de cuantización del 35B A3B: Q2_K (~13 GB, más rápido, menor calidad), Q3_K_M (~17 GB, bueno para Mac M4 16 GB), Q4_K_M (~21 GB, calidad/velocidad equilibrada en GPU de 24 GB), Q5_K_M (~25 GB), Q8_0 (~35 GB, casi sin pérdida). 27B denso: Q4_K_M ~16 GB, necesita GPU de 24 GB o más. BF16 precisión completa para 35B A3B requiere ~70 GB de VRAM. Informes de la comunidad confirman que Mac M4 16 GB ejecuta el 35B A3B con cuantización Q3 correctamente.

Soporte de visión y multimodal

Los modelos Qwen 3.6 soportan entradas multimodales a través de Ollama, una mejora importante respecto a Qwen 3.5 donde la visión estaba rota. Pasa imágenes junto con prompts de texto para análisis de capturas de pantalla de código, revisión de interfaces, comprensión de diagramas, interpretación de diagramas de arquitectura y flujos de trabajo de depuración visual. Usa el comando /image en el chat de Ollama o pasa imágenes codificadas en base64 a través de la API.

Benchmarks de rendimiento en hardware de consumo

Los benchmarks de la comunidad Unsloth muestran 20-40 tokens por segundo en equipos locales para el modelo 35B A3B en 4 bits. Los usuarios de Mac M4 16 GB reportan velocidades utilizables con cuantización Q3. RTX 4090 24 GB gestiona Q4_K_M con margen para contexto. RTX 6000 96 GB puede ejecutar el despliegue a precisión completa. El rendimiento escala linealmente con el ancho de banda de memoria de la GPU: más velocidad de memoria significa inferencia más rápida.

Personalización con Modelfile

Crea Modelfiles personalizados para configurar prompts de sistema, temperatura, longitud de contexto (num_ctx), descarga de capas a GPU (num_gpu), tamaño de lote (num_batch) y número de hilos. Establece num_ctx hasta 131072 para tareas de contexto largo. Personaliza la plantilla de chat para casos de uso específicos como asistentes de programación, redacción técnica o flujos de trabajo agénticos. Los Modelfiles son texto plano y se pueden versionar.

Llamadas a herramientas y soporte de funciones

Qwen 3.6 en Ollama soporta llamadas a herramientas e invocación de funciones, otra corrección respecto a Qwen 3.5 donde las llamadas a herramientas estaban rotas. Define herramientas en el formato compatible con OpenAI y el modelo generará llamadas a funciones estructuradas. Esto permite la integración con frameworks agénticos como LangChain, AutoGen y CrewAI a través del endpoint localhost:11434.

Integración con herramientas de programación

Ollama expone una API compatible con OpenAI en localhost:11434. Conéctala directamente a Claude Code (a través de la API compatible con OpenAI), OpenClaw, Aider, Continue.dev, Cursor y otras herramientas de programación que soporten endpoints personalizados de OpenAI. Configura la URL base a http://localhost:11434/v1 y usa cualquier cadena como clave API. Los modelos Qwen 3.6 soportan el mismo formato de completado de chat que OpenAI.

Referencia rápida

Comandos de Ollama, etiquetas de modelos y requisitos de hardware

Comandos esenciales, opciones de configuración y requisitos de hardware para ejecutar Qwen 3.6 con Ollama en diferentes plataformas.

Comandos esenciales

ollama run qwen3.6:35b-a3b - Ejecutar modelo MoE (etiqueta por defecto, GPU de consumo)
ollama run qwen3.6:27b - Ejecutar modelo denso (GPU de estación de trabajo)
ollama pull qwen3.6:35b-a3b-q3_k_m - Descargar cuantización Q3 (~17 GB, compatible con Mac M4)
ollama pull qwen3.6:35b-a3b-q4_k_m - Descargar cuantización Q4 (~21 GB, equilibrada)
ollama serve - Iniciar servidor API en localhost:11434
ollama list - Mostrar modelos descargados y tamaños
ollama show qwen3.6:35b-a3b - Inspeccionar detalles y parámetros del modelo

Requisitos de hardware

35B A3B Q3_K_M: ~17 GB de VRAM (Mac M4 16 GB confirmado funcionando)
35B A3B Q4_K_M: ~21 GB de VRAM (RTX 4090 24 GB recomendada)
35B A3B BF16: ~70 GB de VRAM (RTX 6000 96 GB o multi-GPU)
27B Denso Q4_K_M: ~16 GB de VRAM (RTX 4090 24 GB mínimo)
27B Denso IQ4_XS: cabe en 16 GB de VRAM con compresión de caché KV
macOS: Apple Silicon con aceleración Metal (M1 Pro o superior recomendado)
20-40 tok/s en hardware de consumo para 35B A3B en 4 bits
Respaldo en CPU disponible pero significativamente más lento (~2-5 tok/s)

Correcciones respecto a Qwen 3.5

Entrada de visión/multimodal: rota en 3.5, completamente funcional en 3.6
Llamadas a herramientas/invocación de funciones: rotas en 3.5, corregidas en 3.6
Mejor gestión de contexto y eficiencia de memoria
Mejor calidad de cuantización en anchos de bits bajos

Empezar a chatear Documentación de Ollama

Guías de configuración

Pon Qwen 3.6 en marcha con Ollama en cualquier plataforma

Guías paso a paso para instalar Ollama y configurar Qwen 3.6 en tu plataforma, con consejos de optimización específicos para cada hardware.

Configuración en macOS (Apple Silicon)

Instala Ollama y ejecuta Qwen 3.6 en Macs M1/M2/M3/M4 con aceleración Metal

Configuración en Linux (NVIDIA)

Configuración de GPU NVIDIA con aceleración CUDA para máximo rendimiento

Configuración en Windows

Instalación en WSL2 y Windows nativo con paso de GPU

Configuración con Docker

Ejecuta Ollama en un contenedor con acceso a GPU para despliegues reproducibles

Guía para Mac M4 16 GB

Ejecuta 35B A3B con cuantización Q3 en Mac M4 con 16 GB de RAM

Configuración multi-GPU

Divide modelos grandes entre múltiples GPUs para mejor rendimiento

Configuración avanzada

Optimiza el rendimiento de Qwen 3.6 e intégralo con herramientas de programación

Ajusta el rendimiento del modelo con Modelfiles, configuración de GPU, ajustes de contexto y conecta con tu entorno de desarrollo.

Guía de Modelfile

Prompts de sistema personalizados, temperatura, longitud de contexto y plantillas de chat

Optimización de GPU

Gestión de VRAM, descarga de capas y ajuste de tamaño de lote

Integración con Claude Code

Usa Qwen 3.6 a través de Ollama como backend para Claude Code

Configuración de Continue.dev

Asistente de programación IA en VS Code con Qwen 3.6 local

Integración con Aider

Programación en pareja con IA usando Qwen 3.6 alojado en Ollama

Integración con la API

Conecta localhost:11434 de Ollama a cualquier herramienta compatible con OpenAI

Ecosistema Qwen

Ollama es la vía más rápida a Qwen 3.6 en local: un comando, todas las capacidades

Configuración con un solo comando con detección automática de GPU, gestión de modelos, soporte de visión, llamadas a herramientas y una API compatible con OpenAI en localhost:11434 para integración fluida con Claude Code, Aider, Continue.dev y más.

Explorar todos los modelos Librería de Ollama

Qwen 3.6 35B A3B

Modelo MoE, 20-40 tok/s en GPU de consumo

Ejecutar en local

Qwen 3.6 27B

Modelo denso, máximo rendimiento local

Ejecutar en local

Librería de Ollama

Explora todas las etiquetas y cuantizaciones de modelos Qwen disponibles

Explorar

Referencia de Modelfile

Personaliza el comportamiento, contexto y parámetros del modelo

Leer docs

Referencia de la API

API compatible con OpenAI en localhost:11434

Ver API

Comunidad

Obtén ayuda de las comunidades de Ollama y Qwen

Unirse

Primeros pasos

¿Listo para ejecutar Qwen 3.6 con Ollama? Un solo comando es todo lo que necesitas

Prueba Qwen 3.6 primero en el navegador y luego instala Ollama para despliegue local. Ejecuta 'ollama run qwen3.6:35b-a3b' para descargar, configurar y empezar a chatear con 20-40 tok/s en hardware de consumo. Visión, llamadas a herramientas e integración con herramientas de programación funcionan de serie.

Empezar a chatear Instalar Ollama