Qwen 3.6 + Ollama

Execute o Qwen 3.6 localmente com um único comando - sem configuração necessária

O Ollama torna a execução do Qwen 3.6 tão simples quanto 'ollama run qwen3.6:35b-a3b'. Detecção automática de GPU, download do modelo e seleção de quantização. Suporta tanto o modelo denso 27B quanto o 35B A3B MoE com aceleração NVIDIA CUDA e Apple Metal. Espere 20-40 tokens por segundo em hardware de consumo para o modelo 35B A3B 4-bit. A API compatível com OpenAI em localhost:11434 integra diretamente com Claude Code, Aider, Continue.dev e outras ferramentas de programação. Suporte a visão e entrada multimodal pronto para uso - uma correção importante em relação ao Qwen 3.5 onde visão e chamada de ferramentas estavam quebradas.

Guia do Ollama

Da instalação à inferência em menos de 5 minutos

O Ollama cuida da complexidade da implantação local de modelos - detecção de GPU, gerenciamento de memória, quantização e servindo de API - para que você possa focar em usar o modelo. O Qwen 3.6 corrige os problemas de visão e chamada de ferramentas que afetavam o Qwen 3.5 no Ollama.

Configuração com um comando

Instale o Ollama e depois execute 'ollama run qwen3.6:35b-a3b' (tag padrão) ou 'ollama run qwen3.6:27b'. Download automático do modelo, detecção de GPU e seleção ideal de quantização. Funciona no macOS (Apple Silicon com Metal), Linux (NVIDIA CUDA) e Windows (WSL2 ou nativo). O 35B A3B é o modelo padrão recomendado para a maioria dos usuários devido ao seu equilíbrio entre qualidade e requisitos de hardware.

Seleção de tags de modelo

Escolha a variante certa do modelo: 'qwen3.6:35b-a3b' para GPUs de consumo (tag padrão), 'qwen3.6:27b' para desempenho máximo em hardware de workstation, 'qwen3.6:35b-a3b-q4_k_m' para controle específico de quantização, ou 'qwen3.6:35b-a3b-q3_k_m' para orçamentos de VRAM mais apertados (~17GB). As tags mapeiam diretamente para níveis de quantização GGUF. Use 'ollama list' para ver modelos baixados e 'ollama show qwen3.6:35b-a3b' para inspecionar detalhes do modelo.

Requisitos de VRAM e quantização

Opções de quantização do 35B A3B: Q2_K (~13GB, mais rápido, menor qualidade), Q3_K_M (~17GB, bom para Mac M4 16GB), Q4_K_M (~21GB, qualidade/velocidade equilibrada em GPU de 24GB), Q5_K_M (~25GB), Q8_0 (~35GB, quase sem perda). 27B denso: Q4_K_M ~16GB, precisa de GPU de 24GB+. BF16 precisão total para o 35B A3B requer ~70GB de VRAM. Relatos da comunidade confirmam que o Mac M4 16GB executa o 35B A3B com quantização Q3 com sucesso.

Suporte a visão e multimodal

Os modelos Qwen 3.6 suportam entradas multimodais através do Ollama - uma grande melhoria em relação ao Qwen 3.5 onde a visão estava quebrada. Passe imagens junto com prompts de texto para análise de capturas de tela de código, revisão de UI, compreensão de diagramas, interpretação de diagramas de arquitetura e fluxos de depuração visual. Use o comando /image no chat do Ollama ou passe imagens codificadas em base64 via API.

Benchmarks de desempenho em hardware de consumo

Benchmarks da comunidade Unsloth mostram 20-40 tokens por segundo em rigs locais para o modelo 35B A3B 4-bit. Usuários de Mac M4 16GB relatam velocidades utilizáveis com quantização Q3. A RTX 4090 24GB lida com Q4_K_M com espaço para contexto. A RTX 6000 96GB pode executar implantação em precisão total. O desempenho escala linearmente com a largura de banda de memória da GPU - memória mais rápida significa inferência mais rápida.

Personalização via Modelfile

Crie Modelfiles personalizados para configurar prompts de sistema, temperatura, comprimento de contexto (num_ctx), offloading de camadas para GPU (num_gpu), tamanho de lote (num_batch) e contagem de threads. Defina num_ctx até 131072 para tarefas de contexto longo. Personalize o template de chat para casos de uso específicos como assistentes de programação, escrita técnica ou fluxos agênticos. Modelfiles são texto puro e versionáveis.

Chamada de ferramentas e suporte a funções

O Qwen 3.6 no Ollama suporta chamada de ferramentas e invocação de funções - outra correção em relação ao Qwen 3.5 onde a chamada de ferramentas estava quebrada. Defina ferramentas no formato compatível com OpenAI e o modelo gerará chamadas de função estruturadas. Isso permite integração com frameworks agênticos como LangChain, AutoGen e CrewAI através do endpoint localhost:11434.

Integração com ferramentas de programação

O Ollama expõe uma API compatível com OpenAI em localhost:11434. Conecte diretamente ao Claude Code (via API compatível com OpenAI), OpenClaw, Aider, Continue.dev, Cursor e outras ferramentas de programação que suportam endpoints OpenAI personalizados. Defina a URL base para http://localhost:11434/v1 e use qualquer string como chave de API. Os modelos Qwen 3.6 suportam o mesmo formato de chat completions da OpenAI.

Referência rápida

Comandos do Ollama, tags de modelo e requisitos de hardware

Comandos essenciais, opções de configuração e requisitos de hardware para executar o Qwen 3.6 com Ollama em diferentes plataformas.

Comandos essenciais

  • ollama run qwen3.6:35b-a3b - Executar modelo MoE (tag padrão, GPU de consumo)
  • ollama run qwen3.6:27b - Executar modelo denso (GPU de workstation)
  • ollama pull qwen3.6:35b-a3b-q3_k_m - Baixar quant Q3 (~17GB, amigável para Mac M4)
  • ollama pull qwen3.6:35b-a3b-q4_k_m - Baixar quant Q4 (~21GB, equilibrado)
  • ollama serve - Iniciar servidor de API em localhost:11434
  • ollama list - Mostrar modelos baixados e tamanhos
  • ollama show qwen3.6:35b-a3b - Inspecionar detalhes e parâmetros do modelo

Requisitos de hardware

  • 35B A3B Q3_K_M: ~17GB de VRAM (Mac M4 16GB confirmado funcionando)
  • 35B A3B Q4_K_M: ~21GB de VRAM (RTX 4090 24GB recomendada)
  • 35B A3B BF16: ~70GB de VRAM (RTX 6000 96GB ou multi-GPU)
  • 27B Denso Q4_K_M: ~16GB de VRAM (RTX 4090 24GB mínimo)
  • 27B Denso IQ4_XS: cabe em 16GB de VRAM com compressão de cache KV
  • macOS: Apple Silicon com aceleração Metal (M1 Pro+ recomendado)
  • 20-40 tok/s em hardware de consumo para 35B A3B 4-bit
  • Fallback para CPU disponível mas significativamente mais lento (~2-5 tok/s)

Correções em relação ao Qwen 3.5

  • Entrada de visão/multimodal: quebrada no 3.5, totalmente funcional no 3.6
  • Chamada de ferramentas/invocação de funções: quebrada no 3.5, corrigida no 3.6
  • Melhoria no tratamento de contexto e eficiência de memória
  • Melhor qualidade de quantização em larguras de bits menores

Ecossistema Qwen

Ollama é o caminho mais rápido para o Qwen 3.6 local - um comando, capacidades completas

Configuração com um comando com detecção automática de GPU, gerenciamento de modelos, suporte a visão, chamada de ferramentas e API compatível com OpenAI em localhost:11434 para integração perfeita com Claude Code, Aider, Continue.dev e mais.

Qwen 3.6 35B A3B

Modelo MoE, 20-40 tok/s em GPU de consumo

Executar localmente

Qwen 3.6 27B

Modelo denso, desempenho local máximo

Executar localmente

Biblioteca Ollama

Explore todas as tags e quantizações de modelos Qwen disponíveis

Explorar

Referência de Modelfile

Personalize comportamento, contexto e parâmetros do modelo

Ler docs

Referência da API

API compatível com OpenAI em localhost:11434

Ver API

Comunidade

Obtenha ajuda das comunidades Ollama e Qwen

Participar

Comece agora

Pronto para executar o Qwen 3.6 com Ollama? Um comando é tudo que você precisa

Experimente o Qwen 3.6 no navegador primeiro e depois instale o Ollama para implantação local. Execute 'ollama run qwen3.6:35b-a3b' para baixar, configurar e começar a conversar com 20-40 tok/s em hardware de consumo. Visão, chamada de ferramentas e integração com ferramentas de programação funcionam prontos para uso.