Qwen 3.6 + Ollama
Execute o Qwen 3.6 localmente com um único comando - sem configuração necessária
O Ollama torna a execução do Qwen 3.6 tão simples quanto 'ollama run qwen3.6:35b-a3b'. Detecção automática de GPU, download do modelo e seleção de quantização. Suporta tanto o modelo denso 27B quanto o 35B A3B MoE com aceleração NVIDIA CUDA e Apple Metal. Espere 20-40 tokens por segundo em hardware de consumo para o modelo 35B A3B 4-bit. A API compatível com OpenAI em localhost:11434 integra diretamente com Claude Code, Aider, Continue.dev e outras ferramentas de programação. Suporte a visão e entrada multimodal pronto para uso - uma correção importante em relação ao Qwen 3.5 onde visão e chamada de ferramentas estavam quebradas.
Guia do Ollama
Da instalação à inferência em menos de 5 minutos
O Ollama cuida da complexidade da implantação local de modelos - detecção de GPU, gerenciamento de memória, quantização e servindo de API - para que você possa focar em usar o modelo. O Qwen 3.6 corrige os problemas de visão e chamada de ferramentas que afetavam o Qwen 3.5 no Ollama.
Configuração com um comando
Instale o Ollama e depois execute 'ollama run qwen3.6:35b-a3b' (tag padrão) ou 'ollama run qwen3.6:27b'. Download automático do modelo, detecção de GPU e seleção ideal de quantização. Funciona no macOS (Apple Silicon com Metal), Linux (NVIDIA CUDA) e Windows (WSL2 ou nativo). O 35B A3B é o modelo padrão recomendado para a maioria dos usuários devido ao seu equilíbrio entre qualidade e requisitos de hardware.
Seleção de tags de modelo
Escolha a variante certa do modelo: 'qwen3.6:35b-a3b' para GPUs de consumo (tag padrão), 'qwen3.6:27b' para desempenho máximo em hardware de workstation, 'qwen3.6:35b-a3b-q4_k_m' para controle específico de quantização, ou 'qwen3.6:35b-a3b-q3_k_m' para orçamentos de VRAM mais apertados (~17GB). As tags mapeiam diretamente para níveis de quantização GGUF. Use 'ollama list' para ver modelos baixados e 'ollama show qwen3.6:35b-a3b' para inspecionar detalhes do modelo.
Requisitos de VRAM e quantização
Opções de quantização do 35B A3B: Q2_K (~13GB, mais rápido, menor qualidade), Q3_K_M (~17GB, bom para Mac M4 16GB), Q4_K_M (~21GB, qualidade/velocidade equilibrada em GPU de 24GB), Q5_K_M (~25GB), Q8_0 (~35GB, quase sem perda). 27B denso: Q4_K_M ~16GB, precisa de GPU de 24GB+. BF16 precisão total para o 35B A3B requer ~70GB de VRAM. Relatos da comunidade confirmam que o Mac M4 16GB executa o 35B A3B com quantização Q3 com sucesso.
Suporte a visão e multimodal
Os modelos Qwen 3.6 suportam entradas multimodais através do Ollama - uma grande melhoria em relação ao Qwen 3.5 onde a visão estava quebrada. Passe imagens junto com prompts de texto para análise de capturas de tela de código, revisão de UI, compreensão de diagramas, interpretação de diagramas de arquitetura e fluxos de depuração visual. Use o comando /image no chat do Ollama ou passe imagens codificadas em base64 via API.
Benchmarks de desempenho em hardware de consumo
Benchmarks da comunidade Unsloth mostram 20-40 tokens por segundo em rigs locais para o modelo 35B A3B 4-bit. Usuários de Mac M4 16GB relatam velocidades utilizáveis com quantização Q3. A RTX 4090 24GB lida com Q4_K_M com espaço para contexto. A RTX 6000 96GB pode executar implantação em precisão total. O desempenho escala linearmente com a largura de banda de memória da GPU - memória mais rápida significa inferência mais rápida.
Personalização via Modelfile
Crie Modelfiles personalizados para configurar prompts de sistema, temperatura, comprimento de contexto (num_ctx), offloading de camadas para GPU (num_gpu), tamanho de lote (num_batch) e contagem de threads. Defina num_ctx até 131072 para tarefas de contexto longo. Personalize o template de chat para casos de uso específicos como assistentes de programação, escrita técnica ou fluxos agênticos. Modelfiles são texto puro e versionáveis.
Chamada de ferramentas e suporte a funções
O Qwen 3.6 no Ollama suporta chamada de ferramentas e invocação de funções - outra correção em relação ao Qwen 3.5 onde a chamada de ferramentas estava quebrada. Defina ferramentas no formato compatível com OpenAI e o modelo gerará chamadas de função estruturadas. Isso permite integração com frameworks agênticos como LangChain, AutoGen e CrewAI através do endpoint localhost:11434.
Integração com ferramentas de programação
O Ollama expõe uma API compatível com OpenAI em localhost:11434. Conecte diretamente ao Claude Code (via API compatível com OpenAI), OpenClaw, Aider, Continue.dev, Cursor e outras ferramentas de programação que suportam endpoints OpenAI personalizados. Defina a URL base para http://localhost:11434/v1 e use qualquer string como chave de API. Os modelos Qwen 3.6 suportam o mesmo formato de chat completions da OpenAI.
Referência rápida
Comandos do Ollama, tags de modelo e requisitos de hardware
Comandos essenciais, opções de configuração e requisitos de hardware para executar o Qwen 3.6 com Ollama em diferentes plataformas.
Comandos essenciais
- ollama run qwen3.6:35b-a3b - Executar modelo MoE (tag padrão, GPU de consumo)
- ollama run qwen3.6:27b - Executar modelo denso (GPU de workstation)
- ollama pull qwen3.6:35b-a3b-q3_k_m - Baixar quant Q3 (~17GB, amigável para Mac M4)
- ollama pull qwen3.6:35b-a3b-q4_k_m - Baixar quant Q4 (~21GB, equilibrado)
- ollama serve - Iniciar servidor de API em localhost:11434
- ollama list - Mostrar modelos baixados e tamanhos
- ollama show qwen3.6:35b-a3b - Inspecionar detalhes e parâmetros do modelo
Requisitos de hardware
- 35B A3B Q3_K_M: ~17GB de VRAM (Mac M4 16GB confirmado funcionando)
- 35B A3B Q4_K_M: ~21GB de VRAM (RTX 4090 24GB recomendada)
- 35B A3B BF16: ~70GB de VRAM (RTX 6000 96GB ou multi-GPU)
- 27B Denso Q4_K_M: ~16GB de VRAM (RTX 4090 24GB mínimo)
- 27B Denso IQ4_XS: cabe em 16GB de VRAM com compressão de cache KV
- macOS: Apple Silicon com aceleração Metal (M1 Pro+ recomendado)
- 20-40 tok/s em hardware de consumo para 35B A3B 4-bit
- Fallback para CPU disponível mas significativamente mais lento (~2-5 tok/s)
Correções em relação ao Qwen 3.5
- Entrada de visão/multimodal: quebrada no 3.5, totalmente funcional no 3.6
- Chamada de ferramentas/invocação de funções: quebrada no 3.5, corrigida no 3.6
- Melhoria no tratamento de contexto e eficiência de memória
- Melhor qualidade de quantização em larguras de bits menores
Guias de configuração
Execute o Qwen 3.6 com Ollama em qualquer plataforma
Guias passo a passo para instalar o Ollama e configurar o Qwen 3.6 na sua plataforma, com dicas de otimização específicas por hardware.
Instale o Ollama e execute o Qwen 3.6 em Macs M1/M2/M3/M4 com aceleração Metal
Configuração de GPU NVIDIA com aceleração CUDA para throughput máximo
Instalação WSL2 e Windows nativo com passthrough de GPU
Execute o Ollama em contêiner com acesso à GPU para implantações reproduzíveis
Execute o 35B A3B com quantização Q3 no Mac M4 com 16GB de RAM
Divida modelos grandes entre múltiplas GPUs para melhor desempenho
Configuração avançada
Otimize o desempenho do Qwen 3.6 e integre com ferramentas de programação
Ajuste fino do desempenho do modelo com Modelfiles, configuração de GPU, configurações de contexto e conexão com seu ambiente de desenvolvimento.
Prompts de sistema personalizados, temperatura, comprimento de contexto e templates de chat
Gerenciamento de VRAM, offloading de camadas e ajuste de tamanho de lote
Use o Qwen 3.6 via Ollama como backend para o Claude Code
Assistente de código IA no VS Code com Qwen 3.6 local
Programação em par com IA usando Qwen 3.6 hospedado no Ollama
Conecte o localhost:11434 do Ollama a qualquer ferramenta compatível com OpenAI
Ecossistema Qwen
Ollama é o caminho mais rápido para o Qwen 3.6 local - um comando, capacidades completas
Configuração com um comando com detecção automática de GPU, gerenciamento de modelos, suporte a visão, chamada de ferramentas e API compatível com OpenAI em localhost:11434 para integração perfeita com Claude Code, Aider, Continue.dev e mais.
Comece agora
Pronto para executar o Qwen 3.6 com Ollama? Um comando é tudo que você precisa
Experimente o Qwen 3.6 no navegador primeiro e depois instale o Ollama para implantação local. Execute 'ollama run qwen3.6:35b-a3b' para baixar, configurar e começar a conversar com 20-40 tok/s em hardware de consumo. Visão, chamada de ferramentas e integração com ferramentas de programação funcionam prontos para uso.