Qwen 3.6 + Ollama

Execute o Qwen 3.6 localmente com um único comando - sem configuração necessária

O Ollama torna a execução do Qwen 3.6 tão simples quanto 'ollama run qwen3.6:35b-a3b'. Detecção automática de GPU, download do modelo e seleção de quantização. Suporta tanto o modelo denso 27B quanto o 35B A3B MoE com aceleração NVIDIA CUDA e Apple Metal. Espere 20-40 tokens por segundo em hardware de consumo para o modelo 35B A3B 4-bit. A API compatível com OpenAI em localhost:11434 integra diretamente com Claude Code, Aider, Continue.dev e outras ferramentas de programação. Suporte a visão e entrada multimodal pronto para uso - uma correção importante em relação ao Qwen 3.5 onde visão e chamada de ferramentas estavam quebradas.

Começar a Conversar Ver tags de modelo

Guia do Ollama

Da instalação à inferência em menos de 5 minutos

O Ollama cuida da complexidade da implantação local de modelos - detecção de GPU, gerenciamento de memória, quantização e servindo de API - para que você possa focar em usar o modelo. O Qwen 3.6 corrige os problemas de visão e chamada de ferramentas que afetavam o Qwen 3.5 no Ollama.

Configuração com um comando

Instale o Ollama e depois execute 'ollama run qwen3.6:35b-a3b' (tag padrão) ou 'ollama run qwen3.6:27b'. Download automático do modelo, detecção de GPU e seleção ideal de quantização. Funciona no macOS (Apple Silicon com Metal), Linux (NVIDIA CUDA) e Windows (WSL2 ou nativo). O 35B A3B é o modelo padrão recomendado para a maioria dos usuários devido ao seu equilíbrio entre qualidade e requisitos de hardware.

Seleção de tags de modelo

Escolha a variante certa do modelo: 'qwen3.6:35b-a3b' para GPUs de consumo (tag padrão), 'qwen3.6:27b' para desempenho máximo em hardware de workstation, 'qwen3.6:35b-a3b-q4_k_m' para controle específico de quantização, ou 'qwen3.6:35b-a3b-q3_k_m' para orçamentos de VRAM mais apertados (~17GB). As tags mapeiam diretamente para níveis de quantização GGUF. Use 'ollama list' para ver modelos baixados e 'ollama show qwen3.6:35b-a3b' para inspecionar detalhes do modelo.

Requisitos de VRAM e quantização

Opções de quantização do 35B A3B: Q2_K (~13GB, mais rápido, menor qualidade), Q3_K_M (~17GB, bom para Mac M4 16GB), Q4_K_M (~21GB, qualidade/velocidade equilibrada em GPU de 24GB), Q5_K_M (~25GB), Q8_0 (~35GB, quase sem perda). 27B denso: Q4_K_M ~16GB, precisa de GPU de 24GB+. BF16 precisão total para o 35B A3B requer ~70GB de VRAM. Relatos da comunidade confirmam que o Mac M4 16GB executa o 35B A3B com quantização Q3 com sucesso.

Suporte a visão e multimodal

Os modelos Qwen 3.6 suportam entradas multimodais através do Ollama - uma grande melhoria em relação ao Qwen 3.5 onde a visão estava quebrada. Passe imagens junto com prompts de texto para análise de capturas de tela de código, revisão de UI, compreensão de diagramas, interpretação de diagramas de arquitetura e fluxos de depuração visual. Use o comando /image no chat do Ollama ou passe imagens codificadas em base64 via API.

Benchmarks de desempenho em hardware de consumo

Benchmarks da comunidade Unsloth mostram 20-40 tokens por segundo em rigs locais para o modelo 35B A3B 4-bit. Usuários de Mac M4 16GB relatam velocidades utilizáveis com quantização Q3. A RTX 4090 24GB lida com Q4_K_M com espaço para contexto. A RTX 6000 96GB pode executar implantação em precisão total. O desempenho escala linearmente com a largura de banda de memória da GPU - memória mais rápida significa inferência mais rápida.

Personalização via Modelfile

Crie Modelfiles personalizados para configurar prompts de sistema, temperatura, comprimento de contexto (num_ctx), offloading de camadas para GPU (num_gpu), tamanho de lote (num_batch) e contagem de threads. Defina num_ctx até 131072 para tarefas de contexto longo. Personalize o template de chat para casos de uso específicos como assistentes de programação, escrita técnica ou fluxos agênticos. Modelfiles são texto puro e versionáveis.

Chamada de ferramentas e suporte a funções

O Qwen 3.6 no Ollama suporta chamada de ferramentas e invocação de funções - outra correção em relação ao Qwen 3.5 onde a chamada de ferramentas estava quebrada. Defina ferramentas no formato compatível com OpenAI e o modelo gerará chamadas de função estruturadas. Isso permite integração com frameworks agênticos como LangChain, AutoGen e CrewAI através do endpoint localhost:11434.

Integração com ferramentas de programação

O Ollama expõe uma API compatível com OpenAI em localhost:11434. Conecte diretamente ao Claude Code (via API compatível com OpenAI), OpenClaw, Aider, Continue.dev, Cursor e outras ferramentas de programação que suportam endpoints OpenAI personalizados. Defina a URL base para http://localhost:11434/v1 e use qualquer string como chave de API. Os modelos Qwen 3.6 suportam o mesmo formato de chat completions da OpenAI.

Referência rápida

Comandos do Ollama, tags de modelo e requisitos de hardware

Comandos essenciais, opções de configuração e requisitos de hardware para executar o Qwen 3.6 com Ollama em diferentes plataformas.

Comandos essenciais

ollama run qwen3.6:35b-a3b - Executar modelo MoE (tag padrão, GPU de consumo)
ollama run qwen3.6:27b - Executar modelo denso (GPU de workstation)
ollama pull qwen3.6:35b-a3b-q3_k_m - Baixar quant Q3 (~17GB, amigável para Mac M4)
ollama pull qwen3.6:35b-a3b-q4_k_m - Baixar quant Q4 (~21GB, equilibrado)
ollama serve - Iniciar servidor de API em localhost:11434
ollama list - Mostrar modelos baixados e tamanhos
ollama show qwen3.6:35b-a3b - Inspecionar detalhes e parâmetros do modelo

Requisitos de hardware

35B A3B Q3_K_M: ~17GB de VRAM (Mac M4 16GB confirmado funcionando)
35B A3B Q4_K_M: ~21GB de VRAM (RTX 4090 24GB recomendada)
35B A3B BF16: ~70GB de VRAM (RTX 6000 96GB ou multi-GPU)
27B Denso Q4_K_M: ~16GB de VRAM (RTX 4090 24GB mínimo)
27B Denso IQ4_XS: cabe em 16GB de VRAM com compressão de cache KV
macOS: Apple Silicon com aceleração Metal (M1 Pro+ recomendado)
20-40 tok/s em hardware de consumo para 35B A3B 4-bit
Fallback para CPU disponível mas significativamente mais lento (~2-5 tok/s)

Correções em relação ao Qwen 3.5

Entrada de visão/multimodal: quebrada no 3.5, totalmente funcional no 3.6
Chamada de ferramentas/invocação de funções: quebrada no 3.5, corrigida no 3.6
Melhoria no tratamento de contexto e eficiência de memória
Melhor qualidade de quantização em larguras de bits menores

Começar a Conversar Documentação do Ollama

Guias de configuração

Execute o Qwen 3.6 com Ollama em qualquer plataforma

Guias passo a passo para instalar o Ollama e configurar o Qwen 3.6 na sua plataforma, com dicas de otimização específicas por hardware.

Configuração macOS (Apple Silicon)

Instale o Ollama e execute o Qwen 3.6 em Macs M1/M2/M3/M4 com aceleração Metal

Configuração Linux (NVIDIA)

Configuração de GPU NVIDIA com aceleração CUDA para throughput máximo

Configuração Windows

Instalação WSL2 e Windows nativo com passthrough de GPU

Configuração Docker

Execute o Ollama em contêiner com acesso à GPU para implantações reproduzíveis

Guia Mac M4 16GB

Execute o 35B A3B com quantização Q3 no Mac M4 com 16GB de RAM

Configuração multi-GPU

Divida modelos grandes entre múltiplas GPUs para melhor desempenho

Configuração avançada

Otimize o desempenho do Qwen 3.6 e integre com ferramentas de programação

Ajuste fino do desempenho do modelo com Modelfiles, configuração de GPU, configurações de contexto e conexão com seu ambiente de desenvolvimento.

Guia de Modelfile

Prompts de sistema personalizados, temperatura, comprimento de contexto e templates de chat

Otimização de GPU

Gerenciamento de VRAM, offloading de camadas e ajuste de tamanho de lote

Integração com Claude Code

Use o Qwen 3.6 via Ollama como backend para o Claude Code

Configuração do Continue.dev

Assistente de código IA no VS Code com Qwen 3.6 local

Integração com Aider

Programação em par com IA usando Qwen 3.6 hospedado no Ollama

Integração via API

Conecte o localhost:11434 do Ollama a qualquer ferramenta compatível com OpenAI

Ecossistema Qwen

Ollama é o caminho mais rápido para o Qwen 3.6 local - um comando, capacidades completas

Configuração com um comando com detecção automática de GPU, gerenciamento de modelos, suporte a visão, chamada de ferramentas e API compatível com OpenAI em localhost:11434 para integração perfeita com Claude Code, Aider, Continue.dev e mais.

Explorar todos os modelos Biblioteca Ollama

Qwen 3.6 35B A3B

Modelo MoE, 20-40 tok/s em GPU de consumo

Executar localmente

Qwen 3.6 27B

Modelo denso, desempenho local máximo

Executar localmente

Biblioteca Ollama

Explore todas as tags e quantizações de modelos Qwen disponíveis

Explorar

Referência de Modelfile

Personalize comportamento, contexto e parâmetros do modelo

Ler docs

Referência da API

API compatível com OpenAI em localhost:11434

Ver API

Comunidade

Obtenha ajuda das comunidades Ollama e Qwen

Participar

Comece agora

Pronto para executar o Qwen 3.6 com Ollama? Um comando é tudo que você precisa

Experimente o Qwen 3.6 no navegador primeiro e depois instale o Ollama para implantação local. Execute 'ollama run qwen3.6:35b-a3b' para baixar, configurar e começar a conversar com 20-40 tok/s em hardware de consumo. Visão, chamada de ferramentas e integração com ferramentas de programação funcionam prontos para uso.

Começar a Conversar Instalar Ollama