Qwen 3.6 + Ollama
Executa o Qwen 3.6 localmente com um único comando - sem configuração necessária
O Ollama torna a execução do Qwen 3.6 tão simples como 'ollama run qwen3.6:35b-a3b'. Deteção automática de GPU, transferência de modelo e seleção de quantização. Suporta tanto o modelo denso 27B como o 35B A3B MoE com aceleração NVIDIA CUDA e Apple Metal. Espera 20-40 tokens por segundo em hardware de consumo para o modelo 35B A3B de 4 bits. A API compatível com OpenAI em localhost:11434 integra-se diretamente com Claude Code, Aider, Continue.dev e outras ferramentas de programação. Suporte de visão e entrada multimodal de imediato - uma correção importante em relação ao Qwen 3.5 onde a visão e a chamada de ferramentas estavam avariadas.
Guia Ollama
Da instalação à inferência em menos de 5 minutos
O Ollama trata da complexidade da implementação local de modelos - deteção de GPU, gestão de memória, quantização e serviço de API - para que te possas concentrar em usar o modelo. O Qwen 3.6 corrige os problemas de visão e chamada de ferramentas que afetavam o Qwen 3.5 no Ollama.
Configuração com um comando
Instala o Ollama e depois executa 'ollama run qwen3.6:35b-a3b' (tag predefinida) ou 'ollama run qwen3.6:27b'. Transferência automática do modelo, deteção de GPU e seleção ótima de quantização. Funciona em macOS (Apple Silicon com Metal), Linux (NVIDIA CUDA) e Windows (WSL2 ou nativo). O 35B A3B é o modelo predefinido recomendado para a maioria dos utilizadores devido ao seu equilíbrio entre qualidade e requisitos de hardware.
Seleção de tags de modelo
Escolhe a variante de modelo certa: 'qwen3.6:35b-a3b' para GPUs de consumo (tag predefinida), 'qwen3.6:27b' para desempenho máximo em hardware de estação de trabalho, 'qwen3.6:35b-a3b-q4_k_m' para controlo específico de quantização, ou 'qwen3.6:35b-a3b-q3_k_m' para orçamentos de VRAM mais apertados (~17GB). As tags mapeiam diretamente para níveis de quantização GGUF. Usa 'ollama list' para ver modelos transferidos e 'ollama show qwen3.6:35b-a3b' para inspecionar detalhes do modelo.
Requisitos de VRAM e quantização
Opções de quantização do 35B A3B: Q2_K (~13GB, mais rápido, menor qualidade), Q3_K_M (~17GB, bom para Mac M4 16GB), Q4_K_M (~21GB, qualidade/velocidade equilibrada em GPU de 24GB), Q5_K_M (~25GB), Q8_0 (~35GB, quase sem perdas). 27B denso: Q4_K_M ~16GB, necessita de GPU de 24GB+. BF16 precisão total para o 35B A3B requer ~70GB de VRAM. Relatos da comunidade confirmam que o Mac M4 16GB executa o 35B A3B com quantização Q3 com sucesso.
Suporte de visão e multimodal
Os modelos Qwen 3.6 suportam entradas multimodais através do Ollama - uma melhoria importante em relação ao Qwen 3.5 onde a visão estava avariada. Passa imagens juntamente com prompts de texto para análise de capturas de ecrã de código, revisão de interface, compreensão de diagramas, interpretação de diagramas de arquitetura e fluxos de trabalho de depuração visual. Usa o comando /image no chat do Ollama ou passa imagens codificadas em base64 via API.
Benchmarks de desempenho em hardware de consumo
Os benchmarks da comunidade Unsloth mostram 20-40 tokens por segundo em equipamentos locais para o modelo 35B A3B de 4 bits. Utilizadores de Mac M4 16GB reportam velocidades utilizáveis com quantização Q3. A RTX 4090 24GB lida com Q4_K_M com espaço para contexto. A RTX 6000 96GB pode executar implementação em precisão total. O desempenho escala linearmente com a largura de banda de memória da GPU - memória mais rápida significa inferência mais rápida.
Personalização de Modelfile
Cria Modelfiles personalizados para configurar prompts de sistema, temperatura, comprimento de contexto (num_ctx), offloading de camadas para GPU (num_gpu), tamanho de lote (num_batch) e contagem de threads. Define num_ctx até 131072 para tarefas de contexto longo. Personaliza o template de chat para casos de uso específicos como assistentes de programação, escrita técnica ou fluxos de trabalho agênticos. Os Modelfiles são texto simples e versionáveis.
Chamada de ferramentas e suporte a funções
O Qwen 3.6 no Ollama suporta chamada de ferramentas e invocação de funções - outra correção em relação ao Qwen 3.5 onde a chamada de ferramentas estava avariada. Define ferramentas no formato compatível com OpenAI e o modelo gerará chamadas de função estruturadas. Isto permite integração com frameworks agênticos como LangChain, AutoGen e CrewAI através do endpoint localhost:11434.
Integração com ferramentas de programação
O Ollama expõe uma API compatível com OpenAI em localhost:11434. Liga diretamente ao Claude Code (via API compatível com OpenAI), OpenClaw, Aider, Continue.dev, Cursor e outras ferramentas de programação que suportam endpoints OpenAI personalizados. Define o URL base para http://localhost:11434/v1 e usa qualquer string como chave API. Os modelos Qwen 3.6 suportam o mesmo formato de conclusões de chat que a OpenAI.
Referência rápida
Comandos Ollama, tags de modelo e requisitos de hardware
Comandos essenciais, opções de configuração e requisitos de hardware para executar o Qwen 3.6 com o Ollama em diferentes plataformas.
Comandos essenciais
- ollama run qwen3.6:35b-a3b - Executar modelo MoE (tag predefinida, GPU de consumo)
- ollama run qwen3.6:27b - Executar modelo denso (GPU de estação de trabalho)
- ollama pull qwen3.6:35b-a3b-q3_k_m - Transferir quantização Q3 (~17GB, amigável para Mac M4)
- ollama pull qwen3.6:35b-a3b-q4_k_m - Transferir quantização Q4 (~21GB, equilibrada)
- ollama serve - Iniciar servidor API em localhost:11434
- ollama list - Mostrar modelos transferidos e tamanhos
- ollama show qwen3.6:35b-a3b - Inspecionar detalhes e parâmetros do modelo
Requisitos de hardware
- 35B A3B Q3_K_M: ~17GB de VRAM (Mac M4 16GB confirmado a funcionar)
- 35B A3B Q4_K_M: ~21GB de VRAM (RTX 4090 24GB recomendada)
- 35B A3B BF16: ~70GB de VRAM (RTX 6000 96GB ou multi-GPU)
- 27B Denso Q4_K_M: ~16GB de VRAM (RTX 4090 24GB mínimo)
- 27B Denso IQ4_XS: cabe em 16GB de VRAM com compressão de cache KV
- macOS: Apple Silicon com aceleração Metal (M1 Pro+ recomendado)
- 20-40 tok/s em hardware de consumo para 35B A3B de 4 bits
- Fallback para CPU disponível mas significativamente mais lento (~2-5 tok/s)
Correções em relação ao Qwen 3.5
- Entrada de visão/multimodal: avariada no 3.5, totalmente funcional no 3.6
- Chamada de ferramentas/invocação de funções: avariada no 3.5, corrigida no 3.6
- Melhoria no tratamento de contexto e eficiência de memória
- Melhor qualidade de quantização em larguras de bits mais baixas
Guias de configuração
Põe o Qwen 3.6 a funcionar com o Ollama em qualquer plataforma
Guias passo a passo para instalar o Ollama e configurar o Qwen 3.6 na tua plataforma, com dicas de otimização específicas para cada hardware.
Instala o Ollama e executa o Qwen 3.6 em Macs M1/M2/M3/M4 com aceleração Metal
Configuração de GPU NVIDIA com aceleração CUDA para débito máximo
Instalação WSL2 e Windows nativo com passthrough de GPU
Executa o Ollama num contentor com acesso a GPU para implementações reproduzíveis
Executa o 35B A3B com quantização Q3 no Mac M4 com 16GB de RAM
Divide modelos grandes por múltiplas GPUs para melhor desempenho
Configuração avançada
Otimiza o desempenho do Qwen 3.6 e integra com ferramentas de programação
Ajusta o desempenho do modelo com Modelfiles, configuração de GPU, definições de contexto e liga ao teu ambiente de desenvolvimento.
Prompts de sistema personalizados, temperatura, comprimento de contexto e templates de chat
Gestão de VRAM, offloading de camadas e ajuste de tamanho de lote
Usa o Qwen 3.6 via Ollama como backend para o Claude Code
Assistente de programação IA no VS Code com Qwen 3.6 local
Programação em par com IA usando Qwen 3.6 alojado no Ollama
Liga o localhost:11434 do Ollama a qualquer ferramenta compatível com OpenAI
Ecossistema Qwen
O Ollama é o caminho mais rápido para o Qwen 3.6 local - um comando, capacidades completas
Configuração com um comando com deteção automática de GPU, gestão de modelos, suporte de visão, chamada de ferramentas e API compatível com OpenAI em localhost:11434 para integração perfeita com Claude Code, Aider, Continue.dev e mais.
Começar
Pronto para executar o Qwen 3.6 com o Ollama? Um comando é tudo o que precisas
Experimenta o Qwen 3.6 no navegador primeiro e depois instala o Ollama para implementação local. Executa 'ollama run qwen3.6:35b-a3b' para transferir, configurar e começar a conversar com 20-40 tok/s em hardware de consumo. Visão, chamada de ferramentas e integração com ferramentas de programação funcionam de imediato.