Qwen 3.6 + Ollama

Executa o Qwen 3.6 localmente com um único comando - sem configuração necessária

O Ollama torna a execução do Qwen 3.6 tão simples como 'ollama run qwen3.6:35b-a3b'. Deteção automática de GPU, transferência de modelo e seleção de quantização. Suporta tanto o modelo denso 27B como o 35B A3B MoE com aceleração NVIDIA CUDA e Apple Metal. Espera 20-40 tokens por segundo em hardware de consumo para o modelo 35B A3B de 4 bits. A API compatível com OpenAI em localhost:11434 integra-se diretamente com Claude Code, Aider, Continue.dev e outras ferramentas de programação. Suporte de visão e entrada multimodal de imediato - uma correção importante em relação ao Qwen 3.5 onde a visão e a chamada de ferramentas estavam avariadas.

Guia Ollama

Da instalação à inferência em menos de 5 minutos

O Ollama trata da complexidade da implementação local de modelos - deteção de GPU, gestão de memória, quantização e serviço de API - para que te possas concentrar em usar o modelo. O Qwen 3.6 corrige os problemas de visão e chamada de ferramentas que afetavam o Qwen 3.5 no Ollama.

Configuração com um comando

Instala o Ollama e depois executa 'ollama run qwen3.6:35b-a3b' (tag predefinida) ou 'ollama run qwen3.6:27b'. Transferência automática do modelo, deteção de GPU e seleção ótima de quantização. Funciona em macOS (Apple Silicon com Metal), Linux (NVIDIA CUDA) e Windows (WSL2 ou nativo). O 35B A3B é o modelo predefinido recomendado para a maioria dos utilizadores devido ao seu equilíbrio entre qualidade e requisitos de hardware.

Seleção de tags de modelo

Escolhe a variante de modelo certa: 'qwen3.6:35b-a3b' para GPUs de consumo (tag predefinida), 'qwen3.6:27b' para desempenho máximo em hardware de estação de trabalho, 'qwen3.6:35b-a3b-q4_k_m' para controlo específico de quantização, ou 'qwen3.6:35b-a3b-q3_k_m' para orçamentos de VRAM mais apertados (~17GB). As tags mapeiam diretamente para níveis de quantização GGUF. Usa 'ollama list' para ver modelos transferidos e 'ollama show qwen3.6:35b-a3b' para inspecionar detalhes do modelo.

Requisitos de VRAM e quantização

Opções de quantização do 35B A3B: Q2_K (~13GB, mais rápido, menor qualidade), Q3_K_M (~17GB, bom para Mac M4 16GB), Q4_K_M (~21GB, qualidade/velocidade equilibrada em GPU de 24GB), Q5_K_M (~25GB), Q8_0 (~35GB, quase sem perdas). 27B denso: Q4_K_M ~16GB, necessita de GPU de 24GB+. BF16 precisão total para o 35B A3B requer ~70GB de VRAM. Relatos da comunidade confirmam que o Mac M4 16GB executa o 35B A3B com quantização Q3 com sucesso.

Suporte de visão e multimodal

Os modelos Qwen 3.6 suportam entradas multimodais através do Ollama - uma melhoria importante em relação ao Qwen 3.5 onde a visão estava avariada. Passa imagens juntamente com prompts de texto para análise de capturas de ecrã de código, revisão de interface, compreensão de diagramas, interpretação de diagramas de arquitetura e fluxos de trabalho de depuração visual. Usa o comando /image no chat do Ollama ou passa imagens codificadas em base64 via API.

Benchmarks de desempenho em hardware de consumo

Os benchmarks da comunidade Unsloth mostram 20-40 tokens por segundo em equipamentos locais para o modelo 35B A3B de 4 bits. Utilizadores de Mac M4 16GB reportam velocidades utilizáveis com quantização Q3. A RTX 4090 24GB lida com Q4_K_M com espaço para contexto. A RTX 6000 96GB pode executar implementação em precisão total. O desempenho escala linearmente com a largura de banda de memória da GPU - memória mais rápida significa inferência mais rápida.

Personalização de Modelfile

Cria Modelfiles personalizados para configurar prompts de sistema, temperatura, comprimento de contexto (num_ctx), offloading de camadas para GPU (num_gpu), tamanho de lote (num_batch) e contagem de threads. Define num_ctx até 131072 para tarefas de contexto longo. Personaliza o template de chat para casos de uso específicos como assistentes de programação, escrita técnica ou fluxos de trabalho agênticos. Os Modelfiles são texto simples e versionáveis.

Chamada de ferramentas e suporte a funções

O Qwen 3.6 no Ollama suporta chamada de ferramentas e invocação de funções - outra correção em relação ao Qwen 3.5 onde a chamada de ferramentas estava avariada. Define ferramentas no formato compatível com OpenAI e o modelo gerará chamadas de função estruturadas. Isto permite integração com frameworks agênticos como LangChain, AutoGen e CrewAI através do endpoint localhost:11434.

Integração com ferramentas de programação

O Ollama expõe uma API compatível com OpenAI em localhost:11434. Liga diretamente ao Claude Code (via API compatível com OpenAI), OpenClaw, Aider, Continue.dev, Cursor e outras ferramentas de programação que suportam endpoints OpenAI personalizados. Define o URL base para http://localhost:11434/v1 e usa qualquer string como chave API. Os modelos Qwen 3.6 suportam o mesmo formato de conclusões de chat que a OpenAI.

Referência rápida

Comandos Ollama, tags de modelo e requisitos de hardware

Comandos essenciais, opções de configuração e requisitos de hardware para executar o Qwen 3.6 com o Ollama em diferentes plataformas.

Comandos essenciais

  • ollama run qwen3.6:35b-a3b - Executar modelo MoE (tag predefinida, GPU de consumo)
  • ollama run qwen3.6:27b - Executar modelo denso (GPU de estação de trabalho)
  • ollama pull qwen3.6:35b-a3b-q3_k_m - Transferir quantização Q3 (~17GB, amigável para Mac M4)
  • ollama pull qwen3.6:35b-a3b-q4_k_m - Transferir quantização Q4 (~21GB, equilibrada)
  • ollama serve - Iniciar servidor API em localhost:11434
  • ollama list - Mostrar modelos transferidos e tamanhos
  • ollama show qwen3.6:35b-a3b - Inspecionar detalhes e parâmetros do modelo

Requisitos de hardware

  • 35B A3B Q3_K_M: ~17GB de VRAM (Mac M4 16GB confirmado a funcionar)
  • 35B A3B Q4_K_M: ~21GB de VRAM (RTX 4090 24GB recomendada)
  • 35B A3B BF16: ~70GB de VRAM (RTX 6000 96GB ou multi-GPU)
  • 27B Denso Q4_K_M: ~16GB de VRAM (RTX 4090 24GB mínimo)
  • 27B Denso IQ4_XS: cabe em 16GB de VRAM com compressão de cache KV
  • macOS: Apple Silicon com aceleração Metal (M1 Pro+ recomendado)
  • 20-40 tok/s em hardware de consumo para 35B A3B de 4 bits
  • Fallback para CPU disponível mas significativamente mais lento (~2-5 tok/s)

Correções em relação ao Qwen 3.5

  • Entrada de visão/multimodal: avariada no 3.5, totalmente funcional no 3.6
  • Chamada de ferramentas/invocação de funções: avariada no 3.5, corrigida no 3.6
  • Melhoria no tratamento de contexto e eficiência de memória
  • Melhor qualidade de quantização em larguras de bits mais baixas

Ecossistema Qwen

O Ollama é o caminho mais rápido para o Qwen 3.6 local - um comando, capacidades completas

Configuração com um comando com deteção automática de GPU, gestão de modelos, suporte de visão, chamada de ferramentas e API compatível com OpenAI em localhost:11434 para integração perfeita com Claude Code, Aider, Continue.dev e mais.

Qwen 3.6 35B A3B

Modelo MoE, 20-40 tok/s em GPU de consumo

Executar localmente

Qwen 3.6 27B

Modelo denso, desempenho local máximo

Executar localmente

Biblioteca Ollama

Explora todas as tags e quantizações de modelos Qwen disponíveis

Explorar

Referência Modelfile

Personaliza comportamento, contexto e parâmetros do modelo

Ler documentação

Referência da API

API compatível com OpenAI em localhost:11434

Ver API

Comunidade

Obtém ajuda das comunidades Ollama e Qwen

Aderir

Começar

Pronto para executar o Qwen 3.6 com o Ollama? Um comando é tudo o que precisas

Experimenta o Qwen 3.6 no navegador primeiro e depois instala o Ollama para implementação local. Executa 'ollama run qwen3.6:35b-a3b' para transferir, configurar e começar a conversar com 20-40 tok/s em hardware de consumo. Visão, chamada de ferramentas e integração com ferramentas de programação funcionam de imediato.