Qwen 3.6 + Ollama

Executa o Qwen 3.6 localmente com um único comando - sem configuração necessária

O Ollama torna a execução do Qwen 3.6 tão simples como 'ollama run qwen3.6:35b-a3b'. Deteção automática de GPU, transferência de modelo e seleção de quantização. Suporta tanto o modelo denso 27B como o 35B A3B MoE com aceleração NVIDIA CUDA e Apple Metal. Espera 20-40 tokens por segundo em hardware de consumo para o modelo 35B A3B de 4 bits. A API compatível com OpenAI em localhost:11434 integra-se diretamente com Claude Code, Aider, Continue.dev e outras ferramentas de programação. Suporte de visão e entrada multimodal de imediato - uma correção importante em relação ao Qwen 3.5 onde a visão e a chamada de ferramentas estavam avariadas.

Começar a Conversar Ver tags de modelo

Guia Ollama

Da instalação à inferência em menos de 5 minutos

O Ollama trata da complexidade da implementação local de modelos - deteção de GPU, gestão de memória, quantização e serviço de API - para que te possas concentrar em usar o modelo. O Qwen 3.6 corrige os problemas de visão e chamada de ferramentas que afetavam o Qwen 3.5 no Ollama.

Configuração com um comando

Instala o Ollama e depois executa 'ollama run qwen3.6:35b-a3b' (tag predefinida) ou 'ollama run qwen3.6:27b'. Transferência automática do modelo, deteção de GPU e seleção ótima de quantização. Funciona em macOS (Apple Silicon com Metal), Linux (NVIDIA CUDA) e Windows (WSL2 ou nativo). O 35B A3B é o modelo predefinido recomendado para a maioria dos utilizadores devido ao seu equilíbrio entre qualidade e requisitos de hardware.

Seleção de tags de modelo

Escolhe a variante de modelo certa: 'qwen3.6:35b-a3b' para GPUs de consumo (tag predefinida), 'qwen3.6:27b' para desempenho máximo em hardware de estação de trabalho, 'qwen3.6:35b-a3b-q4_k_m' para controlo específico de quantização, ou 'qwen3.6:35b-a3b-q3_k_m' para orçamentos de VRAM mais apertados (~17GB). As tags mapeiam diretamente para níveis de quantização GGUF. Usa 'ollama list' para ver modelos transferidos e 'ollama show qwen3.6:35b-a3b' para inspecionar detalhes do modelo.

Requisitos de VRAM e quantização

Opções de quantização do 35B A3B: Q2_K (~13GB, mais rápido, menor qualidade), Q3_K_M (~17GB, bom para Mac M4 16GB), Q4_K_M (~21GB, qualidade/velocidade equilibrada em GPU de 24GB), Q5_K_M (~25GB), Q8_0 (~35GB, quase sem perdas). 27B denso: Q4_K_M ~16GB, necessita de GPU de 24GB+. BF16 precisão total para o 35B A3B requer ~70GB de VRAM. Relatos da comunidade confirmam que o Mac M4 16GB executa o 35B A3B com quantização Q3 com sucesso.

Suporte de visão e multimodal

Os modelos Qwen 3.6 suportam entradas multimodais através do Ollama - uma melhoria importante em relação ao Qwen 3.5 onde a visão estava avariada. Passa imagens juntamente com prompts de texto para análise de capturas de ecrã de código, revisão de interface, compreensão de diagramas, interpretação de diagramas de arquitetura e fluxos de trabalho de depuração visual. Usa o comando /image no chat do Ollama ou passa imagens codificadas em base64 via API.

Benchmarks de desempenho em hardware de consumo

Os benchmarks da comunidade Unsloth mostram 20-40 tokens por segundo em equipamentos locais para o modelo 35B A3B de 4 bits. Utilizadores de Mac M4 16GB reportam velocidades utilizáveis com quantização Q3. A RTX 4090 24GB lida com Q4_K_M com espaço para contexto. A RTX 6000 96GB pode executar implementação em precisão total. O desempenho escala linearmente com a largura de banda de memória da GPU - memória mais rápida significa inferência mais rápida.

Personalização de Modelfile

Cria Modelfiles personalizados para configurar prompts de sistema, temperatura, comprimento de contexto (num_ctx), offloading de camadas para GPU (num_gpu), tamanho de lote (num_batch) e contagem de threads. Define num_ctx até 131072 para tarefas de contexto longo. Personaliza o template de chat para casos de uso específicos como assistentes de programação, escrita técnica ou fluxos de trabalho agênticos. Os Modelfiles são texto simples e versionáveis.

Chamada de ferramentas e suporte a funções

O Qwen 3.6 no Ollama suporta chamada de ferramentas e invocação de funções - outra correção em relação ao Qwen 3.5 onde a chamada de ferramentas estava avariada. Define ferramentas no formato compatível com OpenAI e o modelo gerará chamadas de função estruturadas. Isto permite integração com frameworks agênticos como LangChain, AutoGen e CrewAI através do endpoint localhost:11434.

Integração com ferramentas de programação

O Ollama expõe uma API compatível com OpenAI em localhost:11434. Liga diretamente ao Claude Code (via API compatível com OpenAI), OpenClaw, Aider, Continue.dev, Cursor e outras ferramentas de programação que suportam endpoints OpenAI personalizados. Define o URL base para http://localhost:11434/v1 e usa qualquer string como chave API. Os modelos Qwen 3.6 suportam o mesmo formato de conclusões de chat que a OpenAI.

Referência rápida

Comandos Ollama, tags de modelo e requisitos de hardware

Comandos essenciais, opções de configuração e requisitos de hardware para executar o Qwen 3.6 com o Ollama em diferentes plataformas.

Comandos essenciais

ollama run qwen3.6:35b-a3b - Executar modelo MoE (tag predefinida, GPU de consumo)
ollama run qwen3.6:27b - Executar modelo denso (GPU de estação de trabalho)
ollama pull qwen3.6:35b-a3b-q3_k_m - Transferir quantização Q3 (~17GB, amigável para Mac M4)
ollama pull qwen3.6:35b-a3b-q4_k_m - Transferir quantização Q4 (~21GB, equilibrada)
ollama serve - Iniciar servidor API em localhost:11434
ollama list - Mostrar modelos transferidos e tamanhos
ollama show qwen3.6:35b-a3b - Inspecionar detalhes e parâmetros do modelo

Requisitos de hardware

35B A3B Q3_K_M: ~17GB de VRAM (Mac M4 16GB confirmado a funcionar)
35B A3B Q4_K_M: ~21GB de VRAM (RTX 4090 24GB recomendada)
35B A3B BF16: ~70GB de VRAM (RTX 6000 96GB ou multi-GPU)
27B Denso Q4_K_M: ~16GB de VRAM (RTX 4090 24GB mínimo)
27B Denso IQ4_XS: cabe em 16GB de VRAM com compressão de cache KV
macOS: Apple Silicon com aceleração Metal (M1 Pro+ recomendado)
20-40 tok/s em hardware de consumo para 35B A3B de 4 bits
Fallback para CPU disponível mas significativamente mais lento (~2-5 tok/s)

Correções em relação ao Qwen 3.5

Entrada de visão/multimodal: avariada no 3.5, totalmente funcional no 3.6
Chamada de ferramentas/invocação de funções: avariada no 3.5, corrigida no 3.6
Melhoria no tratamento de contexto e eficiência de memória
Melhor qualidade de quantização em larguras de bits mais baixas

Começar a Conversar Documentação Ollama

Guias de configuração

Põe o Qwen 3.6 a funcionar com o Ollama em qualquer plataforma

Guias passo a passo para instalar o Ollama e configurar o Qwen 3.6 na tua plataforma, com dicas de otimização específicas para cada hardware.

Configuração macOS (Apple Silicon)

Instala o Ollama e executa o Qwen 3.6 em Macs M1/M2/M3/M4 com aceleração Metal

Configuração Linux (NVIDIA)

Configuração de GPU NVIDIA com aceleração CUDA para débito máximo

Configuração Windows

Instalação WSL2 e Windows nativo com passthrough de GPU

Configuração Docker

Executa o Ollama num contentor com acesso a GPU para implementações reproduzíveis

Guia Mac M4 16GB

Executa o 35B A3B com quantização Q3 no Mac M4 com 16GB de RAM

Configuração multi-GPU

Divide modelos grandes por múltiplas GPUs para melhor desempenho

Configuração avançada

Otimiza o desempenho do Qwen 3.6 e integra com ferramentas de programação

Ajusta o desempenho do modelo com Modelfiles, configuração de GPU, definições de contexto e liga ao teu ambiente de desenvolvimento.

Guia de Modelfile

Prompts de sistema personalizados, temperatura, comprimento de contexto e templates de chat

Otimização de GPU

Gestão de VRAM, offloading de camadas e ajuste de tamanho de lote

Integração Claude Code

Usa o Qwen 3.6 via Ollama como backend para o Claude Code

Configuração Continue.dev

Assistente de programação IA no VS Code com Qwen 3.6 local

Integração Aider

Programação em par com IA usando Qwen 3.6 alojado no Ollama

Integração API

Liga o localhost:11434 do Ollama a qualquer ferramenta compatível com OpenAI

Ecossistema Qwen

O Ollama é o caminho mais rápido para o Qwen 3.6 local - um comando, capacidades completas

Configuração com um comando com deteção automática de GPU, gestão de modelos, suporte de visão, chamada de ferramentas e API compatível com OpenAI em localhost:11434 para integração perfeita com Claude Code, Aider, Continue.dev e mais.

Explorar todos os modelos Biblioteca Ollama

Qwen 3.6 35B A3B

Modelo MoE, 20-40 tok/s em GPU de consumo

Executar localmente

Qwen 3.6 27B

Modelo denso, desempenho local máximo

Executar localmente

Biblioteca Ollama

Explora todas as tags e quantizações de modelos Qwen disponíveis

Explorar

Referência Modelfile

Personaliza comportamento, contexto e parâmetros do modelo

Ler documentação

Referência da API

API compatível com OpenAI em localhost:11434

Ver API

Comunidade

Obtém ajuda das comunidades Ollama e Qwen

Aderir

Começar

Pronto para executar o Qwen 3.6 com o Ollama? Um comando é tudo o que precisas

Experimenta o Qwen 3.6 no navegador primeiro e depois instala o Ollama para implementação local. Executa 'ollama run qwen3.6:35b-a3b' para transferir, configurar e começar a conversar com 20-40 tok/s em hardware de consumo. Visão, chamada de ferramentas e integração com ferramentas de programação funcionam de imediato.

Começar a Conversar Instalar Ollama