Qwen 3.6 + Ollama

Exécute Qwen 3.6 en local avec une seule commande – aucune configuration requise

Ollama rend l'exécution de Qwen 3.6 aussi simple que 'ollama run qwen3.6:35b-a3b'. Détection automatique du GPU, téléchargement du modèle et sélection de la quantification. Supporte les modèles dense 27B et MoE 35B A3B avec accélération NVIDIA CUDA et Apple Metal. Attends-toi à 20-40 tokens par seconde sur matériel grand public pour le modèle 35B A3B 4 bits. L'API compatible OpenAI sur localhost:11434 s'intègre directement avec Claude Code, Aider, Continue.dev et d'autres outils de coding. Vision et entrées multimodales supportées nativement – une correction majeure par rapport à Qwen 3.5 où la vision et l'appel d'outils étaient cassés.

Guide Ollama

De l'installation à l'inférence en moins de 5 minutes

Ollama gère la complexité du déploiement local de modèles – détection GPU, gestion mémoire, quantification et serving API – pour que tu puisses te concentrer sur l'utilisation du modèle. Qwen 3.6 corrige les problèmes de vision et d'appel d'outils qui affectaient Qwen 3.5 sur Ollama.

Setup en une commande

Installe Ollama, puis lance 'ollama run qwen3.6:35b-a3b' (tag par défaut) ou 'ollama run qwen3.6:27b'. Téléchargement automatique du modèle, détection GPU et sélection optimale de la quantification. Fonctionne sur macOS (Apple Silicon avec Metal), Linux (NVIDIA CUDA) et Windows (WSL2 ou natif). Le 35B A3B est le modèle recommandé par défaut pour la plupart des utilisateurs grâce à son équilibre entre qualité et exigences matérielles.

Sélection des tags de modèles

Choisis la bonne variante : 'qwen3.6:35b-a3b' pour les GPUs grand public (tag par défaut), 'qwen3.6:27b' pour les performances maximales sur matériel workstation, 'qwen3.6:35b-a3b-q4_k_m' pour un contrôle spécifique de la quantification, ou 'qwen3.6:35b-a3b-q3_k_m' pour les budgets VRAM serrés (environ 17 Go). Les tags correspondent directement aux niveaux de quantification GGUF. Utilise 'ollama list' pour voir les modèles téléchargés et 'ollama show qwen3.6:35b-a3b' pour inspecter les détails.

Exigences VRAM et quantification

Options de quantification 35B A3B : Q2_K (environ 13 Go, plus rapide, qualité la plus basse), Q3_K_M (environ 17 Go, bon pour Mac M4 16 Go), Q4_K_M (environ 21 Go, qualité/vitesse équilibrées sur GPU 24 Go), Q5_K_M (environ 25 Go), Q8_0 (environ 35 Go, quasi sans perte). 27B dense : Q4_K_M environ 16 Go, nécessite GPU 24 Go+. BF16 pleine précision pour 35B A3B nécessite environ 70 Go VRAM. La communauté confirme que le Mac M4 16 Go fait tourner le 35B A3B en quantification Q3.

Support vision et multimodal

Les modèles Qwen 3.6 supportent les entrées multimodales via Ollama – une amélioration majeure par rapport à Qwen 3.5 où la vision était cassée. Passe des images avec les prompts texte pour l'analyse de captures d'écran de code, la revue d'UI, la compréhension de diagrammes, le parsing de diagrammes d'architecture et les workflows de débogage visuel. Utilise la commande /image dans le chat Ollama ou passe des images encodées en base64 via l'API.

Benchmarks de performance sur matériel grand public

Les benchmarks de la communauté Unsloth montrent 20-40 tokens par seconde sur des machines locales pour le modèle 35B A3B 4 bits. Les utilisateurs Mac M4 16 Go rapportent des vitesses utilisables avec la quantification Q3. La RTX 4090 24 Go gère le Q4_K_M avec de la marge pour le contexte. La RTX 6000 96 Go peut faire tourner en pleine précision. Les performances évoluent linéairement avec la bande passante mémoire du GPU – une mémoire plus rapide signifie une inférence plus rapide.

Personnalisation Modelfile

Crée des Modelfiles personnalisés pour configurer les prompts système, la température, la longueur de contexte (num_ctx), le déchargement de couches GPU (num_gpu), la taille de lot (num_batch) et le nombre de threads. Configure num_ctx jusqu'à 131072 pour les tâches long-contexte. Personnalise le template de chat pour des cas d'usage spécifiques comme les assistants de coding, la rédaction technique ou les workflows agentiques. Les Modelfiles sont en texte brut et versionnables.

Appel d'outils et support de fonctions

Qwen 3.6 sur Ollama supporte l'appel d'outils et l'invocation de fonctions – une autre correction par rapport à Qwen 3.5 où l'appel d'outils était cassé. Définis des outils au format compatible OpenAI et le modèle générera des appels de fonctions structurés. Cela permet l'intégration avec des frameworks agentiques comme LangChain, AutoGen et CrewAI via l'endpoint localhost:11434.

Intégration d'outils de coding

Ollama expose une API compatible OpenAI sur localhost:11434. Connecte directement à Claude Code (via API compatible OpenAI), OpenClaw, Aider, Continue.dev, Cursor et d'autres outils de coding supportant les endpoints OpenAI personnalisés. Configure l'URL de base sur http://localhost:11434/v1 et utilise n'importe quelle chaîne comme clé API. Les modèles Qwen 3.6 supportent le même format chat completions qu'OpenAI.

Référence rapide

Commandes Ollama, tags de modèles et exigences matérielles

Commandes essentielles, options de configuration et exigences matérielles pour exécuter Qwen 3.6 avec Ollama sur différentes plateformes.

Commandes essentielles

  • ollama run qwen3.6:35b-a3b – Lancer le modèle MoE (tag par défaut, GPU grand public)
  • ollama run qwen3.6:27b – Lancer le modèle dense (GPU workstation)
  • ollama pull qwen3.6:35b-a3b-q3_k_m – Télécharger la quant Q3 (environ 17 Go, compatible Mac M4)
  • ollama pull qwen3.6:35b-a3b-q4_k_m – Télécharger la quant Q4 (environ 21 Go, équilibré)
  • ollama serve – Démarrer le serveur API sur localhost:11434
  • ollama list – Afficher les modèles téléchargés et leurs tailles
  • ollama show qwen3.6:35b-a3b – Inspecter les détails et paramètres du modèle

Exigences matérielles

  • 35B A3B Q3_K_M : environ 17 Go VRAM (Mac M4 16 Go confirmé)
  • 35B A3B Q4_K_M : environ 21 Go VRAM (RTX 4090 24 Go recommandé)
  • 35B A3B BF16 : environ 70 Go VRAM (RTX 6000 96 Go ou multi-GPU)
  • 27B Dense Q4_K_M : environ 16 Go VRAM (RTX 4090 24 Go minimum)
  • 27B Dense IQ4_XS : tient sur 16 Go VRAM avec compression du cache KV
  • macOS : Apple Silicon avec accélération Metal (M1 Pro+ recommandé)
  • 20-40 tok/s sur matériel grand public pour le 35B A3B 4 bits
  • Fallback CPU disponible mais significativement plus lent (environ 2-5 tok/s)

Corrections par rapport à Qwen 3.5

  • Entrée vision/multimodale : cassée en 3.5, pleinement fonctionnelle en 3.6
  • Appel d'outils/invocation de fonctions : cassé en 3.5, corrigé en 3.6
  • Gestion du contexte et efficacité mémoire améliorées
  • Meilleure qualité de quantification aux faibles largeurs de bits

Écosystème Qwen

Ollama est le chemin le plus rapide vers Qwen 3.6 en local – une commande, toutes les capacités

Setup en une commande avec détection automatique du GPU, gestion des modèles, support vision, appel d'outils et une API compatible OpenAI sur localhost:11434 pour une intégration fluide avec Claude Code, Aider, Continue.dev et plus.

Qwen 3.6 35B A3B

Modèle MoE, 20-40 tok/s sur GPU grand public

Exécuter en local

Qwen 3.6 27B

Modèle dense, performance locale maximale

Exécuter en local

Bibliothèque Ollama

Parcourir tous les tags et quantifications de modèles Qwen

Parcourir

Référence Modelfile

Personnaliser le comportement, le contexte et les paramètres du modèle

Lire la doc

Référence API

API compatible OpenAI sur localhost:11434

Voir l'API

Communauté

Obtiens de l'aide des communautés Ollama et Qwen

Rejoindre

Pour commencer

Prêt à exécuter Qwen 3.6 avec Ollama ? Une seule commande suffit

Essaie d'abord Qwen 3.6 dans le navigateur, puis installe Ollama pour le déploiement local. Lance 'ollama run qwen3.6:35b-a3b' pour télécharger, configurer et commencer à chatter avec 20-40 tok/s sur matériel grand public. Vision, appel d'outils et intégration d'outils de coding fonctionnent nativement.