Qwen 3.6 + Ollama
Exécute Qwen 3.6 en local avec une seule commande – aucune configuration requise
Ollama rend l'exécution de Qwen 3.6 aussi simple que 'ollama run qwen3.6:35b-a3b'. Détection automatique du GPU, téléchargement du modèle et sélection de la quantification. Supporte les modèles dense 27B et MoE 35B A3B avec accélération NVIDIA CUDA et Apple Metal. Attends-toi à 20-40 tokens par seconde sur matériel grand public pour le modèle 35B A3B 4 bits. L'API compatible OpenAI sur localhost:11434 s'intègre directement avec Claude Code, Aider, Continue.dev et d'autres outils de coding. Vision et entrées multimodales supportées nativement – une correction majeure par rapport à Qwen 3.5 où la vision et l'appel d'outils étaient cassés.
Guide Ollama
De l'installation à l'inférence en moins de 5 minutes
Ollama gère la complexité du déploiement local de modèles – détection GPU, gestion mémoire, quantification et serving API – pour que tu puisses te concentrer sur l'utilisation du modèle. Qwen 3.6 corrige les problèmes de vision et d'appel d'outils qui affectaient Qwen 3.5 sur Ollama.
Setup en une commande
Installe Ollama, puis lance 'ollama run qwen3.6:35b-a3b' (tag par défaut) ou 'ollama run qwen3.6:27b'. Téléchargement automatique du modèle, détection GPU et sélection optimale de la quantification. Fonctionne sur macOS (Apple Silicon avec Metal), Linux (NVIDIA CUDA) et Windows (WSL2 ou natif). Le 35B A3B est le modèle recommandé par défaut pour la plupart des utilisateurs grâce à son équilibre entre qualité et exigences matérielles.
Sélection des tags de modèles
Choisis la bonne variante : 'qwen3.6:35b-a3b' pour les GPUs grand public (tag par défaut), 'qwen3.6:27b' pour les performances maximales sur matériel workstation, 'qwen3.6:35b-a3b-q4_k_m' pour un contrôle spécifique de la quantification, ou 'qwen3.6:35b-a3b-q3_k_m' pour les budgets VRAM serrés (environ 17 Go). Les tags correspondent directement aux niveaux de quantification GGUF. Utilise 'ollama list' pour voir les modèles téléchargés et 'ollama show qwen3.6:35b-a3b' pour inspecter les détails.
Exigences VRAM et quantification
Options de quantification 35B A3B : Q2_K (environ 13 Go, plus rapide, qualité la plus basse), Q3_K_M (environ 17 Go, bon pour Mac M4 16 Go), Q4_K_M (environ 21 Go, qualité/vitesse équilibrées sur GPU 24 Go), Q5_K_M (environ 25 Go), Q8_0 (environ 35 Go, quasi sans perte). 27B dense : Q4_K_M environ 16 Go, nécessite GPU 24 Go+. BF16 pleine précision pour 35B A3B nécessite environ 70 Go VRAM. La communauté confirme que le Mac M4 16 Go fait tourner le 35B A3B en quantification Q3.
Support vision et multimodal
Les modèles Qwen 3.6 supportent les entrées multimodales via Ollama – une amélioration majeure par rapport à Qwen 3.5 où la vision était cassée. Passe des images avec les prompts texte pour l'analyse de captures d'écran de code, la revue d'UI, la compréhension de diagrammes, le parsing de diagrammes d'architecture et les workflows de débogage visuel. Utilise la commande /image dans le chat Ollama ou passe des images encodées en base64 via l'API.
Benchmarks de performance sur matériel grand public
Les benchmarks de la communauté Unsloth montrent 20-40 tokens par seconde sur des machines locales pour le modèle 35B A3B 4 bits. Les utilisateurs Mac M4 16 Go rapportent des vitesses utilisables avec la quantification Q3. La RTX 4090 24 Go gère le Q4_K_M avec de la marge pour le contexte. La RTX 6000 96 Go peut faire tourner en pleine précision. Les performances évoluent linéairement avec la bande passante mémoire du GPU – une mémoire plus rapide signifie une inférence plus rapide.
Personnalisation Modelfile
Crée des Modelfiles personnalisés pour configurer les prompts système, la température, la longueur de contexte (num_ctx), le déchargement de couches GPU (num_gpu), la taille de lot (num_batch) et le nombre de threads. Configure num_ctx jusqu'à 131072 pour les tâches long-contexte. Personnalise le template de chat pour des cas d'usage spécifiques comme les assistants de coding, la rédaction technique ou les workflows agentiques. Les Modelfiles sont en texte brut et versionnables.
Appel d'outils et support de fonctions
Qwen 3.6 sur Ollama supporte l'appel d'outils et l'invocation de fonctions – une autre correction par rapport à Qwen 3.5 où l'appel d'outils était cassé. Définis des outils au format compatible OpenAI et le modèle générera des appels de fonctions structurés. Cela permet l'intégration avec des frameworks agentiques comme LangChain, AutoGen et CrewAI via l'endpoint localhost:11434.
Intégration d'outils de coding
Ollama expose une API compatible OpenAI sur localhost:11434. Connecte directement à Claude Code (via API compatible OpenAI), OpenClaw, Aider, Continue.dev, Cursor et d'autres outils de coding supportant les endpoints OpenAI personnalisés. Configure l'URL de base sur http://localhost:11434/v1 et utilise n'importe quelle chaîne comme clé API. Les modèles Qwen 3.6 supportent le même format chat completions qu'OpenAI.
Référence rapide
Commandes Ollama, tags de modèles et exigences matérielles
Commandes essentielles, options de configuration et exigences matérielles pour exécuter Qwen 3.6 avec Ollama sur différentes plateformes.
Commandes essentielles
- ollama run qwen3.6:35b-a3b – Lancer le modèle MoE (tag par défaut, GPU grand public)
- ollama run qwen3.6:27b – Lancer le modèle dense (GPU workstation)
- ollama pull qwen3.6:35b-a3b-q3_k_m – Télécharger la quant Q3 (environ 17 Go, compatible Mac M4)
- ollama pull qwen3.6:35b-a3b-q4_k_m – Télécharger la quant Q4 (environ 21 Go, équilibré)
- ollama serve – Démarrer le serveur API sur localhost:11434
- ollama list – Afficher les modèles téléchargés et leurs tailles
- ollama show qwen3.6:35b-a3b – Inspecter les détails et paramètres du modèle
Exigences matérielles
- 35B A3B Q3_K_M : environ 17 Go VRAM (Mac M4 16 Go confirmé)
- 35B A3B Q4_K_M : environ 21 Go VRAM (RTX 4090 24 Go recommandé)
- 35B A3B BF16 : environ 70 Go VRAM (RTX 6000 96 Go ou multi-GPU)
- 27B Dense Q4_K_M : environ 16 Go VRAM (RTX 4090 24 Go minimum)
- 27B Dense IQ4_XS : tient sur 16 Go VRAM avec compression du cache KV
- macOS : Apple Silicon avec accélération Metal (M1 Pro+ recommandé)
- 20-40 tok/s sur matériel grand public pour le 35B A3B 4 bits
- Fallback CPU disponible mais significativement plus lent (environ 2-5 tok/s)
Corrections par rapport à Qwen 3.5
- Entrée vision/multimodale : cassée en 3.5, pleinement fonctionnelle en 3.6
- Appel d'outils/invocation de fonctions : cassé en 3.5, corrigé en 3.6
- Gestion du contexte et efficacité mémoire améliorées
- Meilleure qualité de quantification aux faibles largeurs de bits
Guides de setup
Faire tourner Qwen 3.6 avec Ollama sur n'importe quelle plateforme
Guides étape par étape pour installer Ollama et configurer Qwen 3.6 sur ta plateforme, avec des conseils d'optimisation spécifiques au matériel.
Installe Ollama et exécute Qwen 3.6 sur les Macs M1/M2/M3/M4 avec accélération Metal
Configuration GPU NVIDIA avec accélération CUDA pour un débit maximal
Installation WSL2 et Windows natif avec passthrough GPU
Exécute Ollama dans un conteneur avec accès GPU pour des déploiements reproductibles
Exécute le 35B A3B avec quantification Q3 sur Mac M4 avec 16 Go de RAM
Répartis les grands modèles sur plusieurs GPUs pour de meilleures performances
Configuration avancée
Optimise les performances de Qwen 3.6 et intègre avec les outils de coding
Affine les performances du modèle avec les Modelfiles, la configuration GPU, les paramètres de contexte et connecte à ton environnement de développement.
Prompts système personnalisés, température, longueur de contexte et templates de chat
Gestion VRAM, déchargement de couches et réglage de la taille de lot
Utilise Qwen 3.6 via Ollama comme backend pour Claude Code
Assistant de coding IA dans VS Code avec Qwen 3.6 local
Programmation en binôme IA avec Qwen 3.6 hébergé sur Ollama
Connecte le localhost:11434 d'Ollama à n'importe quel outil compatible OpenAI
Écosystème Qwen
Ollama est le chemin le plus rapide vers Qwen 3.6 en local – une commande, toutes les capacités
Setup en une commande avec détection automatique du GPU, gestion des modèles, support vision, appel d'outils et une API compatible OpenAI sur localhost:11434 pour une intégration fluide avec Claude Code, Aider, Continue.dev et plus.
Référence Modelfile
Personnaliser le comportement, le contexte et les paramètres du modèle
Lire la docPour commencer
Prêt à exécuter Qwen 3.6 avec Ollama ? Une seule commande suffit
Essaie d'abord Qwen 3.6 dans le navigateur, puis installe Ollama pour le déploiement local. Lance 'ollama run qwen3.6:35b-a3b' pour télécharger, configurer et commencer à chatter avec 20-40 tok/s sur matériel grand public. Vision, appel d'outils et intégration d'outils de coding fonctionnent nativement.