Qwen 3.6 + Ollama
شغّل Qwen 3.6 محلياً بأمر واحد - بدون أي تكوين
Ollama يجعل تشغيل Qwen 3.6 بسيطاً مثل 'ollama run qwen3.6:35b-a3b'. اكتشاف تلقائي لـ GPU وتحميل النموذج واختيار التكميم. يدعم كلاً من النموذج الكثيف 27B ونموذج 35B A3B MoE مع تسريع NVIDIA CUDA وApple Metal. توقع 20-40 رمزاً في الثانية على أجهزة المستهلك لنموذج 35B A3B بـ 4 بت. الـ API المتوافق مع OpenAI على localhost:11434 يتكامل مباشرة مع Claude Code وAider وContinue.dev وأدوات البرمجة الأخرى. دعم الرؤية والمدخلات متعددة الوسائط يعمل فوراً - إصلاح مهم عن Qwen 3.5 حيث كانت الرؤية واستدعاء الأدوات معطلة.
دليل Ollama
من التثبيت إلى الاستدلال في أقل من 5 دقائق
Ollama يتولى تعقيدات نشر النماذج المحلية - اكتشاف GPU وإدارة الذاكرة والتكميم وخدمة API - حتى تتمكن من التركيز على استخدام النموذج. Qwen 3.6 يصلح مشاكل الرؤية واستدعاء الأدوات التي عانى منها Qwen 3.5 على Ollama.
إعداد بأمر واحد
ثبّت Ollama، ثم شغّل 'ollama run qwen3.6:35b-a3b' (العلامة الافتراضية) أو 'ollama run qwen3.6:27b'. تحميل تلقائي للنموذج واكتشاف GPU واختيار التكميم الأمثل. يعمل على macOS (Apple Silicon مع Metal) وLinux (NVIDIA CUDA) وWindows (WSL2 أو أصلي). نموذج 35B A3B هو النموذج الافتراضي الموصى به لمعظم المستخدمين بفضل توازنه بين الجودة ومتطلبات الأجهزة.
اختيار علامة النموذج
اختر المتغير المناسب: 'qwen3.6:35b-a3b' لـ GPU الاستهلاكية (العلامة الافتراضية)، 'qwen3.6:27b' لأقصى أداء على أجهزة محطات العمل، 'qwen3.6:35b-a3b-q4_k_m' للتحكم المحدد في التكميم، أو 'qwen3.6:35b-a3b-q3_k_m' لميزانيات VRAM الأضيق (حوالي 17 جيجابايت). العلامات تتوافق مباشرة مع مستويات تكميم GGUF. استخدم 'ollama list' لرؤية النماذج المحملة و'ollama show qwen3.6:35b-a3b' لفحص تفاصيل النموذج.
متطلبات VRAM والتكميم
خيارات تكميم 35B A3B: Q2_K (حوالي 13 جيجابايت، الأسرع، أقل جودة)، Q3_K_M (حوالي 17 جيجابايت، جيد لـ Mac M4 بذاكرة 16 جيجابايت)، Q4_K_M (حوالي 21 جيجابايت، جودة/سرعة متوازنة على GPU بسعة 24 جيجابايت)، Q5_K_M (حوالي 25 جيجابايت)، Q8_0 (حوالي 35 جيجابايت، شبه بدون فقدان). 27B كثيف: Q4_K_M حوالي 16 جيجابايت، يحتاج GPU بسعة 24 جيجابايت+. BF16 دقة كاملة لـ 35B A3B يتطلب حوالي 70 جيجابايت VRAM. تقارير المجتمع تؤكد أن Mac M4 بذاكرة 16 جيجابايت يشغل 35B A3B بتكميم Q3.
دعم الرؤية والوسائط المتعددة
نماذج Qwen 3.6 تدعم المدخلات متعددة الوسائط عبر Ollama - تحسين كبير عن Qwen 3.5 حيث كانت الرؤية معطلة. مرر الصور مع المطالبات النصية لتحليل لقطات شاشة الكود ومراجعة واجهة المستخدم وفهم المخططات وتحليل مخططات البنية وسير عمل التصحيح المرئي. استخدم أمر /image في دردشة Ollama أو مرر صوراً مشفرة بـ base64 عبر API.
معايير الأداء على أجهزة المستهلك
معايير مجتمع Unsloth تظهر 20-40 رمزاً في الثانية على الأجهزة المحلية لنموذج 35B A3B بـ 4 بت. مستخدمو Mac M4 بذاكرة 16 جيجابايت يبلغون عن سرعات قابلة للاستخدام مع تكميم Q3. RTX 4090 بسعة 24 جيجابايت تتعامل مع Q4_K_M مع مساحة للسياق. RTX 6000 بسعة 96 جيجابايت يمكنها تشغيل النشر بالدقة الكاملة. الأداء يتناسب خطياً مع عرض نطاق ذاكرة GPU - ذاكرة أسرع تعني استدلالاً أسرع.
تخصيص Modelfile
أنشئ ملفات Modelfile مخصصة لتكوين مطالبات النظام ودرجة الحرارة وطول السياق (num_ctx) وتفريغ طبقات GPU (num_gpu) وحجم الدفعة (num_batch) وعدد الخيوط. اضبط num_ctx حتى 131072 لمهام السياق الطويل. خصص قالب الدردشة لحالات استخدام محددة مثل مساعدي البرمجة والكتابة التقنية أو سير العمل الوكيلي. ملفات Modelfile هي نص عادي وقابلة للتحكم بالإصدارات.
استدعاء الأدوات ودعم الدوال
Qwen 3.6 على Ollama يدعم استدعاء الأدوات واستدعاء الدوال - إصلاح آخر عن Qwen 3.5 حيث كان استدعاء الأدوات معطلاً. عرّف الأدوات بالتنسيق المتوافق مع OpenAI وسيولد النموذج استدعاءات دوال منظمة. هذا يتيح التكامل مع أطر العمل الوكيلية مثل LangChain وAutoGen وCrewAI عبر نقطة نهاية localhost:11434.
تكامل أدوات البرمجة
Ollama يوفر API متوافقاً مع OpenAI على localhost:11434. اتصل مباشرة بـ Claude Code (عبر API متوافق مع OpenAI) وOpenClaw وAider وContinue.dev وCursor وأدوات البرمجة الأخرى التي تدعم نقاط نهاية OpenAI المخصصة. اضبط عنوان URL الأساسي على http://localhost:11434/v1 واستخدم أي سلسلة نصية كمفتاح API. نماذج Qwen 3.6 تدعم نفس تنسيق chat completions من OpenAI.
مرجع سريع
أوامر Ollama وعلامات النموذج ومتطلبات الأجهزة
الأوامر الأساسية وخيارات التكوين ومتطلبات الأجهزة لتشغيل Qwen 3.6 مع Ollama على منصات مختلفة.
الأوامر الأساسية
- ollama run qwen3.6:35b-a3b - تشغيل نموذج MoE (العلامة الافتراضية، GPU استهلاكية)
- ollama run qwen3.6:27b - تشغيل النموذج الكثيف (GPU محطة عمل)
- ollama pull qwen3.6:35b-a3b-q3_k_m - تحميل تكميم Q3 (حوالي 17 جيجابايت، مناسب لـ Mac M4)
- ollama pull qwen3.6:35b-a3b-q4_k_m - تحميل تكميم Q4 (حوالي 21 جيجابايت، متوازن)
- ollama serve - بدء خادم API على localhost:11434
- ollama list - عرض النماذج المحملة وأحجامها
- ollama show qwen3.6:35b-a3b - فحص تفاصيل ومعاملات النموذج
متطلبات الأجهزة
- 35B A3B Q3_K_M: حوالي 17 جيجابايت VRAM (Mac M4 بذاكرة 16 جيجابايت مؤكد العمل)
- 35B A3B Q4_K_M: حوالي 21 جيجابايت VRAM (RTX 4090 بسعة 24 جيجابايت موصى بها)
- 35B A3B BF16: حوالي 70 جيجابايت VRAM (RTX 6000 بسعة 96 جيجابايت أو GPU متعدد)
- 27B Dense Q4_K_M: حوالي 16 جيجابايت VRAM (RTX 4090 بسعة 24 جيجابايت كحد أدنى)
- 27B Dense IQ4_XS: يناسب 16 جيجابايت VRAM مع ضغط ذاكرة KV
- macOS: Apple Silicon مع تسريع Metal (M1 Pro+ موصى به)
- 20-40 رمز/ثانية على أجهزة المستهلك لـ 35B A3B بـ 4 بت
- احتياطي CPU متاح لكن أبطأ بشكل ملحوظ (حوالي 2-5 رمز/ثانية)
إصلاحات عن Qwen 3.5
- مدخلات الرؤية/الوسائط المتعددة: معطلة في 3.5، تعمل بالكامل في 3.6
- استدعاء الأدوات/الدوال: معطل في 3.5، مُصلح في 3.6
- تحسين معالجة السياق وكفاءة الذاكرة
- جودة تكميم أفضل عند عروض بت أقل
أدلة الإعداد
شغّل Qwen 3.6 مع Ollama على أي منصة
أدلة خطوة بخطوة لتثبيت Ollama وتكوين Qwen 3.6 على منصتك، مع نصائح تحسين خاصة بالأجهزة.
ثبّت Ollama وشغّل Qwen 3.6 على أجهزة Mac M1/M2/M3/M4 مع تسريع Metal
إعداد GPU من NVIDIA مع تسريع CUDA لأقصى إنتاجية
تثبيت WSL2 وWindows الأصلي مع تمرير GPU
شغّل Ollama في حاوية مع وصول GPU لنشر قابل للتكرار
شغّل 35B A3B بتكميم Q3 على Mac M4 بذاكرة 16 جيجابايت RAM
وزّع النماذج الكبيرة عبر عدة GPU لأداء أفضل
تكوين متقدم
حسّن أداء Qwen 3.6 وادمجه مع أدوات البرمجة
اضبط أداء النموذج باستخدام Modelfiles وتكوين GPU وإعدادات السياق واتصل ببيئة التطوير الخاصة بك.
مطالبات نظام مخصصة ودرجة حرارة وطول سياق وقوالب دردشة
إدارة VRAM وتفريغ الطبقات وضبط حجم الدفعة
استخدم Qwen 3.6 عبر Ollama كخلفية لـ Claude Code
مساعد برمجة AI في VS Code مع Qwen 3.6 محلي
برمجة ثنائية بالذكاء الاصطناعي مع Qwen 3.6 عبر Ollama
اربط localhost:11434 من Ollama بأي أداة متوافقة مع OpenAI
منظومة Qwen
Ollama هو أسرع طريق لـ Qwen 3.6 المحلي - أمر واحد، جميع الإمكانيات
إعداد بأمر واحد مع اكتشاف تلقائي لـ GPU وإدارة النماذج ودعم الرؤية واستدعاء الأدوات وAPI متوافق مع OpenAI على localhost:11434 للتكامل السلس مع Claude Code وAider وContinue.dev والمزيد.
ابدأ الآن
مستعد لتشغيل Qwen 3.6 مع Ollama؟ أمر واحد هو كل ما تحتاجه
جرّب Qwen 3.6 في المتصفح أولاً، ثم ثبّت Ollama للنشر المحلي. شغّل 'ollama run qwen3.6:35b-a3b' للتحميل والتكوين وبدء الدردشة بسرعة 20-40 رمز/ثانية على أجهزة المستهلك. الرؤية واستدعاء الأدوات وتكامل أدوات البرمجة تعمل فوراً.