Qwen 3.6 + Ollama

شغّل Qwen 3.6 محلياً بأمر واحد - بدون أي تكوين

Ollama يجعل تشغيل Qwen 3.6 بسيطاً مثل 'ollama run qwen3.6:35b-a3b'. اكتشاف تلقائي لـ GPU وتحميل النموذج واختيار التكميم. يدعم كلاً من النموذج الكثيف 27B ونموذج 35B A3B MoE مع تسريع NVIDIA CUDA وApple Metal. توقع 20-40 رمزاً في الثانية على أجهزة المستهلك لنموذج 35B A3B بـ 4 بت. الـ API المتوافق مع OpenAI على localhost:11434 يتكامل مباشرة مع Claude Code وAider وContinue.dev وأدوات البرمجة الأخرى. دعم الرؤية والمدخلات متعددة الوسائط يعمل فوراً - إصلاح مهم عن Qwen 3.5 حيث كانت الرؤية واستدعاء الأدوات معطلة.

دليل Ollama

من التثبيت إلى الاستدلال في أقل من 5 دقائق

Ollama يتولى تعقيدات نشر النماذج المحلية - اكتشاف GPU وإدارة الذاكرة والتكميم وخدمة API - حتى تتمكن من التركيز على استخدام النموذج. Qwen 3.6 يصلح مشاكل الرؤية واستدعاء الأدوات التي عانى منها Qwen 3.5 على Ollama.

إعداد بأمر واحد

ثبّت Ollama، ثم شغّل 'ollama run qwen3.6:35b-a3b' (العلامة الافتراضية) أو 'ollama run qwen3.6:27b'. تحميل تلقائي للنموذج واكتشاف GPU واختيار التكميم الأمثل. يعمل على macOS (Apple Silicon مع Metal) وLinux (NVIDIA CUDA) وWindows (WSL2 أو أصلي). نموذج 35B A3B هو النموذج الافتراضي الموصى به لمعظم المستخدمين بفضل توازنه بين الجودة ومتطلبات الأجهزة.

اختيار علامة النموذج

اختر المتغير المناسب: 'qwen3.6:35b-a3b' لـ GPU الاستهلاكية (العلامة الافتراضية)، 'qwen3.6:27b' لأقصى أداء على أجهزة محطات العمل، 'qwen3.6:35b-a3b-q4_k_m' للتحكم المحدد في التكميم، أو 'qwen3.6:35b-a3b-q3_k_m' لميزانيات VRAM الأضيق (حوالي 17 جيجابايت). العلامات تتوافق مباشرة مع مستويات تكميم GGUF. استخدم 'ollama list' لرؤية النماذج المحملة و'ollama show qwen3.6:35b-a3b' لفحص تفاصيل النموذج.

متطلبات VRAM والتكميم

خيارات تكميم 35B A3B: Q2_K (حوالي 13 جيجابايت، الأسرع، أقل جودة)، Q3_K_M (حوالي 17 جيجابايت، جيد لـ Mac M4 بذاكرة 16 جيجابايت)، Q4_K_M (حوالي 21 جيجابايت، جودة/سرعة متوازنة على GPU بسعة 24 جيجابايت)، Q5_K_M (حوالي 25 جيجابايت)، Q8_0 (حوالي 35 جيجابايت، شبه بدون فقدان). 27B كثيف: Q4_K_M حوالي 16 جيجابايت، يحتاج GPU بسعة 24 جيجابايت+. BF16 دقة كاملة لـ 35B A3B يتطلب حوالي 70 جيجابايت VRAM. تقارير المجتمع تؤكد أن Mac M4 بذاكرة 16 جيجابايت يشغل 35B A3B بتكميم Q3.

دعم الرؤية والوسائط المتعددة

نماذج Qwen 3.6 تدعم المدخلات متعددة الوسائط عبر Ollama - تحسين كبير عن Qwen 3.5 حيث كانت الرؤية معطلة. مرر الصور مع المطالبات النصية لتحليل لقطات شاشة الكود ومراجعة واجهة المستخدم وفهم المخططات وتحليل مخططات البنية وسير عمل التصحيح المرئي. استخدم أمر /image في دردشة Ollama أو مرر صوراً مشفرة بـ base64 عبر API.

معايير الأداء على أجهزة المستهلك

معايير مجتمع Unsloth تظهر 20-40 رمزاً في الثانية على الأجهزة المحلية لنموذج 35B A3B بـ 4 بت. مستخدمو Mac M4 بذاكرة 16 جيجابايت يبلغون عن سرعات قابلة للاستخدام مع تكميم Q3. RTX 4090 بسعة 24 جيجابايت تتعامل مع Q4_K_M مع مساحة للسياق. RTX 6000 بسعة 96 جيجابايت يمكنها تشغيل النشر بالدقة الكاملة. الأداء يتناسب خطياً مع عرض نطاق ذاكرة GPU - ذاكرة أسرع تعني استدلالاً أسرع.

تخصيص Modelfile

أنشئ ملفات Modelfile مخصصة لتكوين مطالبات النظام ودرجة الحرارة وطول السياق (num_ctx) وتفريغ طبقات GPU (num_gpu) وحجم الدفعة (num_batch) وعدد الخيوط. اضبط num_ctx حتى 131072 لمهام السياق الطويل. خصص قالب الدردشة لحالات استخدام محددة مثل مساعدي البرمجة والكتابة التقنية أو سير العمل الوكيلي. ملفات Modelfile هي نص عادي وقابلة للتحكم بالإصدارات.

استدعاء الأدوات ودعم الدوال

Qwen 3.6 على Ollama يدعم استدعاء الأدوات واستدعاء الدوال - إصلاح آخر عن Qwen 3.5 حيث كان استدعاء الأدوات معطلاً. عرّف الأدوات بالتنسيق المتوافق مع OpenAI وسيولد النموذج استدعاءات دوال منظمة. هذا يتيح التكامل مع أطر العمل الوكيلية مثل LangChain وAutoGen وCrewAI عبر نقطة نهاية localhost:11434.

تكامل أدوات البرمجة

Ollama يوفر API متوافقاً مع OpenAI على localhost:11434. اتصل مباشرة بـ Claude Code (عبر API متوافق مع OpenAI) وOpenClaw وAider وContinue.dev وCursor وأدوات البرمجة الأخرى التي تدعم نقاط نهاية OpenAI المخصصة. اضبط عنوان URL الأساسي على http://localhost:11434/v1 واستخدم أي سلسلة نصية كمفتاح API. نماذج Qwen 3.6 تدعم نفس تنسيق chat completions من OpenAI.

مرجع سريع

أوامر Ollama وعلامات النموذج ومتطلبات الأجهزة

الأوامر الأساسية وخيارات التكوين ومتطلبات الأجهزة لتشغيل Qwen 3.6 مع Ollama على منصات مختلفة.

الأوامر الأساسية

  • ollama run qwen3.6:35b-a3b - تشغيل نموذج MoE (العلامة الافتراضية، GPU استهلاكية)
  • ollama run qwen3.6:27b - تشغيل النموذج الكثيف (GPU محطة عمل)
  • ollama pull qwen3.6:35b-a3b-q3_k_m - تحميل تكميم Q3 (حوالي 17 جيجابايت، مناسب لـ Mac M4)
  • ollama pull qwen3.6:35b-a3b-q4_k_m - تحميل تكميم Q4 (حوالي 21 جيجابايت، متوازن)
  • ollama serve - بدء خادم API على localhost:11434
  • ollama list - عرض النماذج المحملة وأحجامها
  • ollama show qwen3.6:35b-a3b - فحص تفاصيل ومعاملات النموذج

متطلبات الأجهزة

  • 35B A3B Q3_K_M: حوالي 17 جيجابايت VRAM (Mac M4 بذاكرة 16 جيجابايت مؤكد العمل)
  • 35B A3B Q4_K_M: حوالي 21 جيجابايت VRAM (RTX 4090 بسعة 24 جيجابايت موصى بها)
  • 35B A3B BF16: حوالي 70 جيجابايت VRAM (RTX 6000 بسعة 96 جيجابايت أو GPU متعدد)
  • 27B Dense Q4_K_M: حوالي 16 جيجابايت VRAM (RTX 4090 بسعة 24 جيجابايت كحد أدنى)
  • 27B Dense IQ4_XS: يناسب 16 جيجابايت VRAM مع ضغط ذاكرة KV
  • macOS: Apple Silicon مع تسريع Metal (M1 Pro+ موصى به)
  • 20-40 رمز/ثانية على أجهزة المستهلك لـ 35B A3B بـ 4 بت
  • احتياطي CPU متاح لكن أبطأ بشكل ملحوظ (حوالي 2-5 رمز/ثانية)

إصلاحات عن Qwen 3.5

  • مدخلات الرؤية/الوسائط المتعددة: معطلة في 3.5، تعمل بالكامل في 3.6
  • استدعاء الأدوات/الدوال: معطل في 3.5، مُصلح في 3.6
  • تحسين معالجة السياق وكفاءة الذاكرة
  • جودة تكميم أفضل عند عروض بت أقل

منظومة Qwen

Ollama هو أسرع طريق لـ Qwen 3.6 المحلي - أمر واحد، جميع الإمكانيات

إعداد بأمر واحد مع اكتشاف تلقائي لـ GPU وإدارة النماذج ودعم الرؤية واستدعاء الأدوات وAPI متوافق مع OpenAI على localhost:11434 للتكامل السلس مع Claude Code وAider وContinue.dev والمزيد.

Qwen 3.6 35B A3B

نموذج MoE، 20-40 رمز/ثانية على GPU استهلاكية

شغّل محلياً

Qwen 3.6 27B

نموذج كثيف، أقصى أداء محلي

شغّل محلياً

مكتبة Ollama

تصفح جميع علامات وتكميمات Qwen المتاحة

تصفح

مرجع Modelfile

خصص سلوك النموذج والسياق والمعاملات

اقرأ الوثائق

مرجع API

API متوافق مع OpenAI على localhost:11434

عرض API

المجتمع

احصل على مساعدة من مجتمعي Ollama وQwen

انضم

ابدأ الآن

مستعد لتشغيل Qwen 3.6 مع Ollama؟ أمر واحد هو كل ما تحتاجه

جرّب Qwen 3.6 في المتصفح أولاً، ثم ثبّت Ollama للنشر المحلي. شغّل 'ollama run qwen3.6:35b-a3b' للتحميل والتكوين وبدء الدردشة بسرعة 20-40 رمز/ثانية على أجهزة المستهلك. الرؤية واستدعاء الأدوات وتكامل أدوات البرمجة تعمل فوراً.