Qwen 3.6をローカルで実行
自分のハードウェアにQwen 3.6をデプロイ – Mac M4 16GBからプロダクションサーバーまで
Qwen 3.6のオープンウェイトモデルは、幅広いハードウェアでのローカルデプロイ向けに設計されています。27Bデンスモデルは IQ4_XS GGUFとKVキャッシュ圧縮で16GB VRAMで動作し、最大100Kコンテキストをサポートします。35B A3B MoEモデルは4ビット量子化でコンシューマーハードウェアで毎秒20〜40トークンを実現します。コミュニティの報告ではMac M4 16GBでQ3量子化の35B A3Bが動作確認されています。Ollama、vLLM、llama.cpp、SGLang、KTransformersを完全サポート。ビジョンとマルチモーダル機能はローカルで動作します。
ローカルデプロイ
自分のマシンでQwen 3.6を動かすために必要なすべて
ハードウェア選定から量子化チューニングまで、このガイドは開発、テスト、プロダクション用途でのQwen 3.6モデルのローカルデプロイのあらゆる側面をカバーしています。6つの推論フレームワークをサポートし、16GBラップトップから96GBワークステーションまでのハードウェア構成に対応。
ハードウェア要件 – 35B A3B MoE
35B A3B MoEモデルはアクティブパラメータがわずか3Bで、最もハードウェアに優しいオプションです。Q3_K_M量子化:約17GB VRAM、Mac M4 16GBで動作確認済み。Q4_K_M:約21〜23GB VRAM、RTX 4090 24GBに適合。Q8_0:約35GB。BF16フル精度:約70GB、RTX 6000 96GBに適合。Unslothコミュニティベンチマークに基づき、コンシューマーハードウェアで4ビット量子化時に毎秒20〜40トークンが期待できます。
ハードウェア要件 – 27Bデンス
27Bデンスモデルはすべてのパラメータがアクティブで、オープンウェイト最高品質を実現します。IQ4_XS GGUF:KVキャッシュ圧縮で16GB VRAMで動作可能、最大100Kコンテキスト長をサポート。Q4_K_M:約16GB、コンテキスト付きの快適な動作には24GB以上のGPUが必要。FP16フル精度:約55.6GB、2x RTX 4090またはA100 80GBが必要。品質を最優先するワークステーションデプロイに最適です。
Ollamaワンコマンドセットアップ
ローカルデプロイへの最速パス:'ollama run qwen3.6:35b-a3b'。自動モデルダウンロード、量子化選択、GPU検出。NVIDIA CUDAとApple Metalアクセラレーションをサポート。localhost:11434のOpenAI互換APIはClaude Code、Aider、Continue.devなどのコーディングツールと統合できます。ビジョンとツールコールはすぐに動作 – Qwen 3.5からの改善点です。
vLLMプロダクションサービング
コンティニュアスバッチング、PagedAttention、OpenAI互換APIエンドポイントによるプロダクショングレードのサービング。マルチユーザーデプロイとサーバーハードウェアでの高スループット推論に最適。27Bモデルを複数GPUに分割するテンソルパラレリズムをサポート。PagedAttentionはモデルの最大コンテキスト長までのロングコンテキストリクエストの効率的なメモリ管理を実現します。
llama.cppとSGLang
llama.cppはCPUとGPUをサポートする軽量C++推論を提供し、エッジデプロイやリソース制約のある環境に最適です。SGLangは効率的なプレフィックスキャッシングのためのRadixAttentionによる高性能サービングを提供します。両方ともGGUF量子化モデルをサポートし、OpenAI互換APIエンドポイントを提供します。KTransformersも高度なデプロイシナリオ向けにサポートされています。
ビジョンとマルチモーダルをローカルで
27Bと35B A3Bの両モデルは、ローカルデプロイ時にビジョンとマルチモーダル入力をサポートします。コードスクリーンショットの分析、UIデザインのレビュー、アーキテクチャ図の解析、ビジュアルな問題のデバッグが可能です。この機能はOllama、vLLM、その他のサポートされたフレームワークで動作します。ローカルビジョンが壊れていたQwen 3.5からの大幅な改善です。
プライバシーとデータ主権
すべてのデータはあなたのマシンに留まります。APIコールなし、クラウド依存なし、利用追跡なし、ネットワーク外へのデータ流出なし。機密性の高いコードベース、プロプライエタリデータ、医療・金融アプリケーション、データ主権が法的に求められるエアギャップ環境に最適です。Apache 2.0ライセンスは制限なしの商用利用を許可しています。
API対比のコスト分析
初期ハードウェア投資後のトークンコストはゼロです。RTX 4090 1台(約$1,600)で35B A3Bモデルを20〜40トークン/秒で動かせば、1日に数千リクエストを処理できます。DashScopeの100万トークンあたり$0.40/$2.40の料金で計算すると、ヘビーユースなら数週間でGPUの元が取れます。毎日数百万トークンを処理するチームにとって、ローカルデプロイはAPIアクセスの10〜100倍のコスト削減を実現します。
クイックリファレンス
ハードウェア構成とフレームワークオプション
さまざまなハードウェア構成と推論フレームワークにおけるQwen 3.6ローカルデプロイの主要スペック。
35B A3B MoE構成
- Q3_K_M:約17GB VRAM – Mac M4 16GB動作確認済み
- Q4_K_M:約21〜23GB VRAM – RTX 4090 24GB推奨
- Q8_0:約35GB VRAM – RTX A6000 48GBまたはデュアルGPU
- BF16:約70GB VRAM – RTX 6000 96GBフル精度
- コンシューマーハードウェアで4ビット時20〜40トークン/秒(Unslothベンチマーク)
- トークンあたり3Bアクティブパラメータ、効率的な推論
27Bデンス構成
- IQ4_XS GGUF:KVキャッシュ圧縮で16GB VRAM(100Kコンテキスト)
- Q4_K_M:約16GB VRAM – RTX 4090 24GBでコンテキスト余裕あり
- FP16:約55.6GB VRAM – 2x RTX 4090またはA100 80GB
- 最大品質のため全27Bパラメータがアクティブ
- 最高のオープンウェイトコーディングモデル:77.2% SWE-bench
サポートされるフレームワーク
- Ollama:最も簡単なセットアップ、ワンコマンドデプロイ、ビジョン + ツールコール
- vLLM:プロダクションサービング、コンティニュアスバッチング、テンソルパラレリズム
- llama.cpp:軽量C++推論、CPU + GPU、エッジデプロイ
- SGLang:RadixAttentionプレフィックスキャッシングによる高性能サービング
- KTransformers:高度なデプロイと最適化
- HuggingFace Transformers:ネイティブPython、フルファインチューニングサポート
セットアップガイド
各フレームワークのステップバイステップローカルデプロイ
これらのガイドに従って、プラットフォーム固有の最適化ヒントとともに、数分でハードウェア上でQwen 3.6を動かしましょう。
最適化
ハードウェアの性能を最大限に引き出す
特定のハードウェアで最適なパフォーマンスを得るために、量子化、バッチサイズ、メモリ割り当て、コンテキスト長を調整しましょう。
Qwenエコシステム
ローカルデプロイのために作られたオープンウェイトモデル – Apache 2.0ライセンス
Qwen 3.6のオープンウェイトモデルは6つの推論フレームワークを完全サポートし、Apache 2.0ライセンスで公開されています。Mac M4ラップトップからマルチGPUサーバーまで、自信を持ってランニングコストゼロでデプロイできます。
はじめに
自分のハードウェアでQwen 3.6を動かす準備はできましたか?コマンド一つで始めよう
まずブラウザでQwen 3.6を試してから、Ollama、vLLM、llama.cpp、SGLangでローカルデプロイしましょう。35B A3BはMac M4 16GBで動作、27BはIQ4_XSで16GB VRAMに収まります。トークンコストゼロ、完全なデータプライバシー、Apache 2.0ライセンス。