Qwen 3.6 + Ollama

コマンド一つでQwen 3.6をローカル実行 – 設定不要

Ollamaを使えばQwen 3.6の実行は'ollama run qwen3.6:35b-a3b'と入力するだけ。自動GPU検出、モデルダウンロード、量子化選択。27Bデンスと35B A3B MoEの両モデルをNVIDIA CUDAとApple Metalアクセラレーションでサポート。35B A3B 4ビットモデルでコンシューマーハードウェアで毎秒20〜40トークンが期待できます。localhost:11434のOpenAI互換APIはClaude Code、Aider、Continue.devなどのコーディングツールと直接統合できます。ビジョンとマルチモーダル入力をすぐにサポート – ビジョンとツールコールが壊れていたQwen 3.5からの重要な改善です。

チャットを始めるモデルタグを見る

Ollamaガイド

インストールから推論まで5分以内

OllamaはローカルモデルデプロイのGPU検出、メモリ管理、量子化、APIサービングといった複雑さを処理するので、モデルの利用に集中できます。Qwen 3.6はOllamaでQwen 3.5を悩ませていたビジョンとツールコールの問題を修正しています。

ワンコマンドセットアップ

Ollamaをインストールし、'ollama run qwen3.6:35b-a3b'（デフォルトタグ）または'ollama run qwen3.6:27b'を実行。自動モデルダウンロード、GPU検出、最適な量子化選択。macOS（Apple Silicon + Metal）、Linux（NVIDIA CUDA）、Windows（WSL2またはネイティブ）で動作します。35B A3Bは品質とハードウェア要件のバランスから、ほとんどのユーザーに推奨されるデフォルトモデルです。

モデルタグの選択

適切なモデルバリアントを選択：'qwen3.6:35b-a3b'はコンシューマーGPU向け（デフォルトタグ）、'qwen3.6:27b'はワークステーションハードウェアで最大性能、'qwen3.6:35b-a3b-q4_k_m'は特定の量子化制御、'qwen3.6:35b-a3b-q3_k_m'はより少ないVRAM予算向け（約17GB）。タグはGGUF量子化レベルに直接対応します。'ollama list'でダウンロード済みモデルを確認、'ollama show qwen3.6:35b-a3b'でモデル詳細を確認できます。

VRAM要件と量子化

35B A3B量子化オプション：Q2_K（約13GB、最速、最低品質）、Q3_K_M（約17GB、Mac M4 16GBに適合）、Q4_K_M（約21GB、24GB GPUでバランスの取れた品質/速度）、Q5_K_M（約25GB）、Q8_0（約35GB、ほぼロスレス）。27Bデンス：Q4_K_M約16GB、24GB以上のGPUが必要。35B A3BのBF16フル精度は約70GB VRAMが必要。コミュニティの報告ではMac M4 16GBでQ3量子化の35B A3Bが正常に動作確認されています。

ビジョンとマルチモーダルサポート

Qwen 3.6モデルはOllamaを通じてマルチモーダル入力をサポートします – ビジョンが壊れていたQwen 3.5からの大幅な改善です。テキストプロンプトと一緒に画像を渡して、コードスクリーンショット分析、UIレビュー、ダイアグラム理解、アーキテクチャ図の解析、ビジュアルデバッグワークフローに活用できます。Ollamaチャットの/imageコマンドまたはAPI経由でBase64エンコード画像を渡せます。

コンシューマーハードウェアでのパフォーマンスベンチマーク

Unslothコミュニティベンチマークでは、35B A3B 4ビットモデルでローカル環境で毎秒20〜40トークンを示しています。Mac M4 16GBユーザーはQ3量子化で実用的な速度を報告しています。RTX 4090 24GBはQ4_K_Mをコンテキスト余裕を持って処理します。RTX 6000 96GBはフル精度デプロイが可能です。パフォーマンスはGPUメモリ帯域幅に比例してスケール – より高速なメモリはより高速な推論を意味します。

Modelfileカスタマイズ

カスタムModelfileを作成して、システムプロンプト、温度、コンテキスト長（num_ctx）、GPUレイヤーオフローディング（num_gpu）、バッチサイズ（num_batch）、スレッド数を設定できます。ロングコンテキストタスクにはnum_ctxを最大131072に設定可能。コーディングアシスタント、テクニカルライティング、エージェントワークフローなどの特定ユースケース向けにチャットテンプレートをカスタマイズできます。Modelfileはプレーンテキストでバージョン管理可能です。

ツールコールと関数サポート

OllamaのQwen 3.6はツールコールと関数呼び出しをサポートします – ツールコールが壊れていたQwen 3.5からのもう一つの改善です。OpenAI互換フォーマットでツールを定義すると、モデルが構造化された関数呼び出しを生成します。これにより、localhost:11434エンドポイントを通じてLangChain、AutoGen、CrewAIなどのエージェントフレームワークとの統合が可能になります。

コーディングツール統合

Ollamaはlocalhost:11434でOpenAI互換APIを公開します。Claude Code（OpenAI互換API経由）、OpenClaw、Aider、Continue.dev、Cursor、およびカスタムOpenAIエンドポイントをサポートするその他のコーディングツールに直接接続できます。ベースURLをhttp://localhost:11434/v1に設定し、APIキーには任意の文字列を使用します。Qwen 3.6モデルはOpenAIと同じチャットコンプリーションフォーマットをサポートします。

クイックリファレンス

Ollamaコマンド、モデルタグ、ハードウェア要件

さまざまなプラットフォームでOllamaを使ってQwen 3.6を実行するための基本コマンド、設定オプション、ハードウェア要件。

基本コマンド

ollama run qwen3.6:35b-a3b – MoEモデルを実行（デフォルトタグ、コンシューマーGPU）
ollama run qwen3.6:27b – デンスモデルを実行（ワークステーションGPU）
ollama pull qwen3.6:35b-a3b-q3_k_m – Q3量子化をダウンロード（約17GB、Mac M4対応）
ollama pull qwen3.6:35b-a3b-q4_k_m – Q4量子化をダウンロード（約21GB、バランス型）
ollama serve – localhost:11434でAPIサーバーを起動
ollama list – ダウンロード済みモデルとサイズを表示
ollama show qwen3.6:35b-a3b – モデル詳細とパラメータを確認

ハードウェア要件

35B A3B Q3_K_M：約17GB VRAM（Mac M4 16GB動作確認済み）
35B A3B Q4_K_M：約21GB VRAM（RTX 4090 24GB推奨）
35B A3B BF16：約70GB VRAM（RTX 6000 96GBまたはマルチGPU）
27Bデンス Q4_K_M：約16GB VRAM（RTX 4090 24GB最低）
27Bデンス IQ4_XS：KVキャッシュ圧縮で16GB VRAMに収まる
macOS：Apple Silicon + Metalアクセラレーション（M1 Pro以上推奨）
コンシューマーハードウェアで35B A3B 4ビットは20〜40トークン/秒
CPUフォールバック可能だが大幅に低速（約2〜5トークン/秒）

Qwen 3.5からの改善点

ビジョン/マルチモーダル入力：3.5では壊れていたが3.6で完全動作
ツールコール/関数呼び出し：3.5では壊れていたが3.6で修正
コンテキスト処理とメモリ効率の改善
低ビット幅での量子化品質の向上

チャットを始める Ollamaドキュメント

セットアップガイド

あらゆるプラットフォームでOllamaを使ってQwen 3.6を実行

Ollamaのインストールとプラットフォームでのqwen 3.6設定のステップバイステップガイド。ハードウェア固有の最適化ヒント付き。

macOSセットアップ（Apple Silicon）

OllamaをインストールしてM1/M2/M3/M4 MacでMetalアクセラレーションでQwen 3.6を実行

Linuxセットアップ（NVIDIA）

最大スループットのためのCUDAアクセラレーション付きNVIDIA GPUセットアップ

Windowsセットアップ

GPUパススルー付きWSL2およびネイティブWindowsインストール

Dockerセットアップ

再現可能なデプロイのためにGPUアクセス付きコンテナでOllamaを実行

Mac M4 16GBガイド

Mac M4 16GB RAMでQ3量子化の35B A3Bを実行

マルチGPUセットアップ

大型モデルを複数GPUに分割してパフォーマンス向上

高度な設定

Qwen 3.6のパフォーマンスを最適化しコーディングツールと統合

Modelfile、GPU設定、コンテキスト設定でモデルパフォーマンスを微調整し、開発環境に接続しましょう。

Modelfileガイド

カスタムシステムプロンプト、温度、コンテキスト長、チャットテンプレート

GPU最適化

VRAM管理、レイヤーオフローディング、バッチサイズチューニング

Claude Code統合

Ollama経由でQwen 3.6をClaude Codeのバックエンドとして使用

Continue.devセットアップ

ローカルQwen 3.6でVS CodeのAIコーディングアシスタント

Aider連携

OllamaホストのQwen 3.6でAIペアプログラミング

API統合

Ollamaのlocalhost:11434をOpenAI互換ツールに接続

Qwenエコシステム

Ollamaはローカルqwen 3.6への最速パス – コマンド一つで全機能

自動GPU検出、モデル管理、ビジョンサポート、ツールコール、localhost:11434のOpenAI互換APIによるワンコマンドセットアップで、Claude Code、Aider、Continue.devなどとシームレスに統合。

全モデルを見る Ollamaライブラリ

Qwen 3.6 35B A3B

MoEモデル、コンシューマーGPUで20〜40トークン/秒

ローカルで実行

Qwen 3.6 27B

デンスモデル、最大のローカルパフォーマンス

ローカルで実行

Ollamaライブラリ

利用可能なQwenモデルタグと量子化を閲覧

閲覧する

Modelfileリファレンス

モデルの動作、コンテキスト、パラメータをカスタマイズ

ドキュメントを読む

APIリファレンス

localhost:11434のOpenAI互換API

APIを見る

コミュニティ

OllamaとQwenのコミュニティからサポートを受ける

参加する

はじめに

OllamaでQwen 3.6を実行する準備はできましたか？コマンド一つで始められます

まずブラウザでQwen 3.6を試してから、Ollamaをインストールしてローカルデプロイ。'ollama run qwen3.6:35b-a3b'でダウンロード、設定、チャット開始。コンシューマーハードウェアで20〜40トークン/秒。ビジョン、ツールコール、コーディングツール統合がすぐに動作します。

チャットを始める Ollamaをインストール