Qwen 3.6 + Ollama

コマンド一つでQwen 3.6をローカル実行 – 設定不要

Ollamaを使えばQwen 3.6の実行は'ollama run qwen3.6:35b-a3b'と入力するだけ。自動GPU検出、モデルダウンロード、量子化選択。27Bデンスと35B A3B MoEの両モデルをNVIDIA CUDAとApple Metalアクセラレーションでサポート。35B A3B 4ビットモデルでコンシューマーハードウェアで毎秒20〜40トークンが期待できます。localhost:11434のOpenAI互換APIはClaude Code、Aider、Continue.devなどのコーディングツールと直接統合できます。ビジョンとマルチモーダル入力をすぐにサポート – ビジョンとツールコールが壊れていたQwen 3.5からの重要な改善です。

Ollamaガイド

インストールから推論まで5分以内

OllamaはローカルモデルデプロイのGPU検出、メモリ管理、量子化、APIサービングといった複雑さを処理するので、モデルの利用に集中できます。Qwen 3.6はOllamaでQwen 3.5を悩ませていたビジョンとツールコールの問題を修正しています。

ワンコマンドセットアップ

Ollamaをインストールし、'ollama run qwen3.6:35b-a3b'(デフォルトタグ)または'ollama run qwen3.6:27b'を実行。自動モデルダウンロード、GPU検出、最適な量子化選択。macOS(Apple Silicon + Metal)、Linux(NVIDIA CUDA)、Windows(WSL2またはネイティブ)で動作します。35B A3Bは品質とハードウェア要件のバランスから、ほとんどのユーザーに推奨されるデフォルトモデルです。

モデルタグの選択

適切なモデルバリアントを選択:'qwen3.6:35b-a3b'はコンシューマーGPU向け(デフォルトタグ)、'qwen3.6:27b'はワークステーションハードウェアで最大性能、'qwen3.6:35b-a3b-q4_k_m'は特定の量子化制御、'qwen3.6:35b-a3b-q3_k_m'はより少ないVRAM予算向け(約17GB)。タグはGGUF量子化レベルに直接対応します。'ollama list'でダウンロード済みモデルを確認、'ollama show qwen3.6:35b-a3b'でモデル詳細を確認できます。

VRAM要件と量子化

35B A3B量子化オプション:Q2_K(約13GB、最速、最低品質)、Q3_K_M(約17GB、Mac M4 16GBに適合)、Q4_K_M(約21GB、24GB GPUでバランスの取れた品質/速度)、Q5_K_M(約25GB)、Q8_0(約35GB、ほぼロスレス)。27Bデンス:Q4_K_M約16GB、24GB以上のGPUが必要。35B A3BのBF16フル精度は約70GB VRAMが必要。コミュニティの報告ではMac M4 16GBでQ3量子化の35B A3Bが正常に動作確認されています。

ビジョンとマルチモーダルサポート

Qwen 3.6モデルはOllamaを通じてマルチモーダル入力をサポートします – ビジョンが壊れていたQwen 3.5からの大幅な改善です。テキストプロンプトと一緒に画像を渡して、コードスクリーンショット分析、UIレビュー、ダイアグラム理解、アーキテクチャ図の解析、ビジュアルデバッグワークフローに活用できます。Ollamaチャットの/imageコマンドまたはAPI経由でBase64エンコード画像を渡せます。

コンシューマーハードウェアでのパフォーマンスベンチマーク

Unslothコミュニティベンチマークでは、35B A3B 4ビットモデルでローカル環境で毎秒20〜40トークンを示しています。Mac M4 16GBユーザーはQ3量子化で実用的な速度を報告しています。RTX 4090 24GBはQ4_K_Mをコンテキスト余裕を持って処理します。RTX 6000 96GBはフル精度デプロイが可能です。パフォーマンスはGPUメモリ帯域幅に比例してスケール – より高速なメモリはより高速な推論を意味します。

Modelfileカスタマイズ

カスタムModelfileを作成して、システムプロンプト、温度、コンテキスト長(num_ctx)、GPUレイヤーオフローディング(num_gpu)、バッチサイズ(num_batch)、スレッド数を設定できます。ロングコンテキストタスクにはnum_ctxを最大131072に設定可能。コーディングアシスタント、テクニカルライティング、エージェントワークフローなどの特定ユースケース向けにチャットテンプレートをカスタマイズできます。Modelfileはプレーンテキストでバージョン管理可能です。

ツールコールと関数サポート

OllamaのQwen 3.6はツールコールと関数呼び出しをサポートします – ツールコールが壊れていたQwen 3.5からのもう一つの改善です。OpenAI互換フォーマットでツールを定義すると、モデルが構造化された関数呼び出しを生成します。これにより、localhost:11434エンドポイントを通じてLangChain、AutoGen、CrewAIなどのエージェントフレームワークとの統合が可能になります。

コーディングツール統合

Ollamaはlocalhost:11434でOpenAI互換APIを公開します。Claude Code(OpenAI互換API経由)、OpenClaw、Aider、Continue.dev、Cursor、およびカスタムOpenAIエンドポイントをサポートするその他のコーディングツールに直接接続できます。ベースURLをhttp://localhost:11434/v1に設定し、APIキーには任意の文字列を使用します。Qwen 3.6モデルはOpenAIと同じチャットコンプリーションフォーマットをサポートします。

クイックリファレンス

Ollamaコマンド、モデルタグ、ハードウェア要件

さまざまなプラットフォームでOllamaを使ってQwen 3.6を実行するための基本コマンド、設定オプション、ハードウェア要件。

基本コマンド

  • ollama run qwen3.6:35b-a3b – MoEモデルを実行(デフォルトタグ、コンシューマーGPU)
  • ollama run qwen3.6:27b – デンスモデルを実行(ワークステーションGPU)
  • ollama pull qwen3.6:35b-a3b-q3_k_m – Q3量子化をダウンロード(約17GB、Mac M4対応)
  • ollama pull qwen3.6:35b-a3b-q4_k_m – Q4量子化をダウンロード(約21GB、バランス型)
  • ollama serve – localhost:11434でAPIサーバーを起動
  • ollama list – ダウンロード済みモデルとサイズを表示
  • ollama show qwen3.6:35b-a3b – モデル詳細とパラメータを確認

ハードウェア要件

  • 35B A3B Q3_K_M:約17GB VRAM(Mac M4 16GB動作確認済み)
  • 35B A3B Q4_K_M:約21GB VRAM(RTX 4090 24GB推奨)
  • 35B A3B BF16:約70GB VRAM(RTX 6000 96GBまたはマルチGPU)
  • 27Bデンス Q4_K_M:約16GB VRAM(RTX 4090 24GB最低)
  • 27Bデンス IQ4_XS:KVキャッシュ圧縮で16GB VRAMに収まる
  • macOS:Apple Silicon + Metalアクセラレーション(M1 Pro以上推奨)
  • コンシューマーハードウェアで35B A3B 4ビットは20〜40トークン/秒
  • CPUフォールバック可能だが大幅に低速(約2〜5トークン/秒)

Qwen 3.5からの改善点

  • ビジョン/マルチモーダル入力:3.5では壊れていたが3.6で完全動作
  • ツールコール/関数呼び出し:3.5では壊れていたが3.6で修正
  • コンテキスト処理とメモリ効率の改善
  • 低ビット幅での量子化品質の向上

Qwenエコシステム

Ollamaはローカルqwen 3.6への最速パス – コマンド一つで全機能

自動GPU検出、モデル管理、ビジョンサポート、ツールコール、localhost:11434のOpenAI互換APIによるワンコマンドセットアップで、Claude Code、Aider、Continue.devなどとシームレスに統合。

Qwen 3.6 35B A3B

MoEモデル、コンシューマーGPUで20〜40トークン/秒

ローカルで実行

Qwen 3.6 27B

デンスモデル、最大のローカルパフォーマンス

ローカルで実行

Ollamaライブラリ

利用可能なQwenモデルタグと量子化を閲覧

閲覧する

Modelfileリファレンス

モデルの動作、コンテキスト、パラメータをカスタマイズ

ドキュメントを読む

APIリファレンス

localhost:11434のOpenAI互換API

APIを見る

コミュニティ

OllamaとQwenのコミュニティからサポートを受ける

参加する

はじめに

OllamaでQwen 3.6を実行する準備はできましたか?コマンド一つで始められます

まずブラウザでQwen 3.6を試してから、Ollamaをインストールしてローカルデプロイ。'ollama run qwen3.6:35b-a3b'でダウンロード、設定、チャット開始。コンシューマーハードウェアで20〜40トークン/秒。ビジョン、ツールコール、コーディングツール統合がすぐに動作します。