Qwen Code

実際のGitHub Issueを解決し、ターミナルワークフローをマスターし、SkillsBenchでClaudeを上回るエージェントコーディング

Qwen 3.6ファミリーはあらゆる次元でエリートレベルのコーディング性能を発揮します。Plusモデルは SWE-bench Verifiedで78.8%、Terminal-Bench 2.0で61.6を達成。27Bデンスモデルは SWE-bench 77.2%、SkillsBench 48.2(Claude 4.5 Opusの45.3を上回る)、QwenWebBenchでフロントエンドコード生成1487を達成。35B A3B MoEはコンシューマーGPUで SWE-bench 73.4%を実現。すべてのモデルがOpenAI互換APIを通じてClaude Code、OpenClaw、Aider、Continue.devで動作します。preserve_thinkingはエージェントループのイテレーション間で推論状態を維持し、反復的な開発をサポートします。

コーディング能力

ターミナルからプロダクションまでのフルスタックコーディング – 思考保持機能付き

Qwen 3.6モデルはソフトウェア開発ライフサイクルのあらゆる段階で優れています。大規模コードベースの理解からコード生成、デバッグ、テスト、ターミナルワークフローを通じたデプロイまで。preserve_thinkingパラメータは反復的な開発サイクル間で推論コンテキストを維持します。

エージェントコーディング(SWE-bench)

実際のGitHub Issueをエンドツーエンドで自律的に解決します。SWE-bench Verifiedで78.8%(Plus)と77.2%(27B)は、リポジトリのナビゲーション、根本原因の特定、修正の実装、人間の介入なしでの動作するパッチの提出能力を示しています。35B A3BはコンシューマーGPUで73.4%を達成。これらのスコアはQwen 3.6を自律ソフトウェアエンジニアリングのトップモデルに位置づけます。

フロントエンドコード生成(QwenWebBench)

27BモデルはQwenWebBenchで1487、35B A3Bは1397を達成し、強力なフロントエンドコード生成能力を示しています。適切なTypeScript型付け、アクセシビリティ属性、レスポンシブレイアウト、デザインシステム統合を備えた完全なReact、Vue、Next.jsコンポーネントを生成します。CSS-in-JS、Tailwind CSS、コンポーネントライブラリパターンに対応。preserve_thinkingパラメータはマルチファイルフロントエンドスキャフォールディング全体でデザインコンテキストの維持に役立ちます。

ターミナル操作(Terminal-Bench)

Terminal-Bench 2.0で61.6(Plus)と59.3(27B) – エキスパートレベルのターミナルマスタリー。複雑なマルチステップシェルワークフロー、システム管理タスク、デバッグセッション、CI/CDパイプライン管理、Dockerオーケストレーション、インフラ自動化を処理します。35B A3Bは51.5を達成 – コンシューマーGPUモデルとしては依然として強力です。

SkillsBench – Claude 4.5 Opusを上回る

27BモデルはSkillsBenchで48.2を達成し、Claude 4.5 Opusの45.3を上回りました。SkillsBenchはコードレビュー、リファクタリング、API設計、テスト戦略、アーキテクチャ上の意思決定を含む実践的なコーディングスキルを評価します。このベンチマークは、単なるコード生成ではなく、実際の開発で重要な繊細なエンジニアリング判断力を測定します。

リポジトリレベル推論(NL2Repo)

27BモデルはNL2Repoで36.2を達成し、自然言語の説明を完全なリポジトリ構造に変換する能力を示しています。ファイル間の依存関係、モジュール境界、アーキテクチャパターン、リポジトリ全体のプロジェクト規約を理解します。1Mコンテキストウィンドウ(Plus)により、完全なコードベースを一度に処理して包括的な理解が可能です。

コード生成(LiveCodeBench)

LiveCodeBenchで83.9(27B)と80.4(35B A3B)の競技レベルのコード生成。Python、TypeScript、Rust、Go、Java、C++、20以上の言語で適切なエラーハンドリング、ドキュメント、テストカバレッジを備えたクリーンで慣用的なコードを生成します。アルゴリズム問題、データ構造実装、システム設計の課題に対応します。

コーディングツール連携

OpenAI互換APIを通じてClaude Code、OpenClaw、Aider、Continue.dev、Qwen Codeで動作します。ベースURLをDashScope、OpenRouter、またはローカルOllamaエンドポイントに設定するだけですぐにコーディングを開始できます。preserve_thinkingパラメータは、イテレーション間の推論状態維持が冗長な再推論を減らし修正精度を向上させるClaude CodeやOpenClawのエージェントループで特に価値があります。

デバッグ、テスト、Claw-Eval

27BモデルはClaw-Eval平均で72.4、35B A3Bは68.7を達成し、エンドツーエンドのエージェントコーディング能力を測定しています。複雑なコールスタックを通じてバグを追跡し、エラーログから根本原因を特定し、包括的なテストスイートを生成します。すべての主要言語とフレームワークでユニットテスト、統合テスト、E2Eテストフレームワーク、プロパティベーステストをサポートします。

コーディングベンチマーク

あらゆるコーディング評価でトップクラスの結果

Qwen 3.6モデルはソフトウェアエンジニアリング、コード生成、ターミナル操作、実践的コーディングスキルのベンチマークで一貫してトップクラスにランクインしています。

ソフトウェアエンジニアリングベンチマーク

  • SWE-bench Verified: 78.8%(Plus)/ 77.2%(27B)/ 73.4%(35B A3B)
  • Terminal-Bench 2.0: 61.6(Plus)/ 59.3(27B)/ 51.5(35B A3B)
  • SkillsBench: 48.2(27B)– Claude 4.5 Opus(45.3)を上回る
  • Claw-Eval Avg: 72.4(27B)/ 68.7(35B A3B)
  • LiveCodeBench: 83.9(27B)/ 80.4(35B A3B)
  • QwenWebBench: 1487(27B)/ 1397(35B A3B)– フロントエンド生成
  • NL2Repo: 36.2(27B)– 自然言語からリポジトリ
  • SWE-bench Pro: 56.6(Plus)

ツールとモデルオプション

  • 対応ツール:Claude Code、OpenClaw、Aider、Continue.dev、Qwen Code
  • 27Bデンス:最高のオープンウェイトコーディング、77.2% SWE-bench
  • 35B A3B MoE:コンシューマーGPU(約21GB VRAM)で73.4% SWE-bench
  • Plus:78.8% SWE-bench、1Mコンテキスト、preserve_thinking
  • フロントエンド:React、Vue、Next.js(TypeScriptサポート)
  • preserve_thinking:エージェントイテレーション間で推論を維持

Qwenエコシステム

あらゆるスケールのコーディングモデル – コンシューマーGPUからフロンティア性能まで

単一コンシューマーGPUで動く35B A3Bから、1Mコンテキストとpreserve_thinkingのPlusまで、Qwen 3.6ファミリーはあらゆるコーディングデプロイシナリオをカバーします。すべてのモデルがClaude Code、OpenClaw、Aider、Continue.devで動作します。

Qwen 3.6 27B

デンス、77.2% SWE-bench、48.2 SkillsBench

詳しく見る

Qwen 3.6 35B A3B

MoE、73.4% SWE-bench、コンシューマーGPU

詳しく見る

Qwen 3.6 Plus

78.8% SWE-bench、1Mコンテキスト、preserve_thinking

詳しく見る

Ollamaセットアップ

コマンド一つでQwen Codeをローカル実行

始める

APIリファレンス

コーディングタスク向けOpenAI互換エンドポイント

APIを見る

コミュニティ

Qwen開発者コミュニティに参加

参加する

コーディングを始める

Qwen 3.6でコーディングする準備はできましたか?78.8% SWE-bench、お気に入りのツールで動作

無料でチャットを始めるか、OpenAI互換APIで統合しましょう。Claude Code、OpenClaw、Aider、Continue.devで動作します。ローカル実行可能なオープンウェイトモデルか、preserve_thinking搭載の最高性能Plusから選べます。