Qwen 3.6 vs Kimi K2.6

Due potenze agentiche - Kimi K2.6 in testa su Terminal-Bench, Qwen 3.6 in testa su SWE-bench con flessibilità open-weight

Kimi K2.6 di Moonshot AI ha ottenuto 66,7% su Terminal-Bench 2.0 e sostenuto oltre 4.000 chiamate strumenti in 13 ore, dimostrando un'eccezionale resistenza per agenti a lunga esecuzione. Qwen 3.6 Plus ottiene 61,6 su Terminal-Bench ma è in testa con 78,8% SWE-bench Verified e il parametro preserve_thinking per mantenere lo stato di ragionamento. Il modello open-weight 27B raggiunge 77,2% SWE-bench e 48,2 SkillsBench (battendo Claude 4.5 Opus). Qwen offre modelli open-weight, deployment locale e prezzi API a $0,40/$2,40 per milione di token.

Benchmark

Qwen 3.6 vs Kimi K2.6 - confronto completo dei benchmark agentici

Entrambi i modelli rappresentano lo stato dell'arte nel coding agentico. Kimi K2.6 è in testa su Terminal-Bench e resistenza, mentre Qwen 3.6 è in testa su SWE-bench, SkillsBench e offre una copertura benchmark più ampia con opzioni di deployment open-weight.

Il panorama dell'AI agentica si evolve rapidamente, con Qwen 3.6 e Kimi K2.6 che spingono i confini in direzioni diverse. Il punteggio Terminal-Bench di Kimi K2.6 (66,7%) e i test di resistenza (oltre 4.000 chiamate strumenti in 13 ore) dimostrano eccezionali capacità per agenti a lunga esecuzione. Qwen 3.6 fornisce un ecosistema più completo con 78,8% SWE-bench, modelli open-weight, preserve_thinking, prezzi competitivi e integrazione con strumenti di coding popolari.

Grafico di confronto benchmark che mostra le prestazioni di Qwen 3.6 vs Kimi K2.6 su Terminal-Bench, SWE-bench, SkillsBench e benchmark agentici

Terminal-Bench 2.0: Kimi K2.6 66,7% vs Qwen 3.6 Plus 61,6

Kimi K2.6: oltre 4.000 chiamate strumenti sostenute in 13 ore

Qwen 3.6 Plus: 78,8% SWE-bench Verified

Qwen 3.6 27B: 77,2% SWE-bench, 48,2 SkillsBench (batte Claude 4.5 Opus)

Qwen 3.6 27B: 83,9 LiveCodeBench, 1487 QwenWebBench, 72,4 Claw-Eval

Tabella benchmark

Qwen 3.6 vs Kimi K2.6 - risultati dettagliati su tutte le valutazioni

Dati benchmark disponibili per entrambe le famiglie di modelli su coding agentico, ingegneria del software, competenze pratiche e valutazioni di resistenza.

Benchmark
Qwen 3.6 Plus
Proprietario
Qwen 3.6 27B
Denso open-weight
Qwen 3.6 35B A3B
MoE open-weight
Kimi K2.6
Proprietario
Leader Terminal-Bench
Terminal-Bench 2.0
Operazioni terminale
61.659.351.566.7
SWE-bench Verified
Ingegneria del software reale
78.8%77.2%73.4%-
SkillsBench
Competenze pratiche di coding
-48.2--
LiveCodeBench
Generazione di codice competitiva
-83.980.4-
QwenWebBench
Generazione di codice frontend
-14871397-
Claw-Eval Avg
Coding agentico end-to-end
-72.468.7-
Max tool calls (single session)
Resistenza dell'agente
---4,000+
Max session duration
Funzionamento prolungato
---13 hours
preserve_thinking
Persistenza dello stato di ragionamento
YesNoNoNo
Open-weight models
Deployment locale disponibile
NoYes (Apache 2.0)Yes (Apache 2.0)No

Dati Qwen 3.6 dal rilascio ufficiale (marzo 2026). Dati Kimi K2.6 dal rilascio Moonshot AI (20 aprile 2026). Riferimento SkillsBench: Claude 4.5 Opus ottiene 45,3.

Ecosistema Qwen

Prestazioni agentiche con flessibilità open-weight e prezzi competitivi

Qwen 3.6 combina forti benchmark agentici (78,8% SWE-bench) con modelli open-weight, preserve_thinking, prezzi a $0,40/M token e integrazione con Claude Code, OpenClaw, Aider e Continue.dev.

Qwen 3.6 Plus

78,8% SWE-bench, preserve_thinking, $0,40/M

Prova Plus

Qwen 3.6 27B

77,2% SWE-bench, 48,2 SkillsBench, open-weight

Prova il 27B

Qwen 3.6 35B A3B

73,4% SWE-bench, adatto a Mac M4 16GB

Prova il 35B

Accesso API

Compatibile con OpenAI, livello gratuito disponibile

Vedi API

Esegui in locale

Ollama, vLLM, llama.cpp, SGLang

Inizia

Community

Unisciti alla community degli sviluppatori Qwen

Unisciti

Prova Qwen 3.6

Scopri le capacità agentiche di Qwen 3.6 oggi - chat gratuita, open-weight, prezzi competitivi

Chatta gratis, esegui in locale con modelli open-weight con licenza Apache 2.0 o integra tramite l'API compatibile con OpenAI a $0,40/$2,40 per milione di token. preserve_thinking per i flussi agentici, funziona con Claude Code, OpenClaw, Aider e Continue.dev.