Qwen 3.6 vs Kimi K2.6
두 에이전트 강자 - Kimi K2.6이 Terminal-Bench를 선도하고, Qwen 3.6이 SWE-bench를 선도하며 오픈 웨이트 유연성을 제공합니다
Moonshot AI의 Kimi K2.6은 Terminal-Bench 2.0에서 66.7%를 기록하고 13시간 동안 4,000회 이상의 도구 호출을 유지하며 뛰어난 장시간 에이전트 지구력을 보여주었습니다. Qwen 3.6 Plus는 Terminal-Bench 61.6이지만 78.8% SWE-bench Verified와 추론 상태 유지를 위한 preserve_thinking 파라미터로 앞서고 있습니다. 27B 오픈 웨이트 모델은 77.2% SWE-bench와 48.2 SkillsBench(Claude 4.5 Opus 상회)를 달성합니다. Qwen은 오픈 웨이트 모델, 로컬 배포, $0.40/$2.40/M 토큰 API 가격을 제공합니다.
벤치마크
Qwen 3.6 vs Kimi K2.6 - 종합 에이전트 벤치마크 비교
두 모델 모두 에이전트 코딩의 최첨단을 대표합니다. Kimi K2.6이 Terminal-Bench와 지구력에서 앞서고, Qwen 3.6이 SWE-bench, SkillsBench에서 앞서며 오픈 웨이트 배포 옵션과 더 넓은 벤치마크 커버리지를 제공합니다.
에이전트 AI 분야는 빠르게 발전하고 있으며, Qwen 3.6과 Kimi K2.6 모두 서로 다른 방향으로 한계를 넓히고 있습니다. Kimi K2.6의 Terminal-Bench 점수(66.7%)와 지구력 테스트(13시간 동안 4,000회 이상 도구 호출)는 뛰어난 장시간 에이전트 역량을 보여줍니다. Qwen 3.6은 78.8% SWE-bench, 오픈 웨이트 모델, preserve_thinking, 경쟁력 있는 가격, 인기 코딩 도구와의 통합으로 더 완전한 생태계를 제공합니다.


Terminal-Bench 2.0: Kimi K2.6 66.7% vs Qwen 3.6 Plus 61.6
Kimi K2.6: 13시간 동안 4,000회 이상 도구 호출 유지
Qwen 3.6 Plus: 78.8% SWE-bench Verified
Qwen 3.6 27B: 77.2% SWE-bench, 48.2 SkillsBench (Claude 4.5 Opus 상회)
Qwen 3.6 27B: 83.9 LiveCodeBench, 1487 QwenWebBench, 72.4 Claw-Eval
벤치마크 표
Qwen 3.6 vs Kimi K2.6 - 전체 평가 항목 상세 결과
에이전트 코딩, 소프트웨어 엔지니어링, 실무 역량, 지구력 평가 전반에 걸친 두 모델 패밀리의 이용 가능한 벤치마크 데이터입니다.
| Benchmark | Qwen 3.6 Plus 독점 | Qwen 3.6 27B Dense 오픈 웨이트 | Qwen 3.6 35B A3B MoE 오픈 웨이트 | Kimi K2.6 독점 Terminal-Bench 선두 |
|---|---|---|---|---|
Terminal-Bench 2.0 터미널 작업 | 61.6 | 59.3 | 51.5 | 66.7 |
SWE-bench Verified 실제 소프트웨어 엔지니어링 | 78.8% | 77.2% | 73.4% | - |
SkillsBench 실무 코딩 역량 | - | 48.2 | - | - |
LiveCodeBench 경쟁적 코드 생성 | - | 83.9 | 80.4 | - |
QwenWebBench 프론트엔드 코드 생성 | - | 1487 | 1397 | - |
Claw-Eval Avg 엔드투엔드 에이전트 코딩 | - | 72.4 | 68.7 | - |
Max tool calls (single session) 에이전트 지구력 | - | - | - | 4,000+ |
Max session duration 지속 운영 | - | - | - | 13시간 |
preserve_thinking 추론 상태 유지 | Yes | No | No | No |
Open-weight models 로컬 배포 가능 | No | Yes (Apache 2.0) | Yes (Apache 2.0) | No |
Qwen 3.6 데이터 출처: 공식 릴리스(2026년 3월). Kimi K2.6 데이터 출처: Moonshot AI 릴리스(2026년 4월 20일). SkillsBench 참고: Claude 4.5 Opus 45.3.
Qwen 생태계
오픈 웨이트 유연성과 경쟁력 있는 가격의 에이전트 성능
Qwen 3.6은 강력한 에이전트 벤치마크(78.8% SWE-bench)와 오픈 웨이트 모델, preserve_thinking, $0.40/M 토큰 가격, Claude Code, OpenClaw, Aider, Continue.dev와의 통합을 결합합니다.