Compare Models

Select up to 4 models to compare benchmarks, pricing, and capabilities side by side.

GPT-4o

OpenAI

Kimi K2.5

Moonshot AI

Qwen3-Coder 480B

Alibaba/Qwen

Add Model

MMLU

GPT-4o

88.7

Kimi K2.5

92.0

Qwen3-Coder 480B

82.0

HumanEval

GPT-4o

90.2

Kimi K2.5

99.0

Qwen3-Coder 480B

95.0

GSM8K

GPT-4o

95.8

Kimi K2.5

99.0

Qwen3-Coder 480B

92.0

GPQA

GPT-4o

53.6

Kimi K2.5

87.6

Qwen3-Coder 480B

55.0

MGSM

GPT-4o

90.5

Kimi K2.5

96.0

Qwen3-Coder 480B

0.0

ARC-Challenge

GPT-4o

96.7

Kimi K2.5

0.0

Qwen3-Coder 480B

0.0

HellaSwag

GPT-4o

95.3

Kimi K2.5

0.0

Qwen3-Coder 480B

0.0

MATH

GPT-4o

76.6

Kimi K2.5

98.0

Qwen3-Coder 480B

75.0

SWE-bench

GPT-4o

38.4

Kimi K2.5

76.8

Qwen3-Coder 480B

72.0

MMMLU

GPT-4o

85.1

Kimi K2.5

0.0

Qwen3-Coder 480B

0.0

LiveCodeBench

GPT-4o

0.0

Kimi K2.5

85.0

Qwen3-Coder 480B

80.0

IFEval

GPT-4o

0.0

Kimi K2.5

94.0

Qwen3-Coder 480B

0.0

AIME 2025

GPT-4o

0.0

Kimi K2.5

96.1

Qwen3-Coder 480B

0.0

Model	Input	Output	Blended*
GPT-4o	$2.50	$10.00	$6.25
Kimi K2.5	$0.45	$2.20	$1.33
Qwen3-Coder 480B	$0.30	$0.60	$0.45

*Blended = average of input and output price

Spec	GPT-4o	Kimi K2.5	Qwen3-Coder 480B
Context Window	128K	256K	262K
Max Output	16K	16K	N/A
TTFT	320ms	500ms	N/A
Speed	95 tok/s	70 tok/s	N/A
Parameters	~1.8T (estimated)	1T (32B active)	480B total / 35B active
Architecture	Transformer (MoE)	MoE + Multimodal	MoE Transformer
Open Source	No	No	Yes
Tier	frontier	frontier	frontier

Quick Verdict

Best Performance

Kimi K2.5

Best Value

Qwen3-Coder 480B

Fastest

GPT-4o