Compare Models

Select up to 4 models to compare benchmarks, pricing, and capabilities side by side.

GPT-4o

OpenAI

Kimi K2.5

Moonshot AI

Gemini 3.1 Pro

Google

Add Model

MMLU

GPT-4o

88.7

Kimi K2.5

92.0

Gemini 3.1 Pro

93.0

HumanEval

GPT-4o

90.2

Kimi K2.5

99.0

Gemini 3.1 Pro

95.5

GSM8K

GPT-4o

95.8

Kimi K2.5

99.0

Gemini 3.1 Pro

98.0

GPQA

GPT-4o

53.6

Kimi K2.5

87.6

Gemini 3.1 Pro

94.3

MGSM

GPT-4o

90.5

Kimi K2.5

96.0

Gemini 3.1 Pro

96.0

ARC-Challenge

GPT-4o

96.7

Kimi K2.5

0.0

Gemini 3.1 Pro

98.5

HellaSwag

GPT-4o

95.3

Kimi K2.5

0.0

Gemini 3.1 Pro

97.0

MATH

GPT-4o

76.6

Kimi K2.5

98.0

Gemini 3.1 Pro

93.0

SWE-bench

GPT-4o

38.4

Kimi K2.5

76.8

Gemini 3.1 Pro

80.6

MMMLU

GPT-4o

85.1

Kimi K2.5

0.0

Gemini 3.1 Pro

0.0

LiveCodeBench

GPT-4o

0.0

Kimi K2.5

85.0

Gemini 3.1 Pro

88.0

IFEval

GPT-4o

0.0

Kimi K2.5

94.0

Gemini 3.1 Pro

96.5

AIME 2025

GPT-4o

0.0

Kimi K2.5

96.1

Gemini 3.1 Pro

92.0

Model	Input	Output	Blended*
GPT-4o	$2.50	$10.00	$6.25
Kimi K2.5	$0.45	$2.20	$1.33
Gemini 3.1 Pro	$2.00	$12.00	$7.00

*Blended = average of input and output price

Spec	GPT-4o	Kimi K2.5	Gemini 3.1 Pro
Context Window	128K	256K	1.0M
Max Output	16K	16K	66K
TTFT	320ms	500ms	500ms
Speed	95 tok/s	70 tok/s	90 tok/s
Parameters	~1.8T (estimated)	1T (32B active)	N/A
Architecture	Transformer (MoE)	MoE + Multimodal	Transformer (MoE) + Thinking
Open Source	No	No	No
Tier	frontier	frontier	frontier

Quick Verdict

Best Performance

Gemini 3.1 Pro

Best Value

Kimi K2.5

Fastest

GPT-4o