| Claude 4.5 Opus medium (20251101) |
74.4 |
74.4 |
24 |
1 |
2 |
NaN |
NaN |
| Gemini 3 Pro Preview (2025-11-18) |
74.2 |
74.2 |
23.8 |
1 |
2 |
NaN |
NaN |
| GPT-5.2 (2025-12-11) (high reasoning) |
71.8 |
71.8 |
22.6 |
1 |
2 |
NaN |
NaN |
| Claude 4.5 Sonnet (20250929) |
70.6 |
70.6 |
21.6 |
1 |
2 |
NaN |
NaN |
| GPT-5.2 (2025-12-11) |
69 |
69 |
21.3 |
1 |
2.1 |
NaN |
NaN |
| Claude 4 Opus (20250514) |
67.6 |
67.6 |
19.2 |
1 |
2.1 |
NaN |
NaN |
| GPT-5.1 (2025-11-13) (medium reasoning) |
66 |
66 |
18.8 |
1 |
2.1 |
NaN |
NaN |
| GPT-5.1-codex (medium reasoning) |
66 |
66 |
18.5 |
1 |
2.1 |
NaN |
NaN |
| GPT-5 (2025-08-07) (medium reasoning) |
65 |
65 |
17.9 |
1 |
2.1 |
NaN |
NaN |
| Claude 4 Sonnet (20250514) |
64.8 |
64.8 |
17.8 |
1 |
2.1 |
NaN |
NaN |
| Kimi K2 Thinking |
63.4 |
63.4 |
17.3 |
1 |
2.2 |
NaN |
NaN |
| Minimax M2 |
61 |
61 |
16.8 |
1 |
2.2 |
NaN |
NaN |
| DeepSeek V3.2 Reasoner |
60 |
60 |
16.8 |
1 |
2.2 |
NaN |
NaN |
| GPT-5 mini (2025-08-07) (medium reasoning) |
59.8 |
59.8 |
15.4 |
1 |
2.2 |
NaN |
NaN |
| o3 (2025-04-16) |
58.4 |
58.4 |
15.2 |
1 |
2.2 |
NaN |
NaN |
| Devstral small (2512) |
56.4 |
56.4 |
14.9 |
1 |
2.2 |
NaN |
NaN |
| Qwen3-Coder 480B/A35B Instruct |
55.4 |
55.4 |
14.3 |
1 |
2.2 |
NaN |
NaN |
| GLM-4.6 (T=1) |
55.4 |
55.4 |
13.8 |
1 |
2.2 |
NaN |
NaN |
| GLM-4.5 (2025-08-22) |
54.2 |
54.2 |
13 |
1 |
2.2 |
NaN |
NaN |
| Devstral (2512) |
53.8 |
53.8 |
14.2 |
1 |
2.2 |
NaN |
NaN |
| Gemini 2.5 Pro (2025-05-06) |
53.6 |
53.6 |
13 |
1 |
2.2 |
NaN |
NaN |
| o4-mini (2025-04-16) |
45 |
45 |
9.96 |
1 |
2.2 |
NaN |
NaN |
| Kimi K2 Instruct |
43.8 |
43.8 |
10.3 |
1 |
2.2 |
NaN |
NaN |
| GPT-5 nano (2025-08-07) (medium reasoning) |
34.8 |
34.8 |
7.36 |
1 |
2.1 |
NaN |
NaN |
| gpt-oss-120b |
26 |
26 |
5.24 |
1 |
2 |
NaN |
NaN |
| Llama 4 Maverick Instruct |
21 |
21 |
3.91 |
1 |
1.8 |
NaN |
NaN |
| Claude 3.7 Sonnet (20250219) |
10.2 |
10.2 |
2.13 |
1 |
1.4 |
NaN |
NaN |
| Qwen2.5-Coder 32B Instruct |
9 |
9 |
1.27 |
1 |
1.3 |
NaN |
NaN |