model pass1 pass@count win_rate count SE(A) SE_x(A) SE_pred(A)
Claude 4.5 Opus medium (20251101) 74.4 74.4 24 1 2 NaN NaN
Gemini 3 Pro Preview (2025-11-18) 74.2 74.2 23.8 1 2 NaN NaN
GPT-5.2 (2025-12-11) (high reasoning) 71.8 71.8 22.6 1 2 NaN NaN
Claude 4.5 Sonnet (20250929) 70.6 70.6 21.6 1 2 NaN NaN
GPT-5.2 (2025-12-11) 69 69 21.3 1 2.1 NaN NaN
Claude 4 Opus (20250514) 67.6 67.6 19.2 1 2.1 NaN NaN
GPT-5.1 (2025-11-13) (medium reasoning) 66 66 18.8 1 2.1 NaN NaN
GPT-5.1-codex (medium reasoning) 66 66 18.5 1 2.1 NaN NaN
GPT-5 (2025-08-07) (medium reasoning) 65 65 17.9 1 2.1 NaN NaN
Claude 4 Sonnet (20250514) 64.8 64.8 17.8 1 2.1 NaN NaN
Kimi K2 Thinking 63.4 63.4 17.3 1 2.2 NaN NaN
Minimax M2 61 61 16.8 1 2.2 NaN NaN
DeepSeek V3.2 Reasoner 60 60 16.8 1 2.2 NaN NaN
GPT-5 mini (2025-08-07) (medium reasoning) 59.8 59.8 15.4 1 2.2 NaN NaN
o3 (2025-04-16) 58.4 58.4 15.2 1 2.2 NaN NaN
Devstral small (2512) 56.4 56.4 14.9 1 2.2 NaN NaN
Qwen3-Coder 480B/A35B Instruct 55.4 55.4 14.3 1 2.2 NaN NaN
GLM-4.6 (T=1) 55.4 55.4 13.8 1 2.2 NaN NaN
GLM-4.5 (2025-08-22) 54.2 54.2 13 1 2.2 NaN NaN
Devstral (2512) 53.8 53.8 14.2 1 2.2 NaN NaN
Gemini 2.5 Pro (2025-05-06) 53.6 53.6 13 1 2.2 NaN NaN
o4-mini (2025-04-16) 45 45 9.96 1 2.2 NaN NaN
Kimi K2 Instruct 43.8 43.8 10.3 1 2.2 NaN NaN
GPT-5 nano (2025-08-07) (medium reasoning) 34.8 34.8 7.36 1 2.1 NaN NaN
gpt-oss-120b 26 26 5.24 1 2 NaN NaN
Llama 4 Maverick Instruct 21 21 3.91 1 1.8 NaN NaN
Claude 3.7 Sonnet (20250219) 10.2 10.2 2.13 1 1.4 NaN NaN
Qwen2.5-Coder 32B Instruct 9 9 1.27 1 1.3 NaN NaN