swebench-bash-only: by models

SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

model	pass1	pass@count	win_rate	count	SE(A)	SE_x(A)	SE_pred(A)
Claude 4.5 Opus medium (20251101)	74.4	74.4	24	1	2	NaN	NaN
Gemini 3 Pro Preview (2025-11-18)	74.2	74.2	23.8	1	2	NaN	NaN
GPT-5.2 (2025-12-11) (high reasoning)	71.8	71.8	22.6	1	2	NaN	NaN
Claude 4.5 Sonnet (20250929)	70.6	70.6	21.6	1	2	NaN	NaN
GPT-5.2 (2025-12-11)	69	69	21.3	1	2.1	NaN	NaN
Claude 4 Opus (20250514)	67.6	67.6	19.2	1	2.1	NaN	NaN
GPT-5.1 (2025-11-13) (medium reasoning)	66	66	18.8	1	2.1	NaN	NaN
GPT-5.1-codex (medium reasoning)	66	66	18.5	1	2.1	NaN	NaN
GPT-5 (2025-08-07) (medium reasoning)	65	65	17.9	1	2.1	NaN	NaN
Claude 4 Sonnet (20250514)	64.8	64.8	17.8	1	2.1	NaN	NaN
Kimi K2 Thinking	63.4	63.4	17.3	1	2.2	NaN	NaN
Minimax M2	61	61	16.8	1	2.2	NaN	NaN
DeepSeek V3.2 Reasoner	60	60	16.8	1	2.2	NaN	NaN
GPT-5 mini (2025-08-07) (medium reasoning)	59.8	59.8	15.4	1	2.2	NaN	NaN
o3 (2025-04-16)	58.4	58.4	15.2	1	2.2	NaN	NaN
Devstral small (2512)	56.4	56.4	14.9	1	2.2	NaN	NaN
Qwen3-Coder 480B/A35B Instruct	55.4	55.4	14.3	1	2.2	NaN	NaN
GLM-4.6 (T=1)	55.4	55.4	13.8	1	2.2	NaN	NaN
GLM-4.5 (2025-08-22)	54.2	54.2	13	1	2.2	NaN	NaN
Devstral (2512)	53.8	53.8	14.2	1	2.2	NaN	NaN
Gemini 2.5 Pro (2025-05-06)	53.6	53.6	13	1	2.2	NaN	NaN
o4-mini (2025-04-16)	45	45	9.96	1	2.2	NaN	NaN
Kimi K2 Instruct	43.8	43.8	10.3	1	2.2	NaN	NaN
GPT-5 nano (2025-08-07) (medium reasoning)	34.8	34.8	7.36	1	2.1	NaN	NaN
gpt-oss-120b	26	26	5.24	1	2	NaN	NaN
Llama 4 Maverick Instruct	21	21	3.91	1	1.8	NaN	NaN
Claude 3.7 Sonnet (20250219)	10.2	10.2	2.13	1	1.4	NaN	NaN
Qwen2.5-Coder 32B Instruct	9	9	1.27	1	1.3	NaN	NaN