gsm8k: by models

SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

model	pass1	win_rate	count	SE(A)	SE_x(A)	SE_pred(A)
Qwen1.5-110B	84.1	48.9	1	1	NaN	NaN
Meta-Llama-3-70B	82.7	47.6	1	1	NaN	NaN
Mixtral-8x22B-v0.1	80.2	45.7	1	1.1	NaN	NaN
Qwen1.5-72B	78.4	44.5	1	1.1	NaN	NaN
DeepSeek-V2	77.3	43.5	1	1.2	NaN	NaN
Qwen1.5-32B	76.3	42.7	1	1.2	NaN	NaN
Qwen1.5-14B	69.5	37.7	1	1.3	NaN	NaN
dbrx-base	69.5	37.8	1	1.3	NaN	NaN
deepseek-llm-67b-base	62.9	32.8	1	1.3	NaN	NaN
Mixtral-8x7B-v0.1	60.3	30.9	1	1.3	NaN	NaN
Qwen1.5-7B	59.1	30.7	1	1.4	NaN	NaN
gemma-7b	56.8	29.1	1	1.4	NaN	NaN
llama2_70B	56.7	28.8	1	1.4	NaN	NaN
Meta-Llama-3-8B	55.4	27.8	1	1.4	NaN	NaN
Qwen1.5-4B	55	27.8	1	1.4	NaN	NaN
llama_65B	50.8	24.9	1	1.4	NaN	NaN
Mistral-7B-v0.1	41.2	19	1	1.4	NaN	NaN
llama2_13B	38	17	1	1.3	NaN	NaN
Qwen1.5-1.8B	36.9	16.8	1	1.3	NaN	NaN
llama_33B	34.6	15.4	1	1.3	NaN	NaN
falcon-40b	27.1	11.5	1	1.2	NaN	NaN
llama2_07B	22.5	8.99	1	1.2	NaN	NaN
mpt-30b	21.8	8.71	1	1.1	NaN	NaN
Qwen1.5-0.5B	20.9	8.75	1	1.1	NaN	NaN
gemma-2b	18.8	7.76	1	1.1	NaN	NaN
deepseek-moe-16b-base	18.6	7.21	1	1.1	NaN	NaN
llama_13B	17.6	7.06	1	1	NaN	NaN
deepseek-llm-7b-base	14.1	5.53	1	0.96	NaN	NaN
llama_07B	10.9	4.04	1	0.86	NaN	NaN
stablelm-3b-4e1t	10.8	3.95	1	0.85	NaN	NaN
falcon-7b	7.88	2.99	1	0.74	NaN	NaN
stablelm-base-alpha-7b-v2	7.35	2.93	1	0.72	NaN	NaN
pythia-12b-deduped-v0	3.56	1.5	1	0.51	NaN	NaN
pythia-2.8b-deduped	2.96	1.4	1	0.47	NaN	NaN
pythia-6.9b-deduped-v0	2.88	1.33	1	0.46	NaN	NaN
pythia-1.4b-deduped-v0	2.05	1.19	1	0.39	NaN	NaN
pythia-1b-deduped	1.97	1.04	1	0.38	NaN	NaN