arc_challenge: by models

SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

model	pass1	win_rate	count	SE(A)	SE_x(A)	SE_pred(A)
dbrx-base	65.9	24.8	1	1.4	NaN	NaN
Meta-Llama-3-70B	65	22.2	1	1.4	NaN	NaN
Mixtral-8x22B-v0.1	61.9	19.5	1	1.4	NaN	NaN
DeepSeek-V2	60.2	18.4	1	1.4	NaN	NaN
Mixtral-8x7B-v0.1	60.2	18.2	1	1.4	NaN	NaN
deepseek-llm-67b-base	57.3	16.2	1	1.4	NaN	NaN
llama_65B	55.2	14.6	1	1.5	NaN	NaN
Qwen1.5-110B	55	15.7	1	1.5	NaN	NaN
llama2_70B	54.6	16	1	1.5	NaN	NaN
falcon-40b	54.4	14.3	1	1.5	NaN	NaN
Mistral-7B-v0.1	54.2	14.4	1	1.5	NaN	NaN
llama_33B	53.8	14	1	1.5	NaN	NaN
Meta-Llama-3-8B	53.6	14.2	1	1.5	NaN	NaN
gemma-7b	53.4	14.1	1	1.5	NaN	NaN
Qwen1.5-72B	52.4	13.6	1	1.5	NaN	NaN
llama2_13B	50.2	14.3	1	1.5	NaN	NaN
Qwen1.5-32B	50.1	13	1	1.5	NaN	NaN
mpt-30b	49.4	11.6	1	1.5	NaN	NaN
llama_13B	48.6	11	1	1.5	NaN	NaN
deepseek-moe-16b-base	47.6	10.5	1	1.5	NaN	NaN
Qwen1.5-14B	45.6	10.5	1	1.5	NaN	NaN
llama_07B	44.9	9.41	1	1.5	NaN	NaN
deepseek-llm-7b-base	44.6	9.01	1	1.5	NaN	NaN
falcon-7b	44.1	8.82	1	1.5	NaN	NaN
llama2_07B	43.5	10.2	1	1.5	NaN	NaN
mpt-7b	42.5	8.55	1	1.4	NaN	NaN
Qwen1.5-7B	42.1	9.21	1	1.4	NaN	NaN
gemma-2b	41.7	7.9	1	1.4	NaN	NaN
stablelm-base-alpha-7b-v2	40.7	7.41	1	1.4	NaN	NaN
stablelm-3b-4e1t	39.7	7.24	1	1.4	NaN	NaN
Qwen1.5-4B	39.5	8.14	1	1.4	NaN	NaN
pythia-12b-deduped-v0	38.1	6.73	1	1.4	NaN	NaN
pythia-6.9b-deduped-v0	35.8	6.04	1	1.4	NaN	NaN
Qwen1.5-1.8B	34.3	6.18	1	1.4	NaN	NaN
pythia-2.8b-deduped	32.8	5.63	1	1.4	NaN	NaN
Qwen1.5-0.5B	29.4	4.66	1	1.3	NaN	NaN
pythia-1.4b-deduped-v0	27.9	4.91	1	1.3	NaN	NaN
pythia-1b-deduped	27.2	4.43	1	1.3	NaN	NaN