hellaswag: by models

SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

model	pass1	win_rate	count	SE(A)	SE_x(A)	SE_pred(A)
dbrx-base	88.7	13.9	1	0.32	NaN	NaN
Mixtral-8x22B-v0.1	86.8	11.7	1	0.34	NaN	NaN
Qwen1.5-110B	86.5	11.5	1	0.34	NaN	NaN
Meta-Llama-3-70B	85.9	11.1	1	0.35	NaN	NaN
deepseek-llm-67b-base	85.5	10.5	1	0.35	NaN	NaN
Qwen1.5-72B	85.3	10.8	1	0.35	NaN	NaN
llama_65B	85.3	10.4	1	0.35	NaN	NaN
falcon-40b	85.1	10.4	1	0.36	NaN	NaN
Mixtral-8x7B-v0.1	84.5	10	1	0.36	NaN	NaN
Qwen1.5-32B	84.1	9.85	1	0.36	NaN	NaN
llama_33B	84	9.63	1	0.37	NaN	NaN
llama2_70B	83	9.82	1	0.37	NaN	NaN
Mistral-7B-v0.1	81.7	8.22	1	0.39	NaN	NaN
gemma-7b	80.8	7.84	1	0.39	NaN	NaN
mpt-30b	80.8	7.77	1	0.39	NaN	NaN
Meta-Llama-3-8B	80.5	7.47	1	0.4	NaN	NaN
llama_13B	80.4	7.5	1	0.4	NaN	NaN
llama2_13B	80.3	8.39	1	0.4	NaN	NaN
Qwen1.5-14B	80	7.71	1	0.4	NaN	NaN
deepseek-moe-16b-base	78.6	6.65	1	0.41	NaN	NaN
falcon-7b	78.3	6.58	1	0.41	NaN	NaN
Qwen1.5-7B	77.3	6.47	1	0.42	NaN	NaN
deepseek-llm-7b-base	77.2	6.01	1	0.42	NaN	NaN
llama_07B	77.1	6.02	1	0.42	NaN	NaN
llama2_07B	76.2	6.64	1	0.42	NaN	NaN
stablelm-base-alpha-7b-v2	75.5	5.35	1	0.43	NaN	NaN
stablelm-3b-4e1t	75.2	5.24	1	0.43	NaN	NaN
gemma-2b	71.7	4.24	1	0.45	NaN	NaN
Qwen1.5-4B	71.6	4.46	1	0.45	NaN	NaN
pythia-12b-deduped-v0	69.5	3.71	1	0.46	NaN	NaN
pythia-6.9b-deduped-v0	66.1	2.96	1	0.47	NaN	NaN
Qwen1.5-1.8B	61	2.2	1	0.49	NaN	NaN
pythia-2.8b-deduped	60.3	1.97	1	0.49	NaN	NaN
pythia-1.4b-deduped-v0	52	1.35	1	0.5	NaN	NaN
pythia-1b-deduped	49.6	0.949	1	0.5	NaN	NaN
Qwen1.5-0.5B	49.4	1.07	1	0.5	NaN	NaN