mmlu: by models

SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

model	pass1	win_rate	count	SE(A)	SE_x(A)	SE_pred(A)
Qwen1.5-110B	81.1	34	1	0.33	NaN	NaN
Meta-Llama-3-70B	78.7	32.3	1	0.35	NaN	NaN
Mixtral-8x22B-v0.1	77.6	31.6	1	0.35	NaN	NaN
Qwen1.5-72B	77.2	31.1	1	0.35	NaN	NaN
dbrx-base	74.3	29.5	1	0.37	NaN	NaN
Qwen1.5-32B	73.6	28.8	1	0.37	NaN	NaN
deepseek-llm-67b-base	71.4	27	1	0.38	NaN	NaN
Mixtral-8x7B-v0.1	70.3	26.7	1	0.39	NaN	NaN
Qwen1.5-14B	67.8	25.3	1	0.39	NaN	NaN
Meta-Llama-3-8B	65.3	23.5	1	0.4	NaN	NaN
llama2_70B	63.2	22.4	1	0.41	NaN	NaN
gemma-7b	62.6	22.1	1	0.41	NaN	NaN
Mistral-7B-v0.1	62.5	21.8	1	0.41	NaN	NaN
llama_65B	62.2	22	1	0.41	NaN	NaN
Qwen1.5-7B	60.5	21.1	1	0.41	NaN	NaN
llama_33B	57	19.2	1	0.42	NaN	NaN
falcon-40b	55.4	19	1	0.42	NaN	NaN
Qwen1.5-4B	55.2	18.6	1	0.42	NaN	NaN
llama2_13B	53.7	17.5	1	0.42	NaN	NaN
deepseek-llm-7b-base	48.1	15.7	1	0.42	NaN	NaN
llama2_07B	47.3	15.1	1	0.42	NaN	NaN
mpt-30b	47	15.2	1	0.42	NaN	NaN
Qwen1.5-1.8B	45.6	15	1	0.42	NaN	NaN
llama_13B	45.6	14.3	1	0.42	NaN	NaN
deepseek-moe-16b-base	44.9	14.5	1	0.42	NaN	NaN
stablelm-3b-4e1t	44.4	14.3	1	0.42	NaN	NaN
stablelm-base-alpha-7b-v2	44.4	14.3	1	0.42	NaN	NaN
gemma-2b	41	14.3	1	0.42	NaN	NaN
Qwen1.5-0.5B	38.4	13	1	0.41	NaN	NaN
llama_07B	35.1	12.6	1	0.4	NaN	NaN
falcon-7b	27.2	11.1	1	0.38	NaN	NaN
pythia-2.8b-deduped	26.4	11.6	1	0.37	NaN	NaN
pythia-12b-deduped-v0	24.7	10.3	1	0.36	NaN	NaN
pythia-6.9b-deduped-v0	24.7	10.2	1	0.36	NaN	NaN
pythia-1b-deduped	24.6	10.8	1	0.36	NaN	NaN
pythia-1.4b-deduped-v0	23.3	10.2	1	0.36	NaN	NaN