agi_english: by models

SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

model	pass1	win_rate	count	SE(A)	SE_x(A)	SE_pred(A)
Qwen1.5-110B	65.2	33.6	1	0.94	NaN	NaN
Meta-Llama-3-70B	63.7	32.4	1	0.95	NaN	NaN
Qwen1.5-72B	63.2	32	1	0.96	NaN	NaN
Qwen1.5-32B	61.4	31	1	0.97	NaN	NaN
Mixtral-8x22B-v0.1	61.2	30.8	1	0.97	NaN	NaN
dbrx-base	55.9	26.9	1	0.98	NaN	NaN
deepseek-llm-67b-base	55.5	26.9	1	0.98	NaN	NaN
Qwen1.5-14B	54.7	26.1	1	0.99	NaN	NaN
Mixtral-8x7B-v0.1	50.4	23.5	1	0.99	NaN	NaN
llama2_70B	48.9	22.7	1	0.99	NaN	NaN
llama_65B	48.4	21.8	1	0.99	NaN	NaN
Qwen1.5-7B	48.2	22	1	0.99	NaN	NaN
Meta-Llama-3-8B	47.4	21.9	1	0.99	NaN	NaN
gemma-7b	45.3	20.8	1	0.99	NaN	NaN
Mistral-7B-v0.1	44	19.4	1	0.98	NaN	NaN
Qwen1.5-4B	42.9	18.9	1	0.98	NaN	NaN
llama_33B	41.4	18.6	1	0.98	NaN	NaN
llama2_13B	38	16.6	1	0.96	NaN	NaN
llama2_07B	34.8	16.1	1	0.94	NaN	NaN
deepseek-llm-7b-base	34.3	15.2	1	0.94	NaN	NaN
Qwen1.5-1.8B	34.1	15.9	1	0.94	NaN	NaN
mpt-30b	34.1	15.3	1	0.94	NaN	NaN
llama_13B	31.6	14.4	1	0.92	NaN	NaN
stablelm-base-alpha-7b-v2	31.3	14.4	1	0.92	NaN	NaN
stablelm-3b-4e1t	29.9	13.4	1	0.91	NaN	NaN
deepseek-moe-16b-base	29.7	14	1	0.91	NaN	NaN
Qwen1.5-0.5B	29.4	13.9	1	0.9	NaN	NaN
gemma-2b	27.3	15	1	0.88	NaN	NaN
llama_07B	24.6	12.7	1	0.85	NaN	NaN
pythia-12b-deduped-v0	24.5	13.2	1	0.85	NaN	NaN
pythia-2.8b-deduped	23.5	13.2	1	0.84	NaN	NaN
pythia-6.9b-deduped-v0	23.4	12.9	1	0.84	NaN	NaN
falcon-7b	22.9	12.5	1	0.83	NaN	NaN
pythia-1b-deduped	22.3	12.5	1	0.83	NaN	NaN
pythia-1.4b-deduped-v0	22	12.1	1	0.82	NaN	NaN