nq: by models

SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

model	pass1	win_rate	count	SE(A)	SE_x(A)	SE_pred(A)
dbrx-base	48.8	28.5	1	0.83	NaN	NaN
Meta-Llama-3-70B	43.2	22.5	1	0.82	NaN	NaN
Mixtral-8x22B-v0.1	42.2	21.4	1	0.82	NaN	NaN
Qwen1.5-110B	41.6	21	1	0.82	NaN	NaN
llama_65B	38.2	18.4	1	0.81	NaN	NaN
deepseek-llm-67b-base	37.7	17.8	1	0.81	NaN	NaN
Mixtral-8x7B-v0.1	36.9	17.2	1	0.8	NaN	NaN
Qwen1.5-72B	35.9	16.8	1	0.8	NaN	NaN
llama_33B	34.8	15.6	1	0.79	NaN	NaN
llama2_70B	33.3	15.4	1	0.78	NaN	NaN
falcon-40b	33.3	14.5	1	0.78	NaN	NaN
Qwen1.5-32B	30.7	13.1	1	0.77	NaN	NaN
Meta-Llama-3-8B	29.9	12.3	1	0.76	NaN	NaN
Mistral-7B-v0.1	29.2	11.9	1	0.76	NaN	NaN
llama_13B	28.6	11.7	1	0.75	NaN	NaN
llama2_13B	27	11.3	1	0.74	NaN	NaN
deepseek-moe-16b-base	26.8	10.5	1	0.74	NaN	NaN
mpt-30b	26.1	10.2	1	0.73	NaN	NaN
gemma-7b	24.8	9.63	1	0.72	NaN	NaN
Qwen1.5-14B	23.6	8.98	1	0.71	NaN	NaN
falcon-7b	22.6	8.25	1	0.7	NaN	NaN
llama_07B	22.5	8.16	1	0.7	NaN	NaN
llama2_07B	22.3	8.5	1	0.69	NaN	NaN
deepseek-llm-7b-base	22.1	8.07	1	0.69	NaN	NaN
Qwen1.5-7B	19.1	6.88	1	0.65	NaN	NaN
stablelm-3b-4e1t	17.6	6.06	1	0.63	NaN	NaN
stablelm-base-alpha-7b-v2	16.8	5.81	1	0.62	NaN	NaN
Qwen1.5-4B	15.8	5.25	1	0.61	NaN	NaN
gemma-2b	14.4	4.81	1	0.58	NaN	NaN
pythia-12b-deduped-v0	10.4	3.21	1	0.51	NaN	NaN
Qwen1.5-1.8B	10.1	3.13	1	0.5	NaN	NaN
pythia-6.9b-deduped-v0	8.84	2.85	1	0.47	NaN	NaN
pythia-2.8b-deduped	6.48	1.84	1	0.41	NaN	NaN
Qwen1.5-0.5B	5.43	1.71	1	0.38	NaN	NaN
pythia-1b-deduped	3.71	1.34	1	0.31	NaN	NaN
pythia-1.4b-deduped-v0	2.33	0.766	1	0.25	NaN	NaN