siqa: by models

SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

model	pass1	win_rate	count	SE(A)	SE_x(A)	SE_pred(A)
dbrx-base	66.2	22.7	1	1.1	NaN	NaN
Qwen1.5-110B	58.8	16	1	1.1	NaN	NaN
Qwen1.5-72B	57.2	14.7	1	1.1	NaN	NaN
Qwen1.5-14B	56.9	16.8	1	1.1	NaN	NaN
Qwen1.5-32B	56.9	14.9	1	1.1	NaN	NaN
llama2_13B	53.5	10.5	1	1.1	NaN	NaN
Qwen1.5-7B	53.5	11.8	1	1.1	NaN	NaN
llama2_70B	52.5	9.51	1	1.1	NaN	NaN
Meta-Llama-3-70B	52.3	8.45	1	1.1	NaN	NaN
llama_65B	52.1	8.28	1	1.1	NaN	NaN
gemma-7b	51.6	8.46	1	1.1	NaN	NaN
Mixtral-8x22B-v0.1	51.4	7.93	1	1.1	NaN	NaN
falcon-40b	51.3	8.08	1	1.1	NaN	NaN
deepseek-llm-67b-base	50.8	7.56	1	1.1	NaN	NaN
llama_13B	50.6	7.25	1	1.1	NaN	NaN
Mixtral-8x7B-v0.1	50.4	7.15	1	1.1	NaN	NaN
llama_33B	50.2	7.1	1	1.1	NaN	NaN
llama2_07B	50	8.77	1	1.1	NaN	NaN
Mistral-7B-v0.1	49.4	6.83	1	1.1	NaN	NaN
deepseek-llm-7b-base	49	6.61	1	1.1	NaN	NaN
Qwen1.5-4B	49	9.74	1	1.1	NaN	NaN
Meta-Llama-3-8B	48.8	6.32	1	1.1	NaN	NaN
llama_07B	48.8	6.64	1	1.1	NaN	NaN
falcon-7b	48.7	6.37	1	1.1	NaN	NaN
mpt-30b	48.5	6.48	1	1.1	NaN	NaN
gemma-2b	47.6	6.34	1	1.1	NaN	NaN
Qwen1.5-1.8B	47.2	9.4	1	1.1	NaN	NaN
stablelm-base-alpha-7b-v2	47	5.67	1	1.1	NaN	NaN
pythia-12b-deduped-v0	46.7	5.66	1	1.1	NaN	NaN
deepseek-moe-16b-base	46.6	5.97	1	1.1	NaN	NaN
stablelm-3b-4e1t	46.5	5.52	1	1.1	NaN	NaN
Qwen1.5-0.5B	45.9	8.38	1	1.1	NaN	NaN
pythia-6.9b-deduped-v0	45.5	5.39	1	1.1	NaN	NaN
pythia-2.8b-deduped	45.3	5.86	1	1.1	NaN	NaN
pythia-1b-deduped	44.3	5.77	1	1.1	NaN	NaN
pythia-1.4b-deduped-v0	43.9	5.92	1	1.1	NaN	NaN