tqa: by models

SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

model	pass1	win_rate	count	SE(A)	SE_x(A)	SE_pred(A)
dbrx-base	78.2	26.4	1	0.39	NaN	NaN
Meta-Llama-3-70B	77.6	25.7	1	0.39	NaN	NaN
Mixtral-8x22B-v0.1	77	25.3	1	0.4	NaN	NaN
Qwen1.5-110B	74.6	23.2	1	0.41	NaN	NaN
llama_65B	73.3	22.5	1	0.42	NaN	NaN
Mixtral-8x7B-v0.1	73.1	22.2	1	0.42	NaN	NaN
deepseek-llm-67b-base	72.9	21.9	1	0.42	NaN	NaN
llama_33B	70.7	20.5	1	0.43	NaN	NaN
Qwen1.5-72B	70.7	20.8	1	0.43	NaN	NaN
llama2_70B	68.7	19.8	1	0.44	NaN	NaN
falcon-40b	67.5	18.4	1	0.44	NaN	NaN
Qwen1.5-32B	65.5	17.4	1	0.45	NaN	NaN
Meta-Llama-3-8B	65.4	17	1	0.45	NaN	NaN
Mistral-7B-v0.1	64.2	16.2	1	0.45	NaN	NaN
llama_13B	63.6	16.1	1	0.45	NaN	NaN
mpt-30b	60.8	14.6	1	0.46	NaN	NaN
llama2_13B	60.4	14.9	1	0.46	NaN	NaN
gemma-7b	60.3	14.7	1	0.46	NaN	NaN
deepseek-moe-16b-base	59.1	13.7	1	0.46	NaN	NaN
llama_07B	56.4	12.5	1	0.47	NaN	NaN
deepseek-llm-7b-base	54.4	11.5	1	0.47	NaN	NaN
Qwen1.5-14B	54	11.7	1	0.47	NaN	NaN
llama2_07B	52.6	11.3	1	0.47	NaN	NaN
falcon-7b	52.2	10.5	1	0.47	NaN	NaN
stablelm-base-alpha-7b-v2	49.6	9.56	1	0.47	NaN	NaN
stablelm-3b-4e1t	48.7	9.34	1	0.47	NaN	NaN
Qwen1.5-7B	48.1	9.38	1	0.47	NaN	NaN
gemma-2b	42.8	7.5	1	0.47	NaN	NaN
Qwen1.5-4B	39.4	6.68	1	0.46	NaN	NaN
pythia-12b-deduped-v0	37.8	6.01	1	0.46	NaN	NaN
pythia-6.9b-deduped-v0	33.2	4.82	1	0.44	NaN	NaN
Qwen1.5-1.8B	26.2	3.37	1	0.41	NaN	NaN
pythia-2.8b-deduped	24.1	3.02	1	0.4	NaN	NaN
pythia-1b-deduped	14.7	1.74	1	0.33	NaN	NaN
Qwen1.5-0.5B	13.4	1.51	1	0.32	NaN	NaN
pythia-1.4b-deduped-v0	12.7	1.32	1	0.31	NaN	NaN