piqa: by models

SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

model	pass1	win_rate	count	SE(A)	SE_x(A)	SE_pred(A)
Mixtral-8x22B-v0.1	85.4	8.43	1	0.82	NaN	NaN
dbrx-base	85.4	9.06	1	0.82	NaN	NaN
Meta-Llama-3-70B	84.4	7.55	1	0.85	NaN	NaN
Qwen1.5-110B	84.3	7.52	1	0.85	NaN	NaN
Mixtral-8x7B-v0.1	83.7	6.96	1	0.86	NaN	NaN
deepseek-llm-67b-base	83.1	6.63	1	0.87	NaN	NaN
falcon-40b	83.1	6.67	1	0.87	NaN	NaN
Mistral-7B-v0.1	82.8	6.49	1	0.88	NaN	NaN
Qwen1.5-32B	82.7	6.62	1	0.88	NaN	NaN
Qwen1.5-72B	82.7	6.44	1	0.88	NaN	NaN
llama_65B	82.6	6.28	1	0.88	NaN	NaN
llama_33B	82.2	6.06	1	0.89	NaN	NaN
mpt-30b	81.2	5.77	1	0.91	NaN	NaN
Meta-Llama-3-8B	81.1	5.67	1	0.91	NaN	NaN
gemma-7b	81.1	5.79	1	0.91	NaN	NaN
llama2_70B	80.8	6.6	1	0.92	NaN	NaN
falcon-7b	80.6	5.25	1	0.92	NaN	NaN
deepseek-moe-16b-base	80	5.2	1	0.93	NaN	NaN
stablelm-base-alpha-7b-v2	80	5.28	1	0.93	NaN	NaN
Qwen1.5-14B	79.9	5.49	1	0.93	NaN	NaN
llama_13B	79.9	5.09	1	0.93	NaN	NaN
stablelm-3b-4e1t	79.8	4.94	1	0.94	NaN	NaN
llama2_13B	79.7	6.13	1	0.94	NaN	NaN
llama_07B	79.5	4.67	1	0.94	NaN	NaN
Qwen1.5-7B	79.4	5.23	1	0.94	NaN	NaN
deepseek-llm-7b-base	79.4	4.57	1	0.94	NaN	NaN
gemma-2b	78.2	4.5	1	0.96	NaN	NaN
Qwen1.5-4B	77.3	4.37	1	0.98	NaN	NaN
pythia-12b-deduped-v0	77	4.07	1	0.98	NaN	NaN
llama2_07B	76.9	5.58	1	0.98	NaN	NaN
pythia-6.9b-deduped-v0	76.1	3.88	1	0.99	NaN	NaN
Qwen1.5-1.8B	74.4	3.99	1	1	NaN	NaN
pythia-2.8b-deduped	73.7	3.52	1	1	NaN	NaN
pythia-1b-deduped	70.1	2.92	1	1.1	NaN	NaN
pythia-1.4b-deduped-v0	69.6	3.94	1	1.1	NaN	NaN
Qwen1.5-0.5B	69.5	3.38	1	1.1	NaN	NaN