piqa: by models

Home Paper Code


SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

CDF of question level accuracy

Results table by model

model pass1 win_rate count SE(A) SE_x(A) SE_pred(A)
Mixtral-8x22B-v0.1 85.4 8.43 1 0.82 NaN NaN
dbrx-base 85.4 9.06 1 0.82 NaN NaN
Meta-Llama-3-70B 84.4 7.55 1 0.85 NaN NaN
Qwen1.5-110B 84.3 7.52 1 0.85 NaN NaN
Mixtral-8x7B-v0.1 83.7 6.96 1 0.86 NaN NaN
deepseek-llm-67b-base 83.1 6.63 1 0.87 NaN NaN
falcon-40b 83.1 6.67 1 0.87 NaN NaN
Mistral-7B-v0.1 82.8 6.49 1 0.88 NaN NaN
Qwen1.5-32B 82.7 6.62 1 0.88 NaN NaN
Qwen1.5-72B 82.7 6.44 1 0.88 NaN NaN
llama_65B 82.6 6.28 1 0.88 NaN NaN
llama_33B 82.2 6.06 1 0.89 NaN NaN
mpt-30b 81.2 5.77 1 0.91 NaN NaN
Meta-Llama-3-8B 81.1 5.67 1 0.91 NaN NaN
gemma-7b 81.1 5.79 1 0.91 NaN NaN
llama2_70B 80.8 6.6 1 0.92 NaN NaN
falcon-7b 80.6 5.25 1 0.92 NaN NaN
deepseek-moe-16b-base 80 5.2 1 0.93 NaN NaN
stablelm-base-alpha-7b-v2 80 5.28 1 0.93 NaN NaN
Qwen1.5-14B 79.9 5.49 1 0.93 NaN NaN
llama_13B 79.9 5.09 1 0.93 NaN NaN
stablelm-3b-4e1t 79.8 4.94 1 0.94 NaN NaN
llama2_13B 79.7 6.13 1 0.94 NaN NaN
llama_07B 79.5 4.67 1 0.94 NaN NaN
Qwen1.5-7B 79.4 5.23 1 0.94 NaN NaN
deepseek-llm-7b-base 79.4 4.57 1 0.94 NaN NaN
gemma-2b 78.2 4.5 1 0.96 NaN NaN
Qwen1.5-4B 77.3 4.37 1 0.98 NaN NaN
pythia-12b-deduped-v0 77 4.07 1 0.98 NaN NaN
llama2_07B 76.9 5.58 1 0.98 NaN NaN
pythia-6.9b-deduped-v0 76.1 3.88 1 0.99 NaN NaN
Qwen1.5-1.8B 74.4 3.99 1 1 NaN NaN
pythia-2.8b-deduped 73.7 3.52 1 1 NaN NaN
pythia-1b-deduped 70.1 2.92 1 1.1 NaN NaN
pythia-1.4b-deduped-v0 69.6 3.94 1 1.1 NaN NaN
Qwen1.5-0.5B 69.5 3.38 1 1.1 NaN NaN