hellaswag: by models

Home Paper Code


SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

CDF of question level accuracy

Results table by model

model pass1 win_rate count SE(A) SE_x(A) SE_pred(A)
dbrx-base 88.7 13.9 1 0.32 NaN NaN
Mixtral-8x22B-v0.1 86.8 11.7 1 0.34 NaN NaN
Qwen1.5-110B 86.5 11.5 1 0.34 NaN NaN
Meta-Llama-3-70B 85.9 11.1 1 0.35 NaN NaN
deepseek-llm-67b-base 85.5 10.5 1 0.35 NaN NaN
Qwen1.5-72B 85.3 10.8 1 0.35 NaN NaN
llama_65B 85.3 10.4 1 0.35 NaN NaN
falcon-40b 85.1 10.4 1 0.36 NaN NaN
Mixtral-8x7B-v0.1 84.5 10 1 0.36 NaN NaN
Qwen1.5-32B 84.1 9.85 1 0.36 NaN NaN
llama_33B 84 9.63 1 0.37 NaN NaN
llama2_70B 83 9.82 1 0.37 NaN NaN
Mistral-7B-v0.1 81.7 8.22 1 0.39 NaN NaN
gemma-7b 80.8 7.84 1 0.39 NaN NaN
mpt-30b 80.8 7.77 1 0.39 NaN NaN
Meta-Llama-3-8B 80.5 7.47 1 0.4 NaN NaN
llama_13B 80.4 7.5 1 0.4 NaN NaN
llama2_13B 80.3 8.39 1 0.4 NaN NaN
Qwen1.5-14B 80 7.71 1 0.4 NaN NaN
deepseek-moe-16b-base 78.6 6.65 1 0.41 NaN NaN
falcon-7b 78.3 6.58 1 0.41 NaN NaN
Qwen1.5-7B 77.3 6.47 1 0.42 NaN NaN
deepseek-llm-7b-base 77.2 6.01 1 0.42 NaN NaN
llama_07B 77.1 6.02 1 0.42 NaN NaN
llama2_07B 76.2 6.64 1 0.42 NaN NaN
stablelm-base-alpha-7b-v2 75.5 5.35 1 0.43 NaN NaN
stablelm-3b-4e1t 75.2 5.24 1 0.43 NaN NaN
gemma-2b 71.7 4.24 1 0.45 NaN NaN
Qwen1.5-4B 71.6 4.46 1 0.45 NaN NaN
pythia-12b-deduped-v0 69.5 3.71 1 0.46 NaN NaN
pythia-6.9b-deduped-v0 66.1 2.96 1 0.47 NaN NaN
Qwen1.5-1.8B 61 2.2 1 0.49 NaN NaN
pythia-2.8b-deduped 60.3 1.97 1 0.49 NaN NaN
pythia-1.4b-deduped-v0 52 1.35 1 0.5 NaN NaN
pythia-1b-deduped 49.6 0.949 1 0.5 NaN NaN
Qwen1.5-0.5B 49.4 1.07 1 0.5 NaN NaN