mmlu: by models

Home Paper Code


SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

CDF of question level accuracy

Results table by model

model pass1 win_rate count SE(A) SE_x(A) SE_pred(A)
Qwen1.5-110B 81.1 34 1 0.33 NaN NaN
Meta-Llama-3-70B 78.7 32.3 1 0.35 NaN NaN
Mixtral-8x22B-v0.1 77.6 31.6 1 0.35 NaN NaN
Qwen1.5-72B 77.2 31.1 1 0.35 NaN NaN
dbrx-base 74.3 29.5 1 0.37 NaN NaN
Qwen1.5-32B 73.6 28.8 1 0.37 NaN NaN
deepseek-llm-67b-base 71.4 27 1 0.38 NaN NaN
Mixtral-8x7B-v0.1 70.3 26.7 1 0.39 NaN NaN
Qwen1.5-14B 67.8 25.3 1 0.39 NaN NaN
Meta-Llama-3-8B 65.3 23.5 1 0.4 NaN NaN
llama2_70B 63.2 22.4 1 0.41 NaN NaN
gemma-7b 62.6 22.1 1 0.41 NaN NaN
Mistral-7B-v0.1 62.5 21.8 1 0.41 NaN NaN
llama_65B 62.2 22 1 0.41 NaN NaN
Qwen1.5-7B 60.5 21.1 1 0.41 NaN NaN
llama_33B 57 19.2 1 0.42 NaN NaN
falcon-40b 55.4 19 1 0.42 NaN NaN
Qwen1.5-4B 55.2 18.6 1 0.42 NaN NaN
llama2_13B 53.7 17.5 1 0.42 NaN NaN
deepseek-llm-7b-base 48.1 15.7 1 0.42 NaN NaN
llama2_07B 47.3 15.1 1 0.42 NaN NaN
mpt-30b 47 15.2 1 0.42 NaN NaN
Qwen1.5-1.8B 45.6 15 1 0.42 NaN NaN
llama_13B 45.6 14.3 1 0.42 NaN NaN
deepseek-moe-16b-base 44.9 14.5 1 0.42 NaN NaN
stablelm-3b-4e1t 44.4 14.3 1 0.42 NaN NaN
stablelm-base-alpha-7b-v2 44.4 14.3 1 0.42 NaN NaN
gemma-2b 41 14.3 1 0.42 NaN NaN
Qwen1.5-0.5B 38.4 13 1 0.41 NaN NaN
llama_07B 35.1 12.6 1 0.4 NaN NaN
falcon-7b 27.2 11.1 1 0.38 NaN NaN
pythia-2.8b-deduped 26.4 11.6 1 0.37 NaN NaN
pythia-12b-deduped-v0 24.7 10.3 1 0.36 NaN NaN
pythia-6.9b-deduped-v0 24.7 10.2 1 0.36 NaN NaN
pythia-1b-deduped 24.6 10.8 1 0.36 NaN NaN
pythia-1.4b-deduped-v0 23.3 10.2 1 0.36 NaN NaN