gsm8k: by models

Home Paper Code


SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

CDF of question level accuracy

Results table by model

model pass1 win_rate count SE(A) SE_x(A) SE_pred(A)
Qwen1.5-110B 84.1 48.9 1 1 NaN NaN
Meta-Llama-3-70B 82.7 47.6 1 1 NaN NaN
Mixtral-8x22B-v0.1 80.2 45.7 1 1.1 NaN NaN
Qwen1.5-72B 78.4 44.5 1 1.1 NaN NaN
DeepSeek-V2 77.3 43.5 1 1.2 NaN NaN
Qwen1.5-32B 76.3 42.7 1 1.2 NaN NaN
Qwen1.5-14B 69.5 37.7 1 1.3 NaN NaN
dbrx-base 69.5 37.8 1 1.3 NaN NaN
deepseek-llm-67b-base 62.9 32.8 1 1.3 NaN NaN
Mixtral-8x7B-v0.1 60.3 30.9 1 1.3 NaN NaN
Qwen1.5-7B 59.1 30.7 1 1.4 NaN NaN
gemma-7b 56.8 29.1 1 1.4 NaN NaN
llama2_70B 56.7 28.8 1 1.4 NaN NaN
Meta-Llama-3-8B 55.4 27.8 1 1.4 NaN NaN
Qwen1.5-4B 55 27.8 1 1.4 NaN NaN
llama_65B 50.8 24.9 1 1.4 NaN NaN
Mistral-7B-v0.1 41.2 19 1 1.4 NaN NaN
llama2_13B 38 17 1 1.3 NaN NaN
Qwen1.5-1.8B 36.9 16.8 1 1.3 NaN NaN
llama_33B 34.6 15.4 1 1.3 NaN NaN
falcon-40b 27.1 11.5 1 1.2 NaN NaN
llama2_07B 22.5 8.99 1 1.2 NaN NaN
mpt-30b 21.8 8.71 1 1.1 NaN NaN
Qwen1.5-0.5B 20.9 8.75 1 1.1 NaN NaN
gemma-2b 18.8 7.76 1 1.1 NaN NaN
deepseek-moe-16b-base 18.6 7.21 1 1.1 NaN NaN
llama_13B 17.6 7.06 1 1 NaN NaN
deepseek-llm-7b-base 14.1 5.53 1 0.96 NaN NaN
llama_07B 10.9 4.04 1 0.86 NaN NaN
stablelm-3b-4e1t 10.8 3.95 1 0.85 NaN NaN
falcon-7b 7.88 2.99 1 0.74 NaN NaN
stablelm-base-alpha-7b-v2 7.35 2.93 1 0.72 NaN NaN
pythia-12b-deduped-v0 3.56 1.5 1 0.51 NaN NaN
pythia-2.8b-deduped 2.96 1.4 1 0.47 NaN NaN
pythia-6.9b-deduped-v0 2.88 1.33 1 0.46 NaN NaN
pythia-1.4b-deduped-v0 2.05 1.19 1 0.39 NaN NaN
pythia-1b-deduped 1.97 1.04 1 0.38 NaN NaN