arc_challenge: by models

Home Paper Code


SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

CDF of question level accuracy

Results table by model

model pass1 win_rate count SE(A) SE_x(A) SE_pred(A)
dbrx-base 65.9 24.8 1 1.4 NaN NaN
Meta-Llama-3-70B 65 22.2 1 1.4 NaN NaN
Mixtral-8x22B-v0.1 61.9 19.5 1 1.4 NaN NaN
DeepSeek-V2 60.2 18.4 1 1.4 NaN NaN
Mixtral-8x7B-v0.1 60.2 18.2 1 1.4 NaN NaN
deepseek-llm-67b-base 57.3 16.2 1 1.4 NaN NaN
llama_65B 55.2 14.6 1 1.5 NaN NaN
Qwen1.5-110B 55 15.7 1 1.5 NaN NaN
llama2_70B 54.6 16 1 1.5 NaN NaN
falcon-40b 54.4 14.3 1 1.5 NaN NaN
Mistral-7B-v0.1 54.2 14.4 1 1.5 NaN NaN
llama_33B 53.8 14 1 1.5 NaN NaN
Meta-Llama-3-8B 53.6 14.2 1 1.5 NaN NaN
gemma-7b 53.4 14.1 1 1.5 NaN NaN
Qwen1.5-72B 52.4 13.6 1 1.5 NaN NaN
llama2_13B 50.2 14.3 1 1.5 NaN NaN
Qwen1.5-32B 50.1 13 1 1.5 NaN NaN
mpt-30b 49.4 11.6 1 1.5 NaN NaN
llama_13B 48.6 11 1 1.5 NaN NaN
deepseek-moe-16b-base 47.6 10.5 1 1.5 NaN NaN
Qwen1.5-14B 45.6 10.5 1 1.5 NaN NaN
llama_07B 44.9 9.41 1 1.5 NaN NaN
deepseek-llm-7b-base 44.6 9.01 1 1.5 NaN NaN
falcon-7b 44.1 8.82 1 1.5 NaN NaN
llama2_07B 43.5 10.2 1 1.5 NaN NaN
mpt-7b 42.5 8.55 1 1.4 NaN NaN
Qwen1.5-7B 42.1 9.21 1 1.4 NaN NaN
gemma-2b 41.7 7.9 1 1.4 NaN NaN
stablelm-base-alpha-7b-v2 40.7 7.41 1 1.4 NaN NaN
stablelm-3b-4e1t 39.7 7.24 1 1.4 NaN NaN
Qwen1.5-4B 39.5 8.14 1 1.4 NaN NaN
pythia-12b-deduped-v0 38.1 6.73 1 1.4 NaN NaN
pythia-6.9b-deduped-v0 35.8 6.04 1 1.4 NaN NaN
Qwen1.5-1.8B 34.3 6.18 1 1.4 NaN NaN
pythia-2.8b-deduped 32.8 5.63 1 1.4 NaN NaN
Qwen1.5-0.5B 29.4 4.66 1 1.3 NaN NaN
pythia-1.4b-deduped-v0 27.9 4.91 1 1.3 NaN NaN
pythia-1b-deduped 27.2 4.43 1 1.3 NaN NaN