model pass1 pass@count win_rate count SE(A) SE_x(A) SE_pred(A)
dbrx-base 65.9 65.9 24.8 1 1.4 NaN NaN
Meta-Llama-3-70B 65 65 22.2 1 1.4 NaN NaN
Mixtral-8x22B-v0.1 61.9 61.9 19.5 1 1.4 NaN NaN
DeepSeek-V2 60.2 60.2 18.4 1 1.4 NaN NaN
Mixtral-8x7B-v0.1 60.2 60.2 18.2 1 1.4 NaN NaN
deepseek-llm-67b-base 57.3 57.3 16.2 1 1.4 NaN NaN
llama_65B 55.2 55.2 14.6 1 1.5 NaN NaN
Qwen1.5-110B 55 55 15.7 1 1.5 NaN NaN
llama2_70B 54.6 54.6 16 1 1.5 NaN NaN
falcon-40b 54.4 54.4 14.3 1 1.5 NaN NaN
Mistral-7B-v0.1 54.2 54.2 14.4 1 1.5 NaN NaN
llama_33B 53.8 53.8 14 1 1.5 NaN NaN
Meta-Llama-3-8B 53.6 53.6 14.2 1 1.5 NaN NaN
gemma-7b 53.4 53.4 14.1 1 1.5 NaN NaN
Qwen1.5-72B 52.4 52.4 13.6 1 1.5 NaN NaN
llama2_13B 50.2 50.2 14.3 1 1.5 NaN NaN
Qwen1.5-32B 50.1 50.1 13 1 1.5 NaN NaN
mpt-30b 49.4 49.4 11.6 1 1.5 NaN NaN
llama_13B 48.6 48.6 11 1 1.5 NaN NaN
deepseek-moe-16b-base 47.6 47.6 10.5 1 1.5 NaN NaN
Qwen1.5-14B 45.6 45.6 10.5 1 1.5 NaN NaN
llama_07B 44.9 44.9 9.41 1 1.5 NaN NaN
deepseek-llm-7b-base 44.6 44.6 9.01 1 1.5 NaN NaN
falcon-7b 44.1 44.1 8.82 1 1.5 NaN NaN
llama2_07B 43.5 43.5 10.2 1 1.5 NaN NaN
mpt-7b 42.5 42.5 8.55 1 1.4 NaN NaN
Qwen1.5-7B 42.1 42.1 9.21 1 1.4 NaN NaN
gemma-2b 41.7 41.7 7.9 1 1.4 NaN NaN
stablelm-base-alpha-7b-v2 40.7 40.7 7.41 1 1.4 NaN NaN
stablelm-3b-4e1t 39.7 39.7 7.24 1 1.4 NaN NaN
Qwen1.5-4B 39.5 39.5 8.14 1 1.4 NaN NaN
pythia-12b-deduped-v0 38.1 38.1 6.73 1 1.4 NaN NaN
pythia-6.9b-deduped-v0 35.8 35.8 6.04 1 1.4 NaN NaN
Qwen1.5-1.8B 34.3 34.3 6.18 1 1.4 NaN NaN
pythia-2.8b-deduped 32.8 32.8 5.63 1 1.4 NaN NaN
Qwen1.5-0.5B 29.4 29.4 4.66 1 1.3 NaN NaN
pythia-1.4b-deduped-v0 27.9 27.9 4.91 1 1.3 NaN NaN
pythia-1b-deduped 27.2 27.2 4.43 1 1.3 NaN NaN