The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.
| model | pass1 | win_rate | count | SE(A) | SE_x(A) | SE_pred(A) |
|---|---|---|---|---|---|---|
| Qwen1.5-110B | 81.1 | 34 | 1 | 0.33 | NaN | NaN |
| Meta-Llama-3-70B | 78.7 | 32.3 | 1 | 0.35 | NaN | NaN |
| Mixtral-8x22B-v0.1 | 77.6 | 31.6 | 1 | 0.35 | NaN | NaN |
| Qwen1.5-72B | 77.2 | 31.1 | 1 | 0.35 | NaN | NaN |
| dbrx-base | 74.3 | 29.5 | 1 | 0.37 | NaN | NaN |
| Qwen1.5-32B | 73.6 | 28.8 | 1 | 0.37 | NaN | NaN |
| deepseek-llm-67b-base | 71.4 | 27 | 1 | 0.38 | NaN | NaN |
| Mixtral-8x7B-v0.1 | 70.3 | 26.7 | 1 | 0.39 | NaN | NaN |
| Qwen1.5-14B | 67.8 | 25.3 | 1 | 0.39 | NaN | NaN |
| Meta-Llama-3-8B | 65.3 | 23.5 | 1 | 0.4 | NaN | NaN |
| llama2_70B | 63.2 | 22.4 | 1 | 0.41 | NaN | NaN |
| gemma-7b | 62.6 | 22.1 | 1 | 0.41 | NaN | NaN |
| Mistral-7B-v0.1 | 62.5 | 21.8 | 1 | 0.41 | NaN | NaN |
| llama_65B | 62.2 | 22 | 1 | 0.41 | NaN | NaN |
| Qwen1.5-7B | 60.5 | 21.1 | 1 | 0.41 | NaN | NaN |
| llama_33B | 57 | 19.2 | 1 | 0.42 | NaN | NaN |
| falcon-40b | 55.4 | 19 | 1 | 0.42 | NaN | NaN |
| Qwen1.5-4B | 55.2 | 18.6 | 1 | 0.42 | NaN | NaN |
| llama2_13B | 53.7 | 17.5 | 1 | 0.42 | NaN | NaN |
| deepseek-llm-7b-base | 48.1 | 15.7 | 1 | 0.42 | NaN | NaN |
| llama2_07B | 47.3 | 15.1 | 1 | 0.42 | NaN | NaN |
| mpt-30b | 47 | 15.2 | 1 | 0.42 | NaN | NaN |
| Qwen1.5-1.8B | 45.6 | 15 | 1 | 0.42 | NaN | NaN |
| llama_13B | 45.6 | 14.3 | 1 | 0.42 | NaN | NaN |
| deepseek-moe-16b-base | 44.9 | 14.5 | 1 | 0.42 | NaN | NaN |
| stablelm-3b-4e1t | 44.4 | 14.3 | 1 | 0.42 | NaN | NaN |
| stablelm-base-alpha-7b-v2 | 44.4 | 14.3 | 1 | 0.42 | NaN | NaN |
| gemma-2b | 41 | 14.3 | 1 | 0.42 | NaN | NaN |
| Qwen1.5-0.5B | 38.4 | 13 | 1 | 0.41 | NaN | NaN |
| llama_07B | 35.1 | 12.6 | 1 | 0.4 | NaN | NaN |
| falcon-7b | 27.2 | 11.1 | 1 | 0.38 | NaN | NaN |
| pythia-2.8b-deduped | 26.4 | 11.6 | 1 | 0.37 | NaN | NaN |
| pythia-12b-deduped-v0 | 24.7 | 10.3 | 1 | 0.36 | NaN | NaN |
| pythia-6.9b-deduped-v0 | 24.7 | 10.2 | 1 | 0.36 | NaN | NaN |
| pythia-1b-deduped | 24.6 | 10.8 | 1 | 0.36 | NaN | NaN |
| pythia-1.4b-deduped-v0 | 23.3 | 10.2 | 1 | 0.36 | NaN | NaN |