The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.
| model | pass1 | win_rate | count | SE(A) | SE_x(A) | SE_pred(A) |
|---|---|---|---|---|---|---|
| Qwen1.5-110B | 84.1 | 48.9 | 1 | 1 | NaN | NaN |
| Meta-Llama-3-70B | 82.7 | 47.6 | 1 | 1 | NaN | NaN |
| Mixtral-8x22B-v0.1 | 80.2 | 45.7 | 1 | 1.1 | NaN | NaN |
| Qwen1.5-72B | 78.4 | 44.5 | 1 | 1.1 | NaN | NaN |
| DeepSeek-V2 | 77.3 | 43.5 | 1 | 1.2 | NaN | NaN |
| Qwen1.5-32B | 76.3 | 42.7 | 1 | 1.2 | NaN | NaN |
| Qwen1.5-14B | 69.5 | 37.7 | 1 | 1.3 | NaN | NaN |
| dbrx-base | 69.5 | 37.8 | 1 | 1.3 | NaN | NaN |
| deepseek-llm-67b-base | 62.9 | 32.8 | 1 | 1.3 | NaN | NaN |
| Mixtral-8x7B-v0.1 | 60.3 | 30.9 | 1 | 1.3 | NaN | NaN |
| Qwen1.5-7B | 59.1 | 30.7 | 1 | 1.4 | NaN | NaN |
| gemma-7b | 56.8 | 29.1 | 1 | 1.4 | NaN | NaN |
| llama2_70B | 56.7 | 28.8 | 1 | 1.4 | NaN | NaN |
| Meta-Llama-3-8B | 55.4 | 27.8 | 1 | 1.4 | NaN | NaN |
| Qwen1.5-4B | 55 | 27.8 | 1 | 1.4 | NaN | NaN |
| llama_65B | 50.8 | 24.9 | 1 | 1.4 | NaN | NaN |
| Mistral-7B-v0.1 | 41.2 | 19 | 1 | 1.4 | NaN | NaN |
| llama2_13B | 38 | 17 | 1 | 1.3 | NaN | NaN |
| Qwen1.5-1.8B | 36.9 | 16.8 | 1 | 1.3 | NaN | NaN |
| llama_33B | 34.6 | 15.4 | 1 | 1.3 | NaN | NaN |
| falcon-40b | 27.1 | 11.5 | 1 | 1.2 | NaN | NaN |
| llama2_07B | 22.5 | 8.99 | 1 | 1.2 | NaN | NaN |
| mpt-30b | 21.8 | 8.71 | 1 | 1.1 | NaN | NaN |
| Qwen1.5-0.5B | 20.9 | 8.75 | 1 | 1.1 | NaN | NaN |
| gemma-2b | 18.8 | 7.76 | 1 | 1.1 | NaN | NaN |
| deepseek-moe-16b-base | 18.6 | 7.21 | 1 | 1.1 | NaN | NaN |
| llama_13B | 17.6 | 7.06 | 1 | 1 | NaN | NaN |
| deepseek-llm-7b-base | 14.1 | 5.53 | 1 | 0.96 | NaN | NaN |
| llama_07B | 10.9 | 4.04 | 1 | 0.86 | NaN | NaN |
| stablelm-3b-4e1t | 10.8 | 3.95 | 1 | 0.85 | NaN | NaN |
| falcon-7b | 7.88 | 2.99 | 1 | 0.74 | NaN | NaN |
| stablelm-base-alpha-7b-v2 | 7.35 | 2.93 | 1 | 0.72 | NaN | NaN |
| pythia-12b-deduped-v0 | 3.56 | 1.5 | 1 | 0.51 | NaN | NaN |
| pythia-2.8b-deduped | 2.96 | 1.4 | 1 | 0.47 | NaN | NaN |
| pythia-6.9b-deduped-v0 | 2.88 | 1.33 | 1 | 0.46 | NaN | NaN |
| pythia-1.4b-deduped-v0 | 2.05 | 1.19 | 1 | 0.39 | NaN | NaN |
| pythia-1b-deduped | 1.97 | 1.04 | 1 | 0.38 | NaN | NaN |