The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.
| model | pass1 | win_rate | count | SE(A) | SE_x(A) | SE_pred(A) |
|---|---|---|---|---|---|---|
| Mixtral-8x22B-v0.1 | 85.4 | 8.43 | 1 | 0.82 | NaN | NaN |
| dbrx-base | 85.4 | 9.06 | 1 | 0.82 | NaN | NaN |
| Meta-Llama-3-70B | 84.4 | 7.55 | 1 | 0.85 | NaN | NaN |
| Qwen1.5-110B | 84.3 | 7.52 | 1 | 0.85 | NaN | NaN |
| Mixtral-8x7B-v0.1 | 83.7 | 6.96 | 1 | 0.86 | NaN | NaN |
| deepseek-llm-67b-base | 83.1 | 6.63 | 1 | 0.87 | NaN | NaN |
| falcon-40b | 83.1 | 6.67 | 1 | 0.87 | NaN | NaN |
| Mistral-7B-v0.1 | 82.8 | 6.49 | 1 | 0.88 | NaN | NaN |
| Qwen1.5-32B | 82.7 | 6.62 | 1 | 0.88 | NaN | NaN |
| Qwen1.5-72B | 82.7 | 6.44 | 1 | 0.88 | NaN | NaN |
| llama_65B | 82.6 | 6.28 | 1 | 0.88 | NaN | NaN |
| llama_33B | 82.2 | 6.06 | 1 | 0.89 | NaN | NaN |
| mpt-30b | 81.2 | 5.77 | 1 | 0.91 | NaN | NaN |
| Meta-Llama-3-8B | 81.1 | 5.67 | 1 | 0.91 | NaN | NaN |
| gemma-7b | 81.1 | 5.79 | 1 | 0.91 | NaN | NaN |
| llama2_70B | 80.8 | 6.6 | 1 | 0.92 | NaN | NaN |
| falcon-7b | 80.6 | 5.25 | 1 | 0.92 | NaN | NaN |
| deepseek-moe-16b-base | 80 | 5.2 | 1 | 0.93 | NaN | NaN |
| stablelm-base-alpha-7b-v2 | 80 | 5.28 | 1 | 0.93 | NaN | NaN |
| Qwen1.5-14B | 79.9 | 5.49 | 1 | 0.93 | NaN | NaN |
| llama_13B | 79.9 | 5.09 | 1 | 0.93 | NaN | NaN |
| stablelm-3b-4e1t | 79.8 | 4.94 | 1 | 0.94 | NaN | NaN |
| llama2_13B | 79.7 | 6.13 | 1 | 0.94 | NaN | NaN |
| llama_07B | 79.5 | 4.67 | 1 | 0.94 | NaN | NaN |
| Qwen1.5-7B | 79.4 | 5.23 | 1 | 0.94 | NaN | NaN |
| deepseek-llm-7b-base | 79.4 | 4.57 | 1 | 0.94 | NaN | NaN |
| gemma-2b | 78.2 | 4.5 | 1 | 0.96 | NaN | NaN |
| Qwen1.5-4B | 77.3 | 4.37 | 1 | 0.98 | NaN | NaN |
| pythia-12b-deduped-v0 | 77 | 4.07 | 1 | 0.98 | NaN | NaN |
| llama2_07B | 76.9 | 5.58 | 1 | 0.98 | NaN | NaN |
| pythia-6.9b-deduped-v0 | 76.1 | 3.88 | 1 | 0.99 | NaN | NaN |
| Qwen1.5-1.8B | 74.4 | 3.99 | 1 | 1 | NaN | NaN |
| pythia-2.8b-deduped | 73.7 | 3.52 | 1 | 1 | NaN | NaN |
| pythia-1b-deduped | 70.1 | 2.92 | 1 | 1.1 | NaN | NaN |
| pythia-1.4b-deduped-v0 | 69.6 | 3.94 | 1 | 1.1 | NaN | NaN |
| Qwen1.5-0.5B | 69.5 | 3.38 | 1 | 1.1 | NaN | NaN |