The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.
| model | pass1 | win_rate | count | SE(A) | SE_x(A) | SE_pred(A) |
|---|---|---|---|---|---|---|
| Qwen1.5-110B | 65.2 | 33.6 | 1 | 0.94 | NaN | NaN |
| Meta-Llama-3-70B | 63.7 | 32.4 | 1 | 0.95 | NaN | NaN |
| Qwen1.5-72B | 63.2 | 32 | 1 | 0.96 | NaN | NaN |
| Qwen1.5-32B | 61.4 | 31 | 1 | 0.97 | NaN | NaN |
| Mixtral-8x22B-v0.1 | 61.2 | 30.8 | 1 | 0.97 | NaN | NaN |
| dbrx-base | 55.9 | 26.9 | 1 | 0.98 | NaN | NaN |
| deepseek-llm-67b-base | 55.5 | 26.9 | 1 | 0.98 | NaN | NaN |
| Qwen1.5-14B | 54.7 | 26.1 | 1 | 0.99 | NaN | NaN |
| Mixtral-8x7B-v0.1 | 50.4 | 23.5 | 1 | 0.99 | NaN | NaN |
| llama2_70B | 48.9 | 22.7 | 1 | 0.99 | NaN | NaN |
| llama_65B | 48.4 | 21.8 | 1 | 0.99 | NaN | NaN |
| Qwen1.5-7B | 48.2 | 22 | 1 | 0.99 | NaN | NaN |
| Meta-Llama-3-8B | 47.4 | 21.9 | 1 | 0.99 | NaN | NaN |
| gemma-7b | 45.3 | 20.8 | 1 | 0.99 | NaN | NaN |
| Mistral-7B-v0.1 | 44 | 19.4 | 1 | 0.98 | NaN | NaN |
| Qwen1.5-4B | 42.9 | 18.9 | 1 | 0.98 | NaN | NaN |
| llama_33B | 41.4 | 18.6 | 1 | 0.98 | NaN | NaN |
| llama2_13B | 38 | 16.6 | 1 | 0.96 | NaN | NaN |
| llama2_07B | 34.8 | 16.1 | 1 | 0.94 | NaN | NaN |
| deepseek-llm-7b-base | 34.3 | 15.2 | 1 | 0.94 | NaN | NaN |
| Qwen1.5-1.8B | 34.1 | 15.9 | 1 | 0.94 | NaN | NaN |
| mpt-30b | 34.1 | 15.3 | 1 | 0.94 | NaN | NaN |
| llama_13B | 31.6 | 14.4 | 1 | 0.92 | NaN | NaN |
| stablelm-base-alpha-7b-v2 | 31.3 | 14.4 | 1 | 0.92 | NaN | NaN |
| stablelm-3b-4e1t | 29.9 | 13.4 | 1 | 0.91 | NaN | NaN |
| deepseek-moe-16b-base | 29.7 | 14 | 1 | 0.91 | NaN | NaN |
| Qwen1.5-0.5B | 29.4 | 13.9 | 1 | 0.9 | NaN | NaN |
| gemma-2b | 27.3 | 15 | 1 | 0.88 | NaN | NaN |
| llama_07B | 24.6 | 12.7 | 1 | 0.85 | NaN | NaN |
| pythia-12b-deduped-v0 | 24.5 | 13.2 | 1 | 0.85 | NaN | NaN |
| pythia-2.8b-deduped | 23.5 | 13.2 | 1 | 0.84 | NaN | NaN |
| pythia-6.9b-deduped-v0 | 23.4 | 12.9 | 1 | 0.84 | NaN | NaN |
| falcon-7b | 22.9 | 12.5 | 1 | 0.83 | NaN | NaN |
| pythia-1b-deduped | 22.3 | 12.5 | 1 | 0.83 | NaN | NaN |
| pythia-1.4b-deduped-v0 | 22 | 12.1 | 1 | 0.82 | NaN | NaN |