The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.
| model | pass1 | win_rate | count | SE(A) | SE_x(A) | SE_pred(A) |
|---|---|---|---|---|---|---|
| dbrx-base | 48.8 | 28.5 | 1 | 0.83 | NaN | NaN |
| Meta-Llama-3-70B | 43.2 | 22.5 | 1 | 0.82 | NaN | NaN |
| Mixtral-8x22B-v0.1 | 42.2 | 21.4 | 1 | 0.82 | NaN | NaN |
| Qwen1.5-110B | 41.6 | 21 | 1 | 0.82 | NaN | NaN |
| llama_65B | 38.2 | 18.4 | 1 | 0.81 | NaN | NaN |
| deepseek-llm-67b-base | 37.7 | 17.8 | 1 | 0.81 | NaN | NaN |
| Mixtral-8x7B-v0.1 | 36.9 | 17.2 | 1 | 0.8 | NaN | NaN |
| Qwen1.5-72B | 35.9 | 16.8 | 1 | 0.8 | NaN | NaN |
| llama_33B | 34.8 | 15.6 | 1 | 0.79 | NaN | NaN |
| llama2_70B | 33.3 | 15.4 | 1 | 0.78 | NaN | NaN |
| falcon-40b | 33.3 | 14.5 | 1 | 0.78 | NaN | NaN |
| Qwen1.5-32B | 30.7 | 13.1 | 1 | 0.77 | NaN | NaN |
| Meta-Llama-3-8B | 29.9 | 12.3 | 1 | 0.76 | NaN | NaN |
| Mistral-7B-v0.1 | 29.2 | 11.9 | 1 | 0.76 | NaN | NaN |
| llama_13B | 28.6 | 11.7 | 1 | 0.75 | NaN | NaN |
| llama2_13B | 27 | 11.3 | 1 | 0.74 | NaN | NaN |
| deepseek-moe-16b-base | 26.8 | 10.5 | 1 | 0.74 | NaN | NaN |
| mpt-30b | 26.1 | 10.2 | 1 | 0.73 | NaN | NaN |
| gemma-7b | 24.8 | 9.63 | 1 | 0.72 | NaN | NaN |
| Qwen1.5-14B | 23.6 | 8.98 | 1 | 0.71 | NaN | NaN |
| falcon-7b | 22.6 | 8.25 | 1 | 0.7 | NaN | NaN |
| llama_07B | 22.5 | 8.16 | 1 | 0.7 | NaN | NaN |
| llama2_07B | 22.3 | 8.5 | 1 | 0.69 | NaN | NaN |
| deepseek-llm-7b-base | 22.1 | 8.07 | 1 | 0.69 | NaN | NaN |
| Qwen1.5-7B | 19.1 | 6.88 | 1 | 0.65 | NaN | NaN |
| stablelm-3b-4e1t | 17.6 | 6.06 | 1 | 0.63 | NaN | NaN |
| stablelm-base-alpha-7b-v2 | 16.8 | 5.81 | 1 | 0.62 | NaN | NaN |
| Qwen1.5-4B | 15.8 | 5.25 | 1 | 0.61 | NaN | NaN |
| gemma-2b | 14.4 | 4.81 | 1 | 0.58 | NaN | NaN |
| pythia-12b-deduped-v0 | 10.4 | 3.21 | 1 | 0.51 | NaN | NaN |
| Qwen1.5-1.8B | 10.1 | 3.13 | 1 | 0.5 | NaN | NaN |
| pythia-6.9b-deduped-v0 | 8.84 | 2.85 | 1 | 0.47 | NaN | NaN |
| pythia-2.8b-deduped | 6.48 | 1.84 | 1 | 0.41 | NaN | NaN |
| Qwen1.5-0.5B | 5.43 | 1.71 | 1 | 0.38 | NaN | NaN |
| pythia-1b-deduped | 3.71 | 1.34 | 1 | 0.31 | NaN | NaN |
| pythia-1.4b-deduped-v0 | 2.33 | 0.766 | 1 | 0.25 | NaN | NaN |