The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.
| model | pass1 | win_rate | count | SE(A) | SE_x(A) | SE_pred(A) |
|---|---|---|---|---|---|---|
| dbrx-base | 66.2 | 22.7 | 1 | 1.1 | NaN | NaN |
| Qwen1.5-110B | 58.8 | 16 | 1 | 1.1 | NaN | NaN |
| Qwen1.5-72B | 57.2 | 14.7 | 1 | 1.1 | NaN | NaN |
| Qwen1.5-14B | 56.9 | 16.8 | 1 | 1.1 | NaN | NaN |
| Qwen1.5-32B | 56.9 | 14.9 | 1 | 1.1 | NaN | NaN |
| llama2_13B | 53.5 | 10.5 | 1 | 1.1 | NaN | NaN |
| Qwen1.5-7B | 53.5 | 11.8 | 1 | 1.1 | NaN | NaN |
| llama2_70B | 52.5 | 9.51 | 1 | 1.1 | NaN | NaN |
| Meta-Llama-3-70B | 52.3 | 8.45 | 1 | 1.1 | NaN | NaN |
| llama_65B | 52.1 | 8.28 | 1 | 1.1 | NaN | NaN |
| gemma-7b | 51.6 | 8.46 | 1 | 1.1 | NaN | NaN |
| Mixtral-8x22B-v0.1 | 51.4 | 7.93 | 1 | 1.1 | NaN | NaN |
| falcon-40b | 51.3 | 8.08 | 1 | 1.1 | NaN | NaN |
| deepseek-llm-67b-base | 50.8 | 7.56 | 1 | 1.1 | NaN | NaN |
| llama_13B | 50.6 | 7.25 | 1 | 1.1 | NaN | NaN |
| Mixtral-8x7B-v0.1 | 50.4 | 7.15 | 1 | 1.1 | NaN | NaN |
| llama_33B | 50.2 | 7.1 | 1 | 1.1 | NaN | NaN |
| llama2_07B | 50 | 8.77 | 1 | 1.1 | NaN | NaN |
| Mistral-7B-v0.1 | 49.4 | 6.83 | 1 | 1.1 | NaN | NaN |
| deepseek-llm-7b-base | 49 | 6.61 | 1 | 1.1 | NaN | NaN |
| Qwen1.5-4B | 49 | 9.74 | 1 | 1.1 | NaN | NaN |
| Meta-Llama-3-8B | 48.8 | 6.32 | 1 | 1.1 | NaN | NaN |
| llama_07B | 48.8 | 6.64 | 1 | 1.1 | NaN | NaN |
| falcon-7b | 48.7 | 6.37 | 1 | 1.1 | NaN | NaN |
| mpt-30b | 48.5 | 6.48 | 1 | 1.1 | NaN | NaN |
| gemma-2b | 47.6 | 6.34 | 1 | 1.1 | NaN | NaN |
| Qwen1.5-1.8B | 47.2 | 9.4 | 1 | 1.1 | NaN | NaN |
| stablelm-base-alpha-7b-v2 | 47 | 5.67 | 1 | 1.1 | NaN | NaN |
| pythia-12b-deduped-v0 | 46.7 | 5.66 | 1 | 1.1 | NaN | NaN |
| deepseek-moe-16b-base | 46.6 | 5.97 | 1 | 1.1 | NaN | NaN |
| stablelm-3b-4e1t | 46.5 | 5.52 | 1 | 1.1 | NaN | NaN |
| Qwen1.5-0.5B | 45.9 | 8.38 | 1 | 1.1 | NaN | NaN |
| pythia-6.9b-deduped-v0 | 45.5 | 5.39 | 1 | 1.1 | NaN | NaN |
| pythia-2.8b-deduped | 45.3 | 5.86 | 1 | 1.1 | NaN | NaN |
| pythia-1b-deduped | 44.3 | 5.77 | 1 | 1.1 | NaN | NaN |
| pythia-1.4b-deduped-v0 | 43.9 | 5.92 | 1 | 1.1 | NaN | NaN |