The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.
| model | pass1 | win_rate | count | SE(A) | SE_x(A) | SE_pred(A) |
|---|---|---|---|---|---|---|
| dbrx-base | 78.2 | 26.4 | 1 | 0.39 | NaN | NaN |
| Meta-Llama-3-70B | 77.6 | 25.7 | 1 | 0.39 | NaN | NaN |
| Mixtral-8x22B-v0.1 | 77 | 25.3 | 1 | 0.4 | NaN | NaN |
| Qwen1.5-110B | 74.6 | 23.2 | 1 | 0.41 | NaN | NaN |
| llama_65B | 73.3 | 22.5 | 1 | 0.42 | NaN | NaN |
| Mixtral-8x7B-v0.1 | 73.1 | 22.2 | 1 | 0.42 | NaN | NaN |
| deepseek-llm-67b-base | 72.9 | 21.9 | 1 | 0.42 | NaN | NaN |
| llama_33B | 70.7 | 20.5 | 1 | 0.43 | NaN | NaN |
| Qwen1.5-72B | 70.7 | 20.8 | 1 | 0.43 | NaN | NaN |
| llama2_70B | 68.7 | 19.8 | 1 | 0.44 | NaN | NaN |
| falcon-40b | 67.5 | 18.4 | 1 | 0.44 | NaN | NaN |
| Qwen1.5-32B | 65.5 | 17.4 | 1 | 0.45 | NaN | NaN |
| Meta-Llama-3-8B | 65.4 | 17 | 1 | 0.45 | NaN | NaN |
| Mistral-7B-v0.1 | 64.2 | 16.2 | 1 | 0.45 | NaN | NaN |
| llama_13B | 63.6 | 16.1 | 1 | 0.45 | NaN | NaN |
| mpt-30b | 60.8 | 14.6 | 1 | 0.46 | NaN | NaN |
| llama2_13B | 60.4 | 14.9 | 1 | 0.46 | NaN | NaN |
| gemma-7b | 60.3 | 14.7 | 1 | 0.46 | NaN | NaN |
| deepseek-moe-16b-base | 59.1 | 13.7 | 1 | 0.46 | NaN | NaN |
| llama_07B | 56.4 | 12.5 | 1 | 0.47 | NaN | NaN |
| deepseek-llm-7b-base | 54.4 | 11.5 | 1 | 0.47 | NaN | NaN |
| Qwen1.5-14B | 54 | 11.7 | 1 | 0.47 | NaN | NaN |
| llama2_07B | 52.6 | 11.3 | 1 | 0.47 | NaN | NaN |
| falcon-7b | 52.2 | 10.5 | 1 | 0.47 | NaN | NaN |
| stablelm-base-alpha-7b-v2 | 49.6 | 9.56 | 1 | 0.47 | NaN | NaN |
| stablelm-3b-4e1t | 48.7 | 9.34 | 1 | 0.47 | NaN | NaN |
| Qwen1.5-7B | 48.1 | 9.38 | 1 | 0.47 | NaN | NaN |
| gemma-2b | 42.8 | 7.5 | 1 | 0.47 | NaN | NaN |
| Qwen1.5-4B | 39.4 | 6.68 | 1 | 0.46 | NaN | NaN |
| pythia-12b-deduped-v0 | 37.8 | 6.01 | 1 | 0.46 | NaN | NaN |
| pythia-6.9b-deduped-v0 | 33.2 | 4.82 | 1 | 0.44 | NaN | NaN |
| Qwen1.5-1.8B | 26.2 | 3.37 | 1 | 0.41 | NaN | NaN |
| pythia-2.8b-deduped | 24.1 | 3.02 | 1 | 0.4 | NaN | NaN |
| pythia-1b-deduped | 14.7 | 1.74 | 1 | 0.33 | NaN | NaN |
| Qwen1.5-0.5B | 13.4 | 1.51 | 1 | 0.32 | NaN | NaN |
| pythia-1.4b-deduped-v0 | 12.7 | 1.32 | 1 | 0.31 | NaN | NaN |