The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.
| model | pass1 | win_rate | count | SE(A) | SE_x(A) | SE_pred(A) |
|---|---|---|---|---|---|---|
| dbrx-base | 88.7 | 13.9 | 1 | 0.32 | NaN | NaN |
| Mixtral-8x22B-v0.1 | 86.8 | 11.7 | 1 | 0.34 | NaN | NaN |
| Qwen1.5-110B | 86.5 | 11.5 | 1 | 0.34 | NaN | NaN |
| Meta-Llama-3-70B | 85.9 | 11.1 | 1 | 0.35 | NaN | NaN |
| deepseek-llm-67b-base | 85.5 | 10.5 | 1 | 0.35 | NaN | NaN |
| Qwen1.5-72B | 85.3 | 10.8 | 1 | 0.35 | NaN | NaN |
| llama_65B | 85.3 | 10.4 | 1 | 0.35 | NaN | NaN |
| falcon-40b | 85.1 | 10.4 | 1 | 0.36 | NaN | NaN |
| Mixtral-8x7B-v0.1 | 84.5 | 10 | 1 | 0.36 | NaN | NaN |
| Qwen1.5-32B | 84.1 | 9.85 | 1 | 0.36 | NaN | NaN |
| llama_33B | 84 | 9.63 | 1 | 0.37 | NaN | NaN |
| llama2_70B | 83 | 9.82 | 1 | 0.37 | NaN | NaN |
| Mistral-7B-v0.1 | 81.7 | 8.22 | 1 | 0.39 | NaN | NaN |
| gemma-7b | 80.8 | 7.84 | 1 | 0.39 | NaN | NaN |
| mpt-30b | 80.8 | 7.77 | 1 | 0.39 | NaN | NaN |
| Meta-Llama-3-8B | 80.5 | 7.47 | 1 | 0.4 | NaN | NaN |
| llama_13B | 80.4 | 7.5 | 1 | 0.4 | NaN | NaN |
| llama2_13B | 80.3 | 8.39 | 1 | 0.4 | NaN | NaN |
| Qwen1.5-14B | 80 | 7.71 | 1 | 0.4 | NaN | NaN |
| deepseek-moe-16b-base | 78.6 | 6.65 | 1 | 0.41 | NaN | NaN |
| falcon-7b | 78.3 | 6.58 | 1 | 0.41 | NaN | NaN |
| Qwen1.5-7B | 77.3 | 6.47 | 1 | 0.42 | NaN | NaN |
| deepseek-llm-7b-base | 77.2 | 6.01 | 1 | 0.42 | NaN | NaN |
| llama_07B | 77.1 | 6.02 | 1 | 0.42 | NaN | NaN |
| llama2_07B | 76.2 | 6.64 | 1 | 0.42 | NaN | NaN |
| stablelm-base-alpha-7b-v2 | 75.5 | 5.35 | 1 | 0.43 | NaN | NaN |
| stablelm-3b-4e1t | 75.2 | 5.24 | 1 | 0.43 | NaN | NaN |
| gemma-2b | 71.7 | 4.24 | 1 | 0.45 | NaN | NaN |
| Qwen1.5-4B | 71.6 | 4.46 | 1 | 0.45 | NaN | NaN |
| pythia-12b-deduped-v0 | 69.5 | 3.71 | 1 | 0.46 | NaN | NaN |
| pythia-6.9b-deduped-v0 | 66.1 | 2.96 | 1 | 0.47 | NaN | NaN |
| Qwen1.5-1.8B | 61 | 2.2 | 1 | 0.49 | NaN | NaN |
| pythia-2.8b-deduped | 60.3 | 1.97 | 1 | 0.49 | NaN | NaN |
| pythia-1.4b-deduped-v0 | 52 | 1.35 | 1 | 0.5 | NaN | NaN |
| pythia-1b-deduped | 49.6 | 0.949 | 1 | 0.5 | NaN | NaN |
| Qwen1.5-0.5B | 49.4 | 1.07 | 1 | 0.5 | NaN | NaN |