The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.
| model | pass1 | win_rate | count | SE(A) | SE_x(A) | SE_pred(A) |
|---|---|---|---|---|---|---|
| dbrx-base | 65.9 | 24.8 | 1 | 1.4 | NaN | NaN |
| Meta-Llama-3-70B | 65 | 22.2 | 1 | 1.4 | NaN | NaN |
| Mixtral-8x22B-v0.1 | 61.9 | 19.5 | 1 | 1.4 | NaN | NaN |
| DeepSeek-V2 | 60.2 | 18.4 | 1 | 1.4 | NaN | NaN |
| Mixtral-8x7B-v0.1 | 60.2 | 18.2 | 1 | 1.4 | NaN | NaN |
| deepseek-llm-67b-base | 57.3 | 16.2 | 1 | 1.4 | NaN | NaN |
| llama_65B | 55.2 | 14.6 | 1 | 1.5 | NaN | NaN |
| Qwen1.5-110B | 55 | 15.7 | 1 | 1.5 | NaN | NaN |
| llama2_70B | 54.6 | 16 | 1 | 1.5 | NaN | NaN |
| falcon-40b | 54.4 | 14.3 | 1 | 1.5 | NaN | NaN |
| Mistral-7B-v0.1 | 54.2 | 14.4 | 1 | 1.5 | NaN | NaN |
| llama_33B | 53.8 | 14 | 1 | 1.5 | NaN | NaN |
| Meta-Llama-3-8B | 53.6 | 14.2 | 1 | 1.5 | NaN | NaN |
| gemma-7b | 53.4 | 14.1 | 1 | 1.5 | NaN | NaN |
| Qwen1.5-72B | 52.4 | 13.6 | 1 | 1.5 | NaN | NaN |
| llama2_13B | 50.2 | 14.3 | 1 | 1.5 | NaN | NaN |
| Qwen1.5-32B | 50.1 | 13 | 1 | 1.5 | NaN | NaN |
| mpt-30b | 49.4 | 11.6 | 1 | 1.5 | NaN | NaN |
| llama_13B | 48.6 | 11 | 1 | 1.5 | NaN | NaN |
| deepseek-moe-16b-base | 47.6 | 10.5 | 1 | 1.5 | NaN | NaN |
| Qwen1.5-14B | 45.6 | 10.5 | 1 | 1.5 | NaN | NaN |
| llama_07B | 44.9 | 9.41 | 1 | 1.5 | NaN | NaN |
| deepseek-llm-7b-base | 44.6 | 9.01 | 1 | 1.5 | NaN | NaN |
| falcon-7b | 44.1 | 8.82 | 1 | 1.5 | NaN | NaN |
| llama2_07B | 43.5 | 10.2 | 1 | 1.5 | NaN | NaN |
| mpt-7b | 42.5 | 8.55 | 1 | 1.4 | NaN | NaN |
| Qwen1.5-7B | 42.1 | 9.21 | 1 | 1.4 | NaN | NaN |
| gemma-2b | 41.7 | 7.9 | 1 | 1.4 | NaN | NaN |
| stablelm-base-alpha-7b-v2 | 40.7 | 7.41 | 1 | 1.4 | NaN | NaN |
| stablelm-3b-4e1t | 39.7 | 7.24 | 1 | 1.4 | NaN | NaN |
| Qwen1.5-4B | 39.5 | 8.14 | 1 | 1.4 | NaN | NaN |
| pythia-12b-deduped-v0 | 38.1 | 6.73 | 1 | 1.4 | NaN | NaN |
| pythia-6.9b-deduped-v0 | 35.8 | 6.04 | 1 | 1.4 | NaN | NaN |
| Qwen1.5-1.8B | 34.3 | 6.18 | 1 | 1.4 | NaN | NaN |
| pythia-2.8b-deduped | 32.8 | 5.63 | 1 | 1.4 | NaN | NaN |
| Qwen1.5-0.5B | 29.4 | 4.66 | 1 | 1.3 | NaN | NaN |
| pythia-1.4b-deduped-v0 | 27.9 | 4.91 | 1 | 1.3 | NaN | NaN |
| pythia-1b-deduped | 27.2 | 4.43 | 1 | 1.3 | NaN | NaN |