The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.
| model | pass1 | win_rate | count | SE(A) | SE_x(A) | SE_pred(A) |
|---|---|---|---|---|---|---|
| claude-3-opus-20240229 | 82.9 | 36.5 | 1 | 2.9 | NaN | NaN |
| deepseek-coder-33b-instruct | 81.7 | 36 | 1 | 3 | NaN | NaN |
| opencodeinterpreter-ds-33b | 77.4 | 32.7 | 1 | 3.3 | NaN | NaN |
| speechless-codellama-34b | 77.4 | 32.3 | 1 | 3.3 | NaN | NaN |
| meta-llama-3-70b-instruct | 77.4 | 32.4 | 1 | 3.3 | NaN | NaN |
| claude-3-haiku-20240307 | 76.8 | 32.8 | 1 | 3.3 | NaN | NaN |
| gpt-3.5-turbo | 76.8 | 32.5 | 1 | 3.3 | NaN | NaN |
| mixtral-8x22b-instruct-v0.1 | 76.2 | 32.3 | 1 | 3.3 | NaN | NaN |
| deepseek-coder-7b-instruct-v1.5 | 75.6 | 31.2 | 1 | 3.4 | NaN | NaN |
| xwincoder-34b | 75.6 | 31.2 | 1 | 3.4 | NaN | NaN |
| deepseek-coder-6.7b-instruct | 74.4 | 32.1 | 1 | 3.4 | NaN | NaN |
| code-millenials-34b | 74.4 | 31.4 | 1 | 3.4 | NaN | NaN |
| opencodeinterpreter-ds-6.7b | 74.4 | 30.1 | 1 | 3.4 | NaN | NaN |
| HuggingFaceH4--starchat2-15b-v0.1 | 73.8 | 30.3 | 1 | 3.4 | NaN | NaN |
| openchat | 72.6 | 29.2 | 1 | 3.5 | NaN | NaN |
| white-rabbit-neo-33b-v1 | 72 | 29.2 | 1 | 3.5 | NaN | NaN |
| code-llama-70b-instruct | 72 | 29.1 | 1 | 3.5 | NaN | NaN |
| codebooga-34b | 71.3 | 28.1 | 1 | 3.5 | NaN | NaN |
| speechless-coder-ds-6.7b | 71.3 | 27.6 | 1 | 3.5 | NaN | NaN |
| claude-3-sonnet-20240229 | 70.7 | 29 | 1 | 3.6 | NaN | NaN |
| mistral-large-latest | 69.5 | 27.8 | 1 | 3.6 | NaN | NaN |
| Qwen--Qwen1.5-72B-Chat | 68.3 | 26.5 | 1 | 3.6 | NaN | NaN |
| bigcode--starcoder2-15b-instruct-v0.1 | 67.7 | 26.1 | 1 | 3.7 | NaN | NaN |
| speechless-starcoder2-15b | 67.1 | 26.4 | 1 | 3.7 | NaN | NaN |
| deepseek-coder-1.3b-instruct | 65.9 | 24.7 | 1 | 3.7 | NaN | NaN |
| microsoft--Phi-3-mini-4k-instruct | 64.6 | 24.8 | 1 | 3.7 | NaN | NaN |
| codegemma-7b-it | 60.4 | 20.9 | 1 | 3.8 | NaN | NaN |
| wizardcoder-15b | 56.7 | 19.2 | 1 | 3.9 | NaN | NaN |
| code-13b | 56.1 | 19.6 | 1 | 3.9 | NaN | NaN |
| speechless-starcoder2-7b | 56.1 | 19.4 | 1 | 3.9 | NaN | NaN |
| speechless-coding-7b-16k-tora | 54.9 | 18.4 | 1 | 3.9 | NaN | NaN |
| code-33b | 54.9 | 19.6 | 1 | 3.9 | NaN | NaN |
| Qwen1.5-110B | 54.3 | 18 | 1 | 3.9 | NaN | NaN |
| open-hermes-2.5-code-290k-13b | 54.3 | 18 | 1 | 3.9 | NaN | NaN |
| deepseek-coder-33b | 51.2 | 17.2 | 1 | 3.9 | NaN | NaN |
| wizardcoder-7b | 50.6 | 16.3 | 1 | 3.9 | NaN | NaN |
| phi-2 | 49.4 | 15.8 | 1 | 3.9 | NaN | NaN |
| code-llama-multi-34b | 48.2 | 14.6 | 1 | 3.9 | NaN | NaN |
| mistral-7b-codealpaca | 48.2 | 16.2 | 1 | 3.9 | NaN | NaN |
| speechless-mistral-7b | 48.2 | 14.3 | 1 | 3.9 | NaN | NaN |
| dbrx-base | 47 | 14.6 | 1 | 3.9 | NaN | NaN |
| starcoder2-15b-oci | 47 | 13.9 | 1 | 3.9 | NaN | NaN |
| mixtral-8x7b-instruct | 45.1 | 15.1 | 1 | 3.9 | NaN | NaN |
| codegemma-7b | 44.5 | 16.9 | 1 | 3.9 | NaN | NaN |
| Qwen1.5-72B | 44.5 | 12.8 | 1 | 3.9 | NaN | NaN |
| solar-10.7b-instruct | 43.3 | 13.5 | 1 | 3.9 | NaN | NaN |
| gemma-1.1-7b-it | 42.7 | 12.1 | 1 | 3.9 | NaN | NaN |
| deepseek-llm-67b-base | 42.7 | 12 | 1 | 3.9 | NaN | NaN |
| mistralai--Mistral-7B-Instruct-v0.2 | 42.1 | 12.8 | 1 | 3.9 | NaN | NaN |
| Meta-Llama-3-70B | 41.5 | 12.7 | 1 | 3.8 | NaN | NaN |
| Qwen1.5-14B | 40.2 | 10.8 | 1 | 3.8 | NaN | NaN |
| Mixtral-8x22B-v0.1 | 40.2 | 11 | 1 | 3.8 | NaN | NaN |
| Qwen1.5-32B | 40.2 | 10.7 | 1 | 3.8 | NaN | NaN |
| xdan-l1-chat | 40.2 | 11.3 | 1 | 3.8 | NaN | NaN |
| code-llama-multi-13b | 37.8 | 10 | 1 | 3.8 | NaN | NaN |
| octocoder | 37.2 | 9.08 | 1 | 3.8 | NaN | NaN |
| Qwen1.5-7B | 36.6 | 8.52 | 1 | 3.8 | NaN | NaN |
| Meta-Llama-3-8B | 35.4 | 8.51 | 1 | 3.7 | NaN | NaN |
| gemma-7b | 34.8 | 8.85 | 1 | 3.7 | NaN | NaN |
| Mixtral-8x7B-v0.1 | 33.5 | 6.85 | 1 | 3.7 | NaN | NaN |
| python-code-13b | 32.9 | 8.44 | 1 | 3.7 | NaN | NaN |
| llama2_70B | 32.3 | 8.81 | 1 | 3.7 | NaN | NaN |
| Mistral-7B-v0.1 | 27.4 | 4.43 | 1 | 3.5 | NaN | NaN |
| Qwen1.5-4B | 25.6 | 3.67 | 1 | 3.4 | NaN | NaN |
| mpt-30b | 25.6 | 5.19 | 1 | 3.4 | NaN | NaN |
| llama_65B | 25.6 | 4.16 | 1 | 3.4 | NaN | NaN |
| deepseek-llm-7b-base | 24.4 | 3.44 | 1 | 3.4 | NaN | NaN |
| gemma-2b | 23.2 | 3.29 | 1 | 3.3 | NaN | NaN |
| deepseek-moe-16b-base | 23.2 | 3.87 | 1 | 3.3 | NaN | NaN |
| Qwen1.5-1.8B | 21.3 | 3.6 | 1 | 3.2 | NaN | NaN |
| llama_33B | 20.7 | 3.41 | 1 | 3.2 | NaN | NaN |
| llama2_13B | 18.9 | 3.29 | 1 | 3.1 | NaN | NaN |
| llama_13B | 16.5 | 1.51 | 1 | 2.9 | NaN | NaN |
| stablelm-3b-4e1t | 15.9 | 1.83 | 1 | 2.9 | NaN | NaN |
| stablelm-base-alpha-7b-v2 | 15.2 | 1.71 | 1 | 2.8 | NaN | NaN |
| llama2_07B | 14 | 1.23 | 1 | 2.7 | NaN | NaN |
| llama_07B | 12.8 | 1.23 | 1 | 2.6 | NaN | NaN |
| Qwen1.5-0.5B | 11.6 | 0.76 | 1 | 2.5 | NaN | NaN |