The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.
| model | pass1 | win_rate | count | SE(A) | SE_x(A) | SE_pred(A) |
|---|---|---|---|---|---|---|
| gpt-4-1106-preview | 74.1 | 23.9 | 1 | 2.3 | NaN | NaN |
| claude-3-opus-20240229 | 73.5 | 23.1 | 1 | 2.3 | NaN | NaN |
| deepseek-coder-33b-instruct | 70.4 | 21.2 | 1 | 2.3 | NaN | NaN |
| claude-3-sonnet-20240229 | 69.8 | 20.2 | 1 | 2.4 | NaN | NaN |
| meta-llama-3-70b-instruct | 69.6 | 19.3 | 1 | 2.4 | NaN | NaN |
| claude-3-haiku-20240307 | 69.3 | 20.1 | 1 | 2.4 | NaN | NaN |
| opencodeinterpreter-ds-33b | 68.8 | 19.2 | 1 | 2.4 | NaN | NaN |
| white-rabbit-neo-33b-v1 | 67.5 | 18.5 | 1 | 2.4 | NaN | NaN |
| opencodeinterpreter-ds-6.7b | 66.9 | 17.6 | 1 | 2.4 | NaN | NaN |
| xwincoder-34b | 66.1 | 16.9 | 1 | 2.4 | NaN | NaN |
| deepseek-coder-6.7b-instruct | 66.1 | 17.6 | 1 | 2.4 | NaN | NaN |
| bigcode--starcoder2-15b-instruct-v0.1 | 65.1 | 17.6 | 1 | 2.5 | NaN | NaN |
| HuggingFaceH4--starchat2-15b-v0.1 | 64.8 | 16.9 | 1 | 2.5 | NaN | NaN |
| code-millenials-34b | 64.6 | 16.7 | 1 | 2.5 | NaN | NaN |
| mixtral-8x22b-instruct-v0.1 | 64.6 | 16.9 | 1 | 2.5 | NaN | NaN |
| wizardcoder-34b | 63.8 | 15.9 | 1 | 2.5 | NaN | NaN |
| CohereForAI--c4ai-command-r-plus | 63.8 | 17.1 | 1 | 2.5 | NaN | NaN |
| starcoder2-15b-oci | 63.8 | 16.2 | 1 | 2.5 | NaN | NaN |
| speechless-starcoder2-15b | 63 | 15.2 | 1 | 2.5 | NaN | NaN |
| Qwen--Qwen1.5-72B-Chat | 62.4 | 15.4 | 1 | 2.5 | NaN | NaN |
| speechless-codellama-34b | 61.4 | 14.5 | 1 | 2.5 | NaN | NaN |
| dolphin-2.6 | 60.1 | 13.9 | 1 | 2.5 | NaN | NaN |
| mistral-large-latest | 59.8 | 15.8 | 1 | 2.5 | NaN | NaN |
| deepseek-coder-6.7b-base | 59.5 | 13.7 | 1 | 2.5 | NaN | NaN |
| codegemma-7b-it | 57.4 | 12.9 | 1 | 2.5 | NaN | NaN |
| speechless-starcoder2-7b | 57.1 | 12.6 | 1 | 2.5 | NaN | NaN |
| code-llama-34b | 56.9 | 12.9 | 1 | 2.5 | NaN | NaN |
| databricks--dbrx-instruct | 56.3 | 13.8 | 1 | 2.6 | NaN | NaN |
| openchat | 56.1 | 12.2 | 1 | 2.6 | NaN | NaN |
| phi-2 | 55.3 | 12 | 1 | 2.6 | NaN | NaN |
| code-llama-multi-34b | 55 | 11.6 | 1 | 2.6 | NaN | NaN |
| wizardcoder-15b | 54.8 | 11.6 | 1 | 2.6 | NaN | NaN |
| microsoft--Phi-3-mini-4k-instruct | 54.5 | 13.5 | 1 | 2.6 | NaN | NaN |
| code-llama-multi-13b | 54.5 | 11.4 | 1 | 2.6 | NaN | NaN |
| code-llama-13b | 53.2 | 11.1 | 1 | 2.6 | NaN | NaN |
| codegemma-7b | 52.4 | 11.4 | 1 | 2.6 | NaN | NaN |
| octocoder | 51.3 | 10 | 1 | 2.6 | NaN | NaN |
| mixtral-8x7b-instruct | 50.3 | 11.9 | 1 | 2.6 | NaN | NaN |
| wizardcoder-7b | 50 | 9.48 | 1 | 2.6 | NaN | NaN |
| speechless-mistral-7b | 49.2 | 10.2 | 1 | 2.6 | NaN | NaN |
| codet5p-16b | 48.1 | 8.65 | 1 | 2.6 | NaN | NaN |
| codegemma-2b | 47.9 | 9.53 | 1 | 2.6 | NaN | NaN |
| stable-code-3b | 46.8 | 8.47 | 1 | 2.6 | NaN | NaN |
| open-hermes-2.5-code-290k-13b | 46.8 | 10.1 | 1 | 2.6 | NaN | NaN |
| gemma-1.1-7b-it | 46.6 | 8.85 | 1 | 2.6 | NaN | NaN |
| codegen-16b | 46.3 | 8.51 | 1 | 2.6 | NaN | NaN |
| gemma-7b | 45 | 8.73 | 1 | 2.6 | NaN | NaN |
| starcoder2-3b | 44.4 | 8.26 | 1 | 2.6 | NaN | NaN |
| code-llama-multi-7b | 44.2 | 7.61 | 1 | 2.6 | NaN | NaN |
| codegen-6b | 43.7 | 7.7 | 1 | 2.6 | NaN | NaN |
| mistral-7b | 42.9 | 7.01 | 1 | 2.5 | NaN | NaN |
| codet5p-6b | 42.6 | 7.82 | 1 | 2.5 | NaN | NaN |
| xdan-l1-chat | 41.8 | 7.6 | 1 | 2.5 | NaN | NaN |
| codet5p-2b | 38.9 | 6.16 | 1 | 2.5 | NaN | NaN |
| mistralai--Mistral-7B-Instruct-v0.2 | 37.6 | 7 | 1 | 2.5 | NaN | NaN |
| solar-10.7b-instruct | 37.6 | 6.41 | 1 | 2.5 | NaN | NaN |
| codegen-2b | 37.3 | 5.65 | 1 | 2.5 | NaN | NaN |
| gemma-2b | 35.4 | 5.42 | 1 | 2.5 | NaN | NaN |
| gemma-7b-it | 33.1 | 6.01 | 1 | 2.4 | NaN | NaN |