mbpp+: by models

Home Paper Code


SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

CDF of question level accuracy

Results table by model

model pass1 win_rate count SE(A) SE_x(A) SE_pred(A)
gpt-4-1106-preview 74.1 23.9 1 2.3 NaN NaN
claude-3-opus-20240229 73.5 23.1 1 2.3 NaN NaN
deepseek-coder-33b-instruct 70.4 21.2 1 2.3 NaN NaN
claude-3-sonnet-20240229 69.8 20.2 1 2.4 NaN NaN
meta-llama-3-70b-instruct 69.6 19.3 1 2.4 NaN NaN
claude-3-haiku-20240307 69.3 20.1 1 2.4 NaN NaN
opencodeinterpreter-ds-33b 68.8 19.2 1 2.4 NaN NaN
white-rabbit-neo-33b-v1 67.5 18.5 1 2.4 NaN NaN
opencodeinterpreter-ds-6.7b 66.9 17.6 1 2.4 NaN NaN
xwincoder-34b 66.1 16.9 1 2.4 NaN NaN
deepseek-coder-6.7b-instruct 66.1 17.6 1 2.4 NaN NaN
bigcode--starcoder2-15b-instruct-v0.1 65.1 17.6 1 2.5 NaN NaN
HuggingFaceH4--starchat2-15b-v0.1 64.8 16.9 1 2.5 NaN NaN
code-millenials-34b 64.6 16.7 1 2.5 NaN NaN
mixtral-8x22b-instruct-v0.1 64.6 16.9 1 2.5 NaN NaN
wizardcoder-34b 63.8 15.9 1 2.5 NaN NaN
CohereForAI--c4ai-command-r-plus 63.8 17.1 1 2.5 NaN NaN
starcoder2-15b-oci 63.8 16.2 1 2.5 NaN NaN
speechless-starcoder2-15b 63 15.2 1 2.5 NaN NaN
Qwen--Qwen1.5-72B-Chat 62.4 15.4 1 2.5 NaN NaN
speechless-codellama-34b 61.4 14.5 1 2.5 NaN NaN
dolphin-2.6 60.1 13.9 1 2.5 NaN NaN
mistral-large-latest 59.8 15.8 1 2.5 NaN NaN
deepseek-coder-6.7b-base 59.5 13.7 1 2.5 NaN NaN
codegemma-7b-it 57.4 12.9 1 2.5 NaN NaN
speechless-starcoder2-7b 57.1 12.6 1 2.5 NaN NaN
code-llama-34b 56.9 12.9 1 2.5 NaN NaN
databricks--dbrx-instruct 56.3 13.8 1 2.6 NaN NaN
openchat 56.1 12.2 1 2.6 NaN NaN
phi-2 55.3 12 1 2.6 NaN NaN
code-llama-multi-34b 55 11.6 1 2.6 NaN NaN
wizardcoder-15b 54.8 11.6 1 2.6 NaN NaN
microsoft--Phi-3-mini-4k-instruct 54.5 13.5 1 2.6 NaN NaN
code-llama-multi-13b 54.5 11.4 1 2.6 NaN NaN
code-llama-13b 53.2 11.1 1 2.6 NaN NaN
codegemma-7b 52.4 11.4 1 2.6 NaN NaN
octocoder 51.3 10 1 2.6 NaN NaN
mixtral-8x7b-instruct 50.3 11.9 1 2.6 NaN NaN
wizardcoder-7b 50 9.48 1 2.6 NaN NaN
speechless-mistral-7b 49.2 10.2 1 2.6 NaN NaN
codet5p-16b 48.1 8.65 1 2.6 NaN NaN
codegemma-2b 47.9 9.53 1 2.6 NaN NaN
stable-code-3b 46.8 8.47 1 2.6 NaN NaN
open-hermes-2.5-code-290k-13b 46.8 10.1 1 2.6 NaN NaN
gemma-1.1-7b-it 46.6 8.85 1 2.6 NaN NaN
codegen-16b 46.3 8.51 1 2.6 NaN NaN
gemma-7b 45 8.73 1 2.6 NaN NaN
starcoder2-3b 44.4 8.26 1 2.6 NaN NaN
code-llama-multi-7b 44.2 7.61 1 2.6 NaN NaN
codegen-6b 43.7 7.7 1 2.6 NaN NaN
mistral-7b 42.9 7.01 1 2.5 NaN NaN
codet5p-6b 42.6 7.82 1 2.5 NaN NaN
xdan-l1-chat 41.8 7.6 1 2.5 NaN NaN
codet5p-2b 38.9 6.16 1 2.5 NaN NaN
mistralai--Mistral-7B-Instruct-v0.2 37.6 7 1 2.5 NaN NaN
solar-10.7b-instruct 37.6 6.41 1 2.5 NaN NaN
codegen-2b 37.3 5.65 1 2.5 NaN NaN
gemma-2b 35.4 5.42 1 2.5 NaN NaN
gemma-7b-it 33.1 6.01 1 2.4 NaN NaN