humaneval: by models

Home Paper Code


SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

CDF of question level accuracy

Results table by model

model pass1 win_rate count SE(A) SE_x(A) SE_pred(A)
claude-3-opus-20240229 82.9 36.5 1 2.9 NaN NaN
deepseek-coder-33b-instruct 81.7 36 1 3 NaN NaN
opencodeinterpreter-ds-33b 77.4 32.7 1 3.3 NaN NaN
speechless-codellama-34b 77.4 32.3 1 3.3 NaN NaN
meta-llama-3-70b-instruct 77.4 32.4 1 3.3 NaN NaN
claude-3-haiku-20240307 76.8 32.8 1 3.3 NaN NaN
gpt-3.5-turbo 76.8 32.5 1 3.3 NaN NaN
mixtral-8x22b-instruct-v0.1 76.2 32.3 1 3.3 NaN NaN
deepseek-coder-7b-instruct-v1.5 75.6 31.2 1 3.4 NaN NaN
xwincoder-34b 75.6 31.2 1 3.4 NaN NaN
deepseek-coder-6.7b-instruct 74.4 32.1 1 3.4 NaN NaN
code-millenials-34b 74.4 31.4 1 3.4 NaN NaN
opencodeinterpreter-ds-6.7b 74.4 30.1 1 3.4 NaN NaN
HuggingFaceH4--starchat2-15b-v0.1 73.8 30.3 1 3.4 NaN NaN
openchat 72.6 29.2 1 3.5 NaN NaN
white-rabbit-neo-33b-v1 72 29.2 1 3.5 NaN NaN
code-llama-70b-instruct 72 29.1 1 3.5 NaN NaN
codebooga-34b 71.3 28.1 1 3.5 NaN NaN
speechless-coder-ds-6.7b 71.3 27.6 1 3.5 NaN NaN
claude-3-sonnet-20240229 70.7 29 1 3.6 NaN NaN
mistral-large-latest 69.5 27.8 1 3.6 NaN NaN
Qwen--Qwen1.5-72B-Chat 68.3 26.5 1 3.6 NaN NaN
bigcode--starcoder2-15b-instruct-v0.1 67.7 26.1 1 3.7 NaN NaN
speechless-starcoder2-15b 67.1 26.4 1 3.7 NaN NaN
deepseek-coder-1.3b-instruct 65.9 24.7 1 3.7 NaN NaN
microsoft--Phi-3-mini-4k-instruct 64.6 24.8 1 3.7 NaN NaN
codegemma-7b-it 60.4 20.9 1 3.8 NaN NaN
wizardcoder-15b 56.7 19.2 1 3.9 NaN NaN
code-13b 56.1 19.6 1 3.9 NaN NaN
speechless-starcoder2-7b 56.1 19.4 1 3.9 NaN NaN
speechless-coding-7b-16k-tora 54.9 18.4 1 3.9 NaN NaN
code-33b 54.9 19.6 1 3.9 NaN NaN
Qwen1.5-110B 54.3 18 1 3.9 NaN NaN
open-hermes-2.5-code-290k-13b 54.3 18 1 3.9 NaN NaN
deepseek-coder-33b 51.2 17.2 1 3.9 NaN NaN
wizardcoder-7b 50.6 16.3 1 3.9 NaN NaN
phi-2 49.4 15.8 1 3.9 NaN NaN
code-llama-multi-34b 48.2 14.6 1 3.9 NaN NaN
mistral-7b-codealpaca 48.2 16.2 1 3.9 NaN NaN
speechless-mistral-7b 48.2 14.3 1 3.9 NaN NaN
dbrx-base 47 14.6 1 3.9 NaN NaN
starcoder2-15b-oci 47 13.9 1 3.9 NaN NaN
mixtral-8x7b-instruct 45.1 15.1 1 3.9 NaN NaN
codegemma-7b 44.5 16.9 1 3.9 NaN NaN
Qwen1.5-72B 44.5 12.8 1 3.9 NaN NaN
solar-10.7b-instruct 43.3 13.5 1 3.9 NaN NaN
gemma-1.1-7b-it 42.7 12.1 1 3.9 NaN NaN
deepseek-llm-67b-base 42.7 12 1 3.9 NaN NaN
mistralai--Mistral-7B-Instruct-v0.2 42.1 12.8 1 3.9 NaN NaN
Meta-Llama-3-70B 41.5 12.7 1 3.8 NaN NaN
Qwen1.5-14B 40.2 10.8 1 3.8 NaN NaN
Mixtral-8x22B-v0.1 40.2 11 1 3.8 NaN NaN
Qwen1.5-32B 40.2 10.7 1 3.8 NaN NaN
xdan-l1-chat 40.2 11.3 1 3.8 NaN NaN
code-llama-multi-13b 37.8 10 1 3.8 NaN NaN
octocoder 37.2 9.08 1 3.8 NaN NaN
Qwen1.5-7B 36.6 8.52 1 3.8 NaN NaN
Meta-Llama-3-8B 35.4 8.51 1 3.7 NaN NaN
gemma-7b 34.8 8.85 1 3.7 NaN NaN
Mixtral-8x7B-v0.1 33.5 6.85 1 3.7 NaN NaN
python-code-13b 32.9 8.44 1 3.7 NaN NaN
llama2_70B 32.3 8.81 1 3.7 NaN NaN
Mistral-7B-v0.1 27.4 4.43 1 3.5 NaN NaN
Qwen1.5-4B 25.6 3.67 1 3.4 NaN NaN
mpt-30b 25.6 5.19 1 3.4 NaN NaN
llama_65B 25.6 4.16 1 3.4 NaN NaN
deepseek-llm-7b-base 24.4 3.44 1 3.4 NaN NaN
gemma-2b 23.2 3.29 1 3.3 NaN NaN
deepseek-moe-16b-base 23.2 3.87 1 3.3 NaN NaN
Qwen1.5-1.8B 21.3 3.6 1 3.2 NaN NaN
llama_33B 20.7 3.41 1 3.2 NaN NaN
llama2_13B 18.9 3.29 1 3.1 NaN NaN
llama_13B 16.5 1.51 1 2.9 NaN NaN
stablelm-3b-4e1t 15.9 1.83 1 2.9 NaN NaN
stablelm-base-alpha-7b-v2 15.2 1.71 1 2.8 NaN NaN
llama2_07B 14 1.23 1 2.7 NaN NaN
llama_07B 12.8 1.23 1 2.6 NaN NaN
Qwen1.5-0.5B 11.6 0.76 1 2.5 NaN NaN