humaneval: by models

Home Paper Code

SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

CDF of question level accuracy

Results table by model

model	pass1	win_rate	count	SE(A)	SE_x(A)	SE_pred(A)
claude-3-opus-20240229	82.9	36.5	1	2.9	NaN	NaN
deepseek-coder-33b-instruct	81.7	36	1	3	NaN	NaN
opencodeinterpreter-ds-33b	77.4	32.7	1	3.3	NaN	NaN
speechless-codellama-34b	77.4	32.3	1	3.3	NaN	NaN
meta-llama-3-70b-instruct	77.4	32.4	1	3.3	NaN	NaN
claude-3-haiku-20240307	76.8	32.8	1	3.3	NaN	NaN
gpt-3.5-turbo	76.8	32.5	1	3.3	NaN	NaN
mixtral-8x22b-instruct-v0.1	76.2	32.3	1	3.3	NaN	NaN
deepseek-coder-7b-instruct-v1.5	75.6	31.2	1	3.4	NaN	NaN
xwincoder-34b	75.6	31.2	1	3.4	NaN	NaN
deepseek-coder-6.7b-instruct	74.4	32.1	1	3.4	NaN	NaN
code-millenials-34b	74.4	31.4	1	3.4	NaN	NaN
opencodeinterpreter-ds-6.7b	74.4	30.1	1	3.4	NaN	NaN
HuggingFaceH4--starchat2-15b-v0.1	73.8	30.3	1	3.4	NaN	NaN
openchat	72.6	29.2	1	3.5	NaN	NaN
white-rabbit-neo-33b-v1	72	29.2	1	3.5	NaN	NaN
code-llama-70b-instruct	72	29.1	1	3.5	NaN	NaN
codebooga-34b	71.3	28.1	1	3.5	NaN	NaN
speechless-coder-ds-6.7b	71.3	27.6	1	3.5	NaN	NaN
claude-3-sonnet-20240229	70.7	29	1	3.6	NaN	NaN
mistral-large-latest	69.5	27.8	1	3.6	NaN	NaN
Qwen--Qwen1.5-72B-Chat	68.3	26.5	1	3.6	NaN	NaN
bigcode--starcoder2-15b-instruct-v0.1	67.7	26.1	1	3.7	NaN	NaN
speechless-starcoder2-15b	67.1	26.4	1	3.7	NaN	NaN
deepseek-coder-1.3b-instruct	65.9	24.7	1	3.7	NaN	NaN
microsoft--Phi-3-mini-4k-instruct	64.6	24.8	1	3.7	NaN	NaN
codegemma-7b-it	60.4	20.9	1	3.8	NaN	NaN
wizardcoder-15b	56.7	19.2	1	3.9	NaN	NaN
code-13b	56.1	19.6	1	3.9	NaN	NaN
speechless-starcoder2-7b	56.1	19.4	1	3.9	NaN	NaN
speechless-coding-7b-16k-tora	54.9	18.4	1	3.9	NaN	NaN
code-33b	54.9	19.6	1	3.9	NaN	NaN
Qwen1.5-110B	54.3	18	1	3.9	NaN	NaN
open-hermes-2.5-code-290k-13b	54.3	18	1	3.9	NaN	NaN
deepseek-coder-33b	51.2	17.2	1	3.9	NaN	NaN
wizardcoder-7b	50.6	16.3	1	3.9	NaN	NaN
phi-2	49.4	15.8	1	3.9	NaN	NaN
code-llama-multi-34b	48.2	14.6	1	3.9	NaN	NaN
mistral-7b-codealpaca	48.2	16.2	1	3.9	NaN	NaN
speechless-mistral-7b	48.2	14.3	1	3.9	NaN	NaN
dbrx-base	47	14.6	1	3.9	NaN	NaN
starcoder2-15b-oci	47	13.9	1	3.9	NaN	NaN
mixtral-8x7b-instruct	45.1	15.1	1	3.9	NaN	NaN
codegemma-7b	44.5	16.9	1	3.9	NaN	NaN
Qwen1.5-72B	44.5	12.8	1	3.9	NaN	NaN
solar-10.7b-instruct	43.3	13.5	1	3.9	NaN	NaN
gemma-1.1-7b-it	42.7	12.1	1	3.9	NaN	NaN
deepseek-llm-67b-base	42.7	12	1	3.9	NaN	NaN
mistralai--Mistral-7B-Instruct-v0.2	42.1	12.8	1	3.9	NaN	NaN
Meta-Llama-3-70B	41.5	12.7	1	3.8	NaN	NaN
Qwen1.5-14B	40.2	10.8	1	3.8	NaN	NaN
Mixtral-8x22B-v0.1	40.2	11	1	3.8	NaN	NaN
Qwen1.5-32B	40.2	10.7	1	3.8	NaN	NaN
xdan-l1-chat	40.2	11.3	1	3.8	NaN	NaN
code-llama-multi-13b	37.8	10	1	3.8	NaN	NaN
octocoder	37.2	9.08	1	3.8	NaN	NaN
Qwen1.5-7B	36.6	8.52	1	3.8	NaN	NaN
Meta-Llama-3-8B	35.4	8.51	1	3.7	NaN	NaN
gemma-7b	34.8	8.85	1	3.7	NaN	NaN
Mixtral-8x7B-v0.1	33.5	6.85	1	3.7	NaN	NaN
python-code-13b	32.9	8.44	1	3.7	NaN	NaN
llama2_70B	32.3	8.81	1	3.7	NaN	NaN
Mistral-7B-v0.1	27.4	4.43	1	3.5	NaN	NaN
Qwen1.5-4B	25.6	3.67	1	3.4	NaN	NaN
mpt-30b	25.6	5.19	1	3.4	NaN	NaN
llama_65B	25.6	4.16	1	3.4	NaN	NaN
deepseek-llm-7b-base	24.4	3.44	1	3.4	NaN	NaN
gemma-2b	23.2	3.29	1	3.3	NaN	NaN
deepseek-moe-16b-base	23.2	3.87	1	3.3	NaN	NaN
Qwen1.5-1.8B	21.3	3.6	1	3.2	NaN	NaN
llama_33B	20.7	3.41	1	3.2	NaN	NaN
llama2_13B	18.9	3.29	1	3.1	NaN	NaN
llama_13B	16.5	1.51	1	2.9	NaN	NaN
stablelm-3b-4e1t	15.9	1.83	1	2.9	NaN	NaN
stablelm-base-alpha-7b-v2	15.2	1.71	1	2.8	NaN	NaN
llama2_07B	14	1.23	1	2.7	NaN	NaN
llama_07B	12.8	1.23	1	2.6	NaN	NaN
Qwen1.5-0.5B	11.6	0.76	1	2.5	NaN	NaN