mbpp: by models

Home Paper Code

SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

CDF of question level accuracy

Results table by model

model	pass1	win_rate	count	SE(A)	SE_x(A)	SE_pred(A)
claude-3-opus-20240229	89.4	26.5	1	1.6	NaN	NaN
gpt-4-1106-preview	85.7	24.4	1	1.8	NaN	NaN
claude-3-sonnet-20240229	83.6	22.5	1	1.9	NaN	NaN
meta-llama-3-70b-instruct	82.3	21.3	1	2	NaN	NaN
deepseek-coder-33b-instruct	80.4	21.3	1	2	NaN	NaN
claude-3-haiku-20240307	80.2	21.3	1	2.1	NaN	NaN
opencodeinterpreter-ds-33b	80.2	20.6	1	2.1	NaN	NaN
white-rabbit-neo-33b-v1	79.4	19.8	1	2.1	NaN	NaN
bigcode--starcoder2-15b-instruct-v0.1	78	19.1	1	2.1	NaN	NaN
xwincoder-34b	77	18.1	1	2.2	NaN	NaN
opencodeinterpreter-ds-6.7b	76.5	17.7	1	2.2	NaN	NaN
code-millenials-34b	76.2	17.5	1	2.2	NaN	NaN
wizardcoder-34b	75.1	17.5	1	2.2	NaN	NaN
deepseek-coder-6.7b-instruct	74.9	17	1	2.2	NaN	NaN
HuggingFaceH4--starchat2-15b-v0.1	74.9	17.4	1	2.2	NaN	NaN
starcoder2-15b-oci	74.3	16.8	1	2.2	NaN	NaN
CohereForAI--c4ai-command-r-plus	74.3	17.7	1	2.2	NaN	NaN
mixtral-8x22b-instruct-v0.1	73.8	17.1	1	2.3	NaN	NaN
speechless-codellama-34b	73.8	16.6	1	2.3	NaN	NaN
speechless-starcoder2-15b	73.5	16.1	1	2.3	NaN	NaN
mistral-large-latest	72.8	17.9	1	2.3	NaN	NaN
Qwen--Qwen1.5-72B-Chat	72.5	15.5	1	2.3	NaN	NaN
deepseek-coder-6.7b-base	72	15.5	1	2.3	NaN	NaN
dolphin-2.6	70.6	14.9	1	2.3	NaN	NaN
codegemma-7b-it	70.4	15.1	1	2.3	NaN	NaN
code-llama-34b	69.3	14.6	1	2.4	NaN	NaN
databricks--dbrx-instruct	67.2	14.3	1	2.4	NaN	NaN
speechless-starcoder2-7b	66.7	13.6	1	2.4	NaN	NaN
code-llama-multi-34b	66.7	13.2	1	2.4	NaN	NaN
microsoft--Phi-3-mini-4k-instruct	65.9	14.7	1	2.4	NaN	NaN
codegemma-7b	65.1	13.2	1	2.5	NaN	NaN
wizardcoder-15b	64.3	12	1	2.5	NaN	NaN
phi-2	64	12.4	1	2.5	NaN	NaN
openchat	63.8	12	1	2.5	NaN	NaN
code-llama-13b	63.5	12	1	2.5	NaN	NaN
code-llama-multi-13b	63	11.5	1	2.5	NaN	NaN
mixtral-8x7b-instruct	59.5	12.3	1	2.5	NaN	NaN
octocoder	59.3	9.86	1	2.5	NaN	NaN
wizardcoder-7b	58.5	10	1	2.5	NaN	NaN
speechless-mistral-7b	57.4	10.3	1	2.5	NaN	NaN
gemma-1.1-7b-it	57.1	10.6	1	2.5	NaN	NaN
codet5p-16b	56.6	8.68	1	2.5	NaN	NaN
codegemma-2b	55.6	9	1	2.6	NaN	NaN
stable-code-3b	54.8	8.35	1	2.6	NaN	NaN
codegen-16b	54.2	8.82	1	2.6	NaN	NaN
code-llama-multi-7b	53.7	8.69	1	2.6	NaN	NaN
starcoder2-3b	53.4	9.68	1	2.6	NaN	NaN
codet5p-6b	52.9	8.88	1	2.6	NaN	NaN
gemma-7b	52.6	8.61	1	2.6	NaN	NaN
open-hermes-2.5-code-290k-13b	52.4	9.1	1	2.6	NaN	NaN
mistral-7b	51.9	7.37	1	2.6	NaN	NaN
codegen-6b	50.8	7.68	1	2.6	NaN	NaN
xdan-l1-chat	50.3	8.23	1	2.6	NaN	NaN
codet5p-2b	48.4	7.5	1	2.6	NaN	NaN
codegen-2b	46.3	6.97	1	2.6	NaN	NaN
mistralai--Mistral-7B-Instruct-v0.2	44.7	6.68	1	2.6	NaN	NaN
solar-10.7b-instruct	43.9	6.21	1	2.6	NaN	NaN
gemma-2b	41.8	5.29	1	2.5	NaN	NaN
gemma-7b-it	39.7	6.51	1	2.5	NaN	NaN