model pass1 pass@count win_rate count SE(A) SE_x(A) SE_pred(A)
claude-3-5-sonnet-20240620 54.3 54.3 32.2 1 1.6 NaN NaN
gpt-4-turbo-2024-04-09 54 54 31.1 1 1.6 NaN NaN
deepseek-ai-deepseek-coder-V2-SFT 53.2 53.2 30.5 1 1.6 NaN NaN
Qwen-Qwen2-72B-Instruct 52.8 52.8 30.2 1 1.6 NaN NaN
mistralai-Codestral-22B-v0.1 51.2 51.2 28.7 1 1.6 NaN NaN
gpt-4-0613 51 51 29.1 1 1.6 NaN NaN
meta-llama-Llama-3-70b-chat-hf 48.6 48.6 27.6 1 1.6 NaN NaN
deepseek-ai-deepseek-coder-V2-Base 46.7 46.7 25.3 1 1.6 NaN NaN
microsoft-wavecoder-ultra-6.7b 46 46 25 1 1.6 NaN NaN
deepseek-ai-deepseek-coder-33b-instruct 45.4 45.4 25.2 1 1.6 NaN NaN
m-a-p-OpenCodeInterpreter-DS-6.7B 42 42 22.1 1 1.6 NaN NaN
deepseek-ai-deepseek-coder-33b-base 41.7 41.7 20.9 1 1.6 NaN NaN
meta-llama-Llama-3-70B 40.9 40.9 21 1 1.6 NaN NaN
deepseek-ai-deepseek-llm-67b-chat 40.7 40.7 21 1 1.6 NaN NaN
microsoft-Phi-3-medium-4k-instruct 40.6 40.6 20.3 1 1.6 NaN NaN
Phind-Phind-CodeLlama-34B-v2 40.4 40.4 21 1 1.6 NaN NaN
Qwen-Qwen1.5-110B-Chat 40.2 40.2 20.1 1 1.6 NaN NaN
mistralai-Mixtral-8x22B 40 40 19.8 1 1.5 NaN NaN
codellama-CodeLlama-70b-hf 39.8 39.8 20.1 1 1.5 NaN NaN
m-a-p-OpenCodeInterpreter-CL-7B 39.5 39.5 21 1 1.5 NaN NaN
gpt-3.5-turbo-0125 39.4 39.4 20.8 1 1.5 NaN NaN
m-a-p-OpenCodeInterpreter-SC2-7B 38.9 38.9 22.1 1 1.5 NaN NaN
codellama-CodeLlama-34b-Python-hf 38.9 38.9 19.4 1 1.5 NaN NaN
codellama-CodeLlama-70b-Python-hf 38.9 38.9 19.5 1 1.5 NaN NaN
gpt-3.5-turbo-0613 38.6 38.6 19.8 1 1.5 NaN NaN
codex002 38.6 38.6 18.5 1 1.5 NaN NaN
m-a-p-OpenCodeInterpreter-SC2-3B 38.6 38.6 20.5 1 1.5 NaN NaN
deepseek-ai-deepseek-V2-chat 38.5 38.5 19.7 1 1.5 NaN NaN
microsoft-Phi-3-small-8k-instruct 37.7 37.7 18.5 1 1.5 NaN NaN
bigcode-starcoder2-15b 37 37 17.9 1 1.5 NaN NaN
WizardLM-WizardCoder-Python-34B-V1.0 36.7 36.7 18.2 1 1.5 NaN NaN
Qwen-Qwen1.5-72B-Chat 35.5 35.5 16.6 1 1.5 NaN NaN
google-codegemma-7b 34.8 34.8 15.8 1 1.5 NaN NaN
ibm-granite-granite-34b-code-base 34.8 34.8 16.4 1 1.5 NaN NaN
codellama-CodeLlama-34b-hf 34.6 34.6 15.9 1 1.5 NaN NaN
Qwen-Qwen1.5-72B 34.3 34.3 16 1 1.5 NaN NaN
deepseek-ai-deepseek-coder-7b-base-v1.5 34.2 34.2 15.4 1 1.5 NaN NaN
ibm-granite-granite-8b-code-base 33.8 33.8 15.5 1 1.5 NaN NaN
Qwen-Qwen1.5-32B-Chat 32.8 32.8 15.3 1 1.5 NaN NaN
microsoft-wavecoder-ds-6.7b 32.8 32.8 15.5 1 1.5 NaN NaN
microsoft-Phi-3-mini-4k-instruct 32.1 32.1 15 1 1.5 NaN NaN
meta-llama-Llama-3-8B 31.5 31.5 14.3 1 1.5 NaN NaN
bigcode-starcoder2-7b 31.4 31.4 13.7 1 1.5 NaN NaN
microsoft-Phi-3-mini-128k-instruct 31.3 31.3 14.7 1 1.5 NaN NaN
microsoft-wavecoder-pro-6.7b 31.2 31.2 14.8 1 1.5 NaN NaN
deepseek-ai-deepseek-coder-6.7b-base 31.1 31.1 13.4 1 1.5 NaN NaN
Qwen-Qwen2-7B 31 31 13.2 1 1.5 NaN NaN
codellama-CodeLlama-13b-Python-hf 31 31 13.5 1 1.5 NaN NaN
deepseek-ai-deepseek-coder-V2-Lite-Base 30.5 30.5 13.3 1 1.5 NaN NaN
openchat-openchat-3.5-0106 30.3 30.3 13.9 1 1.5 NaN NaN
ibm-granite-granite-20b-code-base 30 30 13.5 1 1.4 NaN NaN
google-codegemma-1.1-7b-it 29.7 29.7 13.7 1 1.4 NaN NaN
Doubao-pro-4k 29.1 29.1 14 1 1.4 NaN NaN
mistralai-Mixtral-8x7B-v0.1 28.8 28.8 12.4 1 1.4 NaN NaN
Qwen-Qwen1.5-32B 28.5 28.5 12.2 1 1.4 NaN NaN
codellama-CodeLlama-13b-hf 27.8 27.8 11.8 1 1.4 NaN NaN
Qwen-CodeQwen1.5-7B 27.6 27.6 12 1 1.4 NaN NaN
bigcode-starcoder2-3b 27.3 27.3 11.5 1 1.4 NaN NaN
google-codegemma-7b-it 26.2 26.2 11.6 1 1.4 NaN NaN
google-gemma-7b 26.1 26.1 10.7 1 1.4 NaN NaN
codellama-CodeLlama-7b-Python-hf 26 26 10.7 1 1.4 NaN NaN
stabilityai-stable-code-3b 25.6 25.6 10.7 1 1.4 NaN NaN
meta-llama-Llama-2-70b-hf 25.2 25.2 10.1 1 1.4 NaN NaN
m-a-p-OpenCodeInterpreter-DS-1.3B 25 25 11.3 1 1.4 NaN NaN
Qwen-Qwen1.5-14B 24.8 24.8 9.89 1 1.4 NaN NaN
THUDM-codegeex2-6b 24.1 24.1 9.74 1 1.4 NaN NaN
deepseek-ai-deepseek-coder-V2-Instruct 23.3 23.3 10.9 1 1.3 NaN NaN
claude-3-sonnet-20240229 23.2 23.2 10.3 1 1.3 NaN NaN
codellama-CodeLlama-7b-hf 22.9 22.9 8.85 1 1.3 NaN NaN
ibm-granite-granite-3b-code-base 22.8 22.8 8.61 1 1.3 NaN NaN
claude-3-opus-20240229 21.6 21.6 9.72 1 1.3 NaN NaN
microsoft-phi-2 21.5 21.5 8.36 1 1.3 NaN NaN
Qwen-Qwen1.5-14B-Chat 21.4 21.4 8.92 1 1.3 NaN NaN
Qwen-Qwen1.5-7B 20.1 20.1 7.42 1 1.3 NaN NaN
gpt-4o-2024-05-13 20.1 20.1 9.52 1 1.3 NaN NaN
mistralai-Mixtral-8x22B-Instruct-v0.1 19.9 19.9 10.8 1 1.3 NaN NaN
mistralai-Mistral-7B-v0.3 19.7 19.7 7.48 1 1.3 NaN NaN
google-gemma-1.1-7b-it 18.3 18.3 7.47 1 1.2 NaN NaN
meta-llama-Llama-3-8b-chat-hf 17.8 17.8 7.77 1 1.2 NaN NaN
deepseek-ai-deepseek-coder-1.3b-base 17.5 17.5 6.11 1 1.2 NaN NaN
deepseek-ai-deepseek-V2-Lite 16.9 16.9 6.1 1 1.2 NaN NaN
google-codegemma-1.1-2b 16.6 16.6 6.08 1 1.2 NaN NaN
claude-3-haiku-20240307 16.3 16.3 6.6 1 1.2 NaN NaN
Doubao-lite-4k 15.7 15.7 6.11 1 1.2 NaN NaN
Salesforce-codegen25-7b-mono_P 15.6 15.6 5.94 1 1.1 NaN NaN
google-codegemma-2b 13.3 13.3 4.58 1 1.1 NaN NaN
Qwen-Qwen2-1.5B 11.8 11.8 4.42 1 1 NaN NaN
meta-llama-Llama-2-13b-hf 11.6 11.6 3.95 1 1 NaN NaN
google-gemma-7b-it 11.4 11.4 3.96 1 1 NaN NaN
google-gemma-2b 10.3 10.3 3.11 1 0.96 NaN NaN
microsoft-phi-1 9.1 9.1 2.7 1 0.91 NaN NaN
ERNIE-Speed-8K 8.8 8.8 2.96 1 0.9 NaN NaN
codellama-CodeLlama-70b-Instruct-hf 8.7 8.7 3.28 1 0.89 NaN NaN
google-gemma-1.1-2b-it 8.5 8.5 2.98 1 0.88 NaN NaN
microsoft-phi-1_5 8.3 8.3 2.75 1 0.87 NaN NaN
codellama-CodeLlama-13b-Instruct-hf 7.9 7.9 2.86 1 0.85 NaN NaN
meta-llama-Llama-2-7b-hf 6.9 6.9 2.11 1 0.8 NaN NaN
mistralai-Mistral-7B-Instruct-v0.3 6.9 6.9 1.82 1 0.8 NaN NaN
meta-llama-Llama-2-7b-chat-hf 6.4 6.4 1.92 1 0.77 NaN NaN
google-gemma-2b-it 6 6 1.89 1 0.75 NaN NaN
smallcloudai-Refact-1_6B-fim 5.7 5.7 1.97 1 0.73 NaN NaN
codellama-CodeLlama-34b-Instruct-hf 5.2 5.2 1.53 1 0.7 NaN NaN
Qwen-Qwen2-0.5B 3.9 3.9 0.808 1 0.61 NaN NaN
mistralai-Mixtral-8x7B-Instruct-v0.1 3.7 3.7 1.16 1 0.6 NaN NaN
meta-llama-Llama-2-70b-chat-hf 3.7 3.7 1.2 1 0.6 NaN NaN