swebench-verified: by models

Home Paper Code


SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

CDF of question level accuracy

Results table by model

model pass1 win_rate count SE(A) SE_x(A) SE_pred(A)
20250928_trae_doubao_seed_code 78.8 30.6 1 1.8 NaN NaN
20251120_livesweagent_gemini-3-pro-preview 77.4 29.3 1 1.9 NaN NaN
20250804_epam-ai-run-claude-4-sonnet 76.8 28.6 1 1.9 NaN NaN
20250902_atlassian-rovo-dev 76.8 28.5 1 1.9 NaN NaN
20250819_ACoder 76.4 28.2 1 1.9 NaN NaN
20250901_warp 75.6 28.1 1 1.9 NaN NaN
20250612_trae 75.2 27.2 1 1.9 NaN NaN
20251103_sonar-foundation-agent_claude-sonnet-4-5 74.8 27.4 1 1.9 NaN NaN
20250731_harness_ai 74.8 26.2 1 1.9 NaN NaN
20250915_JoyCode 74.6 27.3 1 1.9 NaN NaN
20250720_Lingxi-v1.5_claude-4-sonnet-20250514 74.6 26.4 1 1.9 NaN NaN
20251015_Prometheus_v1.2.1_gpt5 74.4 27.5 1 2 NaN NaN
20250603_Refact_Agent_claude-4-sonnet 74.4 26.4 1 2 NaN NaN
20251103_SalesforceAIResearch_SAGE_OpenHands 73.8 26.6 1 2 NaN NaN
20250522_tools_claude-4-opus 73.2 26.6 1 2 NaN NaN
20251021_SalesforceAIResearch_SAGE_bash_only 73 26.3 1 2 NaN NaN
20250522_tools_claude-4-sonnet 72.4 25.5 1 2 NaN NaN
20250807_openhands_gpt5 71.8 25.1 1 2 NaN NaN
20250715_qodo_command 71.2 24.5 1 2 NaN NaN
20250929_Prometheus_v1.2_gpt5 71.2 25.2 1 2 NaN NaN
20251014_Lingxi_kimi_k2 71.2 24.3 1 2 NaN NaN
20250710_bloop 71.2 24.3 1 2 NaN NaN
20250623_warp 71 24.4 1 2 NaN NaN
20250611_moatless_claude-4-sonnet-20250514 70.8 23.7 1 2 NaN NaN
20250519_trae 70.6 23.8 1 2 NaN NaN
20250515_Refact_Agent 70.4 23.5 1 2 NaN NaN
20250524_openhands_claude_4_sonnet 70.4 24.2 1 2 NaN NaN
20250610_augment_agent_v1 70.4 24.3 1 2 NaN NaN
20250519_devlo 70.2 23.4 1 2 NaN NaN
20250430_zencoder_ai 70 23.7 1 2 NaN NaN
20250805_openhands-Qwen3-Coder-480B-A35B-Instruct 69.6 23.7 1 2.1 NaN NaN
20250516_cortexa_o3 68.2 22.5 1 2.1 NaN NaN
20250930_zai_glm4-6 68.2 22.6 1 2.1 NaN NaN
20250522_sweagent_claude-4-sonnet-20250514 66.6 21.7 1 2.1 NaN NaN
20250514_aime_coder 66.4 21.3 1 2.1 NaN NaN
20250415_openhands 65.8 20.9 1 2.1 NaN NaN
20250316_augment_agent_v0 65.4 20.3 1 2.1 NaN NaN
20250405_amazon-q-developer-agent-20250405-dev 65.4 20.4 1 2.1 NaN NaN
20250716_openhands_kimi_k2 65.4 20.6 1 2.1 NaN NaN
20250503_patchpilot-v1.1-o4-mini 64.6 20.3 1 2.1 NaN NaN
20250117_wandb_programmer_o1_crosscheck5 64.6 20 1 2.1 NaN NaN
20250728_zai_glm4-5 64.2 20.1 1 2.1 NaN NaN
20250206_agentscope 63.4 18.8 1 2.2 NaN NaN
20250224_tools_claude-3-7-sonnet 63.2 19.4 1 2.2 NaN NaN
20250228_epam-ai-run-claude-3-5-sonnet 62.8 19.1 1 2.2 NaN NaN
20250110_blackboxai_agent_v1.1 62.8 19.8 1 2.2 NaN NaN
20250225_sweagent_claude-3-7-sonnet 62.4 18.6 1 2.2 NaN NaN
20241221_codestory_midwit_claude-3-5-sonnet_swe-search 62.2 18.6 1 2.2 NaN NaN
20250203_openhands_4x_scaled 60.8 17.7 1 2.2 NaN NaN
20250901_entroPO_R2E_QwenCoder30BA3B_tts 60.4 18.4 1 2.2 NaN NaN
20250110_learn_by_interact_claude3.5 60.2 20.2 1 2.2 NaN NaN
20250629_deepswerl_r2eagent_tts 58.8 17.3 1 2.2 NaN NaN
20241213_devlo 58.2 16.4 1 2.2 NaN NaN
20250410_cortexa 58.2 16.5 1 2.2 NaN NaN
20241223_emergent 57.2 15.5 1 2.2 NaN NaN
20241208_gru 57 15.8 1 2.2 NaN NaN
20250924_artemis_agent_v2 57 16.7 1 2.2 NaN NaN
20250405_swe-rizzo_claude37 56.6 15.9 1 2.2 NaN NaN
20241212_epam-ai-run-claude-3-5-sonnet 55.4 14.6 1 2.2 NaN NaN
20241202_amazon-q-developer-agent-20241202-dev 55 14.7 1 2.2 NaN NaN
20241108_devlo 54.2 14.4 1 2.2 NaN NaN
20251110_frogboss-32b 53.6 14.8 1 2.2 NaN NaN
20250804_codesweep_sweagent_kimi_k2_instruct 53.4 14.3 1 2.2 NaN NaN
20250120_Bracket 53.2 15.3 1 2.2 NaN NaN
20241029_OpenHands-CodeAct-2.1-sonnet-20241022 53 14.1 1 2.2 NaN NaN
20250901_entroPO_R2E_QwenCoder30BA3B 52.2 13.9 1 2.2 NaN NaN
20241212_google_jules_gemini_2.0_flash_experimental 52.2 14 1 2.2 NaN NaN
20241125_enginelabs 51.8 14.1 1 2.2 NaN NaN
20250122_autocoderover-v2.1-claude-3-5-sonnet-20241022 51.6 13.4 1 2.2 NaN NaN
20250805_openhands-Qwen3-Coder-30B-A3B-Instruct 51.6 13.4 1 2.2 NaN NaN
20241202_agentless-1.5_claude-3.5-sonnet-20241022 50.8 13.4 1 2.2 NaN NaN
20241028_solver 50 12.5 1 2.2 NaN NaN
20241125_marscode-agent-dev 50 12.9 1 2.2 NaN NaN
20241105_nfactorial 49.2 12.3 1 2.2 NaN NaN
20241022_tools_claude-3-5-sonnet-updated 49 12.3 1 2.2 NaN NaN
20241025_composio_swekit 48.6 11.9 1 2.2 NaN NaN
20241106_navie-2-gpt4o-sonnet 47.2 12.4 1 2.2 NaN NaN
20250616_Skywork-SWE-32B+TTS_Bo8 47 11.6 1 2.2 NaN NaN
20250520_openhands_devstral_small 46.8 11.5 1 2.2 NaN NaN
20241023_emergent 46.6 11.4 1 2.2 NaN NaN
20241108_autocoderover-v2.0-claude-3-5-sonnet-20241022 46.2 11.1 1 2.2 NaN NaN
20250528_patchpilot_Co-PatcheR 46 11 1 2.2 NaN NaN
20240924_solver 45.4 10.6 1 2.2 NaN NaN
20240824_gru 45.2 10.8 1 2.2 NaN NaN
20251110_frogmini-14b 45 10.8 1 2.2 NaN NaN
20250118_codeshellagent_gemini_2.0_flash_experimental 44.2 10.7 1 2.2 NaN NaN
20240920_solver 43.6 10.1 1 2.2 NaN NaN
20250527_amazon.nova-premier-v1.0 42.4 10.8 1 2.2 NaN NaN
20250214_agentless_lite_o3_mini 42.4 10.8 1 2.2 NaN NaN
20250629_deepswerl_r2eagent 42.2 10.7 1 2.2 NaN NaN
20250806_SWE-Exp_DeepSeek-V3 42 9.4 1 2.2 NaN NaN
20250112_ugaiforge 41.6 9.19 1 2.2 NaN NaN
20241030_nfactorial 41.6 9.89 1 2.2 NaN NaN
20250226_swerl_llama3_70b 41.2 9.81 1 2.2 NaN NaN
20241113_nebius-search-open-weight-models-11-24 40.6 8.92 1 2.2 NaN NaN
20241022_tools_claude-3-5-haiku 40.6 9.1 1 2.2 NaN NaN
20240820_honeycomb 40.6 9.62 1 2.2 NaN NaN
20241016_composio_swekit 40.6 8.85 1 2.2 NaN NaN
20250511_sweagent_lm_32b 40.2 8.71 1 2.2 NaN NaN
20241029_epam-ai-run-claude-3-5-sonnet 39.6 8.95 1 2.2 NaN NaN
20241028_agentless-1.5_gpt4o 38.8 8.72 1 2.2 NaN NaN
20240721_amazon-q-developer-agent-20240719-dev 38.8 9.11 1 2.2 NaN NaN
20240628_autocoderover-v20240620 38.4 8.98 1 2.2 NaN NaN
20250725_sweagent_devstral_small_2507 38 8.22 1 2.2 NaN NaN
20250616_Skywork-SWE-32B 38 8.51 1 2.2 NaN NaN
20240617_factory_code_droid 37 8.7 1 2.2 NaN NaN
20240620_sweagent_claude3.5sonnet 33.6 7.25 1 2.1 NaN NaN
20250306_SWE-Fixer_Qwen2.5-7b-retriever_Qwen2.5-72b-editor 32.8 6.95 1 2.1 NaN NaN
20240612_MASAI_gpt4o 32.6 6.99 1 2.1 NaN NaN
20241120_artemis_agent 32 6.74 1 2.1 NaN NaN
20241007_nfactorial 31.6 6.2 1 2.1 NaN NaN
20241128_SWE-Fixer_Qwen2.5-7b-retriever_Qwen2.5-72b-editor_20241128 30.2 6.2 1 2.1 NaN NaN
20241002_lingma-agent_lingma-swe-gpt-72b 28.8 5.9 1 2 NaN NaN
20241016_epam-ai-run-gpt-4o 27 5.54 1 2 NaN NaN
20240615_appmap-navie_gpt4o 26.2 5.17 1 2 NaN NaN
20241001_nfactorial 25.8 5.08 1 2 NaN NaN
20240509_amazon-q-developer-agent-20240430-dev 25.6 5.34 1 2 NaN NaN
20240918_lingma-agent_lingma-swe-gpt-72b 25 4.27 1 1.9 NaN NaN
20240820_epam-ai-run-gpt-4o 24 4.21 1 1.9 NaN NaN
20240728_sweagent_gpt4o 23.2 4.17 1 1.9 NaN NaN
20250627_agentless_MCTS-Refine-7B 23.2 6.11 1 1.9 NaN NaN
20240402_sweagent_gpt4 22.4 4 1 1.9 NaN NaN
20241002_lingma-agent_lingma-swe-gpt-7b 18.2 2.87 1 1.7 NaN NaN
20240402_sweagent_claude3opus 15.8 2.34 1 1.6 NaN NaN
20240918_lingma-agent_lingma-swe-gpt-7b 10.2 1.32 1 1.4 NaN NaN
20240402_rag_claude3opus 7 0.891 1 1.1 NaN NaN
20231010_rag_claude2 4.4 0.595 1 0.92 NaN NaN
20240402_rag_gpt4 2.8 0.355 1 0.74 NaN NaN
20231010_rag_swellama7b 1.4 0.398 1 0.53 NaN NaN
20231010_rag_swellama13b 1.2 0.252 1 0.49 NaN NaN
20231010_rag_gpt35 0.4 0.0585 1 0.28 NaN NaN