The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.
| model | pass1 | win_rate | count | SE(A) | SE_x(A) | SE_pred(A) |
|---|---|---|---|---|---|---|
| 20250928_trae_doubao_seed_code | 78.8 | 30.6 | 1 | 1.8 | NaN | NaN |
| 20251120_livesweagent_gemini-3-pro-preview | 77.4 | 29.3 | 1 | 1.9 | NaN | NaN |
| 20250804_epam-ai-run-claude-4-sonnet | 76.8 | 28.6 | 1 | 1.9 | NaN | NaN |
| 20250902_atlassian-rovo-dev | 76.8 | 28.5 | 1 | 1.9 | NaN | NaN |
| 20250819_ACoder | 76.4 | 28.2 | 1 | 1.9 | NaN | NaN |
| 20250901_warp | 75.6 | 28.1 | 1 | 1.9 | NaN | NaN |
| 20250612_trae | 75.2 | 27.2 | 1 | 1.9 | NaN | NaN |
| 20251103_sonar-foundation-agent_claude-sonnet-4-5 | 74.8 | 27.4 | 1 | 1.9 | NaN | NaN |
| 20250731_harness_ai | 74.8 | 26.2 | 1 | 1.9 | NaN | NaN |
| 20250915_JoyCode | 74.6 | 27.3 | 1 | 1.9 | NaN | NaN |
| 20250720_Lingxi-v1.5_claude-4-sonnet-20250514 | 74.6 | 26.4 | 1 | 1.9 | NaN | NaN |
| 20251015_Prometheus_v1.2.1_gpt5 | 74.4 | 27.5 | 1 | 2 | NaN | NaN |
| 20250603_Refact_Agent_claude-4-sonnet | 74.4 | 26.4 | 1 | 2 | NaN | NaN |
| 20251103_SalesforceAIResearch_SAGE_OpenHands | 73.8 | 26.6 | 1 | 2 | NaN | NaN |
| 20250522_tools_claude-4-opus | 73.2 | 26.6 | 1 | 2 | NaN | NaN |
| 20251021_SalesforceAIResearch_SAGE_bash_only | 73 | 26.3 | 1 | 2 | NaN | NaN |
| 20250522_tools_claude-4-sonnet | 72.4 | 25.5 | 1 | 2 | NaN | NaN |
| 20250807_openhands_gpt5 | 71.8 | 25.1 | 1 | 2 | NaN | NaN |
| 20250715_qodo_command | 71.2 | 24.5 | 1 | 2 | NaN | NaN |
| 20250929_Prometheus_v1.2_gpt5 | 71.2 | 25.2 | 1 | 2 | NaN | NaN |
| 20251014_Lingxi_kimi_k2 | 71.2 | 24.3 | 1 | 2 | NaN | NaN |
| 20250710_bloop | 71.2 | 24.3 | 1 | 2 | NaN | NaN |
| 20250623_warp | 71 | 24.4 | 1 | 2 | NaN | NaN |
| 20250611_moatless_claude-4-sonnet-20250514 | 70.8 | 23.7 | 1 | 2 | NaN | NaN |
| 20250519_trae | 70.6 | 23.8 | 1 | 2 | NaN | NaN |
| 20250515_Refact_Agent | 70.4 | 23.5 | 1 | 2 | NaN | NaN |
| 20250524_openhands_claude_4_sonnet | 70.4 | 24.2 | 1 | 2 | NaN | NaN |
| 20250610_augment_agent_v1 | 70.4 | 24.3 | 1 | 2 | NaN | NaN |
| 20250519_devlo | 70.2 | 23.4 | 1 | 2 | NaN | NaN |
| 20250430_zencoder_ai | 70 | 23.7 | 1 | 2 | NaN | NaN |
| 20250805_openhands-Qwen3-Coder-480B-A35B-Instruct | 69.6 | 23.7 | 1 | 2.1 | NaN | NaN |
| 20250516_cortexa_o3 | 68.2 | 22.5 | 1 | 2.1 | NaN | NaN |
| 20250930_zai_glm4-6 | 68.2 | 22.6 | 1 | 2.1 | NaN | NaN |
| 20250522_sweagent_claude-4-sonnet-20250514 | 66.6 | 21.7 | 1 | 2.1 | NaN | NaN |
| 20250514_aime_coder | 66.4 | 21.3 | 1 | 2.1 | NaN | NaN |
| 20250415_openhands | 65.8 | 20.9 | 1 | 2.1 | NaN | NaN |
| 20250316_augment_agent_v0 | 65.4 | 20.3 | 1 | 2.1 | NaN | NaN |
| 20250405_amazon-q-developer-agent-20250405-dev | 65.4 | 20.4 | 1 | 2.1 | NaN | NaN |
| 20250716_openhands_kimi_k2 | 65.4 | 20.6 | 1 | 2.1 | NaN | NaN |
| 20250503_patchpilot-v1.1-o4-mini | 64.6 | 20.3 | 1 | 2.1 | NaN | NaN |
| 20250117_wandb_programmer_o1_crosscheck5 | 64.6 | 20 | 1 | 2.1 | NaN | NaN |
| 20250728_zai_glm4-5 | 64.2 | 20.1 | 1 | 2.1 | NaN | NaN |
| 20250206_agentscope | 63.4 | 18.8 | 1 | 2.2 | NaN | NaN |
| 20250224_tools_claude-3-7-sonnet | 63.2 | 19.4 | 1 | 2.2 | NaN | NaN |
| 20250228_epam-ai-run-claude-3-5-sonnet | 62.8 | 19.1 | 1 | 2.2 | NaN | NaN |
| 20250110_blackboxai_agent_v1.1 | 62.8 | 19.8 | 1 | 2.2 | NaN | NaN |
| 20250225_sweagent_claude-3-7-sonnet | 62.4 | 18.6 | 1 | 2.2 | NaN | NaN |
| 20241221_codestory_midwit_claude-3-5-sonnet_swe-search | 62.2 | 18.6 | 1 | 2.2 | NaN | NaN |
| 20250203_openhands_4x_scaled | 60.8 | 17.7 | 1 | 2.2 | NaN | NaN |
| 20250901_entroPO_R2E_QwenCoder30BA3B_tts | 60.4 | 18.4 | 1 | 2.2 | NaN | NaN |
| 20250110_learn_by_interact_claude3.5 | 60.2 | 20.2 | 1 | 2.2 | NaN | NaN |
| 20250629_deepswerl_r2eagent_tts | 58.8 | 17.3 | 1 | 2.2 | NaN | NaN |
| 20241213_devlo | 58.2 | 16.4 | 1 | 2.2 | NaN | NaN |
| 20250410_cortexa | 58.2 | 16.5 | 1 | 2.2 | NaN | NaN |
| 20241223_emergent | 57.2 | 15.5 | 1 | 2.2 | NaN | NaN |
| 20241208_gru | 57 | 15.8 | 1 | 2.2 | NaN | NaN |
| 20250924_artemis_agent_v2 | 57 | 16.7 | 1 | 2.2 | NaN | NaN |
| 20250405_swe-rizzo_claude37 | 56.6 | 15.9 | 1 | 2.2 | NaN | NaN |
| 20241212_epam-ai-run-claude-3-5-sonnet | 55.4 | 14.6 | 1 | 2.2 | NaN | NaN |
| 20241202_amazon-q-developer-agent-20241202-dev | 55 | 14.7 | 1 | 2.2 | NaN | NaN |
| 20241108_devlo | 54.2 | 14.4 | 1 | 2.2 | NaN | NaN |
| 20251110_frogboss-32b | 53.6 | 14.8 | 1 | 2.2 | NaN | NaN |
| 20250804_codesweep_sweagent_kimi_k2_instruct | 53.4 | 14.3 | 1 | 2.2 | NaN | NaN |
| 20250120_Bracket | 53.2 | 15.3 | 1 | 2.2 | NaN | NaN |
| 20241029_OpenHands-CodeAct-2.1-sonnet-20241022 | 53 | 14.1 | 1 | 2.2 | NaN | NaN |
| 20250901_entroPO_R2E_QwenCoder30BA3B | 52.2 | 13.9 | 1 | 2.2 | NaN | NaN |
| 20241212_google_jules_gemini_2.0_flash_experimental | 52.2 | 14 | 1 | 2.2 | NaN | NaN |
| 20241125_enginelabs | 51.8 | 14.1 | 1 | 2.2 | NaN | NaN |
| 20250122_autocoderover-v2.1-claude-3-5-sonnet-20241022 | 51.6 | 13.4 | 1 | 2.2 | NaN | NaN |
| 20250805_openhands-Qwen3-Coder-30B-A3B-Instruct | 51.6 | 13.4 | 1 | 2.2 | NaN | NaN |
| 20241202_agentless-1.5_claude-3.5-sonnet-20241022 | 50.8 | 13.4 | 1 | 2.2 | NaN | NaN |
| 20241028_solver | 50 | 12.5 | 1 | 2.2 | NaN | NaN |
| 20241125_marscode-agent-dev | 50 | 12.9 | 1 | 2.2 | NaN | NaN |
| 20241105_nfactorial | 49.2 | 12.3 | 1 | 2.2 | NaN | NaN |
| 20241022_tools_claude-3-5-sonnet-updated | 49 | 12.3 | 1 | 2.2 | NaN | NaN |
| 20241025_composio_swekit | 48.6 | 11.9 | 1 | 2.2 | NaN | NaN |
| 20241106_navie-2-gpt4o-sonnet | 47.2 | 12.4 | 1 | 2.2 | NaN | NaN |
| 20250616_Skywork-SWE-32B+TTS_Bo8 | 47 | 11.6 | 1 | 2.2 | NaN | NaN |
| 20250520_openhands_devstral_small | 46.8 | 11.5 | 1 | 2.2 | NaN | NaN |
| 20241023_emergent | 46.6 | 11.4 | 1 | 2.2 | NaN | NaN |
| 20241108_autocoderover-v2.0-claude-3-5-sonnet-20241022 | 46.2 | 11.1 | 1 | 2.2 | NaN | NaN |
| 20250528_patchpilot_Co-PatcheR | 46 | 11 | 1 | 2.2 | NaN | NaN |
| 20240924_solver | 45.4 | 10.6 | 1 | 2.2 | NaN | NaN |
| 20240824_gru | 45.2 | 10.8 | 1 | 2.2 | NaN | NaN |
| 20251110_frogmini-14b | 45 | 10.8 | 1 | 2.2 | NaN | NaN |
| 20250118_codeshellagent_gemini_2.0_flash_experimental | 44.2 | 10.7 | 1 | 2.2 | NaN | NaN |
| 20240920_solver | 43.6 | 10.1 | 1 | 2.2 | NaN | NaN |
| 20250527_amazon.nova-premier-v1.0 | 42.4 | 10.8 | 1 | 2.2 | NaN | NaN |
| 20250214_agentless_lite_o3_mini | 42.4 | 10.8 | 1 | 2.2 | NaN | NaN |
| 20250629_deepswerl_r2eagent | 42.2 | 10.7 | 1 | 2.2 | NaN | NaN |
| 20250806_SWE-Exp_DeepSeek-V3 | 42 | 9.4 | 1 | 2.2 | NaN | NaN |
| 20250112_ugaiforge | 41.6 | 9.19 | 1 | 2.2 | NaN | NaN |
| 20241030_nfactorial | 41.6 | 9.89 | 1 | 2.2 | NaN | NaN |
| 20250226_swerl_llama3_70b | 41.2 | 9.81 | 1 | 2.2 | NaN | NaN |
| 20241113_nebius-search-open-weight-models-11-24 | 40.6 | 8.92 | 1 | 2.2 | NaN | NaN |
| 20241022_tools_claude-3-5-haiku | 40.6 | 9.1 | 1 | 2.2 | NaN | NaN |
| 20240820_honeycomb | 40.6 | 9.62 | 1 | 2.2 | NaN | NaN |
| 20241016_composio_swekit | 40.6 | 8.85 | 1 | 2.2 | NaN | NaN |
| 20250511_sweagent_lm_32b | 40.2 | 8.71 | 1 | 2.2 | NaN | NaN |
| 20241029_epam-ai-run-claude-3-5-sonnet | 39.6 | 8.95 | 1 | 2.2 | NaN | NaN |
| 20241028_agentless-1.5_gpt4o | 38.8 | 8.72 | 1 | 2.2 | NaN | NaN |
| 20240721_amazon-q-developer-agent-20240719-dev | 38.8 | 9.11 | 1 | 2.2 | NaN | NaN |
| 20240628_autocoderover-v20240620 | 38.4 | 8.98 | 1 | 2.2 | NaN | NaN |
| 20250725_sweagent_devstral_small_2507 | 38 | 8.22 | 1 | 2.2 | NaN | NaN |
| 20250616_Skywork-SWE-32B | 38 | 8.51 | 1 | 2.2 | NaN | NaN |
| 20240617_factory_code_droid | 37 | 8.7 | 1 | 2.2 | NaN | NaN |
| 20240620_sweagent_claude3.5sonnet | 33.6 | 7.25 | 1 | 2.1 | NaN | NaN |
| 20250306_SWE-Fixer_Qwen2.5-7b-retriever_Qwen2.5-72b-editor | 32.8 | 6.95 | 1 | 2.1 | NaN | NaN |
| 20240612_MASAI_gpt4o | 32.6 | 6.99 | 1 | 2.1 | NaN | NaN |
| 20241120_artemis_agent | 32 | 6.74 | 1 | 2.1 | NaN | NaN |
| 20241007_nfactorial | 31.6 | 6.2 | 1 | 2.1 | NaN | NaN |
| 20241128_SWE-Fixer_Qwen2.5-7b-retriever_Qwen2.5-72b-editor_20241128 | 30.2 | 6.2 | 1 | 2.1 | NaN | NaN |
| 20241002_lingma-agent_lingma-swe-gpt-72b | 28.8 | 5.9 | 1 | 2 | NaN | NaN |
| 20241016_epam-ai-run-gpt-4o | 27 | 5.54 | 1 | 2 | NaN | NaN |
| 20240615_appmap-navie_gpt4o | 26.2 | 5.17 | 1 | 2 | NaN | NaN |
| 20241001_nfactorial | 25.8 | 5.08 | 1 | 2 | NaN | NaN |
| 20240509_amazon-q-developer-agent-20240430-dev | 25.6 | 5.34 | 1 | 2 | NaN | NaN |
| 20240918_lingma-agent_lingma-swe-gpt-72b | 25 | 4.27 | 1 | 1.9 | NaN | NaN |
| 20240820_epam-ai-run-gpt-4o | 24 | 4.21 | 1 | 1.9 | NaN | NaN |
| 20240728_sweagent_gpt4o | 23.2 | 4.17 | 1 | 1.9 | NaN | NaN |
| 20250627_agentless_MCTS-Refine-7B | 23.2 | 6.11 | 1 | 1.9 | NaN | NaN |
| 20240402_sweagent_gpt4 | 22.4 | 4 | 1 | 1.9 | NaN | NaN |
| 20241002_lingma-agent_lingma-swe-gpt-7b | 18.2 | 2.87 | 1 | 1.7 | NaN | NaN |
| 20240402_sweagent_claude3opus | 15.8 | 2.34 | 1 | 1.6 | NaN | NaN |
| 20240918_lingma-agent_lingma-swe-gpt-7b | 10.2 | 1.32 | 1 | 1.4 | NaN | NaN |
| 20240402_rag_claude3opus | 7 | 0.891 | 1 | 1.1 | NaN | NaN |
| 20231010_rag_claude2 | 4.4 | 0.595 | 1 | 0.92 | NaN | NaN |
| 20240402_rag_gpt4 | 2.8 | 0.355 | 1 | 0.74 | NaN | NaN |
| 20231010_rag_swellama7b | 1.4 | 0.398 | 1 | 0.53 | NaN | NaN |
| 20231010_rag_swellama13b | 1.2 | 0.252 | 1 | 0.49 | NaN | NaN |
| 20231010_rag_gpt35 | 0.4 | 0.0585 | 1 | 0.28 | NaN | NaN |