agi_english: by models

Home Paper Code


SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

CDF of question level accuracy

Results table by model

model pass1 win_rate count SE(A) SE_x(A) SE_pred(A)
Qwen1.5-110B 65.2 33.6 1 0.94 NaN NaN
Meta-Llama-3-70B 63.7 32.4 1 0.95 NaN NaN
Qwen1.5-72B 63.2 32 1 0.96 NaN NaN
Qwen1.5-32B 61.4 31 1 0.97 NaN NaN
Mixtral-8x22B-v0.1 61.2 30.8 1 0.97 NaN NaN
dbrx-base 55.9 26.9 1 0.98 NaN NaN
deepseek-llm-67b-base 55.5 26.9 1 0.98 NaN NaN
Qwen1.5-14B 54.7 26.1 1 0.99 NaN NaN
Mixtral-8x7B-v0.1 50.4 23.5 1 0.99 NaN NaN
llama2_70B 48.9 22.7 1 0.99 NaN NaN
llama_65B 48.4 21.8 1 0.99 NaN NaN
Qwen1.5-7B 48.2 22 1 0.99 NaN NaN
Meta-Llama-3-8B 47.4 21.9 1 0.99 NaN NaN
gemma-7b 45.3 20.8 1 0.99 NaN NaN
Mistral-7B-v0.1 44 19.4 1 0.98 NaN NaN
Qwen1.5-4B 42.9 18.9 1 0.98 NaN NaN
llama_33B 41.4 18.6 1 0.98 NaN NaN
llama2_13B 38 16.6 1 0.96 NaN NaN
llama2_07B 34.8 16.1 1 0.94 NaN NaN
deepseek-llm-7b-base 34.3 15.2 1 0.94 NaN NaN
Qwen1.5-1.8B 34.1 15.9 1 0.94 NaN NaN
mpt-30b 34.1 15.3 1 0.94 NaN NaN
llama_13B 31.6 14.4 1 0.92 NaN NaN
stablelm-base-alpha-7b-v2 31.3 14.4 1 0.92 NaN NaN
stablelm-3b-4e1t 29.9 13.4 1 0.91 NaN NaN
deepseek-moe-16b-base 29.7 14 1 0.91 NaN NaN
Qwen1.5-0.5B 29.4 13.9 1 0.9 NaN NaN
gemma-2b 27.3 15 1 0.88 NaN NaN
llama_07B 24.6 12.7 1 0.85 NaN NaN
pythia-12b-deduped-v0 24.5 13.2 1 0.85 NaN NaN
pythia-2.8b-deduped 23.5 13.2 1 0.84 NaN NaN
pythia-6.9b-deduped-v0 23.4 12.9 1 0.84 NaN NaN
falcon-7b 22.9 12.5 1 0.83 NaN NaN
pythia-1b-deduped 22.3 12.5 1 0.83 NaN NaN
pythia-1.4b-deduped-v0 22 12.1 1 0.82 NaN NaN