siqa: by models

Home Paper Code


SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

CDF of question level accuracy

Results table by model

model pass1 win_rate count SE(A) SE_x(A) SE_pred(A)
dbrx-base 66.2 22.7 1 1.1 NaN NaN
Qwen1.5-110B 58.8 16 1 1.1 NaN NaN
Qwen1.5-72B 57.2 14.7 1 1.1 NaN NaN
Qwen1.5-14B 56.9 16.8 1 1.1 NaN NaN
Qwen1.5-32B 56.9 14.9 1 1.1 NaN NaN
llama2_13B 53.5 10.5 1 1.1 NaN NaN
Qwen1.5-7B 53.5 11.8 1 1.1 NaN NaN
llama2_70B 52.5 9.51 1 1.1 NaN NaN
Meta-Llama-3-70B 52.3 8.45 1 1.1 NaN NaN
llama_65B 52.1 8.28 1 1.1 NaN NaN
gemma-7b 51.6 8.46 1 1.1 NaN NaN
Mixtral-8x22B-v0.1 51.4 7.93 1 1.1 NaN NaN
falcon-40b 51.3 8.08 1 1.1 NaN NaN
deepseek-llm-67b-base 50.8 7.56 1 1.1 NaN NaN
llama_13B 50.6 7.25 1 1.1 NaN NaN
Mixtral-8x7B-v0.1 50.4 7.15 1 1.1 NaN NaN
llama_33B 50.2 7.1 1 1.1 NaN NaN
llama2_07B 50 8.77 1 1.1 NaN NaN
Mistral-7B-v0.1 49.4 6.83 1 1.1 NaN NaN
deepseek-llm-7b-base 49 6.61 1 1.1 NaN NaN
Qwen1.5-4B 49 9.74 1 1.1 NaN NaN
Meta-Llama-3-8B 48.8 6.32 1 1.1 NaN NaN
llama_07B 48.8 6.64 1 1.1 NaN NaN
falcon-7b 48.7 6.37 1 1.1 NaN NaN
mpt-30b 48.5 6.48 1 1.1 NaN NaN
gemma-2b 47.6 6.34 1 1.1 NaN NaN
Qwen1.5-1.8B 47.2 9.4 1 1.1 NaN NaN
stablelm-base-alpha-7b-v2 47 5.67 1 1.1 NaN NaN
pythia-12b-deduped-v0 46.7 5.66 1 1.1 NaN NaN
deepseek-moe-16b-base 46.6 5.97 1 1.1 NaN NaN
stablelm-3b-4e1t 46.5 5.52 1 1.1 NaN NaN
Qwen1.5-0.5B 45.9 8.38 1 1.1 NaN NaN
pythia-6.9b-deduped-v0 45.5 5.39 1 1.1 NaN NaN
pythia-2.8b-deduped 45.3 5.86 1 1.1 NaN NaN
pythia-1b-deduped 44.3 5.77 1 1.1 NaN NaN
pythia-1.4b-deduped-v0 43.9 5.92 1 1.1 NaN NaN