tqa: by models

Home Paper Code


SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

CDF of question level accuracy

Results table by model

model pass1 win_rate count SE(A) SE_x(A) SE_pred(A)
dbrx-base 78.2 26.4 1 0.39 NaN NaN
Meta-Llama-3-70B 77.6 25.7 1 0.39 NaN NaN
Mixtral-8x22B-v0.1 77 25.3 1 0.4 NaN NaN
Qwen1.5-110B 74.6 23.2 1 0.41 NaN NaN
llama_65B 73.3 22.5 1 0.42 NaN NaN
Mixtral-8x7B-v0.1 73.1 22.2 1 0.42 NaN NaN
deepseek-llm-67b-base 72.9 21.9 1 0.42 NaN NaN
llama_33B 70.7 20.5 1 0.43 NaN NaN
Qwen1.5-72B 70.7 20.8 1 0.43 NaN NaN
llama2_70B 68.7 19.8 1 0.44 NaN NaN
falcon-40b 67.5 18.4 1 0.44 NaN NaN
Qwen1.5-32B 65.5 17.4 1 0.45 NaN NaN
Meta-Llama-3-8B 65.4 17 1 0.45 NaN NaN
Mistral-7B-v0.1 64.2 16.2 1 0.45 NaN NaN
llama_13B 63.6 16.1 1 0.45 NaN NaN
mpt-30b 60.8 14.6 1 0.46 NaN NaN
llama2_13B 60.4 14.9 1 0.46 NaN NaN
gemma-7b 60.3 14.7 1 0.46 NaN NaN
deepseek-moe-16b-base 59.1 13.7 1 0.46 NaN NaN
llama_07B 56.4 12.5 1 0.47 NaN NaN
deepseek-llm-7b-base 54.4 11.5 1 0.47 NaN NaN
Qwen1.5-14B 54 11.7 1 0.47 NaN NaN
llama2_07B 52.6 11.3 1 0.47 NaN NaN
falcon-7b 52.2 10.5 1 0.47 NaN NaN
stablelm-base-alpha-7b-v2 49.6 9.56 1 0.47 NaN NaN
stablelm-3b-4e1t 48.7 9.34 1 0.47 NaN NaN
Qwen1.5-7B 48.1 9.38 1 0.47 NaN NaN
gemma-2b 42.8 7.5 1 0.47 NaN NaN
Qwen1.5-4B 39.4 6.68 1 0.46 NaN NaN
pythia-12b-deduped-v0 37.8 6.01 1 0.46 NaN NaN
pythia-6.9b-deduped-v0 33.2 4.82 1 0.44 NaN NaN
Qwen1.5-1.8B 26.2 3.37 1 0.41 NaN NaN
pythia-2.8b-deduped 24.1 3.02 1 0.4 NaN NaN
pythia-1b-deduped 14.7 1.74 1 0.33 NaN NaN
Qwen1.5-0.5B 13.4 1.51 1 0.32 NaN NaN
pythia-1.4b-deduped-v0 12.7 1.32 1 0.31 NaN NaN