nq: by models

Home Paper Code


SE predicted by accuracy

The typical standard errors between pairs of models on this dataset as a function of the absolute accuracy.

CDF of question level accuracy

Results table by model

model pass1 win_rate count SE(A) SE_x(A) SE_pred(A)
dbrx-base 48.8 28.5 1 0.83 NaN NaN
Meta-Llama-3-70B 43.2 22.5 1 0.82 NaN NaN
Mixtral-8x22B-v0.1 42.2 21.4 1 0.82 NaN NaN
Qwen1.5-110B 41.6 21 1 0.82 NaN NaN
llama_65B 38.2 18.4 1 0.81 NaN NaN
deepseek-llm-67b-base 37.7 17.8 1 0.81 NaN NaN
Mixtral-8x7B-v0.1 36.9 17.2 1 0.8 NaN NaN
Qwen1.5-72B 35.9 16.8 1 0.8 NaN NaN
llama_33B 34.8 15.6 1 0.79 NaN NaN
llama2_70B 33.3 15.4 1 0.78 NaN NaN
falcon-40b 33.3 14.5 1 0.78 NaN NaN
Qwen1.5-32B 30.7 13.1 1 0.77 NaN NaN
Meta-Llama-3-8B 29.9 12.3 1 0.76 NaN NaN
Mistral-7B-v0.1 29.2 11.9 1 0.76 NaN NaN
llama_13B 28.6 11.7 1 0.75 NaN NaN
llama2_13B 27 11.3 1 0.74 NaN NaN
deepseek-moe-16b-base 26.8 10.5 1 0.74 NaN NaN
mpt-30b 26.1 10.2 1 0.73 NaN NaN
gemma-7b 24.8 9.63 1 0.72 NaN NaN
Qwen1.5-14B 23.6 8.98 1 0.71 NaN NaN
falcon-7b 22.6 8.25 1 0.7 NaN NaN
llama_07B 22.5 8.16 1 0.7 NaN NaN
llama2_07B 22.3 8.5 1 0.69 NaN NaN
deepseek-llm-7b-base 22.1 8.07 1 0.69 NaN NaN
Qwen1.5-7B 19.1 6.88 1 0.65 NaN NaN
stablelm-3b-4e1t 17.6 6.06 1 0.63 NaN NaN
stablelm-base-alpha-7b-v2 16.8 5.81 1 0.62 NaN NaN
Qwen1.5-4B 15.8 5.25 1 0.61 NaN NaN
gemma-2b 14.4 4.81 1 0.58 NaN NaN
pythia-12b-deduped-v0 10.4 3.21 1 0.51 NaN NaN
Qwen1.5-1.8B 10.1 3.13 1 0.5 NaN NaN
pythia-6.9b-deduped-v0 8.84 2.85 1 0.47 NaN NaN
pythia-2.8b-deduped 6.48 1.84 1 0.41 NaN NaN
Qwen1.5-0.5B 5.43 1.71 1 0.38 NaN NaN
pythia-1b-deduped 3.71 1.34 1 0.31 NaN NaN
pythia-1.4b-deduped-v0 2.33 0.766 1 0.25 NaN NaN