Constructvalidity

Quantifying construct validity in large language model evaluations

• LLM benchmarks often misrepresent true model capabilities due to contamination and annotator errors. • Construct validity is essential to ensure benchmarks truly measure desired