A medida que se acelera el desarrollo y despliegue de grandes modelos lingüísticos (LLMs), la evaluación de los resultados de los modelos se ha vuelto cada vez más importante. El método establecido para evaluar las respuestas normalmente implica reclutar y entrenar a evaluadores humanos, hacer que evalúen las respuestas del modelo y luego auditar la calidad de las evaluaciones. Por desgracia, este proceso no