Jueces olímpicos: ¿justos o parcializados?

Preocupado por la idea de que las mejores actuaciones en los eventos olímpicos fueran determinadas por opiniones subjetivas de los jueces, un especialista en estadística de Minitab analiza los resultados de dos eventos para evaluar si los jueces fueron consistentes e imparciales.

por Joel Smith, representante senior de desarrollo de negocios

Saltos ornamentalesAlrededor de las 3:00 p.m. del 29 de julio, dos saltadoras se pararán al borde de trampolines de tres metros ubicados uno al lado del otro y, en formación sincronizada, ambas doblarán, girarán y voltearán en el aire antes de entrar a la piscina del complejo acuático London Aquatics Center salpicando la menor cantidad de agua que sea posible. Un panel de jueces evaluará de manera independiente la ejecución del salto, y sus puntuaciones serán presentadas a todos los espectadores.  Así comenzará la competición de saltos ornamentales de los Juegos Olímpicos de 2012, uno de varios eventos (otros incluyen gimnasia y nado sincronizado) en los que los ganadores son determinados por jueces y no por cronómetros, cintras métricas ni marcadores. ¿Pero alguna vez se ha preguntado qué tan correctas son las apreciaciones de esos jueces?

La mayoría de los especialistas en estadística, profesionales Six Sigma y profesionales de la calidad saben que deben evaluar su sistema de medición antes de tomar cualquier decisión basándose en sus datos.  Lo hacemos, por supuesto, porque queremos confiar en los datos y en la información que nos suministran.  Preocupado desde hace mucho tiempo por la idea de que opiniones subjetivas de los jueces determinaran las mejores actuaciones en los eventos olímpicos, decidí analizar – largamente (ahora sería un buen momento para tomar una taza de café antes de continuar) – los resultados de dos eventos para evaluar si los jueces fueron consistentes e imparciales:

  • Plataforma de 10 metros en la categoría masculina de los saltos ornamentales de los Juegos Olímpicos de Beijing 2008.
  • Patinaje artístico en la modalidad de parejas de los Juegos Olímpicos de Salt Lake City 2002, un evento con una controvertida final en la que una jueza primero reveló, y luego negó, que había sido presionada a votar por un equipo en perjuicio de otro independientemente del desempeño.
  • Plataforma de 10 metros en la categoría masculina de los saltos ornamentales de los Juegos Olímpicos de Beijing 2008

    Para enterarse de los detalles de la organización de este evento y de los resultados, haga clic aquí, pero para nuestros fines, todo lo que necesita saber es que cada saltador que compite en la final realiza seis saltos y que a cada salto se le asigna un grado de dificultad. El grado de dificultad se basa en el tipo de salto y no se juzga; por ejemplo, un triple carpado hacia adelante tiene un grado de dificultad de 0.1 independientemente de quién lo realice o de lo bien que lo ejecute.  Siete jueces evalúan qué tan bien se ejecuta cada salto.  Aunque no afectará nuestro análisis, la puntuación más alta y la más baja de cada salto se eliminan y las restantes se multiplican por el grado de dificultad para obtener la puntuación total de ese salto.  Por ejemplo, así es como se registra el primer salto de un competidor en la hoja de cálculo:

    Hoja de datos de saltos ornamentales olímpicos 
     
    Analizaré los datos con un Modelo lineal general. Mi respuesta es Puntuación, y estos son los términos con los que empezaré:

    • Dificultad (como una covariada)
    • Saltador
    • Salto
    • Juez
    • Todas las interacciones de dos factores, a excepción de Saltador*Salto (explicación más adelante)

    Esta es mi tabla de ANOVA antes de eliminar cualquier término:

    ANOVA olímpico 1 
     
    Si busca reforzar su fe en que los jueces hacen un buen trabajo, este es exactamente el tipo de resultado que desea ver.  Todos los términos que involucran a un juez son insignificantes (de hecho, ninguno está cerca de ser significativo), así que no observamos ninguna evidencia de que ciertos jueces favorezcan a ciertos saltadores (la interacción Saltador*Juez), de que ciertos jueces sean mejores o peores al calificar saltos más fáciles o más difíciles (la interacción Juez*Dificultad) o de que ciertos jueces otorguen puntuaciones más altas o más bajas en comparación con otros (el término Juez).

    Después de eliminar esos términos y volver a ejecutar el análisis, obtenemos la siguiente tabla de ANOVA:

    ANOVA olímpico 2 
     
    Todos los términos son significativos y los jueces no tienen ningún efecto, pero el R-cuad.(ajust) de 50.17% no me deja exactamente lo que podríamos llamar una sensación de tranquilidad. Sin embargo, en el análisis inicial, no incluí la interacción Saltador*Salto debido a la confusión con Dificultad (por ejemplo, el primer salto de Thomas Daley siempre tiene la misma dificultad).  Pero podemos incorporar esa misma información de Dificultad mediante la inclusión de un término de interacción Saltador*Salto y al mismo tiempo considerar la variabilidad de cada saltador entre saltos.  Así que después de eliminar el término Dificultad y la interacción Saltador*Dificultad y en su lugar incluir la interacción Saltador*Salto, obtenemos la siguiente tabla de ANOVA:

    ANOVA olímpico 3 
     
    Ahora nos quedamos con tres términos muy significativos–ninguno de los cuales es un efecto de los jueces–y un R-cuad.(ajust) muy satisfactorio de 89.63%.  Esto es exactamente lo que se espera de una competición con jueces en el sentido de que los jueces no estén parcializados, ¡además de ser una gran noticia para las dos saltadoras sincronizadas que iniciarán las acciones en los Juegos de Londres!

    Patinaje artístico en la modalidad de parejas de los Juegos Olímpicos de Salt Lake City 2002

    Para leer una exposición más completa del escándalo relacionado con los jueces de este evento, haga clic pero, pero haré un breve resumen utilizando la nacionalidad de los concursantes en lugar de sus nombres largos y difíciles de pronunciar.  El equipo ruso tenía una ligera ventaja sobre los canadienses después de los dos primeros programas.  Los canadienses escogieron una rutina más fácil que los rusos para el segundo programa, pero la ejecutaron de forma impecable, mientras que los rusos cometieron un error durante la suya.  El público presente en el sitio y los comentaristas de la televisión en vivo, en su gran mayoría, pensaron que los canadienses acababan de ganar la medalla de oro, pero cuando se anunciaron los resultados, ellos aún necesitaban 0.1 puntos (en una escala del 1 al 6) de cualquiera de los jueces para alcanzar a los rusos.

    Los canadienses ganaron plata en lugar de oro, pero poco después se informó que la jueza francesa había admitido, dos veces, que había sido presionada a votar a favor de los rusos sobre los canadienses independientemente del desempeño (luego ella lo negó).  Entonces, ¿podría haber evidencia de sesgo de los jueces en este evento?

    En el patinaje artístico, las parejas son evaluadas por “Mérito técnico” (MT) e “Impresión artística” (IA) y no hay calificación por dificultad, así que nuestros datos quedan estructurados de la siguiente manera:

    Hoja de datos de patinaje olímpico 
     
    Por ejemplo, el Juez No.1 dio a los patinadores rusos Berezhnaya y Sikharulidze un 5.8 por Impresión artística.

    Como hicimos en el análisis de los saltos ornamentales, utilizaremos un Modelo lineal general para analizar los datos.  Incluiremos los siguientes términos en el modelo inicial:

    • Juez
    • Nombre
    • Cat (“Categoría”)
    • Todas las interacciones de dos factores

    Esta es la tabla de ANOVA resultante:

    ANOVA olímpico 4 
     
    Si los primeros patinadores que entren a la pista de hielo en los Juegos Olímpicos de Invierno de 2014 en Sochi se sienten un poco menos seguros que nuestras saltadoras sincronizadas, parecería que tienen una buena razón. Antes de ahondar un poco más en detalles, he aquí un par de aspectos clave que podemos ver inmediatamente en la tabla de ANOVA:

  • Todos los términos son significativos, incluidos tres términos que involucran a los jueces…los datos muestran una clara evidencia de sesgo de los jueces en este evento.
  • Con un R-cuad.(ajust) de 99.03%, tenemos un excelente modelo que explica casi toda la variación.
  • Cabe señalar que basándonos en la suma de los cuadrados, la mayor parte de la variación en los datos proviene de la diferencia entre las parejas de patinadores y no de los jueces, con la diferencia real entre las parejas (el equivalente de la variación entre piezas en un estudio R&R del sistema de medición) representando el 96.8% de la variación en las puntuaciones.  Pero aun así, es preocupante encontrar sesgo en las calificaciones, ya que esos sesgos representan una falta de equidad y de competición genuina.

    Recuerde que una jueza admitió haber sido presionada con respecto a sus calificaciones para dos equipos en particular.  Suponiendo que eso sea cierto, no debería sorprender que al menos la interacción Juez*Nombre sea significativa.  Para evaluar las calificaciones poco comunes, almacené los coeficientes de cada combinación de juez y pareja de patinadores y los grafiqué. Los valores cercanos a 0 indican que el juez no exhibe sesgo con respecto a esa pareja. Los valores más positivos indican que el juez está predispuesto a otorgarles calificaciones inusualmente altas, mientras que los valores más negativos indican que el juez está predispuesto a calificarlos con puntuaciones bajas.  Los valores resaltados corresponden a los coeficientes del juez cuestionable (Juez No. 4) para las parejas de Rusia y Canadá:

    Gráfica de valores del patinaje olímpico 
     
    Pareciera que la jueza francesa probablemente no exhibió ningún sesgo a favor del equipo ruso, pero sí cierto sesgo negativo hacia el equipo canadiense; de hecho, si se eliminara el sesgo hacia los canadienses, es probable que hubieran logrado un empate con los rusos.

    Sin embargo, lo que llama la atención es el sesgo que exhiben los jueces en general. Recuerde que los puntos marcados corresponden a un juez que admitió haber otorgado calificaciones sesgadas a esos dos equipos, y considere la escasa diferencia entre las parejas en lo que respecta a las puntuaciones de los jueces en general.  Varios puntos se sitúan aproximadamente 0.2 puntos por encima o por debajo de 0, lo cual, considerando que esos jueces evalúan dos aspectos diferentes y dos presentaciones, puede conceder una gran ventaja o desventaja a una pareja. ¿Por qué? El coeficiente es 0.2, pero eso se debe multiplicar por el número de puntuaciones que el juez otorga a ese patinador (2 categorías por 2 presentaciones en la final = 4 puntuaciones).  De modo que el coeficiente de 0.2 se traduce en una oscilación de 0.8 puntos en la puntuación final de esa pareja. ¡Recuerde que el equipo ruso conquistó la medalla de oro sobre el equipo canadiense por tan sólo 0.1 puntos!

    Entonces, ¿qué podríamos concluir?

    • Los datos de esta competición muestran que, en el mejor de los casos, los jueces fueron inconsistentes entre sí, con algunos otorgando calificaciones consistentemente altas y otros, consistentemente bajas (el término Juez).  Esto es inquietante, pero no debería tener efecto sobre quién gana la competición.
    • Los jueces también fueron inconsistentes entre las dos categorías (la interacción Juez*Cat), lo que crea la interrogante de si cada juez está en capacidad de evaluar el Mérito técnico y la Impresión artística al mismo tiempo.  De nuevo, inquietante, pero con poco impacto en las posiciones.
    • Lo peor de todo es que los jueces exhibieron sesgo hacia parejas específicas de patinadores (la interacción Juez*Nombre). Independientemente de que el sesgo haya sido intencional o no, esto contribuye a crear un campo de juego muy desnivelado.

    Londres 2012 y más allá

    Alrededor de las 3:00 p.m. del 29 de julio, dos saltadoras se pararán al borde de trampolines de tres metros ubicados uno al lado del otro y, en formación sincronizada, ambas doblarán, girarán y voltearán en el aire antes de entrar a la piscina del complejo acuático London Aquatics Center salpicando la menor cantidad de agua que sea posible.  Basándonos en lo que aprendimos en este análisis, un panel de jueces evaluará de manera independiente, y justa, la ejecución del salto, y sus puntuaciones serán presentadas a todos los espectadores.

    Dieciocho meses más tarde, una pareja de patinadores artísticos entrará a la pista de hielo en Sochi y ejecutará una serie de saltos, giros y movimientos de coreografía en una exhibición de atletismo y precisión.  Un panel de jueces también evaluará de manera independiente la ejecución de la rutina y las puntuaciones serán presentadas a todos los espectadores…¿pero serán puntuaciones justas? ¿Podremos confiar en los datos?

    ________________________________

    Joel Smith, especialista en estadística y representante senior de desarrollo de negocios de Minitab, LLC., trabaja con consultores y socios de proyectos Six Sigma y de mejora de la calidad para desarrollar nuevas oportunidades para el uso de los productos de software de Minitab. Ha trabajado con numerosas empresas en proyectos de mejora de procesos y en la puesta en marcha de diversas iniciativas. A Smith le agrada compartir sus conocimientos de análisis de datos y mejora de procesos, y se ha dado a conocer por sus esclarecedoras y entretenidas charlas sobre la calidad dictadas en conferencias nacionales y regionales. Smith se incorporó a Minitab en 2004, y desde entonces ha trabajado como experto en estadística y especialista en Six Sigma en los departamentos de soporte técnico, ventas comerciales y desarrollo de negocios de la empresa. Se graduó de ingeniero químico en el Rose-Hulman Institute of Technology y obtuvo una maestría en estadística en Virginia Tech. Smith posee certificación como master black belt en Six Sigma Esbelto.

    Imagen de saltos ornamentales utilizada bajo licencia de Creative Commons Attribution ShareAlike 3.0.

    Al utilizar este sitio, usted acepta el uso de cookies para efectos de análisis y contenido personalizado. Leer nuestra política