Notation aux Jeux Olympiques : partiale ou impartiale ?

Interpellé par l'idée que l'opinion des juges puisse être subjective lorsqu'il s'agit de sélectionner les meilleures performances aux Jeux olympiques, un statisticien de Minitab a décidé d'analyser les résultats de deux événements sportifs afin de déterminer si les juges étaient justes et cohérents.

par Joel Smith, ingénieur senior en recherche et développement

PlongeonCe 29 juillet à 15h, deux plongeuses prendront place côte à côte sur les tremplins de 3 m et effectueront, de façon synchronisée, un saut, une vrille et un tour avant d'entrer dans l'eau de la piscine du London Aquatics Center, le tout en faisant le moins d'éclaboussures possible. Le jury évaluera objectivement, en toute impartialité, l'exécution du plongeon. Leurs notes seront ensuite communiquées au public. Ainsi commenceront les épreuves de plongeon des Jeux Olympiques de 2012, l'un des sports (avec la gymnastique et la natation synchronisée) pour lesquels les vainqueurs sont désignés par des juges et non par des chronomètres, des rubans de mesure ou encore un tableau de score. Mais vous êtes-vous déjà interrogé sur le degré de précision de cette notation ?

La plupart des statisticiens, des analystes Six Sigma et des professionnels de la qualité savent qu'il est nécessaire d'évaluer un système de mesure avant de prendre une décision basée sur les données collectées. Interpellé depuis longtemps par l'idée que l'opinion subjective des juges puisse parfois être le seul facteur déterminant les meilleures performances lors d'événements olympiques, j'ai décidé d'analyser, en détails (vous aurez peut-être besoin d'une bonne tasse de café pour poursuivre la lecture de cet article...), les résultats de deux compétitions afin d'évaluer la cohérence et l'impartialité des juges :

  • Plongeon de haut-vol 10 m hommes aux Jeux Olympiques de Pékin en 2008.
  • Patinage artistique en couple aux J.O. de Salt Lake City en 2002 : lors de la finale controversée de cette épreuve, une juge a révélé, avant de se rétracter, qu'elle avait subi des pressions afin de privilégier une équipe par rapport à une autre, indépendamment des performances.
  • Plongeon de haut-vol 10 m hommes, Jeux Olympiques de Pékin 2008

    Vous trouverez ici tous les détails concernant l'organisation de cet événement et les résultats, mais pour notre démonstration, il vous suffit de savoir que chaque plongeur effectue six plongeons avec un degré de difficulté différent. Le degré de difficulté dépend du plongeon et n'intervient pas dans la notation. Par exemple, le degré de difficulté d'un triple saut périlleux avant est de 0,1, peu importe le plongeur et la façon dont il l'exécute. Sept juges évaluent l'exécution de chaque plongeon. Bien que cela n'ait aucune influence sur notre analyse, signalons toutefois que la meilleure et la moins bonne note ne sont pas prises en compte, et que les notes restantes sont multipliées par le degré de difficulté afin d'obtenir la note totale du plongeon. Voici par exemple comment le premier plongeon est enregistré dans la feuille de travail :

    Fiche récapitulative du plongeon olympique 
     
    Analysons les données à l'aide du modèle linéaire général. La réponse se trouve sous Note. Voici les termes :

    • Difficulté (en tant que covariable)
    • Plongeur
    • Plongeon
    • Juge
    • Toutes les interactions à deux facteurs, sauf Plongeur*Plongeon (explication ci-dessous)

    Voici le tableau ANOVA avant la suppression des termes :

    Tableau ANOVA 1 - Jeux olympiques 
     
    Si notre objectif était de renforcer l'idée que les juges font du bon travail, voici exactement le type de résultat que nous souhaiterions obtenir. Tous les termes en rapport avec les juges sont négligeables (aucun d'entre eux n'approche même une valeur significative). Par conséquent, il est impossible de prouver que certains juges favorisent certains plongeurs (interaction Plongeur*Juge), que certains juges évaluent mieux ou moins bien les plongeons en fonction de la difficulté (interaction Juge*Difficulté), ou encore que certains juges tendent à attribuer des notes plus élevées (terme Juge).

    Après avoir supprimé ces termes et réexécuté l'analyse, nous obtenons le tableau ANOVA suivant :

    Tableau ANOVA 2 - Jeux olympiques 
     
    Tous les termes sont significatifs et les juges n'ont aucun impact, mais le R carré (ajust) de 50,17 % n'est pas à proprement parler rassurant. Toutefois, dans l'analyse initiale, nous avons choisi de ne pas inclure l'interaction Plongeur*Plongeon afin d'éviter toute confusion avec le terme Difficulté (par exemple, le premier plongeon de Thomas Daley possédait toujours le même niveau de difficulté). Nous pouvons cependant intégrer les mêmes informations sur le terme Difficulté en incluant un terme d'interaction Plongeur*Plongeon et tenir compte de la variabilité de chaque plongeur entre les plongeons. Par conséquent, après avoir supprimé le terme Difficulté et l'interaction Plongeur*Difficulté, et après avoir remplacé cette dernière par l'interaction Plongeur*Plongeon, nous obtenons le tableau ANOVA suivant :

    Tableau ANOVA 3 - Jeux olympiques 
     
    Il nous reste maintenant trois termes très significatifs (aucun d'entre eux ne résultant de l'impact des juges), ainsi qu'un R carré (ajust) de 89,63 % très satisfaisant. Ce résultat prouve l'impartialité des juges et est donc une excellente nouvelle pour les deux plongeuses participant à l'épreuve de plongeon synchronisé, qui donneront le coup d'envoi des JO de Londres.

    Patinage artistique en couple, Jeux Olympiques de Salt Lake City 2002

    Pour plus d'informations sur le scandale lié à la notation de cet événement, cliquez ici. Je vais, pour ma part, vous fournir un résumé de la situation sachant que les noms des concurrents, longs et difficiles à prononcer, ont été remplacés par les noms des pays qu'ils représentent. A l'issue des deux premiers programmes, les Russes possédaient un léger avantage sur les Canadiens. Le deuxième programme des Canadiens était plus facile que celui des Russes, mais exécuté avec brio. Les Russes avaient, quant à eux, commis une faute. Le public, ainsi que les commentateurs étaient persuadés que les Canadiens allaient remporter l'or, mais à l'annonce des résultats, il s'est avéré qu'il leur manquait 0,1 point (sur une échelle de 1 à 6) de la part d'un juge pour combler l'écart avec les Russes.

    Les Canadiens ont donc remporté l'argent plutôt que l'or. Peu de temps après, la juge française a admis à deux reprises avoir subi des pressions pour privilégier les Russes plutôt que les Canadiens et ce, sans tenir compte des performances des patineurs. Elle s'est ensuite rétractée. Par conséquent, pouvons-nous démontrer la partialité de la juge lors de cet événement ?

    En patinage artistique, les couples sont jugés selon une note technique (NT) et une note artistique (NA). La difficulté n'est pas prise en compte. Voici comment les données sont structurées :

    Fiche récapitulative du patinage olympique 
     
    Par exemple, le juge n° 1 avait attribué aux patineurs russes Berezhnaya et Sikharulidze la note artistique de 5,8.

    Comme nous l'avons fait dans le cadre de l'analyse sur le plongeon, nous utiliserons le modèle linéaire général pour analyser les données. Les termes suivants seront inclus dans le modèle initial :

    • Juge
    • Nom
    • Cat. (pour Catégorie)
    • Toutes les interactions à deux facteurs

    Nous obtenons le tableau ANOVA suivant :

    Tableau ANOVA 4 - Jeux olympiques 
     
    Il semble que les premiers patineurs à fouler la glace de Sochi aux Jeux Olympiques d'hiver de 2014 auront une bonne raison de se sentir un peu moins en confiance que nos plongeuses. Avant d'approfondir l'analyse, voici ce que nous pouvons déduire immédiatement de ce tableau ANOVA :

  • Tous les termes sont significatifs, y compris les trois termes en rapport avec les juges... Les données montrent clairement la partialité des juges au cours de cet événement.
  • Le R carré (ajust) de 99,03 % fournit un excellent modèle permettant d'expliquer presque toute la variation.
  • D'après la somme des carrés, la plus grande part de la variation des données provient de la différence entre les couples de patineurs, et non des juges. La vraie différence entre les couples (correspondant à la variation de pièce à pièce dans l'étude R&R de l'instrumentation) justifie 96,8 % de la variation des notes. Quoiqu'il en soit, la partialité des juges est troublante dans la mesure où elle indique un manque d'équité et une absence de véritable compétition.

    N'oublions pas qu'une juge a admis avoir subi des pressions concernant la notation de deux équipes en particulier. En supposant que cela soit vrai, il ne serait donc pas surprenant qu'au moins une interaction Juge*Nom soit significative. Afin d'évaluer les notations aberrantes, nous avons enregistré les coefficients de chaque combinaison juge/couple de patineurs et nous les avons représentés sous forme de diagramme. Les valeurs proches de 0 indiquent que le juge n'a pas fait preuve de partialité envers le couple en question. Les valeurs positives indiquent que le juge fait preuve de partialité en attribuant des notes particulièrement élevées, tandis que les valeurs négatives indiquent que le juge tend à mettre des notes basses. Les coefficients contestables du juge n° 4 pour les couples russes et canadiens ont été mis en surbrillance :

    Diagramme de valeurs pour le patinage olympique 
     
    Il semble que la juge française se soit montrée impartiale vis à vis du couple russe, mais injuste vis à vis du couple canadien. En fait, si l'on éliminait le biais subi par les Canadiens, ces derniers seraient probablement à égalité avec les Russes.

    Plus globalement, nous pouvons nous pencher sur la question de la partialité des juges en général. Gardons à l'esprit que les points notés désignent un juge reconnaissant son manque d'objectivité, et voyons maintenant la différence minime qu'il existe entre ces équipes si l'on considère les juges en général. Plusieurs points se trouvent à 0,2 point au-dessus ou au-dessous de 0, ce qui, compte tenu du fait que l'évaluation des juges se basait sur deux critères et sur deux performances, peut donner à l'un des couples un avantage ou un désavantage considérable. Pourquoi ? Le coefficient est de 0,2, mais celui-ci doit être multiplié par le nombre de notes données par le juge aux patineurs (2 catégories x 2 performances lors des finales = 4 notes). Le coefficient de 0,2 se traduit donc par une déviation de 0,8 point dans la note finale du couple en question. N'oublions pas que les Russes ont ravi l'or au nez et à la barbe des Canadiens pour une différence de 0,1 point...

    Quelles conclusions pouvons-nous donc en tirer ?

    • Les données extraites de cette compétition indiquent que les juges ont fait preuve d'incohérence entre eux, certains juges attribuant systématiquement des notes élevées et d'autres systématiquement des notes basses (terme Juge). Bien que troublante, cette constatation ne devrait pas avoir d'influence sur le vainqueur de la compétition.
    • Les juges ont également manqué de cohérence entre les deux catégories (interaction Juge*Cat.), ce qui nous amène à nous demander si chaque juge est en mesure d'évaluer à la fois les compétences techniques et artistiques. Une fois encore, ce résultat peut choquer, mais ne devrait pas modifier le classement final.
    • Pire encore, les juges étaient partiaux envers des couples donnés de patineurs (interaction Juge*Nom). Intentionnel ou non, ce biais a rendu la compétition extrêmement inéquitable.

    Londres 2012 et au-delà

    Le 29 juillet à 15h, deux plongeuses prendront place côte à côte sur les tremplins de 3 m et effectueront, en formation synchronisée, un saut, une vrille et un tour avant d'entrer dans l'eau de la piscine du London Aquatics Center, le tout en faisant le moins d'éclaboussures possible. En fonction de ce que nous avons appris dans cette analyse, un jury évaluera en toute objectivité et en toute honnêteté, l'exécution du plongeon. Les notes seront ensuite communiquées au public.

    Dix-huit mois plus tard, deux patineurs artistiques s'élanceront en couple sur la glace de la patinoire de Sochi et exécuteront une série de sauts, de vrilles et de mouvements chorégraphiés afin de démontrer leurs compétences et leur degré de précision. Un jury évaluera également avec impartialité l'exécution du programme et les notes seront communiquées au public... Mais seront-elles justes cette fois-ci ? Pourrons-nous nous fier aux résultats ?

    ________________________________

    Joel Smith, statisticien et ingénieur senior en recherche et développement chez Minitab, LLC., utilise la méthode Six Sigma et collabore avec divers partenaires et consultants spécialisés dans l'amélioration de la qualité afin de développer de nouvelles possibilités d'utilisation des logiciels Minitab. Il a coopéré avec de nombreuses entreprises dans le cadre de projets d'amélioration des processus et de déploiements d'initiatives. Joel Smith aime partager ses connaissances en matière d'analyse des données et d'amélioration des processus, et sa capacité à animer des discussions enrichissantes et divertissantes lors de conférences régionales et nationales sur le thème de la qualité est aujourd'hui indiscutablement reconnue. Employé par Minitab depuis 2004, il travaille également en tant que statisticien et expert Six Sigma dans les services techniques, commerciaux et de recherche et développement de l'entreprise. Il est titulaire d'une licence en génie chimique du Rose-Hulman Institute of Technology et d'un master en statistiques du Virginia Tech. Joel Smith est également certifié Master Black Belt Lean Six Sigma.

    Image du plongeon sous licence Creative Commons Attribution ShareAlike 3.0.

     
    • Minitab News

      Recevez gratuitement notre lettre d'information électronique mensuelle pour connaître l'actualité de Minitab, consulter les didacticiels, lire des études de cas, obtenir des conseils statistiques, et recevoir d'autres informations utiles.

      Pour s'abonner
    • Suivez Minitab

      Join Minitab on LinkedIn Follow Minitab on Twitter Like Minitab on Facebook
    • Plus d'articles

    En utilisant ce site, vous acceptez l'utilisation de cookies à des fins d'analyse et de personnalisation du contenu. Lisez notre politique

    OK