Julgamento olímpico: Justo ou tendencioso?

 

Incomodado com a ideia de que as opiniões subjetivas dos juízes determinam os melhores desempenhos em eventos olímpicos, um estatístico da Minitab analisou os resultados de dois eventos para avaliar se os juízes foram consistentes e justos.

por Joel Smith, representante de desenvolvimento de mercado sênior

Saltos ornamentaisAproximadamente às 15h, dia 29 de julho, duas saltadoras ornamentais estarão na borda dos trampolins de três metros, lado a lado, e em formação sincronizada elas vão girar, virar e se torcer no ar antes de entrar na piscina com o menor respingo de água possível no Centro Aquático de Londres.  Uma mesa de juízes avaliará independentemente a execução do salto e a pontuação será informada para todos que estiverem assistindo.  Desta forma, terá início a sessão dos saltos ornamentais dos Jogos Olímpicos de 2012, um dos vários eventos (outros incluem a ginástica e o nado sincronizado) nos quais os vencedores são determinados por juízes, em vez de cronômetros, fitas de medição ou placares. Mas você já se perguntou até que ponto esses juízes são precisos?

A maioria dos estatísticos, profissionais de Six Sigma e de qualidade, avalia seu sistema de medição antes de tomar qualquer decisão baseada em seus dados.  Fazemos isso pois desejamos confiar nos dados e nas informações que eles nos fornecem.  Incomodado por muito tempo pela ideia de que as opiniões subjetivas dos juízes determinam os melhores desempenhos em eventos olímpicos, resolvi analisar extensamente (agora seria um bom momento para pegar uma xícara de café antes de prosseguir) os resultados de dois eventos para avaliar se os juízes foram consistentes e justos:

  • Saltos ornamentais masculino, plataforma de 10 metros, das Olimpíadas de Pequim 2008.
  • Patinação artística no gelo de duplas das Olimpíadas de Salt Lake City 2002, na qual uma final polêmica resultou em uma juíza revelando, e depois negando, ter sido pressionada para votar para uma equipe em vez de outra, independentemente do desempenho.
  • Saltos ornamentais masculino, plataforma de 10 metros, Olimpíadas de Pequim 2008

    Você pode ler os detalhes sobre como esse evento é organizado e os resultados aqui, mas para nossos interesses, tudo que você precisa saber é que cada saltador nas finais executa seis saltos, com um grau de dificuldade atribuído a cada um deles. O grau de dificuldade é baseado no salto e não é julgado; por exemplo, um "salto triplo de barrigada" tem um grau de dificuldade de 0,1, independentemente de quem o executa e de como é executado.  Sete juízes avaliam a execução de cada salto.  Embora isso não afete nossa análise, a pontuação mais alta e a mais baixa de cada salto são descartadas e as restantes são multiplicadas pelo grau de dificuldade para compor a pontuação final desse salto.  Por exemplo, aqui está o primeiro salto de um saltador e como ele foi registrado na planilha:

    Planilha de saltos olímpica 
     
    Eu vou analisar os dados com um Modelo Linear Generalizado. A minha resposta é "Score" (Pontuação) e aqui estão os termos com os quais vou começar:

    • Difficulty (Dificuldade - como uma covariante)
    • Diver (Saltador)
    • Dive (Salto)
    • Judge (Juiz)
    • Todas as interações de dois fatores, exceto "Diver*Dive" (Saltador*Salto - explicação abaixo)

    Aqui está minha tabela de ANOVA antes de remover qualquer termo:

    ANOVA Olímpica 1 
     
    Se você estiver tentando se convencer de que os juízes fazem um bom trabalho, esse é exatamente o tipo de resultado que você vai querer ver.  Todos os termos envolvendo um juiz não são significativos (de fato, nenhum chega perto de ser significativo), então não vemos nenhuma evidência de que certos juízes favorecem certos saltadores (a interação Saltador*Juiz), de que certos juízes são melhores ou piores no julgamento de saltos mais fáceis ou mais difíceis (a interação Juiz*Dificuldade) ou de que certos juízes dão uma nota maior ou menor em relação aos outros (o termo Juiz).

    Após remover esses termos e executar novamente a análise, obtemos a seguinte tabela de ANOVA:

    ANOVA Olímpica 2 
     
    Todos os termos são significativos e os juízes não tem efeito algum, mas o R-Sq(adj) de 50,17% não me deixa exatamente satisfeito e tranquilo. No entanto, na análise inicial eu não inclui a interação Saltador*Salto, devido ao confundimento com Dificuldade (por exemplo, o primeiro salto de Thomas Daley sempre tem a mesma dificuldade).  Mas agora podemos incorporar essa mesma informação de Dificuldade, incluindo um termo de interação Saltador*Salto, levando em conta a variabilidade entre saltos do saltador.  Assim, após remover o termo de Dificuldade e a interação Saltador*Dificuldade, e incluir em seus lugares a interação Saltador*Salto, obtemos a seguinte tabela de ANOVA:

    ANOVA Olímpica 3 
     
    Agora restaram três termos muito significativos (nenhum dos quais é efeito dos juízes) e um R-Sq(adj) bem satisfatório de 89,63%.  Isso é exatamente o que você deseja de uma competição com julgamento, no que diz respeito a juízes não tendenciosos, e são boas notícias para aquelas duas saltadoras sincronizadas dando a largada em Londres!

    Patinação artística no gelo de duplas, Olimpíadas de Salt Lake City 2002

    Você pode ler um relato mais completo do escândalo dos juízes deste evento aqui, mas eu resumirei usando os países dos competidores em vez de seus nomes reais, por serem compridos demais para serem digitados e difíceis para serem pronunciados.  A equipe russa tinha uma pequena vantagem sobre a canadense após a primeira exibição de um total de duas exibições.  Os canadenses escolheram uma coreografia mais fácil que os russos para a segunda exibição, mas a executaram sem erros, enquanto que a equipe russa cometeu um erro durante sua coreografia.  Os espectadores, assim como os comentadores da televisão ao vivo, estavam completamente convencidos de que os canadenses tinham ganhado a medalha de ouro - mas quando os resultados foram anunciados, eles ainda precisavam de 0,1 ponto a mais (em uma escala de 1 a 6) de algum juiz para alcançar os russos.

    Os canadenses ficaram com a medalha de prata, em vez de ouro, mas foi relatado logo após, que a juíza francesa admitiu (duas vezes) que fora pressionada a votar para os russos em vez dos canadenses, independentemente do desempenho (mais tarde, ela negou).  Então, haveria evidência de comportamento tendencioso dos juízes nesse evento?

    Na patinação artística, os pares são julgados por "mérito técnico" (TM) e "impressão artística" (AI), e não há classificação de dificuldade, então nossos dados são estruturados assim:

    Planilha de patinação olímpica 
     
    Por exemplo, o juiz nº1 (J1) deu aos patinadores russos Berezhnaya e Sikharulidze a pontuação de 5,8 por impressão artística.

    Como fizemos na análise dos saltos ornamentais, usaremos o Modelo Linear Generalizado para analisar os dados.  Incluiremos os seguintes termos ao modelo inicial:

    • Judge (Juiz)
    • Name (Nome)
    • Cat (para "categoria")
    • Todas as interações de dois fatores

    Essa é a tabela de ANOVA resultante:

    ANOVA Olímpica 4 
     
    Se os primeiros patinadores no gelo nas Olimpíadas de Inverno de 2014 estiverem um pouco menos confiantes que nossos saltadores sincronizados, parece que eles terão um bom motivo!  Antes de nos aprofundar, aqui estão algumas conclusões que podemos tirar imediatamente da tabela de ANOVA:

  • Todos os termos são significativos, incluindo os três termos envolvendo os próprios juízes... Os dados mostram claramente evidências de comportamento tendenciosos dos juízes nesse evento.
  • Com um R-Sq(adj) de 99,03%, temos um excelente modelo que explica quase toda a variação.
  • Vale a pena observar que baseado na soma de quadrados, a maioria da variação nos dados provém da diferença entre as duplas de patinação e não dos juízes, com a diferença verdadeira entre duplas (o equivalente da variação entre partes no estudo Gage de R&R) sendo responsável por 96,8% da variação nas pontuações.  Mas, mesmo assim, é desconcertante encontrar julgamento tendencioso, pois eles representam falta de justiça e honestidade em uma competição.

    Lembre-se de que uma das juízas admitiu ser pressionada em sua pontuação de duas equipes específicas.  Supondo que isso seja verdade, não seria surpresa que pelo menos a interação Juiz*Nome seja significativa.  Para avaliar pontuação rara, eu armazenei os coeficientes de cada combinação de juiz e dupla de patinação e os representei graficamente. Valores próximos de 0 indicam que o juiz não exibe comportamento tendencioso em relação a essa dupla. Valores mais positivos indicam que o juiz tem a tendência de dar notas extraordinariamente mais altas, enquanto que valores negativos indicam que o juiz tem a tendência de dar notas mais baixas.  Em destaque estão os coeficientes da juíza em questão (juiz nº4) para as duplas russa e canadense:

    Gráfico de valores da patinação olímpica 
     
    Parece provável que a juíza francesa não exibiu tendência em relação à equipe russa, porém houve tendência negativa em relação à equipe canadense - de fato, se a tendência em relação aos canadenses fosse eliminada, eles provavelmente teriam empatado com os russos.

    Mas o problema maior é quão tendenciosos são os juízes geralmente. Lembre-se de que os pontos marcados são de uma juíza que admitiu ter um comportamento tendencioso com duas equipes, e considere que eles diferem pouco de um para outro em relação aos juízes em geral.  Vários pontos estão aproximadamente 0,2 pontos acima ou abaixo de 0, o que, dado que esses juízes avaliam dois critérios diferentes e duas exibições, pode fornecer a uma dupla uma enorme vantagem ou desvantagem. Por quê? O coeficiente é 0,2, mas deve ser multiplicado pelo número de pontuações que os juízes dão a cada patinador (2 categorias vezes 2 exibições nas finais = 4 pontuações).  Então, o coeficiente de 0,2 resulta em 0,8 pontos na pontuação final dessa dupla. Lembre-se de que a equipe russa recebeu a medalha de ouro sobre a equipe canadense por apenas 0,1 ponto!

    Então, o que aprendemos?

    • Os dados dessa competição mostram que, na melhor das hipóteses, os juízes são inconsistentes entre si, com alguns dando pontuação consistentemente mais alta e outros mais baixa (o termo Juiz).  Isso é inquietante, mas não deveria afetar o ganhador da competição.
    • Os juízes foram também inconsistentes entre as duas categorias (a interação Juiz*Cat), o que nos faz questionar a capacidade de juízes individuais avaliar tanto o mérito técnico quanto a impressão artística.  Novamente, inquietante - mas com pouco impacto nas classificações.
    • Pior ainda, os juízes foram tendenciosos em relação a duplas de patinadores específicas (a interação Juiz*Nome) - seja isso intencional ou não, cria um campo de disputa muito injusto.

    Londres 2012 e futuras Olimpíadas

    Aproximadamente às 15h, dia 29 de julho, duas saltadoras ornamentais estarão na borda dos trampolins de três metros, lado a lado, e em formação sincronizada elas vão girar, virar e se torcer no ar antes de entrar na piscina com o menor respingo de água possível no Centro Aquático de Londres.  Baseado no que aprendemos nessa análise, uma mesa de juízes avaliará de forma independente - e justa - como elas executarão o salto, e sua pontuação será informada para todos que estiverem assistindo.

    Dezoito meses depois, uma dupla de patinadores artísticos estará no gelo em Sochi e executarão uma série de saltos, giros e movimentos coreografados em uma exibição de atletismo e precisão.  Uma mesa de juízes também avaliará independentemente como eles executarão a coreografia, e sua pontuação será informada a todos que estiverem assistindo... Mas serão eles justos? Poderemos acreditar nos dados?

    ________________________________

    Joel Smith, estatístico e representante de desenvolvimento de mercado sênior da Minitab, LLC., trabalha com parceiros e consultores de Six Sigma e de melhoria de qualidade para desenvolver novas oportunidades de uso dos produtos de software da Minitab. Ele trabalhou com várias empresas em projetos de melhoria de processos e implantações de iniciativas. Smith aprecia compartilhar seu conhecimento em análise de dados e melhoria de processos e tornou-se conhecido por ministrar palestras esclarecedoras e divertidas em conferências de qualidade regionais e nacionais. Smith juntou-se à Minitab em 2004, e desde então trabalhou como estatístico e especialista Six Sigma nos departamentos de suporte técnico, vendas comerciais e desenvolvimento de mercado da empresa. Ele se graduou em engenharia química na Rose-Hulman Institute of Technology e é mestre em estatística pela Virginia Tech. Smith é um Lean Six Sigma Master Black Belt certificado.

    Imagem do salto usada sob a licença Creative Commons Attribution ShareAlike 3.0.

     

    Ao usar esse site, você concorda com a utilização de cookies para análises e conteúdo personalizado. Leia nossa política

    OK