Degustação de vinhos em números: Usando a regressão logística binária para revelar as preferências dos especialistas

Quando é necessário compreender situações que parecem desafiar a análise de dados, talvez seja possível usar técnicas como a regressão logística binária. Este artigo detalha como os dados de degustação de vinhos e regressão logística binária produzem um insight nos fatores que são importantes para uma banca de degustadores de vinhos experientes. A análise ilustra que até mesmo fatores que parecem difíceis de medir, como preferências de gosto, podem estar associados com estatísticas, se você escolher a análise correta.

Neste artigo, examinaremos a degustação de vinhos de uma forma bastante incomum. Embora os gostos variem de pessoa para pessoa e sejam provavelmente únicos (De Gustibus non est discutandum: "gosto não se discute"), alguns vinhos são melhores que outros e a maioria das pessoas provavelmente poderia diferenciar um bom vinho de um ruim.

Estamos interessados em usar a estatística para compreender se um vinho que tenha, por exemplo, mais sulfatos ou mais cloretos tem um sabor melhor. Baseado nessa compreensão, seria possível fazer um melhor vinho. Vamos considerar várias variáveis, como acidez, dióxido de enxofre e porcentagem de álcool.

Temos os dados de uma banca de enólogos que degustaram vários tipos de vinhos brancos e tintos, e forneceram avaliações binárias de qualidade - bom (1) ou ruim (0) - para cada. Aqui estão as variáveis em nosso conjunto de dados:

Variável Detalhes Unidades
Tipo tinto ou branco N/A
pH ácido (abaixo de 7) ou alcalino (acima de 7) N/A
Densidade

densidade

gramas/centímetro cúbico
Sulfatos sulfato de potássio gramas/litro
Álcool porcentagem de álcool % do volume
Açúcar residual açúcar residual gramas/litro
Cloretos cloreto de sódio gramas/litro
SO2 livre dióxido de enxofre livre miligramas/litro
SO2 total dióxido de enxofre total miligramas/litro
Acidez fixa ácido tartárico gramas/litro
Acidez volátil ácido acético gramas/litro
Ácido cítrico ácido cítrico gramas/litro

 

 Nosso objetivo é identificar quais dessas muitas variáveis têm um efeito significativo sobre a qualidade do vinho.

Análise gráfica preliminar

Mesmo gráficos muito simples podem fornecer boas indicações sobre quais variáveis podem ser importantes e ajudar a compreender a estrutura do conjunto de dados. O gráfico de barras abaixo descreve a relação entre tipos de vinho (branco ou tinto) e as respostas de qualidade binárias da banca. A banca degustou mais vinhos brancos que tintos e, como podemos ver, há uma maior proporção de classificações 1 para vinhos brancos, que nos permite inferir que a banca parece preferir vinhos brancos:

wine1-type

Esta é uma informação interessante e algo que poderemos considerar mais tarde, mas nosso objetivo principal é avaliar os efeitos do pH, densidade, sulfatos, álcool, açúcar residual e outros fatores sobre a qualidade do vinho. Algumas dessas variáveis têm efeito significativo na qualidade? Caso positivo, quais?

Estamos interessados em identificar variáveis para as quais há uma grande diferença entre um vinho bom e um ruim. Essas variáveis podem ser boas preditoras de um bom vinho. Os boxplots abaixo ilustram a distribuição das variáveis de acordo com a qualidade boa ou ruim de um vinho. Podemos ver claramente que realmente temos muitas variáveis a serem consideradas, e usar gráficos para selecionar variáveis que tenham um efeito notável na qualidade do vinho está longe ser uma tarefa fácil.

wine2-boxplot

Como usar a regressão para analisar os dados binários de sabor

A análise de regressão permite ver como vários fatores afetam o resultado, assim, ela parece ser o método ideal para examinar as variáveis de degustação de vinhos. No entanto, lembre-se de que nossa banca simplesmente classificou cada vinho como sendo de alta ou baixa qualidade. Isso significa que nós temos dados de resposta binários e não contínuos, portanto temos que prosseguir com cautela - usar uma regressão padrão ou ANOVA para analisar uma resposta binária não é geralmente uma boa ideia.

Como dados binários seguem uma distribuição binomial em vez de uma distribuição normal, em forma de sino, a regressão padrão pode resultar em predições de probabilidade que são negativas ou maiores que 100%. Podemos obter um modelo desnecessariamente complexo, no qual algumas interações espúrias parecem ser significativas. Além disso, a variância de dados binários não é necessariamente constante. Quando a proporção média está próxima de 0 ou de 1, a variabilidade tende a ficar menor, já que dados binários são truncados devido ao limite superior (1) ou inferior (0). Portanto, efeitos que podem parecer maiores para configurações específicas dos fatores podem não ser ocasionados por interações com outros fatores, e sim por variância inconstante.

Felizmente, há uma solução simples: como temos dados de resposta binários, é só usar a regressão logística binária.

Análise de componentes principais

Antes de partirmos para a análise de regressão, podemos usar uma análise de componentes principais (multivariada) para detectar colinearidade ou correlação entre as variáveis. Identificar variáveis que são altamente colineares (que podem tornar uma das variáveis quase redundantes em alguns casos) pode nos ajudar a selecionar o melhor modelo de regressão logística binária possível.

Para compreender se algumas variáveis estão correlacionadas entre si, poderíamos usar uma análise de correlação padrão (Stat > Basic Statistics > Correlation no Minitab), porém, um loading plot de uma Análise de componentes principais fornece uma ilustração visual muito clara dessas correlações. Este tipo de gráfico é mais explícito e mostra se alguns grupos de variáveis correlacionadas podem ser agrupados juntos.

No Minitab, vá para Stat > Multivariate > Principal Components, insira as variáveis, selecione Graphs, e marque Loading Plot. Nossos dados produzem o seguinte gráfico:

wine3-loadingplot
 
O Loading plot da Análise de componentes principais mostra que:

  • O SO2 livre e SO2 total são altamente colineares: as linhas dessas variáveis vão na mesma direção no gráfico e estão muito próximas entre si.
  • A acidez fixa e os cloretos também parecem altamente colineares.

Devido a essas fortes colinearidades, diferentes modelos (que incluem diferentes variáveis) podem ser igualmente aceitáveis em termos de predição. Isso deve ser considerado, assim que um modelo final seja selecionado.

Modelo de análise de regressão completo

Uma prática padrão na análise de regressão é iniciar com o "modelo completo", que inclua todo os fatores potencialmente significativos para os quais você coletou dados. Neste caso, começamos a análise incluindo todas as variáveis e todas as interações entre essas variáveis e tipo de vinho. Depois começamos a eliminar as variáveis com o valor-p mais alto. Como sabemos que algumas variáveis são altamente colineares e podem se influenciar mutuamente, eliminamos apenas uma variável por vez, e depois executamos a regressão usando o modelo reduzido.

Por fim, esse processo iterativo nos conduz ao modelo abaixo. Ele é muito complexo, com muitas interações significativas entre tipo de vinho x variável.

wine4-logisticregression


Os fatores e interações que permanecem no modelo são estatisticamente significativos (com valores-p < 0,05). Você pode notar que o álcool e SO2 livre têm valores-p altos, tornando-os candidatos à eliminação, mas como estes termos fazem parte de interações significativas, eles devem ser mantidos no modelo.

Com 15 termos, este modelo é muito difícil de ser compreendido e explicado, mas ele nos dá uma dica de como podemos nos aprofundar nesses dados para compreender melhor quais fatores contribuem mais para um vinho ter um gosto bom.

Temos 5 interações significativas envolvendo "tipo" em nosso modelo. Isso indica que os efeitos de algumas variáveis diferem significativamente de acordo com os vinhos tinto ou branco. Lembre-se também de que nossa banca parece ter uma preferência por vinhos brancos em relação a vinhos tintos. Talvez devêssemos considerar modelos separados para vinhos brancos e tintos. Isso eliminaria a necessidade de incluir interações entre tipos de vinho e outras variáveis, o que poderia simplificar bastante os modelos.

Modelo de regressão para vinhos brancos

Analisaremos primeiramente os dados dos vinhos brancos Como antes, iniciaremos com o modelo completo e eliminaremos um fator por vez de acordo com seu valor-p. Isso nos conduz ao seguinte modelo:

wine5logistic

Esse modelo contém apenas 6 termos, e todas as variáveis que permanecem no modelo têm valores-p baixos (menores ou muito próximos de 0,05). Este modelo é mais fácil de ser interpretado, pois não há interações. A densidade, por exemplo, parece ter um efeito negativo sobre o gosto, pois ela tem um coeficiente negativo, enquanto o pH tem um efeito positivo.

Mas como sabemos se este modelo é aceitável? Testes de ajuste nos ajudam a avaliar a adequação do modelo. Consulte os resultados do Minitab abaixo:

wine6-goodnessoffit


Os valores-p de todos os três testes de ajuste estão bem acima de 0,05, então não podemos rejeitar a hipótese de que este modelo seja adequado. Isso é encorajador. Outra coisa que podemos observar é o número de pares concordantes e discordantes em nosso modelo.  A proporção de pares concordantes e discordantes é uma medida do nível de concordância entre as predições do modelo e as observações — em outras palavras, como o modelo reflete os dados observados.

wine7measureassociation

A proporção de pares concordantes é alta. Novamente, isso é encorajador.

Uma forma de validar o modelo é observar o quão bem os dados observados correspondem às probabilidades preditas pelo modelo. O gráfico Delta padronizado verifica se há grandes diferenças entre as probabilidades preditas, baseadas em nosso modelo, e as probabilidades observadas. O gráfico abaixo mostra que temos alguns outliers, mas no todo ele parece razoável.  

wine8-deltabeta

Modelo de regressão para vinhos tintos

Seguimos o mesmo processo usado na análise dos dados dos vinhos brancos (eliminando iterativamente as variáveis uma por vez do modelo completo) para criar um modelo para os vinhos tintos:

wine9-logistic

Com apenas dois fatores, o modelo é razoavelmente simples e pequeno. Contudo, ainda precisamos observar os testes de ajuste.

wine10-goodness

Os teste de Pearson e deviance são bons, mas o valor-p do teste de Hosmer-Lemeshow é baixo. Isso sugere que talvez tenhamos um problema com a precisão deste modelo.

Novamente, criaremos um gráfico Delta padronizado para ajudar a validar o modelo. Esse gráfico indica que temos um outlier na linha 34, que pode estar ocasionando o problema de ajuste. Para ver se este é o caso, podemos eliminar a linha 34 e executar novamente toda a análise.

wine11-delta 

A nova análise, sem o ponto de dado 34, produz um modelo muito similar. Este modelo revisado tem as mesmas variáveis, mas coeficientes ligeiramente diferentes:

wine12-regression

Agora, os valores-p são altos para todos os testes de ajuste de qualidade, então não temos nenhum problema de adequação do modelo:

wine12a-goodness


Agora, vamos observar o que o Minitab nos diz sobre os pares concordantes e discordantes:

wine13measures

O resultado do Minitab acima mostra que a proporção de pares concordantes é alta. Além disso, o gráfico Delta Beta de resíduos não revela qualquer outlier importante:

 wine14-deltabeta

Tirando conclusões das análises de regressão

Agora que temos modelos para os vinhos tinto e branco, podemos ver o que os dados nos dizem sobre as características do vinho que influenciam as classificações da nossa banca. Por exemplo, esse gráfico de dispersão sintetiza as relações entre as variáveis para vinhos tintos: 

wine15-scatterplot

O gráfico de dispersão indica que os vinhos tintos com uma maior porcentagem de álcool e um conteúdo de acidez fixa maior receberam classificações de qualidade maiores.

Testando o modelo de regressão

O conjunto de dados usado para construir nosso modelos era apenas parte de um conjunto de dados maior que dividimos em dois: um conjunto de dados de treino para construir nosso modelo, e um conjunto de dados de teste para validar o modelo. Uma vez que tivemos nossos modelos finais, usamos os dados de teste para validar e testar nossos modelos finais. Ao comparar as predições dos modelos dos novos dados com os resultados reais da banca do segundo conjunto de teste de valores, descobrimos um número geral de 152 resultados concordantes e 48 resultados discordantes. Considerando como é difícil analisar gostos pessoais, este é um resultado muito bom!

Então quando é necessário compreender situações que, pelo menos na superfície, desafiam a análise de dados, porque não ir um pouco mais fundo e usar técnicas como a regressão logística binária? Você pode usar uma abordagem parecida com esta que fizemos com esses dados de degustação de vinho para analisar dados de marketing ou vendas, para compreender melhor as preferências do cliente e para obter um insight em fatores que são importantes — mesmo se, como as preferências de gosto, elas pareçam difíceis de serem medidas.

—Bruno Scibilia

Ao usar esse site, você concorda com a utilização de cookies para análises e conteúdo personalizado. Leia nossa política

OK