Degustación de vinos en números: Uso de la regresión logística binaria para revelar las preferencias de los expertos

Cuando necesite entender situaciones que parezcan desafiar el análisis de datos, quizás pueda utilizar técnicas como la regresión logística binaria. Este artículo detalla cómo se obtuvo información sobre factores considerados importantes por un panel de expertos catadores de vino utilizando datos sobre degustaciones y el método de regresión logística binaria. El análisis demuestra que incluso factores que parecen difíciles de medir, como las preferencias de sabor, se pueden evaluar estadísticamente si se elige el análisis adecuado.

En este artículo, enfocaremos la degustación de vinos de una manera muy poco común. Aunque los gustos varían de una persona a otra y probablemente sean únicos (De Gustibus non est discutandum: “En cuestiones de gustos, no puede haber discusión”), algunos vinos son mejores que otros, y la mayoría de las personas probablemente diferenciarían un buen vino de uno malo.

Nos interesa utilizar la estadística para saber si un vino que contiene, por ejemplo, más sulfatos o más cloruros tiene mejor sabor. Partiendo de ese conocimiento, podría ser posible elaborar un vino más exquisito. Consideraremos varias variables, tales como acidez, dióxido de azufre y porcentaje de alcohol.

Contamos con datos de un panel de enólogos que degustaron varios tipos de vinos blancos y tintos y, para cada uno, proporcionaron evaluaciones binarias de la calidad: bueno (1) o malo (0). Estas son las variables de nuestro conjunto de datos:

Variable Detalles Unidades
Tipo tinto o blanco N/A
pH acidez (menos de 7) o alcalinidad (más de 7) N/A
Densidad

densidad

gramos/centímetros cúbicos
Sulfatos sulfato de potasio gramos/litro
Alcohol porcentaje de alcohol % por volumen
Azúcar residual azúcar residual gramos/litro
Cloruros cloruro de sodio gramos/litro
SO2 libre dióxido de azufre libre miligramos/litro
SO2 total dióxido de azufre total miligramos/litro
Acidez fija ácido tartárico gramos/litro
Acidez volátil ácido acético gramos/litro
Ácido cítrico ácido cítrico gramos/litro

 

 Nuestro objetivo es identificar cuáles de estas variables tienen un efecto significativo en la calidad del vino.

Análisis gráfico preliminar

Incluso las gráficas más simples pueden proporcionar buenos indicios de cuáles variables podrían ser importantes, y ayudarnos a entender la estructura de nuestro conjunto de datos. La gráfica de barras que se muestra abajo describe la relación entre los tipos de vinos (blancos o tintos) y las respuestas binarias de calidad del panel. El panel degustó más vinos blancos que tintos, y dado que vemos que existe una mayor proporción de vinos blancos calificados con 1, podemos inferir que el panel parece preferir los vinos blancos:

wine1-typeEN.jpg

Esta información es interesante y es algo que convendría examinar más adelante, pero nuestro objetivo principal es evaluar los efectos del pH, densidad, sulfatos, alcohol, azúcar residual y otros factores sobre la calidad del vino. ¿Tienen algunas de estas variables un efecto significativo sobre la calidad? De ser así, ¿cuáles?

Estamos interesados en identificar variables que produzcan un gran cambio entre un vino exquisito y uno de escasa calidad. Estas variables podrían ser un buen predictor de un buen vino. Las gráficas de cajas que se muestran abajo ilustran la distribución de las variables de acuerdo con una buena o mala calidad del vino. Claramente podemos ver que tenemos muchas variables que considerar, y utilizar las gráficas para seleccionar las variables que tienen un efecto notable sobre la calidad del vino no es tarea fácil.

wine2-boxplotEN

Uso de regresión para analizar los datos binarios de degustación

El análisis de regresión nos permite ver de qué manera múltiples factores afectan un resultado, por lo que parece ser un método ideal para examinar las variables de cata de vinos. Sin embargo, recordemos que nuestro panel simplemente clasificó cada vino como de alta o baja calidad. Esto significa que contamos con datos de respuesta binarios y no continuos, así que tenemos que proceder con cautela, porque generalmente no es buena idea utilizar una regresión estándar o un ANOVA para analizar una respuesta binaria.

Dado que los datos binarios siguen una distribución binomial, y no una distribución normal en forma de campana, la regresión estándar podría tener como resultado predicciones de probabilidad negativas o mayores que 100%. Podríamos obtener un modelo innecesariamente complejo, en el cual algunas interacciones espurias parecerían ser importantes. Además, la varianza de los datos binarios no es necesariamente constante. Cuando la proporción promedio es cercana a 0 o a 1, la variabilidad tiende a reducirse, ya que los datos binarios se truncan debido al límite superior (1) o inferior (0). Por lo tanto, efectos que pueden parecer más grandes para configuraciones específicas de los factores podrían deberse no a interacciones con otros factores, sino a una varianza no constante.

Afortunadamente, existe una solución simple: ya que tenemos datos de respuesta binarios, simplemente tenemos que utilizar la regresión logística binaria.

Análisis de componentes principales

Antes de avanzar a un análisis de regresión, podemos utilizar un Análisis (multivariado) de componentes principales para detectar cualquier colinealidad o correlación entre las variables. Identificar variables que son altamente colineales, lo cual puede hacer que una de las variables sea prácticamente redundante en algunos casos, puede ayudarnos a seleccionar el mejor modelo posible de regresión logística binaria.

Para saber si algunas variables se correlacionan entre sí, podríamos utilizar un análisis de correlación estándar (Estadísticas > Estadísticas básicas > Correlación en Minitab), pero una gráfica de cargas de un Análisis de componentes principales ofrece una ilustración visual muy clara de estas correlaciones. Esta gráfica es más explícita e indica si algunos grupos de variables correlacionadas se pueden agrupar.

En Minitab, vaya a Estadísticas > Análisis multivariado > Componentes principales, ingrese las variables, seleccione Gráficas y marque Gráfica de cargas. Nuestros datos produjeron lo siguiente:

wine3-loadingplotEN
 
La gráfica de cargas del Análisis de componentes principales muestra que:

  • El SO2 libre y el SO2 total son altamente colineales: las líneas de estas variables van en la misma dirección en la gráfica y están muy cercanas entre sí.
  • La acidez fija y los cloruros también parecen ser altamente colineales.

Debido a estas fuertes colinealidades, diferentes modelos (que incluyan diferentes variables) pueden ser igualmente aceptables en lo que respecta a predicción. Esto se debe considerar una vez que se haya seleccionado un modelo definitivo.

Análisis de regresión de modelo completo

Una práctica estándar en el análisis de regresión es comenzar con el “modelo completo”, uno que incluya todos los factores potencialmente significativos para los que se recolectaron datos. En este caso, empezamos el análisis incluyendo todas las variables y todas las interacciones entre esas variables y el tipo de vino. Entonces comenzamos a eliminar las variables con el valor p más alto. Como ya sabemos que algunas variables son altamente colineales y podrían influirse mutuamente, eliminamos sólo una variable a la vez, luego realizamos una regresión utilizando el modelo reducido.

En definitiva, este proceso iterativo nos lleva al modelo siguiente. Es bastante complejo, con muchas interacciones Tipo de vino*variable significativas:

wine4-logisticregressionEN


Los factores y las interacciones que permanecen en el modelo son estadísticamente significativos (con valores p < 0.05). Se puede notar que Alcohol y S02 libre tienen valores p altos, lo que los convierte en candidatos para su eliminación, pero dado que estos términos están incluidos en interacciones significativas, deben permanecer en el modelo.

Con 15 términos, este modelo es demasiado difícil de entender y explicar, pero sí nos da una pista de cómo podemos ahondar más en estos datos para entender mejor cuáles factores contribuyen más a un vino de buen sabor.

Tenemos 5 interacciones significativas que incluyen la variable “tipo” en nuestro modelo. Esto indica que los efectos de algunas variables difieren significativamente según se trate de vinos tintos o blancos. Recordemos también que nuestro panel parecía tener una preferencia por los vinos blancos en comparación con los tintos. Tal vez deberíamos considerar usar modelos separados para vinos blancos y tintos. Esto eliminaría la necesidad de incluir las interacciones entre Tipos de vino y otras variables, lo que simplificaría enormemente los modelos.

Modelo de regresión para vinos blancos

Analizamos los datos de los vinos blancos en primer lugar. Como lo hicimos antes, comenzaremos con el modelo completo y eliminaremos un factor a la vez de acuerdo con su valor p. Esto nos lleva al siguiente modelo:

wine5logisticEN

Este modelo incluye sólo 6 términos, y todas las variables que permanecen en el modelo tienen valores p bajos (menor que o muy cercanos a 0.05). Este modelo es más fácil de interpretar, ya que no hay ninguna interacción. La densidad, por ejemplo, parece tener un efecto negativo en el gusto porque presenta un coeficiente negativo, mientras que el pH tiene un efecto positivo.

Pero ¿cómo sabemos que este modelo es aceptable? Las pruebas de bondad del ajuste nos ayudan a evaluar lo adecuado de un modelo. Veamos los resultados de Minitab a continuación:

wine6-goodnessoffitEN


Los valores p de las tres pruebas de bondad del ajuste están muy por encima de 0.05, de modo que no podemos rechazar la hipótesis de que este modelo es adecuado. Eso es alentador. Otro aspecto que podemos analizar es el número de pares concordantes y discordantes en nuestro modelo.  La proporción de pares concordantes/discordantes es una medida del nivel de concordancia entre las predicciones y las observaciones del modelo, en otras palabras, qué tan bien refleja el modelo los datos observados).

wine7measureassociationEN

La proporción de pares concordantes es elevada. Esto también es alentador.

Una manera de validar el modelo es observando el grado de coincidencia de los datos observados con las probabilidades pronosticadas del modelo. La gráfica Delta estandarizada verifica si existen grandes diferencias entre las probabilidades pronosticadas basadas en nuestro modelo y las probabilidades observadas. La gráfica siguiente muestra que tenemos algunos valores atípicos, pero en general parece razonable.  

wine8-deltabetaEN

Modelo de regresión para vinos tintos

Seguimos el mismo proceso utilizado para analizar los datos de los vinos blancos, eliminando iterativamente variables del modelo completo una a la vez, para crear un modelo para los vinos tintos:

wine9-logisticEN

Con tan sólo dos factores, este modelo es bastante simple y pequeño. Sin embargo, de todos modos necesitamos evaluar las pruebas de bondad del ajuste.

wine10-goodnessEN

Las pruebas de Pearson y de desviación son aceptables, pero el valor p de la prueba de Hosmer-Lemeshow es bajo. Esto sugiere que podríamos tener un problema con la exactitud de este modelo.

De nuevo, crearemos una gráfica Delta estandarizada como ayuda para validar el modelo. La gráfica indica que tenemos un valor atípico en la fila 34, que podría estar causando el problema de bondad del ajuste. Para saber si ese es el caso, podemos eliminar la fila 34 y volver a ejecutar todo el análisis.

wine11-deltaEN 

El nuevo análisis, sin el punto de datos 34, produce un modelo muy similar. Este modelo revisado tiene las mismas variables, pero coeficientes ligeramente diferentes:

wine12-regressionEN

Esta vez los valores p son elevados para todas las pruebas de bondad del ajuste, de modo que no tenemos ningún problema con respecto a lo adecuado del modelo:

wine12a-goodnessEN


Ahora veamos lo que nos dice Minitab acerca de los pares concordantes y discordantes:

wine13measuresEN

Los resultados de Minitab que se muestran arriba indican que la proporción de pares concordantes es alta. Además, la gráfica Delta Beta de los residuos no revela observaciones atípicas importantes:

 wine14-deltabetaEN

Conclusiones basadas en los análisis de regresión

Ahora que contamos con modelos para los vinos tintos y blancos, podemos ver lo que nos dicen los datos acerca de las características de los vinos que influyeron en las calificaciones de nuestro panel. Por ejemplo, esta gráfica de dispersión resume la relación entre las variables en el caso de los vinos tintos: 

wine15-scatterplotEN

La gráfica de dispersión indica que los vinos tintos con un mayor porcentaje de alcohol y un mayor contenido de acidez fija reciben calificaciones de calidad más altas.

Prueba del modelo de regresión

El conjunto de datos que utilizamos para construir nuestros modelos era sólo una parte de un conjunto de datos más grande que habíamos dividido en dos: un conjunto de datos de entrenamiento para construir nuestro modelo y un conjunto de datos de prueba para validar el modelo. Una vez que tuvimos nuestros modelos finales, utilizamos los datos de prueba para validar y probar nuestros modelos. Cuando comparamos las predicciones de los modelos para los nuevos datos con los resultados reales del panel correspondientes al segundo conjunto de valores, hallamos un total de 152 resultados concordantes y 48 resultados discordantes. ¡Considerando lo difícil que es analizar los gustos personales, es un resultado muy bueno!

Así que cuando necesite entender situaciones que, al menos superficialmente, desafíen el análisis de datos, ¿por qué no profundizar un poco más mediante el uso de técnicas como la regresión logística binaria? Puede utilizar un enfoque similar a lo que hicimos con estos datos de cata de vinos para analizar datos de ventas o mercadotecnia, para entender mejor las preferencias de los clientes y para comprender factores que son importantes, incluso cuando, como en el caso de las preferencias de sabor, parezcan difíciles de medir.

—Bruno Scibilia

Al utilizar este sitio, usted acepta el uso de cookies para efectos de análisis y contenido personalizado. Leer nuestra política