Dégustation de vin : la régression logistique binaire valide la sélection gustative des connaisseurs

Pour comprendre des situations qui semblent défier l'analyse des données, vous pouvez utiliser des techniques telles que la régression logistique binaire. Cet article décrit comment les données discrètes issues de la dégustation de vin et le modèle de régression logistique binaire ont permis de déterminer des facteurs importants pour un panel de dégustateurs expérimentés. L'analyse montre que même les facteurs qui semblent difficiles à mesurer, comme les préférences de goût, peuvent être évalués grâce aux statistiques si la bonne analyse est utilisée.

Dans cet article, nous allons laisser de côté la subjectivité de la dégustation de vin pour analyser les goûts à l'aide des statistiques, une fois n'est pas coutume ! Bien que le ressenti gustatif soit très personnel et varie d'une personne à l'autre (De Gustibus non est discutandum : "Tous les goûts sont dans la nature"), certains vins sont meilleurs que d'autres, et la plupart d'entre nous sommes probablement capables de distinguer un bon vin d'un mauvais.

Nous nous intéressons à l'utilisation des statistiques pour déterminer si un vin contenant, par exemple, plus de sulfites ou de chlorures aurait meilleur goût. Grâce à cette analyse, il sera ensuite possible de produire un meilleur vin. Nous tiendrons compte de plusieurs variables telles que l'acidité, la teneur en dioxyde de soufre et le pourcentage d'alcool.

Nous disposons de données issues d'un panel d'oenologues qui ont goûté différents types de vins rouges et blancs, et ont fourni une évaluation binaire de la qualité de chaque vin (bonne : 1 ou mauvaise : 0). Voici les variables recueillies dans notre ensemble de données :

Variable Détails Unités
Type rouge ou blanc N/A
pH acidité (valeur inférieure à 7) ou alcalinité (valeur supérieure à 7) N/A
Densité

densité

grammes/centimètre cube
Sulfites sulfite de potassium grammes/litre
Alcool pourcentage d'alcool % du volume
Sucre résiduel sucre résiduel grammes/litre
Chlorures chlorure de sodium grammes/litre
SO2 libre dioxyde de soufre libre milligrammes/litre
Teneur totale en SO2 dioxyde de soufre total milligrammes/litre
Acidité fixe acide tartrique grammes/litre
Acidité volatile acide acétique grammes/litre
Acide citrique acide citrique grammes/litre

 

 Notre objectif est d'identifier, parmi ces nombreuses variables, celles ayant une incidence significative sur la qualité du vin.

Analyse graphique préliminaire

Les graphiques, aussi simples soient-ils, peuvent apporter des indications pertinentes sur l'importance de certaines variables et ainsi nous aider à comprendre la structure de notre ensemble de données. La carte barre ci-dessous illustre la relation entre les types de vins (blancs ou rouges) et les réponses binaires du panel de dégustateurs concernant leur qualité. Ces derniers ont goûté plus de vins blancs que de vins rouges et, dans la mesure où nous constatons un plus grand nombre de notations égales à 1 pour les vins blancs, nous pouvons en déduire que le panel de dégustateurs semble préférer les vins blancs.

Il s'agit là d'une information intéressante dont nous pourrons tenir compte ultérieurement. Mais revenons à notre objectif principal, qui est d'évaluer les effets du pH, de la densité, des sulfites, de l'alcool, du sucre résiduel et d'autres facteurs sur la qualité du vin. Certaines de ces variables ont-elles une incidence significative sur la qualité ? Si oui, lesquelles ?

Ce qui nous intéresse ici est d'identifier des variables qui présentent une grande différence entre un bon et un mauvais vin. Ces variables peuvent en effet constituer des prédicteurs pertinents d'un bon vin. Les boîtes à moustaches suivantes illustrent la distribution des variables en fonction de la bonne ou de la mauvaise qualité du vin. Nous constatons que nous devons tenir compte de nombreuses variables et que l'utilisation de graphiques pour sélectionner celles ayant un effet notable sur la qualité du vin est loin d'être facile.

wine2-boxplot

Utilisation du modèle de régression pour l'analyse des données binaires sur les goûts

L'analyse de régression permet d'observer comment plusieurs facteurs peuvent influencer un résultat. Elle serait donc la méthode idéale pour examiner les variables de la dégustation de vin. Il convient néanmoins de rappeler que le panel de dégustateurs a simplement évalué la qualité du vin comme étant bonne ou mauvaise. Cela signifie que nos données de réponse sont binaires et non continues, d'où la nécessité de poursuivre notre enquête avec la plus grande prudence : de manière générale, l'utilisation de la régression standard ou de la méthode ANOVA pour analyser une réponse binaire n'est en effet pas une bonne idée.

Comme les données binaires suivent une loi de distribution binomiale plutôt qu'une distribution normale en forme de cloche, la régression standard peut générer des données de probabilité négatives ou supérieures à 100 %. Nous risquons d'obtenir un modèle inutilement complexe, dans lequel les fausses interactions semblent importantes. De plus, la variance des données binaires n'est pas forcément constante. Si la proportion moyenne est proche de 0 ou de 1, la variabilité tend à se réduire, car les données binaires sont tronquées en raison de la limite supérieure (1) ou inférieure (0). Par conséquent, les effets qui semblent plus importants en raison de paramètres propres à un facteur peuvent résulter non pas d'interactions avec d'autres facteurs, mais d'une variance non constante.

Heureusement, il existe une solution simple : puisque nous disposons de données de réponse binaires, nous n'avons qu'à utiliser la régression logistique binaire.

Analyse en composantes principales

Avant de nous lancer dans une analyse de régression, nous pouvons utiliser une analyse en composantes principales (analyse multivariée) afin de repérer la colinéarité ou la corrélation entre les variables. L'identification des variables présentant une colinéarité élevée (ce qui, dans certains cas, peut rendre l'une des variables presque redondante) peut nous aider à sélectionner le meilleur modèle de régression logistique binaire possible.

Pour savoir si des variables sont corrélées entre elles, nous pouvons utiliser une analyse de corrélation standard (Stat > Statistiques élémentaires > Corrélation dans Minitab), mais l'utilisation d'un diagramme des contributions à partir d'une analyse en composantes principales offre une représentation visuelle claire de ces corrélations. Un tel diagramme est plus explicite et montre si des variables corrélées peuvent être regroupées.

Dans Minitab, accédez à Stat > Multivarié > Composantes principales, puis entrez les variables, sélectionnez Graphiques et cochez la case Diagramme des contributions. Nos données fournissent les informations suivantes :

wine3-loadingplot
 
Le diagramme des contributions issu de l'analyse en composantes principales montre que :

  • Le SO2 libre et le SO2 total sont hautement colinéaires : les lignes de ces variables vont dans la même direction sur le graphique et sont très proches les unes des autres.
  • L'acidité fixe et les chlorures semblent également présenter une colinéarité élevée.

Du fait de ces fortes colinéarités, plusieurs modèles (qui incluent différentes variables) peuvent être également acceptables en matière de prédiction. Ces informations doivent être prises en compte une fois le modèle final sélectionné.

Analyse de régression avec modèle complet

La procédure habituelle pour une analyse de régression consiste à commencer par le "modèle complet", celui-ci comportant tous les facteurs potentiellement importants pour lesquels vous avez collecté des données. Dans ce cas, nous commençons l'analyse en incluant toutes les variables, et toutes les interactions entre celles-ci et le type de vin. Nous éliminons ensuite les variables ayant la valeur de p la plus élevée. Dans la mesure où certaines variables présentent une colinéarité élevée et peuvent s'influencer mutuellement, nous éliminons une seule variable à la fois, puis exécutons une régression à l'aide du modèle réduit.

Enfin, ce procédé itératif nous amène au modèle ci-dessous. Plutôt complexe, il contient de nombreuses interactions Type de vin*variable significatives :

wine4-logisticregression
Les facteurs et les interactions restant dans ce modèle sont statistiquement significatifs (avec des valeurs de p < 0,05). Vous pouvez observer que les valeurs de p des variables Alcool et SO2 libre sont élevées, ce qui peut plaider en faveur de leur élimination. Toutefois, puisque ces termes font partie d'interactions significatives, ils doivent être conservés dans le modèle.

Avec ces 15 termes, ce modèle est trop difficile à comprendre et à expliquer, mais il nous donne des indications sur les données à explorer afin de mieux identifier les facteurs qui contribuent le plus à la qualité gustative du vin.

Nous disposons de 5 interactions significatives impliquant le "type" dans notre modèle. Cela indique que les effets de certaines variables diffèrent considérablement selon que les vins sont rouges ou blancs. Rappelez-vous également que le panel de dégustateurs semble préférer les vins blancs aux vins rouges. Nous devrions peut-être envisager des modèles séparés pour les types de vins (blancs et rouges). Nous n'aurions ainsi plus besoin d'inclure les interactions entre les types de vins et les autres variables, ce qui simplifierait beaucoup les modèles.

Modèle de régression des vins blancs

Nous allons d'abord analyser les données relatives aux vins blancs. Comme précédemment, nous commençons par le modèle complet et éliminons les facteurs un à un, en fonction de leur valeur de p. Ceci nous amène au modèle suivant :

wine5logistic

Ce modèle n'inclut que 6 termes, et les valeurs de p de toutes les variables restantes dans le modèle sont faibles (inférieures à 0,05 ou très proches de cette valeur). Ce modèle est facile à interpréter car il n'y a pas d'interactions. La densité, par exemple, semble avoir un effet négatif sur le goût car son coefficient est négatif, alors que l'effet du pH est positif.

Mais comment savoir si ce modèle est acceptable ? Les tests d'adéquation de l'ajustement permettent d'évaluer l'adéquation du modèle. Observez les résultats générés par Minitab ci-dessous :

wine6-goodnessoffit


Les valeurs de p des trois tests d'adéquation de l'ajustement sont largement supérieures à 0,05, nous ne pouvons donc pas rejeter l'hypothèse que ce modèle est adéquat. Voilà qui est encourageant. D'autre part, nous pouvons examiner le nombre de paires concordantes et discordantes dans notre modèle. La proportion de paires concordantes/discordantes est une mesure du niveau de concordance entre les prédictions du modèle et les observations (en d'autres termes, il s'agit de la capacité du modèle à refléter les données observées).

wine7measureassociation

La proportion de paires concordantes est élevée. C'est également encourageant.

Afin de valider le modèle, nous pouvons examiner la qualité de la correspondance entre les données observées et les prévisions de probabilité du modèle. Le graphique du delta normalisé vérifie les grandes différences entre les prévisions de probabilité en fonction de notre modèle et des probabilités observées. Le graphique ci-dessous montre qu'il existe des valeurs aberrantes mais, de manière générale, il semble acceptable.  

wine8-deltabeta

Modèle de régression des vins rouges

Nous avons suivi le même procédé que celui utilisé pour l'analyse des données relatives aux vins blancs, à savoir en éliminant de manière itérative les variables une à une du modèle complet, afin de créer un modèle pour les vins rouges :

wine9-logistic

Avec seulement deux facteurs, le modèle est assez simple et réduit. Nous devons tout de même examiner les tests d'adéquation de l'ajustement.

wine10-goodness

Les tests de Pearson et d'écart sont bons, mais la valeur de p du test de Hosmer-Lemeshow est faible. Cela suggère que l'exactitude de ce modèle n'est pas garantie.

Là encore, nous allons créer un graphique du delta normalisé qui nous permettra de valider le modèle. Ce graphique indique qu'il existe une valeur aberrante à la ligne 34, ce qui peut entraîner des problèmes d'adéquation de l'ajustement. Pour savoir si c'est le cas, nous pouvons éliminer la ligne 34 et exécuter à nouveau l'analyse complète.

wine11-delta 

La nouvelle analyse, sans la ligne 34, donne lieu à un modèle similaire. Ce modèle révisé comporte les mêmes variables, mais présente des coefficients sensiblement différents :

wine12-regression

Cette fois-ci, les valeurs de p sont élevées pour tous les tests d'adéquation de l'ajustement, il n'y a donc pas de problème d'adéquation du modèle :

wine12a-goodness


Observons à présent ce que Minitab nous révèle sur les paires concordantes et discordantes :

wine13measures

Les résultats générés par Minitab ci-dessus montrent que la proportion de paires concordantes est élevée. De plus, le graphique bêta du delta des valeurs résiduelles ne révèle aucune valeur aberrante majeure :

 wine14-deltabeta

Conclusions tirées des analyses de régression

Maintenant que nous disposons de modèles pour les vins rouges et blancs, nous pouvons analyser les données afin de déterminer les caractéristiques du vin qui ont influencé les notations du panel de dégustateurs. Par exemple, ce nuage de points résume la relation entre les variables pour les vins rouges : 

wine15-scatterplot

Le nuage de points indique que les vins rouges contenant un pourcentage d'alcool et une acidité fixe plus élevés ont été les mieux notés.

Test du modèle de régression

L'ensemble de données utilisé pour construire nos modèles n'est qu'une partie d'un ensemble de données plus important que nous avons divisé en deux : un ensemble de données d'apprentissage pour construire notre modèle et un ensemble de données de test pour le valider. Une fois les modèles finaux obtenus, nous avons utilisé les données de test pour les tester et les valider. En comparant les prédictions des modèles pour les nouvelles données aux résultats réels du panel issus du second ensemble de valeurs de test, nous avons observé 152 résultats concordants et 48 résultats discordants. L'analyse des goûts personnels étant très difficile, ce résultat est très satisfaisant !

Ainsi, pour comprendre des situations qui défient l'analyse des données, du moins en apparence, pensez à examiner davantage vos informations à l'aide de techniques telles que la régression logistique binaire. Vous pouvez utiliser une approche semblable à celle que nous avons employée avec ces données issues de la dégustation de vin pour analyser des données marketing ou de ventes, pour mieux comprendre les préférences des clients et déterminer les facteurs importants, et ce, même si, comme les préférences de goûts, ces éléments semblent difficiles à mesurer.

Bruno Scibilia


  • Minitab News

    Recevez gratuitement notre lettre d'information électronique mensuelle pour connaître l'actualité de Minitab, consulter les didacticiels, lire des études de cas, obtenir des conseils statistiques, et recevoir d'autres informations utiles.

    Pour s'abonner
  • Suivez Minitab

    Join Minitab on LinkedIn Follow Minitab on Twitter Like Minitab on Facebook
  • Plus d'articles

En utilisant ce site, vous acceptez l'utilisation de cookies à des fins d'analyse et de personnalisation du contenu. Lisez notre politique

OK