Approfondissez vos données d'enquête avec Minitab : tests t à 2 échantillons, tests à proportions, ANOVA et régression

Dans l'article Analyse de données d'enquête avec Minitab, nous avons étudié plusieurs outils d'analyse d'enquête disponible dans  le logiciel de statistiques Minitab. Seront abordées dans cet article-ci, des techniques plus sophistiquées, notamment des tests t à 2 échantillons, des tests à proportions, des analyses de variance (ANOVA) et des analyses de régression.

Tests d'hypothèse

Nous avions précédemment étudié les possibilités offertes par les tests d'hypothèse en utilisant un test du Khi deux pour confirmer l'association entre le genre des individues et la préférence pour une cartaine race d'animal domestique. Les tests d'hypothèse sont fréquemment utilisés pour analyser des données d'enquête, notamment les tests t pour évaluer les moyennes et les tests à proportions pour évaluer les pourcentages. Vous pouvez utiliser ces types de tests pour comparer des moyennes ou des proportions à une valeur cible, ou pour comparer des moyennes et des proportions les unes par rapport aux autres.
Dans Minitab, la plupart des tests d'hypothèse se trouvent dans le menu Stat > Statistiques élémentaires.

Test t à 2 échantillons

Nous pouvons utiliser le test t à 2 échantillons pour comparer les moyennes entre deux groupes et déterminer s'il existe une différence significative entre ces groupes ou si la différence observée est plutôt due au hasard.
Supposons que notre refuge d'animaux interroge un échantillon aléatoire de 100 personnes ayant adopté un animal afin d'étudier les frais liés aux soins, la garde et  l'entretien d'animaux domestiques adoptés. Nous souhaitons savoir si la somme que les maîtres dépensent chaque année pour la nourriture, l'entretien, les équipements ou encore les soins vétérinaires de leurs animaux varie selon le type d'animal qu'elles adoptent. Nous pouvons utiliser un test t à 2 échantillons afin de déterminer si les personnes ayant adopté un chat dépensent plus, moins ou autant d'argent que celles qui ont adopté un chien. L'hypothèse nulle indiquerait que la somme dépensée par les propriétaires de chats et de chiens est identique. L'hypothèse alternative est que les dépenses moyennes ne sont pas égales.

Nous sélectionnons Stat > Statistiques élémentaires > Test t à 2 échantillons pour exécuter ce test sur nos données. Minitab donne le résultat suivant :

DelveDeeper-2-sample-T-FR.gif

Avant d'exécuter un test d'hypothèse, nous sélectionnons une valeur appelée niveau d'alpha et nous comparons la valeur de p du test t au niveau d'alpha. La valeur de p nous indique la probabilité avec laquelle nous obtiendrons nos résultats si l'hypothèse nulle est vraie. Si la valeur de p est inférieure ou égale au niveau d'alpha, nous rejetons l'hypothèse nulle et concluons qu'il y a une différence entre les dépenses annuelles moyennes pour les chats et les chiens.

Pour notre test, nous avons utilisé un niveau d'alpha de 0,05, niveau le plus communément appliqué. Nos données ayant produit une valeur de p de 0,000,  inférieure à notre niveau d'alpha de 0,05, nous pouvons rejeter l'hypothèse nulle. Nos données nous permettent de conclure que les propriétaires de chats ne dépensent pas la même somme moyenne pour leur animal que les propriétaires de chiens. En fait, nous pouvons conclure que les propriétaires de chats dépensent beaucoup moins d'argent que les propriétaires de chiens.

Le test t à 2 échantillons fournit également un intervalle de confiance qui nous en dit plus sur la différence entre les deux groupes. Nos données ayant été analysées avec un niveau d'alpha de 0,05, Minitab nous donne un intervalle de confiance de 95 % (ou 0,95). Cet intervalle nous indique que, sur la base des données échantillons, nous pouvons être sûrs à 95 % que la différence moyenne réelle entre les dépenses de ces deux groupes se situe entre 42,74 et 73,17 dollars (soit entre 29,58 et 50,63 Euros). Notez que cet intervalle de confiance ne contient pas de 0, ce qui indique que la différence entre les moyennes des groupes est significative, ou différente de zéro.

Tests à proportions

Enivsageons de réaliser des inférences sur une proportion de population. Pour ce faire, pouvons utiliser le test à une proportion de Minitab.

Supposons que nous disposons des données d'enquête de 1000 propriétaires locaux d'animaux sélectionnés de façon aléatoire. Nous souhaitons déterminer si la proportion de population de propriétaires de furets est différente de la moyenne nationale de 6,5 %.

Lorsque nous utilisons des tests à une proportion, nous essayons réellement de savoir laquelle des deux hypothèses opposées est vraie, sur la base de nos données :

  • Il n'y a aucune différence entre la moyenne locale de propriétaires de furets et la moyenne nationale. Nous appelons cet énoncé l'"hypothèse nulle".
  • Il y a une différence significative entre la moyenne locale de propriétaires de furets et la moyenne nationale. Nous appelons cet énoncé l'"hypothèse alternative". Nous pouvons aussi faire en sorte que l'hypothèse alternative soit directionnelle, afin de savoir si notre pourcentage est supérieur ou inférieur à la moyenne.

Pour exécuter un test à une proportion, nous utilisons Stat > Statistiques élémentaires > 1 proportion. Minitab donne les résultats suivants :

DelveDeeper-CI-1-Proportion-FR.gif

L'analyse fournit une valeur de p de 0,008, ce qui indique que nous n'aurions eu que 0,8 % de chances d'obtenir cette proportion d'échantillon (ou une proportion d'échantillon plus extrême) si la proportion de population avait réellement été égale à notre valeur de référence de 0,065, la moyenne nationale.

Le test à une proportion nous donne également un intervalle de confiance, qui nous indique que nous pouvons être sûrs à 95 % que la proportion de population locale de propriétaires de furets est supérieure ou égale à 0,070268, soit 7,02 %, et inférieure ou égale à 0,106208, soit 10,6 %. L'intervalle de confiance ne contenant pas notre valeur de référence de 0,065, et la valeur de p étant inférieure à 0,05, nous pouvons rejeter l'hypothèse nulle et conclure que la proportion de population n'est pas de 0,065. La proportion est nettement supérieure à 6,5 %.

Le logiciel de statistiques Minitab nous permet également de réaliser des tests à deux proportions pour effectuer des inférences sur les différences entre deux proportions de population. Supposons que nous voulons savoir si la proportion de visiteurs d'un refuge qui adoptent un animal peut être augmentée par la distribution d'un échantillon gratuit de nourriture pour animaux. Nous pouvons offrir cet échantillon à la moitié de nos visiteurs, et interroger à la fois ceux qui ont bénéficié de l'offre et ceux qui n'ont pas eu d'échantillon commercial. Nous pouvons utiliser le test à deux proportions pour savoir si les résultats indiquent qu'une offre de ce type inciterait l'ensemble des visiteurs à adopter un animal.

Aanlyse de variance (ANOVA)

Admettons que nous envisageons d'exploiter nos données sur les dépenses annuelles pour les animaux afin de comprendre des informations sur trois groupes voire plus. Dans ce cas, nous pouvons utiliser les outils ANOVA (analyse de variance) de Minitab. Une ANOVA est semblable à un test t car les deux analyses comparent les moyennes de groupes pour une variable Y continue (par exemple, les dépenses pour les animaux domestiques). Quant à l'ANOVA, elle peut être utilisée non seulement pour savoir si trois moyennes ou plus diffèrent de la variable d'un seul groupe, mais également afin de comparer les moyennes de groupes pour plusieurs variables.

Il existe plusieurs types d'ANOVA. Pour savoir si les moyennes de groupes pour un seul facteur de catégorie sont égales, vous pouvez utiliser l'ANOVA à un facteur. Par exemple, notre centre d'adoption peut utiliser une ANOVA à un facteur afin de déterminer si les dépenses pour les animaux diffèrent selon trois niveaux d'études distincts.

L'ANOVA permettent également de déterminer si la somme moyenne dépensée pour les animaux différait selon les facteurs de catégorie, tels que trois niveaux d'études, et selon le type d'animal. L'ANOVA sert également à déterminer s'il existe des interactions entre deux variables ou plus. S'il existe une interaction entre deux facteurs, l'effet d'un facteur sur la réponse dépend du niveau d'un autre facteur.

Nous pouvons utiliser Stat > ANOVA > Modèle linéaire général pour ce type d'analyse. Pour notre enquête sur les propriétaires d'animaux, nous pouvons utiliser cet outil afin de déterminer (1) si les dépenses pour les animaux diffèrent selon les niveaux d'études, (2) si les dépenses diffèrent selon le type d'animal (chien/chat) et (3) s'il existe une interaction entre le niveau d'études et le type d'animal.

DelveDeeper-GLM-FR.gif

Dans les résultats ci-dessus, la variable Animal a une valeur de p de 0,000, tandis que la variable Niveau d'études et l'interaction Animal*Niveau d'études ont toutes les deux des valeurs de p nettement supérieures à 0,05. Sur la base de cette analyse, nos données ne nous permettent pas de conclure que les dépenses pour les animaux diffèrent de façon significative selon le niveau d'études, ou qu'il existe une interaction entre le niveau d'études et le type d'animal.

Il existe également un type d'ANOVA appelé ANCOVA. Si vous avez une combinaison de facteurs de catégorie et de facteurs continus, vous pouvez utiliser l'outil Modèle linéaire général de Minitab pour effectuer une ANCOVA.

Régression

Minitab comprend une série d'analyses de régression, qui peuvent être utilisées pour examiner ou prévoir comment des variables continues particulières influencent un résultat spécifique, par exemple, comment le revenu d'un ménage entre en corrélation avec les dépenses pour les animaux. Elles peuvent servir à :

  • Déterminer s'il existe une relation entre une variable dépendante (Y) et des variables indépendantes (X).
  • Déterminer la force et la structure de la relation, si elle existe.
  • Prévoir les valeurs de la variable dépendante en fonction des valeurs des variables indépendantes.

La régression linéaire simple nous donne des informations sur la relation entre une variable Y et une variable X. Nous utilisons une régression multiple pour en savoir plus sur la relation entre une variable Y et plusieurs variables X. Dans la régression multiple, nous montrons toujours comment Y dépend de X, mais maintenant, Y peut dépendre de plusieurs variables X différentes, voire de l'interaction entre les variables  X.

Supposons que nous voulons utiliser la régression linéaire simple pour évaluer si les revenus d'un ménage permettent de prévoir les e montant des frais dépensés pour les animaux. Nous pouvons sélectionner Stat > Régression pour exécuter notre analyse dans Minitab.

DelveDeeper-Regression-FR.gif

La valeur de p de 0,000 pour Revenu est inférieure à a = 0,05, ce qui indique qu'il y a une relation linéaire significative, ou une corrélation, entre le revenu du propriétaire d'un animal et la somme qu'il dépense pour son animal.

Il est très important de ne pas oublier que, si la corrélation nous indique la nature et le degré de l'association entre les variables, elle ne peut pas nous indiquer s'il existe une relation de cause à effet. Une association entre une variable indépendante et une variable dépendante ne signifie pas que X cause Y, mais uniquement que lorsque X augmente ou diminue, Y en fait de même. C'est ce que les professeurs et formateurs en statistiques veulent dire lorsqu'ils expliquent aux personnes qui suivent leurs cours que la "corrélation n'implique pas la causalité". Ce poitn doît être très clairement explicité lorsque vous communiquez les résultats de votre analyse à des personnes qui n'ont peut-être pas une grande expérience des statistiques.

Mais vous pouvez toujours utiliser l'analyse de régression pour effectuer des prévisions, car les prévisions ne nécessitent pas une causalité. L'analyse de régression décrit la relation observée entre au moins une variable et une réponse. Nous pouvons utiliser cette relation pour effectuer une prévision sans nous soucier de la causalité tant que les schémas trouvés dans les données sont toujours vrais.

Des outils puissants pour l'analyse d'enquête

Cet article offre un bref aperçu des types d'informations que vous pouvez glaner en analysant vos données avec Minitab Statistical Software. Le logiciel de statistiques Minitab possède les outils dont vous avez besoin pour analyser les données d'enquête et prendre les bonnes décisions concernant ce que vous souhaitez estimer, cerner. Pour obtenir plus d'informations et d'exemples sur la façon d'utiliser ces outils très utiles, Minitab propose une aide détaillée et un support technique gratuit.

Eston Martz
Spécialiste senior service marketing, Minitab, LLC.

Michelle Paret
Responsable produits, Minitab, LLC.

Pour plus d'informations sur les statistiques, rendez-vous sur www.minitab.com.

Téléchargez cet article au format PDF (en anglais)

  • Minitab News

    Recevez gratuitement notre lettre d'information électronique mensuelle pour connaître l'actualité de Minitab, consulter les didacticiels, lire des études de cas, obtenir des conseils statistiques, et recevoir d'autres informations utiles.

    Pour s'abonner
  • Suivez Minitab

    Join Minitab on LinkedIn Follow Minitab on Twitter Like Minitab on Facebook
  • Plus d'articles

En utilisant ce site, vous acceptez l'utilisation de cookies à des fins d'analyse et de personnalisation du contenu. Lisez notre politique

OK