Partager les meilleures pratiques : enseignement et formation aux statistiques

Les enseignants et les formateurs en statistiques le savent : se contenter de mémoriser les méthodes et les concepts n'est pas suffisant. Les étudiants doivent également comprendre et savoir interpréter leurs résultats. 

En 15 ans d'enseignement, le Dr Julie Belock, professeur à l'université Salem State University, a mis au point un certain nombre de travaux pratiques pour permettre aux étudiants de comprendre le sens des techniques statistiques élémentaires.  Dans un article rédigé à l'occasion de la 25e Conférence internationale annuelle sur les méthodes d'enseignement des mathématiques pour les élèves de secondaire (25th Annual International Conference on Technology in Collegiate Mathematics), Julie Belock enseigne, à l'aide de Minitab Statistical Software, trois des concepts que les étudiants trouvent les plus difficiles.

« J'utilise le logiciel Minitab dans le cadre de ces travaux pratiques pour sa simplicité d'utilisation et ses excellents graphiques, qui aident les étudiants à interpréter et à présenter leur travail », écrit Julie Belock.

Intervalles de confiance

En statistiques, nous estimons les caractéristiques de populations en analysant un sous-ensemble d'individus, appelé échantillon. Toutefois, lorsque vous utilisez des données échantillons pour estimer un paramètre de population tel que la moyenne, il est très peu probable que vous obteniez exactement le paramètre réel. Un intervalle de confiance est une étendue susceptible de comporter cette valeur réelle. Ainsi, si vous n'êtes pas en mesure d'obtenir la valeur précise, vous pouvez être sûr que la moyenne réelle se trouve dans cette étendue.

Les intervalles de confiance sont mesurés par leur niveau de confiance, ce qui constitue souvent une source de confusion pour les étudiants. Souvent, ils supposent en effet qu'un intervalle de confiance à 90 % inclut, avec 90 % de chances, la moyenne réelle. Or, le niveau de confiance indique en fait vos chances de sélectionner au hasard un échantillon dont l'intervalle de confiance contient le paramètre réel. « Une fois l'intervalle calculé à partir d'un échantillon, soit cet intervalle comporte la moyenne réelle, soit il ne la contient pas », explique Julie Belock. « Il n'existe plus rien d'aléatoire ! »

Les étudiants de Julie Belock peuvent constater cette vérité par eux-mêmes en utilisant Minitab pour simuler un grand nombre d'échantillons aléatoires et générer des intervalles de confiance pour chacun. Lorsqu'ils calculent le pourcentage d'intervalles de confiance comportant le paramètre réel, les étudiants s'aperçoivent que ce pourcentage est proche du niveau de confiance.

graphique des effets principaux

Dans l'exemple ci-dessus, les étudiants peuvent constater que chacun de ces intervalles de confiance à 90 % inclut la moyenne réelle ou non, et que 17 sur 20 (environ 90 %) comportent la valeur réelle de 100.

Valeur de p

Julie Belock utilise une approche similaire pour illustrer le concept de la valeur de p, la probabilité d'obtenir un résultat équivalent à celui de vos données échantillons par hasard. Elle propose un exemple dans lequel 39 % des étudiants interrogés disent aller directement à l'université tandis que des données antérieures ont montré que près de 35 % de l'ensemble des étudiants sont allés directement à l'université. Cet échantillon indique-t-il que la proportion d'étudiants allant directement à l'université a augmenté ? 

Un test Z à 1 proportion calculera directement la valeur de p du résultat 39 % à partir de l'échantillon. Toutefois, le Dr Belock recommandent aux étudiants d'aborder la valeur de p d'une autre façon dans un premier temps. Ils génèrent 100 échantillons aléatoires simulés extraits d'une population dans laquelle 35 % des étudiants vont directement à l'université. Ils calculent ensuite le pourcentage d'échantillons donnant lieu à des valeurs au moins égales à 39 %. Lorsque les étudiants comparent cet effectif à une valeur de p générée à partir du test à 1 proportion, ils découvrent qu'ils possèdent une valeur proche, et une bonne compréhension de ce que la valeur de p représente.

Diagnostics de régression

Une équation de régression modélise la relation entre au moins deux variables. Un nuage de points représente des variables de régression l'une par rapport à l'autre, de façon à ce que vous visualisiez la corrélation. Un graphique des valeurs résiduelles est l'outil diagnostique de l'analyse de régression qui vous permet de visualiser la quantité de données dont la régression ne tient pas compte, une idée qui pose souvent problème aux étudiants. 

Un nuage de points montre une tendance linéaire si les données sont corrélées. En revanche, le graphique des valeurs résiduelles ne montre aucune forme spécifique si le modèle de régression est correctement ajusté. Pour en savoir plus sur ce fonctionnement, les étudiants de Julie Belock utilisent des données sur des ours (issues d'un fichier inclus dans le répertoire Données échantillons du dossier informatique dans lequel est installé le logiciel Minitab) pour créer plusieurs nuages de points. Certains nuages de points démontrent une importante corrélation linéaire, contrairement à d'autres. Lorsque les étudiants effectuent une régression linéaire sur des données non corrélées, ils obtiennent un graphique des valeurs résiduelles qui indique que la régression n'est pas correctement ajustée. 

graphique de contour - dissolution

La régression qui apparaît sur la droite d'ajustement ci-dessus n'est pas ajustée correctement, et génère un graphique des valeurs résiduelles présentant une forme clairement arrondie.

Les étudiants effectuent ensuite une régression sur les variables corrélées et modifient légèrement leur analyse pour parfaire l'ajustement de la régression. Au cours de ces modifications, les tendances des valeurs résiduelles disparaissent et ils se retrouvent avec un graphique de valeurs résiduelles dispersées de façon aléatoire indiquant un bon ajustement.

graphique de contour - dissolution

Une régression qui s'ajuste parfaitement aux données donne lieu à un graphique des valeurs résiduelles sans forme alarmante comme le graphique ci-dessus.

Conclusion

Ces exercices se sont avérés utiles pour les étudiants, quel que soit leur niveau, note Julie Belock. L'approche pratique permet d'impliquer en permanence les étudiants dans le cours, tandis que l'utilisation de Minitab pour les calculs et les graphiques permet aux étudiants de se concentrer sur la compréhension des concepts.

« Pour ce type de cours, Minitab s'avère plus efficace que d'autres logiciels pour plusieurs raisons », écrit Julie Belock, « notamment sa simplicité d'utilisation, ses graphiques clairs et ses options adaptées, comme la possibilité de générer et d'afficher simultanément plusieurs intervalles de confiance. »

Les cours de Julie Belock, ainsi que des instructions détaillées figurent dans l'article '« Addressing Challenging Statistical Topics with Minitab », un document présenté à l'occasion de la 25e Conférence internationale annuelle sur les méthodes d'enseignement des mathématiques pour les élèves de secondaire.

En utilisant ce site, vous acceptez l'utilisation de cookies à des fins d'analyse et de personnalisation du contenu. Lisez notre politique

OK