Régression multiple: Quand utiliser le R² ajusté ou le R² prévu ?

Cet article a originellement été écrit en langue anglaise par le spécialiste Minitab Jim Frost et publié sur le blog de Minitab. Bruno Scibilia l'a traduit et vous explique la différence entre le R carré, le R carré ajusté et le R carré prévu.

La valeur du R² représente la proportion de la variation de la réponse qui est expliquée par le modèle. Lorsqu’elle est élevée cela signifie que le modèle est exhaustif, alors qu’un R² faible indique que certaines variables importantes n’ont pas été prises en compte dans le modèle, qu’elles ont été « oubliées » ou que les conditions environnementales sont bruitées ou instables ou encore que la mesure de la réponse n’est pas précise….

Cependant, le R² peut être trompeur pour évaluer la qualité d’un modèle :

Problème n°1: Chaque fois que vous ajoutez un prédicteur dans le modèle, la valeur du R² augmente, même si cela est juste dû au seul hasard. Le R² ne diminue jamais. Un modèle avec plus de termes aura toujours un meilleur R² tout simplement parce qu'il a plus de termes.

Problème n°2: Si un modèle a trop de prédicteurs et/ou de termes d'ordre élevé, il modélisera en réalité le bruit aléatoire dans les données. Un modèle sur-ajusté produit des valeurs de R² trompeuses, très élevés mais une mauvaise capacité de prédire de nouvelles observations. Le modèle devient inutilement complexe, peu pertinent, difficile à expliquer et peu robuste.

Vous devez résister à l'envie d'ajouter toujours plus de prédicteurs dans un modèle de régression pour maximiser le R², les R² ajusté et prévu peuvent vous être utiles en cela.

Qu’est-ce que le R² Ajusté ?

Le R² ajusté prend en compte le nombre de termes de votre modèle.

Si vous comparez un modèle à cinq prédicteurs à un autre modèle à six prédicteurs qui a un R² plus élevé, cela signifie-t-il que le R² du modèle à six prédicteurs est plus élevé parce que ce modèle est vraiment meilleur ? Ou est-il plus élevé parce qu'il y a simplement plus prédicteurs ?

Le R² ajusté permet de le savoir.

Le R² ajusté est une version modifiée du R², il est ajusté pour tenir compte du nombre de prédicteurs dans le modèle. Le R² ajusté n’augmente que si le nouveau terme améliore le modèle plus que prévu par le hasard. Il peut même diminuer quand un prédicteur améliore le modèle moins que prévu par le simple hasard. Le R² ajusté est toujours inférieur au R².

 

Les résultats simplifiés de la méthode de sélection des meilleurs sous-ensembles pour une régression, ont été affichés ci-dessous. Lorsque le nombre de variables (Vars) dans le modèle augmente, le R² ajusté atteint un maximum puis diminue alors que le R² continue d'augmenter.

 

Il est préférable de n’inclure que deux prédicteurs dans ce modèle. Un modèle trop complexe réduit la précision des estimations des coefficients et des valeurs prédites.

Qu’est-ce que le R² prévu ?

Le R² prévu, appelé R carré (prev) dans les résultats des tests affichés dans la fenêtre de session Minitab, indique la capacité d’un modèle de régression à prédire de nouvelles observations. Un modèle pourrait bien représenter les données initiales de l’échantillon mais ne pas être capable de fournir des prédictions valides pour les nouvelles observations.

Minitab calcule le R² prévu en éliminant systématiquement chaque observation de l'ensemble des données, une à une, en boucles, puis en recalculant les coefficients de l'équation de régression sans la valeur éliminée, et en déterminant dans quelle mesure le modèle prédit l'observation qui a été éliminée. Comme le R² ajusté, le R² prévu est toujours inférieur au R².

Le R² prévu vous évite de sur-ajuster un modèle. Un modèle sur-ajusté contient trop de facteurs prédictifs et il modélise, en réalité, le bruit aléatoire. Si vous remarquez que le R² prévu tend à décliner lorsque vous ajoutez des prédicteurs, ceci est probablement associé à un sur-apprentissage du modèle.

Le R² prévu permet d’effectuer une validation croisée en évaluant la robustesse du modèle lorsqu’il sera utilisé sur de nouvelles données.

Un exemple de modèle sur-ajusté avec un R² prévu de 0

J’ai généré des données complétement aléatoires (X et Y) puis j’ai modélisé leur relation. Avec un modèle de régression linéaire, le R² est proche de 0%, mais avec un modèle cubique beaucoup plus complexe le R² est passé à 17,7%.

 

Le R² s’est amélioré mais le R² ajusté montre que le modèle n’est pas pertinent dans les deux cas puisque le R² ajusté est toujours égal à 0%. Ces données ont été générées de façon totalement aléatoire, il est normal que le modèle n’ait pas de sens et que le R² ajusté soit de 0% dans ce cas.

 

Les résultats de l’analyse de régression montrent (ci-dessous) que le R² prévu, appelé R carré (prev) dans les résultats des tests affichés dans la fenêtre de session Minitab, a une valeur de 0, c’est-à-dire aucune capacité de prédire de nouvelles observations. Encore une fois, puisque les données sont totalement aléatoires, il est normal que le modèle soit incapable de générer des prévisions fiables.

 

Conclusion

Toutes les données contiennent une part de variabilité naturelle inexplicable. Malheureusement, le R² ne prend pas en compte ce plafond naturel. Chercher à atteindre une valeur élevée de R² à tout prix peut pousser à inclure trop de prédicteurs pour tenter d'expliquer l'inexplicable.

Vous pouvez obtenir une valeur de R², plus élevée mais au prix de résultats trompeurs, d’une précision et d’une capacité à prévoir détériorées.

Les R² ajusté et prévu fournissent des informations qui vous aident à sélectionner le nombre de prédicteurs dans votre modèle :

    1. Utilisez le R² ajusté pour comparer les modèles avec un nombre de prédicteurs différents.
      Utilisez le R² prévu pour déterminer quelle est la capacité du modèle à prédire de nouvelles observations d'une part ; et s'il est inutilement compliqué avec des termes non pertinents d'autre part.
    • Minitab News

      Recevez gratuitement notre lettre d'information électronique mensuelle pour connaître l'actualité de Minitab, consulter les didacticiels, lire des études de cas, obtenir des conseils statistiques, et recevoir d'autres informations utiles.

      Pour s'abonner
    • Suivez Minitab

      Join Minitab on LinkedIn Follow Minitab on Twitter Like Minitab on Facebook
    • Plus d'articles

    En utilisant ce site, vous acceptez l'utilisation de cookies à des fins d'analyse et de personnalisation du contenu. Lisez notre politique

    OK