Régressions linéaires

  • Lorsque la variable à expliquer est quantitative continue, le modèle statistique adapté est la régression linéaire
  • Lorsqu’il n’existe qu’une seule variable explicative et qu’elle est qualitative, la régression linéaire donne un résultat proche d’un test T de Welch ou de Student
Dans un effort de simplification, nous appellerons Y la variable que l’on souhaite expliquer par des facteurs X. (Faites appel à vos lointains souvenirs : Y = aX +b)
Par exemple, si on souhaite expliquer la taille d’un enfant en fonction de la taille de sa mère, Y est la taille de l’enfant et X la taille de la mère.

A quoi ça sert

Les tests statistiques classiques (test du Student, test du Chi2 pour les plus utilisés en médecine) permettent de déterminer si les différences observées entre 2 groupes ou plus peuvent être la conséquence du hasard par fluctuation d’échantillonnage (on dit alors que l’hypothèse nulle d’absence de différence ne peut pas être rejetée) ou bien si une telle différence ne peut être due au hasard (rejet de l’hypothèse nulle).
Ces tests univariables, posent un problème majeur : ils ne prennent pas en compte les potentiels facteurs de confusion. Or ceux-ci sont fréquents en médecine. Il est donc nécessaire de recourir à des méthodes statistiques plus complexes, qu’on appelle des modèles statistiques de régression (Wikipedia), permettant de réaliser des analyses multivariables.
Ainsi, il est possible de tester chacun des facteurs X pouvant avoir une influence sur la variable Y, et de leur donner un poids (ou un coefficient).

Les conditions de validité

Il existe toujours des conditions de validité pour les modèles statistiques. Si vous souhaitez en savoir plus, nous vous invitons à consulter l’article suivant.

Les facteurs de confusion
Imaginons que l’on souhaite savoir si les buveurs de café ont un risque plus élevé de développer un cancer du poumon. Si on fait un simple test statistique, on s’apercevra qu’il existe une association significative entre les deux. Or, dans ce cas, ne pas ajuster serait une erreur, car il est nécessaire de prendre en compte (entre autres) le tabagisme comme variable de confusion.
L’association significative trouvée par le test serait due à la fois à l’association statistique entre tabagisme et cancer, et à la fréquence de consommation du café plus fréquente chez les fumeurs, constituant donc un fameux biais de confusion.

Comment réaliser des régressions linéaires avec pvalue.io

Laissez-vous guider par l’interface intuitive du logiciel.

  1. Choisissez de réaliser une analyse explicative
  2. Sélectionnez la variable que vous souhaitez expliquer (Y) et les facteurs connus pour avoir une influence sur la variable à expliquer (X)
  3. Vérifiez qu’il n’y a pas d’erreurs d’après l’analyse descriptive (en regardant les graphiques et les tableaux générés)
  4. Transformez les variables qui ne sont pas liées linéairement à la variable à expliquer

Si les conditions d’application de la régression linéaire ne sont pas respectées, pvalue.io vous indiquera si une action de votre part est nécessaire.

Interprétation des résultats

Les coefficients

Variable quantitative

Les coefficients représentent la variation de Y lorsque la valeur de X augmente de 1 unité.

Variable qualitative

Les coefficients représentent la variation de Y lorsque la variable qualitative prend la valeur de la classe (par rapport à la classe de référence)

Les p-values

Il est classique de fixer à 5% le risque de première espèce (appelé également risque alpha) : il correspond au risque qu’on prend a priori de conclure à tort qu’un coefficient au moins aussi élevé ne soit pas dû au hasard. Autrement dit, c’est le risque de conclure à tort que les résultats obtenus ne peuvent pas être dus au hasard.
Le petit p (p-value) est calculé a posteriori et correspond à la probabilité qu’on a d’observer un coefficient au moins aussi élevé uniquement en raison du hasard.
Ainsi lorsque le petit p (appelé également degré de significativité) est inférieur au risque alpha, on rejette l’hypothèse nulle de nullité du coefficient.

Lorsqu’une variable catégorielle (qualitative) comporte plus de 2 classes, il est possible de calculer un petit p global à la classe; ce petit p correspond au test de la nullité du coefficient lorsque la catégorie n’est pas celle de référence.

Dans le tableau ci-dessous, nous voulions savoir si le poids de l’enfant à la naissance était corrélé à l’âge de la mère (Age madame), au sexe de l’enfant, au rang de la grossesse et au fait qu’il ait une malformation.

Estimation [IC 95%]pp global
Age madame4.45 [-0.152, 9.0]0.058
SexeM vs F138 [100, 180]<0.001
Rang grossessegemellaire vs unique-285 [-335, -234]<0.001<0.001
triple vs unique-442 [-589, -295]<0.001
Malformationoui vs non-71.4 [-138, -4.87]0.035

Nous concluons ainsi :

  • L’âge de la mère n’influence pas le poids de l’enfant (p > 0.05); pour chaque année supplémentaire, le poids de l’enfant augmente de 4.45g, avec un intervalle de confiance comprenant 0 : [-0.152, 9.0]
  • Le fait d’être un garçon augmente significativement le poids de l’enfant (+138g [100, 180])
  • Une grossesse gémellaire diminue significativement le poids de l’enfant (-235g [-335, -234]) par rapport à une grossesse unique
  • Une grossesse triple diminue significativement le poids de l’enfant (-442g [-589, -295]) par rapport à une grossesse unique
  • Globalement, avoir une grossesse multiple a pour conséquence un poids plus faible chez l’enfant (p global <0.001)
  • Avoir une malformation diminue significativement le poids de l’enfant (-71.4g [-138, -4.87])
Aucun commentaire

Poster un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.