Régressions linéaires | pvalue.io
15813
post-template-default,single,single-post,postid-15813,single-format-standard,cookies-not-set,ajax_fade,page_not_loaded,,qode-title-hidden,transparent_content,qode-theme-ver-17.2,qode-theme-bridge,disabled_footer_top,qode_header_in_grid,wpb-js-composer js-comp-ver-5.4.5,vc_responsive

Régressions linéaires

  • Lorsque la variable à expliquer est quantitative continue, le modèle statistique adapté est la régression linéaire
  • Lorsqu’il n’existe qu’une seule variable explicative et qu’elle est qualitative, la régression linéaire donne le même résultat qu’un test de Student
Dans un effort de simplification, nous appellerons Y la variable que l’on souhaite expliquer par des facteurs X. (Faites appel à vos lointains souvenirs : Y = aX +b)
Par exemple, si on souhaite expliquer la taille d’un enfant en fonction de la taille de sa mère, Y est la taille de l’enfant et X la taille de la mère.

A quoi ça sert

Les tests statistiques classiques (test du Student, test du Chi2 pour les plus utilisés en médecine) permettent de déterminer si les différences observées entre 2 groupes ou plus peuvent être la conséquence du hasard par fluctuation d’échantillonnage (on dit alors que l’hypothèse nulle d’absence de différence ne peut pas être rejetée) ou bien si une telle différence ne peut être due au hasard (rejet de l’hypothèse nulle).
Ces tests univariés, posent un problème majeur : ils ne prennent pas en compte les potentiels facteurs de confusion. Or ceux-ci sont fréquents en médecine. Il est donc nécessaire de recourir à des méthodes statistiques plus complexes, qu’on appelle des modèles statistiques de régression (Wikipedia).
Ainsi, il est possible de tester chacun des facteurs X pouvant avoir une influence sur la variable Y, et de leur donner un poids (ou un coefficient).

Les conditions de validité

Il existe toujours des conditions de validité pour les modèles statistiques. Si vous souhaitez en savoir plus, nous vous invitons à consulter l’article suivant.

Les facteurs de confusion
Imaginons que l’on souhaite connaître la probabilité de survenue de cancer du poumon chez les buveurs de café. Si on fait un simple test statistique, on s’apercevra qu’il existe une association significative entre les deux. Or, dans ce cas, ne pas ajuster serait une erreur, car il est nécessaire de prendre en compte (entre autres) le tabagisme comme variable de confusion.
L’association significative trouvée par le test serait due à la fois à l’association statistique entre tabagisme et cancer, et à la fréquence de consommation du café plus fréquente chez les fumeurs, constituant donc un fameux biais de confusion.

Comment réaliser des régressions linéaires avec pvalue.io

Laissez-vous guider par l’interface intuitive du logiciel

  1. Sélectionnez la variable que vous souhaitez expliquer (Y) et les facteurs connus pour avoir une influence sur la variable à expliquer (X)
  2. Vérifiez qu’il n’y a pas d’erreurs d’après l’analyse descriptive (en regardant les graphiques et les tableaux générés)
  3. Désélectionnez les facteurs présentant un lien statistique avec Y qui ont été automatiquement choisis par pvalue.io mais qui n’ont pas de sens clinique
  4. Transformez les variables qui ne sont pas liées linéairement à la variable à expliquer
  5. C’est tout

Si les conditions d’application de la régression linéaire ne sont pas respectées, pvalue.io vous indiquera si une action de votre part est nécessaire.

Interprétation des résultats

Les coefficients

Variable quantitative

Les coefficients représentent la variation de Y lorsque la valeur de X augmente de 1 unité.

Variable qualitative

Les coefficients représentent la variation de Y lorsque la variable qualitative prend la valeur de la classe (par rapport à la classe de référence)

Les p-values

Il est classique de fixer à 5% le risque de première espèce (appelé également risque alpha) : il correspond au risque qu’on prend a priori de conclure à tort qu’un coefficient au moins aussi élevé ne soit pas dû au hasard. Autrement dit, c’est le risque de conclure que les résultats obtenus ne peuvent pas être dus au hasard.
Le petit p (p-value) est calculé a posteriori et correspond à la probabilité qu’on a d’observer un coefficient au moins aussi élevé uniquement en raison du hasard.
Ainsi lorsque le petit p (appelé également degré de significativité) est inférieur au risque alpha, on rejette l’hypothèse nulle de nullité du coefficient.

Lorsqu’une variable catégorielle (qualitative) comporte plus de 2 classes, il est possible de calculer un petit p global à la classe; ce petit p correspond au test de la nullité du coefficient lorsque la catégorie n’est pas celle de référence.

Dans le tableau ci-dessous, nous voulions savoir si le poids de l’enfant à la naissance était corrélé à l’âge de la mère (Age madame), au sexe de l’enfant, au rang de la grossesse et au fait qu’il ait une malformation.

Estimation [IC] p p global
Age madame 4.45 [-0.152, 9.0] 0.058
Sexe M vs F 138 [100, 180] <0.001
Rang grossesse gemellaire vs unique -285 [-335, -234] <0.001 <0.001
triple vs unique -442 [-589, -295] <0.001
Malformation oui vs non -71.4 [-138, -4.87] 0.035

Nous concluons ainsi :

  • L’âge de la mère n’influence pas la taille de l’enfant (p > 0.05); pour chaque année supplémentaire, la taille de l’enfant augmente de 4.45g, avec un intervalle de confiance comprenant 0 : [-0.152, 9.0]
  • Le fait d’être un garçon augmente significativement le poids de l’enfant (+138g [100, 180])
  • Une grossesse gémellaire diminue significativement le poids de l’enfant (-235g [-335, -234]) par rapport à une grossesse unique
  • Une grossesse triple diminue significativement le poids de l’enfant (-442g [-589, -295]) par rapport à une grossesse unique
  • Globalement, avoir une grossesse multiple a pour conséquence un poids plus faible chez l’enfant (p global <0.001)
  • Avoir une malformation diminue significativement le poids de l’enfant (-71.4g [-138, -4.87])
Aucun commentaire

Poster un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.