Analyses univariées et multivariées | pvalue.io
15973
post-template-default,single,single-post,postid-15973,single-format-standard,cookies-not-set,ajax_fade,page_not_loaded,,qode-title-hidden,transparent_content,qode-theme-ver-17.2,qode-theme-bridge,disabled_footer_top,qode_header_in_grid,wpb-js-composer js-comp-ver-5.4.5,vc_responsive

Analyses univariées et multivariées

  • On distingue trois types d’analyses : les analyses descriptives, les analyses univariées et les analyses multivariées
  • Les analyses descriptives permettent de décrire les données, et sont utiles pour détecter des problèmes dans les données
  • Les analyses univariées et multivariées permettent des comparaisons statistiques (obtention d’une p-value), et seules les analyses multivariées permettent de prendre en compte les facteurs de confusion

Analyses descriptives

Avant de démarrer une analyse statistique, il est nécessaire de bien connaître ses données. Quelle est la proportion de femmes ? Quel âge a le patient le plus âgé ?
Les analyses descriptives répondent à ces questions, et ont comme intérêt :

  • D’identifier des outliers, c’est-à-dire des patients ayant des valeurs extrêmes.
  • De vérifier la distribution des données : sont-elles distribuées suivant une loi normale ?

Imaginez que dans la colonne âge, un patient soit âgé de 182 ans; il est probable (à moins que vous fassiez une étude sur les jedi), qu’il y a eu une erreur quelque part.
Il va donc falloir retrouver l’âge réel de ce patient ou lui attribuer une valeur manquante. Si cette erreur n’est pas détectée et corrigée, alors les analyses statistiques prenant en compte l’âge seront complètement fausses.

Réaliser une analyse descriptive est donc un préalable à toute analyse statistique, qu’elle soit univariée ou multivariée.

Les graphiques font partie intégrante des analyses descriptives car elles permettent de visualiser rapidement la structure de vos données.

Une fois que vous avez sélectionné les variables que vous voulez décrire, pvalue.io crée automatiquement un tableau et un graphique.
Si la variable est quantitative, le tableau comporte moyenne, écart-type, médiane, 25ème et 75ème percentile, minimum et maximum; le graphique représente alors la distribution de la variable sous la forme d’un histogramme.
Si la variable est qualitative, le tableau donne l’effectif de chaque classe; le graphique représente la répartition dans chaque classe sous la forme d’un graphique en barre.

Analyses univariées

Les analyses univariées permettent de préciser la relation entre deux variables : la pression artérielle (variable 1) est-elle différente selon le sexe (variable 2) ? La proportion de fumeurs est-elle différente selon la couleur des yeux ? etc.
Le but des analyses univariées est de répondre à la question : la différence observée entre mes patients est-elle une vraie différence ou est-elle due au hasard ? Les analyses univariées reposent sur des tests statistiques, permettant l’obtention d’une p-value (qui est la probabilité que la différence observée soit due au hasard) :

Si une variable est numérique et l’autre qualitative

  • Pour comparer 2 groupes de patients (par exemple : le sexe)
    • Plus de 30 patients de chaque groupe : Test de Student
    • Moins de 30 patients dans au moins un groupe : test de Mann-Whitney
  • Pour comparer plus de deux groupes (par exemple : couleur des yeux)
    • Plus de 30 patients par groupe : Anova (analyse de variance)
    • Moins de 30 patients dans au moins un groupe : test de Kruskal-Wallis

Si les deux variables sont qualitatives

  • Test du Chi2 si l’effectif attendu de toutes les cases du tableau croisé est supérieur à 5
  • Test de Fisher dans le cas contraire

pvalue.io réalisera automatiquement ces tests dans un tableau et générera :

  • Des boîtes à moustache si vous croisez une variable numérique avec une variable qualitative,
  • Des diagrammes en barre si vous croisez deux variables qualitatives
  • Des courbes de survie si vous réalisez des analyses de survie

Attention, les analyses univariées ne permettent pas de prendre en compte les facteurs de confusion. Prenons un échantillon dans lequel les femmes sont plus jeunes que les hommes. On veut savoir si le traitement a un effet différent sur la survie selon le sexe. Si on trouve un p < 0,05, est-ce le fait du sexe ou le fait de l’âge ?
Seul un essai randomisé permet de nous garantir une comparabilité des caractéristiques des patients entre les groupes. Dans ce schéma d’étude et seulement celui-là, les analyses univariées seules sont suffisantes. En dehors d’un essai randomisé, il est nécessaire d’ajuster sur les facteurs de confusion. C’est le but des analyses multivariées.

A savoir : La fameuse table 1 dans les articles médicaux est le plus souvent issue d’une analyse univariée, et décrit toutes les variables en fonction de la variable qu’on veut mettre en avant.

Analyses multivariées

Les analyses multivariées permettent de prendre en compte les facteurs de confusion, en ajustant sur ces facteurs. Elles sont donc recommandées lorsqu’on cherche à établir un lien statistique entre plusieurs variables. Les analyses multivariées font appel à des méthodes statistiques plus sophistiquées que les analyses univariées, et sont rarement disponibles dans les logiciels à destination des non statisticiens.

Dans l’exemple précédent, l’ajustement sur l’âge permet de conclure : si les hommes et les femmes de mon échantillon avaient le même âge, alors l’effet du traitement serait (ou non) statistiquement significatif.

On réalise des analyses multivariées à l’aide de modèles statistiques. Les plus souvent mis en œuvre en médecine sont les régressions linéaires et logistiques, ainsi que les modèles de Cox.

Les modèles statistiques permettent d’obtenir des petits p. Ils ont un intérêt supplémentaire non négligeable : ils permettent de mesurer à quel point un facteur agit sur la variable d’intérêt. Ces mesures d’association sont :

  • Les Odds Ratio pour les régressions logistiques
  • Les Hazard Ratio pour les modèles de Cox
  • Les Estimates ou les coefficients pour les régressions linéaires

La p-value renseigne sur la significativité statistique, les mesures d’association quantifient le lien entre deux variables.

La réalisation de modèles statistiques présuppose qu’un certain nombre de conditions de validité soient respectées.

Aucun commentaire

Poster un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.