Transformation de variables numériques

  • Lorsqu’on effectue une modélisation, il est fréquent de devoir regrouper les variables numériques pour créer des classes; cela afin de respecter les conditions de validité du modèle.
  • Si on n’a pas d’idée a priori sur le regroupement adéquat, il est préférable de se baser sur les splines représentant le lien entre la variable à expliquer et la variable explicative.
Dans un effort de simplification, nous appellerons Y la variable que l’on souhaite expliquer par des facteurs X. (Faites appel à vos lointains souvenirs : Y = aX +b)
Si par exemple on souhaite expliquer la probabilité de naître du sexe masculin en fonction du régime alimentaire, Y est le sexe masculin, et X le régime alimentaire)

Pourquoi transformer ?

Un certain nombre de prérequis doit être vérifié afin de pouvoir utiliser un modèle statistique (permettant de réaliser une analyse multivariée).

En particulier, il doit exister une relation linéaire entre la variable Y (s’il s’agit d’une régression linéaire, ou une transformation de Y s’il s’agit d’un autre type de modèle) et toutes les variables quantitatives X.

Lorsque cette condition d’application n’est pas vérifiée, la solution est de transformer la variable numérique X (par exemple poids 67kg, 78kg, etc) en une variable en classes (qualitative) (par exemple poids 60-70kg, 70-80kg, etc).

Comment transformer ?

pvalue.io propose 3 manières différentes de transformer une variable:

  • En utilisant les données de la littérature
  • A l’aide de splines
  • En quantiles

En utilisant les données de la littérature

Lorsque des seuils sont communément admis ou habituellement utilisés dans les articles médicaux (par exemple le BMI), vous pouvez utiliser directement ces seuils.

A l’aide de splines

Pour simplifier, une spline est une représentation graphique de la relation entre Y et X. Elle est associée à des intervalles de confiance. En général, ces intervalles de confiance sont écartés aux extrémités de X car les paramètres cliniques se distribuent souvent suivant une loi normale; il y a donc peu d’individus ayant des valeurs proches des extrêmes.

Si la spline est une droite, alors la relation est linéaire entre Y et X et donc cette condition d’application est vérifiée.

Si la spline est une courbe, deux cas de figure :

  • Il est possible de tracer une droite dans l’intervalle de confiance, ou qui déborde légèrement; dans ce cas, on peut considérer que la condition d’application est vérifiée
  • Il n’est clairement pas possible de tracer une droite; la courbe est divisée en plusieurs parties croissantes et décroissantes. Dans ce cas, il va falloir transformer la variable en choisissant des seuils délimitant les classes.

Attention toutefois, si les bornes de l’intervalle de confiance sont écartées, il est difficile de conclure, car de nombreuses droites pourraient être tracées à l’intérieur de cet intervalle.

Où couper ?

Si la courbe peut être divisée en plusieurs parties (par exemple une partie croissante, puis une partie décroissante puis une partie horizontale), l’endroit optimal pour couper cette courbe, et donc pour créer une classe, est la jonction entre deux parties de courbe.
Sur la figure ci-dessous, l’endroit optimal est vers 45; la courbe est croissante avant 45 et horizontale après; l’intervalle de confiance est trop large avant 30 pour pouvoir dire que la courbe est décroissante.

Sur pvalue.io, il vous suffit de cliquer sur la courbe pour automatiquement créer les classes correspondantes. Vous pouvez ensuite les ajuster (par exemple en arrondissant à l’entier ou à la dizaine la plus proche).

La plupart du temps, créer deux ou trois classes (donc un ou deux clics) est suffisant.

En quantiles

Plus classiquement, on peut grouper les patients en quantiles (terciles, quartiles, quintiles).
Si on ordonne les patients suivant la valeur du paramètre étudié (le patient qui a la valeur la plus faible est en premier, celui qui a la valeur la plus élevée en dernier), les quantiles permettent de classer vos patients ordonnés en respectivement 3, 4 et 5 groupes, d’effectif identique.

Par exemple, si j’ai 66 patients et que je souhaite créer des terciles sur l’âge, j’aurai un groupe de 22 patients ayant un âge compris entre celui du plus jeune et celui du 22ème, un groupe de 22 patients ayant un âge entre le 23ème et le 44ème, et 22 patients entre le 45ème et le 66ème.

Nous recommandons l’utilisation de splines pour transformer les variables, et de n’utiliser les autres options que s’il y a des arguments forts pour cela.
Aucun commentaire

Poster un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.