Transformation de variables numériques

  • Lorsqu’on effectue une modélisation, il est fréquent de devoir regrouper les valeurs des variables numériques pour créer des classes; cela afin de respecter les conditions de validité du modèle.
  • Si on n’a pas d’idée a priori sur le regroupement adéquat, il est préférable de se baser sur les splines représentant le lien entre la variable à expliquer et la variable explicative.
Dans un effort de simplification, nous appellerons Y la variable que l’on souhaite expliquer par des facteurs X. (Faites appel à vos lointains souvenirs : Y = aX +b)
Si par exemple on souhaite expliquer la probabilité de naître du sexe masculin en fonction du régime alimentaire, Y est le sexe masculin, et X le régime alimentaire)

Pourquoi transformer ?

Un certain nombre de prérequis doit être vérifié afin de pouvoir utiliser un modèle statistique (permettant de réaliser une analyse explicative).

En particulier, il doit exister une relation linéaire entre la variable Y (s’il s’agit d’une régression linéaire, ou une transformation de Y s’il s’agit d’un autre type de modèle) et toutes les variables quantitatives X.

Lorsque cette condition d’application n’est pas vérifiée, une solution est de transformer la variable numérique X (par exemple poids 67kg, 78kg, etc) en une variable en classes (qualitative) (par exemple poids 60-70kg, 70-80kg, etc).

Comment transformer ?

pvalue.io propose 3 manières différentes de transformer une variable:

  • En utilisant les données de la littérature
  • A l’aide de splines
  • En quantiles

En utilisant les données de la littérature

Lorsque des seuils sont communément admis ou habituellement utilisés dans les articles médicaux (par exemple le BMI), vous pouvez utiliser directement ces seuils.

A l’aide de splines

Pour simplifier, une spline est une transformation mathématique de la relation entre Y et X. Cette relation peut être représentée graphiquement, avec des intervalles de confiance. En général, ces intervalles de confiance sont écartés aux extrémités de X car les paramètres cliniques se distribuent souvent suivant une loi normale; il y a donc peu d’individus ayant des valeurs proches des extrêmes.

Si la représentation graphique d’une spline est une droite, alors la relation est linéaire entre Y et X et donc la condition de linéarité est vérifiée.

Si la spline est une courbe, deux cas de figure :

  • Il est possible de tracer une droite dans l’intervalle de confiance, ou qui déborde légèrement; dans ce cas, on peut considérer que la condition de linéarité est vérifiée
  • Il n’est clairement pas possible de tracer une droite; la courbe est divisée en plusieurs parties croissantes et décroissantes. Dans ce cas, il va falloir transformer la variable.

Attention toutefois, si les bornes de l’intervalle de confiance sont écartées, il est difficile de conclure, car de nombreuses droites pourraient être tracées à l’intérieur de cet intervalle.

Il est possible d’utiliser les splines de deux façons dans pvalue.io : utiliser cette directement cette fonction mathématique pour transformer la variable numérique, ou bien transformer la variable en classe.

Où fractionner la courbe ?

Si la courbe peut être divisée en plusieurs parties (par exemple une partie croissante, puis une partie décroissante puis une partie horizontale), l’endroit optimal pour fractionner cette courbe est la jonction entre deux parties de courbe.
Sur la figure ci-dessous, l’endroit optimal est vers 45; la courbe est croissante avant 45 et horizontale après; l’intervalle de confiance est trop large avant 30 pour pouvoir dire que la courbe est décroissante.

Sur pvalue.io, il vous suffit de cliquer sur la courbe pour automatiquement créer les classes correspondantes lors des analyses explicatives, ou de créer la transformation adéquate pour les analyses prédictives. Vous pouvez ensuite les modifier (par exemple en arrondissant à l’entier ou à la dizaine la plus proche).

La plupart du temps un ou deux clics est suffisant.

En quantiles

Classiquement, on peut regrouper les patients en quantiles (terciles, quartiles, quintiles).
Si on ordonne les patients suivant la valeur de la variable étudiée (le patient qui a la valeur la plus faible est en premier, celui qui a la valeur la plus élevée en dernier), les quantiles permettent de classer vos patients ordonnés en respectivement 3, 4 et 5 groupes, d’effectif identique.

Par exemple, si j’ai 66 patients et que je souhaite créer des terciles sur l’âge, j’aurai un groupe de 22 patients ayant un âge compris entre celui du plus jeune et celui du 22ème, un groupe de 22 patients ayant un âge entre le 23ème et le 44ème, et 22 patients entre le 45ème et le 66ème.

Nous recommandons l’utilisation de splines pour transformer les variables, et de n’utiliser les autres options que s’il y a des arguments forts pour cela.
Aucun commentaire

Poster un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.