Comment effectuer une analyse explicative multivariable lorsqu’on a un effectif trop faible

Il est parfois surprenant de ne pouvoir réaliser une analyse explicative multivariable en raison d’un effectif trop faible alors que le fichier comporte plusieurs centaines d’observations (patients, sujets).

Cas des régressions linéaires

Pour les régressions linéaires, c’est-à dire-les analyses explicatives pour lesquelles la variable à expliquer est numérique, il est nécessaire avoir au moins 10 observations par covariable.
Petite subtilité, lorsque la covariable est catégorielle à N classes, elle compte comme N-1 variables. Pour exemple, prenons la variable catégorielle « satisfaction » comportant les 5 classes suivantes :

  • Pas du tout satisfait
  • Plutôt pas satisfait
  • Moyennement satisfait
  • Plutôt satisfait
  • Très satisfait

Lorsqu’on utilise cette variable dans un modèle statistique, elle est automatiquement recodée en 4 variables binaires, valant chacune 0 ou 1.

SatisfactionTrès satisfaitPlutôt satisfait Moyennement satisfaitPlutôt pas satisfait
Très satisfait1000
Plutôt pas satisfait0100
Moyennement satisfait0010
Plutôt pas satisfait0001
Pas du tout satisfait0000
Astuce : si vous n’avez pas l’effectif suffisant, commencez par regrouper les classes des variables catégorielles.

Cas des régressions logistiques et des analyses de survie

Pour les régressions logistiques et pour les analyses de survie, c’est-à-dire lorsque la variable à expliquer est binaire, c’est un tout petit peu plus complexe. Il faut en effet qu’il y ait au moins 10 observations par covariable, mais attention, ce n’est pas calculé sur l’effectif total, mais sur l’effectif pour lequel la variable à expliquer vaut 0 et pour lequel la variable à expliquer vaut 1.

Ainsi, si l’effectif est de 179 patients, répartis ainsi : 29 patients avec Y = 0 et 150 avec Y = 1, le nombre maximal de covariables est de 2.

Si malgré ces recommandations, vous ne parvenez pas à réaliser d’analyse explicative, contactez-nous; nous pourrons étudier la possibilité d’utiliser d’autres méthodes statistiques telles que les scores de propension.
2 Commentaires
  • Chelly
    Posté à 00:38h, 31 août Répondre

    Bonjour, auriez-vous un article (pour citation en référence bibliographique) qui démontre/établit qu’il est nécessaire d’avoir au moins 10 observation par variable explicative ?

    Bien cordialement

    Dr Jonathan Chelly

    • Kevin
      Posté à 15:34h, 31 août Répondre

      Bonjour,
      celui qui pose les fondations de cet argumentaire est l’article suivant :
      Peduzzi, P., Concato, J., Kemper, E., Holford, T. R. & Feinstein, A. R. A simulation study of the number of events per variable in logistic regression analysis. J Clin Epidemiol 49, 1373–1379 (1996).

      Bien cordialement

Poster un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.