Gestion des données manquantes | pvalue.io
15807
post-template-default,single,single-post,postid-15807,single-format-standard,bridge-core-1.0.4,cookies-not-set,woocommerce-no-js,ajax_fade,page_not_loaded,,qode-title-hidden,transparent_content,columns-4,qode-theme-ver-18.0.9,qode-theme-bridge,disabled_footer_top,qode_header_in_grid,wpb-js-composer js-comp-ver-5.7,vc_responsive

Gestion des données manquantes

  • Lorsqu’un paramètre n’a pas été mesuré pour tous les patients de l’étude, on parle de données manquantes
  • Il existe peu d’études sans données manquantes
  • En présence de données manquantes, il convient de les décrire et de choisir une stratégie pour les traiter

Les données manquantes sont un problème rencontré fréquemment dans les sciences de la vie, et les raisons de leur présence sont nombreuses (biais de mémoire, perdus de vue, données recueillies rétrospectivement à partir de dossiers médicaux, etc).
Il s’agit d’un problème, car outre que le fait que leur présence diminue la puissance de l’étude (en réduisant l’effectif complet — les modèles statistiques n’utilisent que les patients ayant tous les paramètres d’intérêt renseignés —), ils peuvent être à l’origine de biais importants.
Certaines de ces données manquantes peuvent être le fruit du hasard (par exemple si le cahier d’observation est bien rempli par 3 médecins sur 4). Dans ce cas, l’échantillon reste représentatif de la population d’étude.
Les problèmes surviennent lorsque les données manquantes ne sont pas dues au hasard (par exemple si on soumet un questionnaire à des patients dépressifs pour mesurer leur niveau de dépression et que seuls les moins déprimés parviennent à le remplir correctement.
Pour différencier les données manquantes dues au hasard de celles non dues au hasard, il est nécessaire de les décrire : les patients ayant des données manquantes au hasard ont les mêmes caractéristiques que ceux n’ayant pas de données manquantes.

Plusieurs méthodes existent pour faire face à la présence de données manquantes, mais il n’y a pas de consensus.

Les techniques d’imputation

Pour contrer la perte de puissance liée à la présence de données manquantes, les statisticiens ont recourt à des techniques d’imputation. Il est en effet dommage de se priver de l’information de tous les paramètres recueillis pour un patient s’il n’existe qu’un seul paramètre manquant. L’imputation consiste à attribuer une certaine valeur à la donnée manquante.
Une technique d’imputation souvent utilisée est l’imputation par la médiane. Il s’agit d’attribuer la valeur de la médiane du paramètre à tous les patients ayant des données manquantes.
D’autres techniques d’imputation sont utilisées, notamment l’imputation multiple par équation de chaîne, qui consiste à attribuer à la donnée manquante la valeur la plus probable en fonction des autres paramètres du patient, et à répéter cette opération plusieurs fois. Cette technique repose sur des modèles de régression et permet d’imputer les données de manière plus fiable en particulier lorsque les données manquantes ne sont pas dues au hasard.

Comment pvalue.io traite les données manquantes

pvalue.io filtre tout d’abord les paramètres (c’est-à-dire les colonnes de votre fichier) présentant plus de 20% de données manquantes : ces variables ne peuvent pas être introduites dans les modèles statistiques.

  • Lorsqu’un paramètre comporte des données manquantes, pvalue.io indique à l’utilisateur le nombre et la proportion de patients comportant au moins une donnée manquante. C’est cette proportion qui serait exclue de l’analyse en l’absence de traitement spécifique de ces données.
  • Lorsque la proportion de patients présentant au moins une donnée manquante est inférieure à 5%, ces patients sont exclus du modèle.
  • Lorsqu’un paramètre comporte moins de 5% de données manquantes, pvalue.io réalise une imputation par la médiane pour les variables quantitatives, et par le mode pour les variables qualitatives
  • Lorsqu’un paramètre comporte plus de 5% de données manquantes, une imputation par équation de chaîne est réalisée.
Aucun commentaire

Poster un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.