Les défis rencontrés lors de la collecte des données et leur nettoyage
Par Nicolas Sacchetti
La table ronde sur les défis rencontrés lors de la collecte des données et leur nettoyage est animée par Davide Pulizzotto, PhD en Sémiotique et spécialiste en analyse de texte assistée par ordinateur dans le domaine des sciences sociales (Text Mining for Humanities) à Polytechnique Montréal.
L’événement a eu lieu le 15 septembre 2022 dans le cadre de la série de wébinaires 4POINT0 Démystifier l’usage des mégadonnées dans les sciences sociales.
Les invités sont
- Hélène Vidot-Delerue, Professeure titulaire de la Chaire de gestion de projet à ESG UQAM ;
- Lyne Da Sylva, Professeure titulaire en Sciences de l’information à l’Université de Montréal ;
- Jean-François Chartier, Scientifique de données et chercheur à Beneva ;
- Félix Fortin, Chef intérimaire de l’unité de production et de diffusion à Statistique Canada.
Davide Pulizzotto
« En analyse des données, on dit que 80 % du temps et des ressources sont consacrés à la préparation des données. Dans votre expérience, nommez le principal défi que vous avez rencontré dans la préparation des données, que ce soit la collecte ou le nettoyage ? »
Hélène Vidot-Delerue
Elle répond que les défis varient en fonction du type de collecte : données primaires ou secondaires. En ce qui concerne les données primaires, les taux de réponses aux questionnaires peuvent diminuer avec le temps, ce qui peut conduire à un échantillon non représentatif de la population et biaiser les résultats. Pour les données secondaires, le nettoyage des données représente un défi majeur. « Ce que j’appelle nettoyage des données, c’est vérifier s’il y a des données manquantes ou mal entrées, parce que quelques fois on a des points aberrants, » précise-t-elle. Une étape essentielle pour éviter de fausser les résultats de recherche.
Jean-François Chartier
Dans un premier temps, Jean-François Chartier fait remarquer que les données en industrie tendent à être plus « sales » que dans le milieu universitaire. Elles peuvent être bruitées, ambiguës, et leur sémantique – leur sens – peut être obscure. Il cite des problèmes courants tels que des données incomplètes, des erreurs d’encodage, et des changements de signification de variable au fil du temps (Data Drift).
Ensuite, il aborde le défi lié aux données privées et confidentielles : « Lorsqu’on fait le nettoyage, il faut essayer d’enlever ces données-là. » Par exemple, les identifiants ou les prescriptions de médicaments des gens. En assurance, l’ethnie et le genre sont aussi des informations inutilisables pour faire de la modélisation. Il soulève une question d’éthique sur les informations indirectes disponibles qui permettent tout de même d’induire les conclusions logiques sur les informations à priori inutilisables. « On se demande, est-ce qu’on enlève aussi ces données-là, » questionne-t-il.
Enfin, l’expert en sciences des données explique que les mégadonnées nécessitent un nettoyage à l’aide d’algorithmes, ce qui entraîne des enjeux de subjectivité.
Félix Fortin
En plus de faire face aux défis mentionnés auparavant par ses collègues conférenciers·ères, à Statistique Canada, la normalisation des données est un défi. Il prend comme exemple le contexte où les systèmes d’éducation diffèrent de province en province.
La normalisation des données vise à établir des normes et des standards communs pour garantir la qualité, la cohérence et la comparabilité des données provenant de différentes sources. Cela facilite leur traitement et leur analyse.
Lyne Da Sylva
Pour complémenter les propos de ses collègues, Professeure Da Sylva souligne l’importance de garder les traces des corrections, anonymisations, ou autres opérations effectuées afin de faire preuve de transparence et aussi pouvoir revenir en arrière au besoin.
Davide Pulizzotto
Une partie du travail de préparation concerne la standardisation des données. Il se peut que nous ayons des données associées à la même variable, mais collectées au fil des années selon des méthodes peut-être variées. Cela peut entraîner une divergence dans la valeur de cette variable, un phénomène connu sous le nom de Data Drift.
Comme le soulignait Jean-François, c'est un problème. La question de la standardisation se pose tant en diachronie [à travers le temps] qu'en synchronie [à un moment donné], notamment lorsqu'on tente de combiner différentes bases de données. Comment abordez-vous la standardisation des données ?
Lyne Da Sylva
« Les usages que l’on veut faire des données vont déterminer les processus de nettoyage que l’on va faire, dont le processus de standardisation. » Pre Da Sylva donne des cours d’indexation des documents, « une façon de décrire des documents de sorte qu’ils soient repérables par d’autres personnes. » Elle fait référence aux sciences de l’information (SI). « La création de ces termes d’indexation, c’est en quelque sorte de la création de données. » Sans être de la même échelle de grandeur que les mégadonnées, les préoccupations de standardisations en SI sont tout aussi présentes. Elle y voit un parallèle dans le traitement des données à plus grande échelle.
En SI, définir les vocabulaires contrôlés permet de limiter la valeur des données à collecter. On choisit un mot à utiliser (vélo) parmi les synonymes possibles (bicyclette, bécane, etc.). Des normes ISO encadrent la création et l’utilisation de ces vocabulaires contrôlés. Toutefois, ces standards ne correspondent pas au monde des mégadonnées. « Je pense qu’il faut réfléchir à cette idée de faire converger des données vers des valeurs standardisées pour essayer de limiter ou de contrôler les variations. »
Jean-François Chartier
« On essaie de mettre en place des routines communes pour le prétraitement puis le nettoyage des données, mais il y a toujours de la subjectivité qui entre par la porte d’en arrière. Par exemple, il y a toujours plus qu’un algorithme qui peut accomplir la même opération. Donc choisir l’algorithme en tant que tel est un acte subjectif. Tous les algorithmes ont des paramètres qu’il faut initialiser. Initialiser les paramètres c’est aussi de la subjectivité. On ne teste jamais tout l’espace des hypothèses possibles des paramètres d’un algorithme. Donc il y a de la subjectivité qui s’insère. Il y a également des paramètres aléatoires dans les algorithmes, qui nécessitent une initialisation. Même un algorithme qui génère une valeur aléatoire doit être initialisé.
Si on veut encoder une valeur numérique dans un langage de programmation, il faut choisir le type d’encodage d’une valeur numérique. Donc est-ce que ce sera un Float qui permet sept décimales ou est-ce que c’est un Double qui permet une précision de 15 décimales. La différence peut paraître insignifiante, mais si vous avez un algorithme qui fait mille itérations, la différence entre un Float et un Double peut affecter vos résultats et vous ne le saurez pas. Ceci sera caché dans l’algorithme, mais en réalité vous venez d’insérer de la subjectivité dans le processus de nettoyage de données. »
Davide Pulizzotto
« Est-ce que cette subjectivité est plus grande en sciences sociales ? »
Jean-François Chartier
Il répond que l’analyse des données textuelles en sciences sociales est plus subjective, car les mots et les textes peuvent être interprétés de différentes manières. Les domaines de l’assurance et de la sociologie ont des similitudes, comme la nécessité de classer les gens selon différentes catégories comme l’âge, le statut socio-économique, l’éducation et la solvabilité.
Lyne Da Sylva
Elle abonde dans le même sens que Jean-François Chartier et prend en exemple la tâche de la création du vocabulaire contrôlé. « En sciences pures, les concepts ont des définitions précises, et les délimitations des concepts sont beaucoup plus faciles à déterminer. » En sciences sociales, des concepts de justice, de liberté, ou de société, par exemple, sont loin de faire consensus.
Hélène Vidot-Delerue
À son tour, elle fait le point sur la nature des données concernées, à savoir les données quantitatives ou qualitatives. En ce qui concerne les données quantitatives dans un contexte de collecte de données longitudinales (étalées dans le temps), le point de référence devient le point de comparaison. Selon elle, la similarité des questions est ce point de comparaison. « Si on pose des questions qui sont différentes, l’individu va répondre différemment sur l’échelle demandée en quantitatif, à ce moment-là on n’est plus dans la subjectivité, on est dans l’invention. »
« Pour les bases de données, il est important de prendre en compte l’unité d’analyse de la recherche en question, surtout en quantitatif. L’unité d’analyse est généralement définie par la variable que l’on cherche à expliquer. Si on dispose d’une base de données au niveau individuel et d’une autre au niveau pays, cela pose un problème et il sera nécessaire de partir d’une unité d’analyse commune pour les deux. » En ce qui concerne les données qualitatives, la professeure Vidot-Delerue soulève la question de savoir comment coder un texte par rapport à des concepts si ces derniers ne sont pas clairement définis.
La professeure Vidot-Delerue évoque deux approches différentes de recherche en SSH, l’induction et la déduction. Elle précise que la déduction utilise des concepts clairement définis par la littérature existante. « On doit essayer de coder par rapport à ces définitions, » explique-t-elle. En revanche, l’induction permet d’enrichir ces concepts avec notre propre expérience. Elle précise également que lorsqu’on mène des recherches qualitatives, il est possible d’adopter une approche de comparaison ou d’accumulation de données. Dans ce dernier cas, la nécessité de standardisation pose moins problème. En revanche, dans une approche de comparaison, il est important d’avoir des points de référence communs pour comparer différents éléments. Comme elle le dit : « On ne peut pas comparer des cochons et des ânes sans avoir un point de référence commun. »
Davide Pulizzotto
Comment définissez-vous le nettoyage des données ?
Hélène Vidot-Delerue
La notion de nettoyage dépend de la discipline. En sciences de la gestion, quand on part d’un questionnaire, c’est de voir où il y a des réponses incomplètes ou inexistantes. De manière générale, on nettoie en gardant les variables qui sont complètes.
Jean-François Chartier
Le nettoyage en sciences des données passe par plusieurs étapes en vue de la modélisation par l’apprentissage automatique (machine learning). Il explique qu’il y a beaucoup d’algorithmes qui ne tolèrent pas les données manquantes, et qu’il faut trouver une solution pour les compléter. « C’est sûr que les techniques utilisées pour compléter les données manquantes pourraient choquer quelques chercheurs·euses en SSH, » dit-il. Dans une perspective de modélisation prédictive, le nettoyage des données sert la prédiction. Il commente que bien souvent, une bonne opération de nettoyage, c’est une opération qui augmente la valeur prédictive du modèle.
Le nettoyage vise à réduire le bruit, l’ambigüité des variables, les valeurs manquantes, les erreurs d’encodage, et le Data Drift. Il explique qu’il y a un débat en sciences des données concernant la nécessité d’interpréter les modèles (tels que les réseaux de neurones profonds) ou non (tels que les arbres de décision ou les régressions linéaires), et cela a un impact sur le type de nettoyage à effectuer. « Si l’interprétation humaine du modèle n’est pas nécessaire, tout à coup on a plein d’options supplémentaires de nettoyage des données, » souligne-t-il.
Davide Pulizzotto
« Quel est le problème principal quand on a des données non structurées ? »
Jean-François Chartier
Le problème principal quand on travaille sur des données non structurées est justement de les structurer. Sinon on ne peut pas appliquer de technique quantitative ou d’algorithme. Le principal défi est de traduire mathématiquement de l’information qualitative.
Félix Fortin
En plus de préparer les données brutes, pour complémenter les réponses précédentes, à Statistique Canada il y a une préparation de tableaux de statistiques pour la population.
Davide Pulizzotto
Monsieur Fortin, tout à l’heure Mme Delerue soulevait le problème du taux de réponses aux questionnaires. Quelle en est votre expérience à Statistique Canada, et comment pensez-vous résoudre ce problème dans le futur ?
Félix Fortin
Il affirme que la plupart des répondants·tes finissent les questionnaires, peu importe la longueur, et qu’il y a un seuil de questions répondues pour considérer le questionnaire complet. Alors qu’auparavant les taux de réponse tournaient autour de 90 %, il confirme qu’ils ont diminué, pour atteindre environ 40 % de nos jours. Il abonde dans le même sens que Jean-François Chartier : « Les gens auraient peut-être des cauchemars de voir ce qu’on fait pour remplir ces vides-là. »
Davide Pulizzotto
Les taux de réponse diminuent. Donc d’une certaine manière aussi la méthode par questionnaire si avant la représentativité était très grande, maintenant on risque la validité de cette méthode. Est-ce qu’il y a des méthodes de collecte de données non structurées, sur le web ou ailleurs, qui pourraient faire cette tâche, et en avez-vous expérimenté à Statistique Canada ?
Félix Fortin
Statistique Canada a fait du Web Scraping sur les médias sociaux. Cependant, selon lui, il est rare que les gens aillent y publier des commentaires négatifs. Par conséquent, il considère que collecter les données sur ces plateformes risque de créer un biais élargi. Il ajoute que tout le monde a un cellulaire : « on voit ce qu’on peut faire avec les applications, » s’exprime-t-il. « On ne pose plus les questions sur le revenu, on va chercher les données des taxes. C’est la même chose pour les données d’immigration. De plus en plus, on essaie d’aller chercher des données qui sont déjà disponibles et on fait un lien avec nos enquêtes sociales. »
Catherine Beaudry
Qu’en est-il de l’imputation des données qui pourrait être ajoutée dans les questionnaires pour faire en sorte qu’on ne perde pas d’observations, lorsque vous avez des manquants ?
[En sciences des données, l’imputation remplace les valeurs manquantes dans un jeu de données par des valeurs estimées à partir des données disponibles. Cette méthode est utilisée pour éviter la perte d’observations et les biais d’analyse. Les techniques d’imputation incluent l’imputation simple, multiple et par modèle.]
Félix Fortin
Statistique Canada fonctionne dans le cadre de la Loi sur la statistique (1985) et de la Loi sur la protection des renseignements personnels (1985). L’organisme national de statistique utilise des techniques d’imputation pour remplir les données manquantes dans une enquête, entre autres en utilisant des données antérieures. Cette technique, le donner est souvent utilisée dans la même enquête pour essayer de remplir des vides avec des données non structurées ou administratives. Cependant, la loi sur la protection des renseignements personnels interdit de combiner les données provenant de différentes enquêtes.
Jean-François Chartier
Il rebondit sur les propos de Félix Fortin en disant que dans un contexte de sciences de données, le cadre méthodologique est la prédiction, et que généralement, l’imputation de valeurs qui augmentent les performances prédictives du modèle est considérée comme justifiée.
De plus, dans le contexte spécifique de l’assurance, de nombreuses informations obtenues directement auprès des clients·tes peuvent être inférées à partir d’autres questions posées antérieurement. Il ajoute que la raison pour laquelle ce type d’algorithme fonctionne est due à l’homophilie. « Les gens qui partagent les caractéristiques xyz, ont tendance à partager aussi les caractéristiques abc. » En sociologie, l’homophilie désigne l’attirance pour les personnes similaires à soi, telles que les membres d’un même groupe, ou des personnes qui partagent un même centre d’intérêt.
Hélène Vidot-Delerue
Elle explique que si on a un questionnaire dans lequel la majorité des gens ne répondent pas à une question, cela peut indiquer un problème au niveau du questionnaire. Cependant, il est important de comprendre la nature de la donnée manquante avant de la traiter. Il peut s’agir d’un problème d’incompréhension, ou autre. La cause de la donnée manquante peut être liée à plusieurs facteurs, tels que des difficultés de compréhension ou des problèmes techniques. Pour éviter de perdre des échantillons, des techniques d’imputation peuvent être utilisées pour remplir les données manquantes, mais cela peut être plus compliqué dans le cas de questionnaires avec des échantillons plus petits.
Lyne Da Sylva
Elle revient sur la question de nettoyage des données pour spécifier que la décision de corriger les données ou non, et de les nettoyer, doit être adaptée en fonction de l’objectif visé. Il y a une grande différence entre données manquantes et données erronées. Dans un de ses cours, où les étudiants·tes apprennent à faire des opérations de nettoyage de données, elle utilise le résultat du recensement canadien de 1901. « Ce qui est intéressant pour moi c’est que les données ont été entrées manuellement. Ce qui fait qu’il y a beaucoup de valeurs à corriger, » partage-t-elle.
Elle donne l’exemple de variations à des réponses sur le lien entre le·la répondant·te et le·la chef·fe de la maisonnée. « Vous seriez étonnés·es de voir le nombre de valeurs différentes, y compris toutes les façons d’écrire daughter, fille, son, fils, épouse, femme, etc. Y compris toutes les fautes d’orthographe que vous pouvez imaginer. »
La problématique est de savoir comment corriger ces données en fonction de l’utilisation que l’on souhaite en faire. « Si on veut savoir l’étendue des réponses données à la question, alors on ne veut absolument rien corriger. » Par contre, dans l’éventualité où l’on veut avoir une bonne idée de la taille des maisonnées, alors on doit appliquer une certaine normalisation. Par exemple, si on veut décider qu’une abréviation, comme tr doit vouloir dire daughter, alors on y met de la subjectivité. Elle pose comme réflexion, à savoir si on est en train d’introduire de fausses données en pensant les corriger.
Question de l’audience
Dans les SSH, on est souvent frustré d’avoir certains résultats issus d’une exploitation de données secondaires qui contredisent fortement nos hypothèses, surtout dans les pays en développement. Parfois, ces résultats n’ont même pas de sens. Que faut-il faire ? Est-ce que c’est lié à un problème de nettoyage ou d’outils mathématiques utilisés ?
Lyne Da Sylva
« Je vais prendre mon point de vue de professeure-chercheuse. En recherche scientifique, si on a des données qui contredisent nos hypothèses, notre seule option est de rapporter que : voici notre méthodologie, voici les données, et que celles-ci ne valident pas nos hypothèses. On peut essayer d’expliquer : est-ce que c’est une question de méthodologie ? On peut essayer d’explorer ça et refaire une expérimentation. C’est très frustrant quand les données nous contredisent, mais il y a peut-être une leçon extrêmement intéressante à en tirer. » Elle partage une anecdote d’un de ses collègues qui avait milité pour la création d’une revue qu’il appelait La revue des résultats négatifs intéressants.
Ce contenu a été mis à jour le 2023-10-27 à 21 h 09 min.