Les méthodes d’analyse : Intersections et complémentarité
Davide Pulizzotto, PhD en Sémiotique et spécialiste en analyse de texte assistée par ordinateur dans le domaine des sciences sociales, ainsi que Catherine Beaudry, directrice de 4POINT0, animent cette table ronde. Ici on s’intéresse aux méthodes d’analyse et à leur couplage, ainsi qu’aux intersections possibles entre les statistiques inférentielles, les méthodes de l’apprentissage automatique et la recherche quantitative.
L’événement a eu lieu le 29 septembre 2022 dans le cadre de la série de wébinaires 4POINT0 Démystifier l’usage des mégadonnées dans les sciences sociales.
Les panélistes
Christian Bourque
Vice-président recherche et associé senior, Léger Marketing
Marc Fredette
Professeur titulaire au département des sciences de la décision, HEC Montréal
Hélène Vidot-Delerue
Professeure à ESG UQAM, titulaire de la Chaire de gestion de projet
René Morissette
Économiste sénior, Statistique Canada
Davide Pulizzotto
Qu’est-ce que veut dire « méthode d’analyse » et comment les décrire en SSH ?
René Morissette
Pour moi, une méthode d’analyse est un outil qui permet de répondre à une question de recherche précise. La question de recherche peut être de trois types :
Question de recherche de nature descriptive
Décrire des faits. Ex.: Quel est l’écart salarial entre les hommes et les femmes présentement au Canada ?
Question de recherche de nature causale
Identifier et parfois quantifier une relation de cause à effet entre une variable et le phénomène étudié. Ex.: Quel est l’impact du salaire minimum sur le niveau d’emploi des jeunes au Canada ? Quel est l’impact d’augmenter les bourses étudiantes sur la fréquentation universitaire des étudiants·es provenant de famille à faible revenu ?
Question de recherche de nature prédictive
On essaie de prévoir de la meilleure façon possible un phénomène. Ex.: Quel est l’ensemble de variables qui prédit le mieux une intégration réussie des immigrants·es sur le marché du travail au Canada ?
Pour chacune de ces questions de recherche, différentes méthodes d’analyses sont appropriées.
Hélène Vidot-Delerue
Une méthode d’analyse est une façon rigoureuse d’interpréter des données brutes, qu’elles soient quantitatives (chiffres) ou qualitatives (mots). La conversion de données qualitatives en données quantitatives est plus facile que l’inverse. Aujourd’hui, les méthodes d’analyse ont évolué grâce à l’apport d’autres disciplines. Par exemple, en sciences de gestion, on utilise des outils statistiques issus d’autres domaines, dont l’informatique, qui ont permis le développement de logiciels facilitant l’utilisation des méthodes quantitatives et qualitatives. La frontière entre ces deux types de méthodes devient de plus en plus floue, avec l’apparition d’outils analysant les deux types de données.
Marc Fredette
Statisticien de formation et travaillant peu dans le qualitatif, mes interventions seront surtout basées sur le quantitatif. À la base, la clé est l’identification du besoin. Lorsqu’on reçoit des données, quand on a une problématique, on ne l’identifie pas toujours assez bien. C’est ce qui va nous dicter la méthode à utiliser. On analyse conjointement la méthode avec les données, et cela nous donne l’outil final pour l’analyse.
Christian Bourque
L’analogie du coffre à outils est souvent utilisée. J’ai une formation de quantitativiste. De mon côté, on parle de l’industrie du sondage. On se tourne davantage vers une science qui est prescriptive. Ceux qui nous amènent une problématique de recherche sont des entreprises qui veulent vous vendre quelque chose, ou des gens — des acteurs au niveau sociopolitique — qui veulent vous convaincre de quelque chose.
À partir de ces problématiques, on va essayer de trouver les outils les plus appropriés. En entrant dans le métier, j’essayais de tourner en problématique quantitative des éléments où souvent les approches qualitatives étaient plus appropriées.
Lorsqu’on parle de techniques, je montre à mes étudiants·es La trahison des images de Magritte — la peinture d’une pipe avec l’inscription « Ceci n’est pas une pipe ». En recherche, on tente de reproduire une certaine réalité. Le pinceau de Magritte incarne les techniques qu’on utilise — les méthodes qualitatives ou quantitatives. Dans toute représentation, il y a essentiellement quelque chose que l’on vient perturber de cette réalité que l’on souhaite observer.
Mon directeur de thèse me disait toujours que lorsque tu regardes ta problématique en ce qui concerne la portée limite, la portée importe moins que l’aspect des limites. Cette recherche à repousser les limites fait qu’aujourd’hui on tend à vouloir intégrer de nouvelles méthodes, et de nouvelles approches. Parce qu’on se frappe toujours le nez sur les limites des instruments que l’on a.
Catherine Beaudry
Monsieur Bourque, vous avez mentionné qu’il y a une certaine variété d’analyse en sciences sociales, et qu’il est souvent difficile de cerner les différents outils et méthodes à notre disposition. Dans votre travail de tous les jours, quels sont les avantages d’une telle variété, et est-ce souhaité et possible de combiner les différentes approches ?
Christian Bourque
Il est tout à fait souhaitable de chercher une certaine complémentarité. Ce qui nous préoccupe particulièrement est de comprendre comment les stimuli, les aprioris et les valeurs des répondants se traduisent en décisions et en actions. Avec l’évolution des méthodes quantitatives, nous cherchions des relations de cause à effet en essayant d’imposer une certaine linéarité au comportement humain. Ces approches avaient leurs limites.
Par la suite, nous nous sommes tournés vers d’autres modèles mathématiques, comme l’analyse conjointe et les méthodes de choix discrets, en essayant de reproduire le processus décisionnel des individus pour ensuite déduire ce qui les avait motivés.
Toutefois, ces méthodes présentent encore certaines limites. L’analyse qualitative vient combler les lacunes des approches quantitatives. Souvent, nous terminions une approche quantitative après avoir posé 50 questions aux participants. Nous recevions les résultats, les introduisions dans des logiciels d’analyse de données comme SPSS Statistics ou R, mais finalement nous avions autant de questions qu’il y avait de réponses à notre sondage.
C’est alors que nous nous tournions vers des méthodes plutôt qualitatives pour comprendre le grand « pourquoi ». La plupart du temps, ce « pourquoi » se trouve dans ce que les gens ne disent pas explicitement. Alors qu’avec un sondage quantitatif, nous forçons les gens à s’exprimer sur des échelles qui n’existent pas dans leur esprit. Nous ne vivons pas notre vie quotidienne en classant tout sur une échelle de 1 à 10, comme si cela traduisait fidèlement nos pensées.
Marc Fredette
Il est grandement avantageux de combiner différentes méthodes. Même dans le cadre d’une approche quantitative, nous combinons parfois plusieurs méthodes. L’exploitation des données est généralement scindée en deux catégories : l’apprentissage supervisé et l’apprentissage non supervisé.
Dans l’apprentissage non supervisé, il n’y a pas de variable spécifique que nous cherchons à prédire ou comprendre. Par exemple, si j’ai une base de données clients et que je réalise une analyse descriptive appelée analyse de segmentation, je vais identifier différents segments dans ma base de clients. Je peux repérer un segment de clients qui quittent, et un segment de clients très profitables.
À ce stade, j’ai pratiqué de l’apprentissage non supervisé. Maintenant, une variable spécifique m’intéresse : un client appartient-il à un segment particulier ? À ce moment-là, un autre processus méthodologique, l’apprentissage supervisé, est mis en œuvre. La question devient : pouvons-nous prédire si une personne appartiendra au groupe ciblé ? Avec des analyses causales et inférentielles, pouvons-nous déterminer ce qui fait qu’une personne appartient au groupe des clients profitables ? Il s’agit d’un processus longitudinal au cours duquel une multitude de méthodes seront utilisées à partir de la même base de données.
Hélène Vidot-Delerue
Effectivement, la variété des méthodes, qu’elles soient qualitatives ou quantitatives, et la diversité des outils sous-jacents, permettent d’acquérir une compréhension plus approfondie du phénomène que nous cherchons à étudier. Dans une approche quantitative, nous pouvons établir un lien, mais comprendre le véritable parcours de ce lien nécessite, dans certains cas, des études qualitatives inductives pour pouvoir déchiffrer les mécanismes et expliquer ces liens.
René Morissette
Comme Marc Fredette, je me consacre principalement à la recherche quantitative. Cela dit, je peux illustrer la complémentarité entre les méthodes qualitatives et quantitatives par un exemple concret. Pendant des dizaines d’années, les économistes se sont interrogés sur le pourquoi, en période de récession, les entreprises ne baissent pas les salaires de leurs employés·es. Pourquoi préfèrent-elles licencier plutôt que de réduire les salaires de leur main-d’œuvre ? Les économistes ont exécuté des centaines de régressions pour essayer de comprendre cette dynamique, mais sans trouver de réponse convaincante. Un jour, un économiste a décidé d’interroger directement 200 à 300 PDG d’entreprises américaines pour leur poser la question : pourquoi, en période de récession, ne réduisent-ils pas les salaires de leurs employés·es ? Les PDG ont principalement répondu que la diminution des salaires aurait pour effet de réduire le moral et la productivité de l’ensemble des employés·es. C’est donc à travers ces entretiens qualitatifs avec les PDG que l’explication a été finalement révélée.
Catherine Beaudry
Y a-t-il une méthode qualitative unique, ou plusieurs ? Les données quantitatives sont-elles analysées avec une seule approche, ou plusieurs ? Comment peut-on synthétiser les différences entre les diverses méthodes et outils ?
Hélène Vidot-Delerue
L’hétérogénéité des méthodes qualitatives repose sur plusieurs points. Elles s’appuient sur des mots issus du langage. La question est donc de savoir comment considérer ce langage : est-il un moyen ou un processus de communication ? Cela nous mène à deux façons d’analyser les mots : l’analyse de contenu et l’analyse de discours. Considère-t-on le langage comme un reflet de la culture ? Alors, on se situe sur des perspectives cognitives. Si on pense que le langage se crée en fonction des interactions entre individus, cela nous amène vers d’autres types de méthodes qualitatives [telles que l’ethnométhodologie, l’analyse conversationnelle, l’analyse du discours, l’analyse de l’activité, entre autres].
Bien sûr, ces méthodes s’appuient sur différentes collectes de données. On peut également se dire qu’on cherche des régularités à travers le langage, ce qui nous amène à d’autres méthodes comme la phénoménographie. On peut chercher à identifier des liens et explorer des relations avec des méthodes qualitatives, comme la Grounded Theory ou la théorie ancrée. Ou encore, on peut vouloir comprendre un phénomène en profondeur.
Les méthodes qualitatives sont très variées. Ayant une formation de statisticienne, j’ai réfléchi à la question de savoir s’il existe plusieurs méthodes quantitatives. À mon avis, il existe plusieurs méthodes qualitatives pour les raisons que je viens d’évoquer, mais je ne suis pas sûre que l’on puisse dire la même chose des méthodes quantitatives. J’ai l’impression que les outils quantitatifs sont plus nombreux, mais que les méthodes quantitatives sont plus homogènes, bien que les outils soient divers.
René Morissette
En tant qu’économiste, je reviens à la distinction que je faisais lors de la première question. Pour moi, il existe plusieurs méthodes et outils quantitatifs qui peuvent répondre à des questions de différentes natures. Par exemple, si ma question de recherche est « Dans des emplois comparables, dans quelle mesure les femmes ont-elles des salaires moins élevés que les hommes ? », je vais réaliser des analyses multivariées prenant en compte les différents niveaux de diverses professions, divers types d’emplois, etc. Cette régression linéaire va me permettre de répondre à la question de l’écart salarial : les femmes reçoivent des salaires de 10% inférieurs à ceux des hommes.
Maintenant, si dans la deuxième partie de l’étude, je cherche à répondre à la question « Quel est l’impact causal de la maternité sur l’écart salarial homme/femme ? », je vais devoir utiliser une autre technique statistique pour pouvoir y répondre.
Ainsi, différents outils statistiques permettent de répondre à différentes questions de recherche de différentes natures. Ces méthodes ont été développées pour répondre aux besoins de distinguer entre des questions de nature descriptive, causale et inférentielle, et finalement, de nature prédictive.
Christian Bourque
Au cours des 15 dernières années, c’est davantage la nature des données qui a changé que les méthodes employées. Auparavant, notre sujet d’étude était l’être humain, donc on interagissait avec lui par le biais de différentes techniques de sondages et autres.
Aujourd’hui, il est question des traces que l’être humain laisse sur les plateformes numériques, ou dans ses comportements qui sont répertoriés par les entreprises avec lesquelles il interagit. Ces données nous ouvrent de nouvelles avenues à analyser. Les mégadonnées — les traces — viennent révolutionner ce que nous faisons dorénavant en matière de méthode quantitative.
Je crois que nous sommes encore en train de nous familiariser avec les mégadonnées. Essentiellement, la grande révolution en matière d’analyse quantitative vient de la nature changeante des données que nous observons, en plus de l’IA. Au niveau qualitatif, je pense que les outils restent relativement les mêmes.
Marc Fredette
Lorsque nous parlons de modèles inférentiels et de modèles prédictifs, dans les deux cas, la régression peut être utilisée. Lorsque nous réalisons une régression, nous devons nous demander si nous réalisons cette régression pour prédire quelque chose ou pour comprendre quelque chose. La façon de construire le modèle sera complètement différente. Par exemple, l’aspect de la multicolinéarité est problématique pour les modèles inférentiels, alors que pour un modèle prédictif, la multicolinéarité importe peu.
Davide Pulizzotto
Avez-vous un conseil à donner aux étudiants·es ?
Marc Fredette
Maintenant, il y a beaucoup de données externes qui peuvent être excessivement utiles en tant que variables de contrôle dans vos analyses. J’invite les gens à développer le réflexe de se poser la question de savoir s’il y aurait des données quelque part qui pourraient m’aider, autres que les données auxquelles j’ai actuellement accès.
René Morissette
Dans tout exercice quantitatif, la question qui est toujours l’éléphant dans la pièce est que l’association statistique entre une variable A et une variable B pourrait être due à de nombreux autres facteurs en jeu. L’un des défis majeurs en statistique est d’avoir un ensemble suffisamment riche de variables de contrôle pour pouvoir affirmer que la corrélation observée s’approche d’une relation causale.
Prenons un exemple. Si je fais simplement une corrélation entre le niveau de scolarité des individus et leur niveau de revenu, je vais généralement trouver une corrélation positive.
Cependant, cette corrélation n’est pas nécessairement causée par le niveau de scolarité. Elle pourrait dissimuler le fait que les individus ayant un niveau de scolarité plus élevé ont de meilleures compétences ou un quotient intellectuel plus élevé. Si je ne suis pas capable de prendre en compte et de contrôler ces différents niveaux de compétence, il est difficile d’aller plus loin lorsque j’essaie d’interpréter la corrélation positive entre l’éducation et le niveau de revenu.
J’ai besoin, d’une part, d’un ensemble de variables de contrôle suffisamment riche et, parfois, j’ai besoin de ce que l’on appelle une expérience naturelle, qui sera l’équivalent de placer des individus dans des laboratoires de manière quasi aléatoire.
Hélène Vidot-Delerue
Je pense que lorsqu’on fait le choix d’une méthode, c’est aussi lié à notre propre cerveau. On ne choisit pas les méthodes qualitatives parce qu’on a peur des méthodes quantitatives, parce qu’on a peur des chiffres ou des statistiques. On n’a pas besoin d’être statisticien pour faire des statistiques en gestion et en management. On a une problématique et on utilise des outils qui demandent des connaissances, mais dont l’usage a été démocratisé par des logiciels qui sont quand même accessibles et conviviaux, comme SPSS Statistics. On utilise des statistiques pour répondre à des questions, ce qui ne signifie pas forcément être statisticien.
D’autre part, le choix d’une méthode vient aussi de l’individu. On est sensible aux mots ou aux chiffres. Il y a des personnes qui ne sont absolument pas convaincues par les méthodes quantitatives parce qu’elles estiment, par exemple, qu’un questionnaire ne peut pas évaluer la confiance sur une échelle de 1 à 5. Elles considèrent plus intéressant d’aller vers le qualitatif. D’autres n’ont pas ce point de vue.
Christian Bourque
Au moment de formuler notre problématique de recherche, disons quantitative, souvent nous laissons de côté le coffre à outils qualitatifs alors que pour tester la validité de nos indicateurs quantitatifs, l’intégration d’une méthode qualitative peut être extrêmement enrichissante.
Par exemple, nous voulions développer un indicateur pour calculer la prévalence de la violence conjugale. Nous avions développé un indicateur qui était basé sur un certain nombre de gestes violents et la fréquence à laquelle ces gestes étaient posés. Nous pensions que nous avions un indicateur qui était merveilleux. Nous sommes allés·es le tester qualitativement en amont. Nous nous sommes aperçus·es que nous manquions la moitié de l’histoire : en administrant nos indicateurs à nos participants·es au groupe de discussion, iels nous ont dit : « Ces gestes-là n’arrivent jamais, mais j’ai constamment peur qu’ils surviennent. » Alors nous nous sommes dit qu’il y avait tout un aspect de la violence conjugale qui n’était pas intégré dans notre indicateur. Nous avons donc intégré une perception du danger : jusqu’à quel point pense-t-on que le danger est imminent, même si le geste n’est jamais posé. Donc, l’approche qualitative a contribué à améliorer notre indicateur quantitatif.
Catherine Beaudry
Est-ce que les pratiques d’analyse qui utilisent l’apprentissage automatisé (machine learning) sont en train de substituer d’autres pratiques, ou elles se positionnent avec un rôle de complémentarité ?
Christian Bourque
Si vous disposez de dizaines de millions de tweet qui utilisent les mots décrire une certaine réalité, alors on peut sur une base quantitative faire une méga-analyse qui essentiellement porte sur le langage. Il est possible d’avoir une approche quantitative avec des données de nature qualitative.
Marc Fredette
Une véritable révolution est en cours dans le domaine des données. Nous disposons maintenant d’un volume considérable de données, et les gens prennent de plus en plus conscience que nos données personnelles sont collectées, des recherches web jusqu’aux données de déplacement. Je ne crois pas que cela soit en train de substituer d’autres pratiques, mais il s’agit plutôt d’une question de complémentarité. Le machine learning fournit une mine d’informations sur le plan descriptif et prédictif. Cependant, lorsqu’il s’agit de causalité, il est très difficile d’utiliser le machine learning pour réaliser de l’inférence statistique, par exemple.
Au Tech3Lab, mon laboratoire de recherche, nous réalisons des expériences sur l’expérience utilisateur. Les gens utilisent donc un site web ou une application. Auparavant, pour mesurer leur expérience, pour savoir à quel point ils appréciaient l’expérience, nous posions la fameuse question sur une échelle de 1 à 5 que Madame Delerue nous a mentionnée : avez-vous aimé l’expérience ou non ? Maintenant, avec une webcam, nous pouvons tenter d’inférer les émotions faciales. Le non-verbal peut être une façon de quantifier l’émotion. Nous avons des outils comme un oculomètre (eye-tracking) qui mesure la dilatation de la pupille pour tenter de mesurer la charge cognitive, etc. Nous tentons maintenant de quantifier les émotions, ce qui était auparavant analysé de façon exclusivement qualitative.
René Morissette
En ce qui concerne les limites des mégadonnées sur les analyses inférentielles, lorsque les mégadonnées ont fait leur apparition, beaucoup pensaient qu’elles représentaient le nirvana sur le plan analytique, que nous serions capables de répondre à toutes les questions de recherche. La réalité est beaucoup plus nuancée. La capacité des chercheurs·euses à répondre à des questions de recherche de nature causale dépend non seulement de la disponibilité d’un ensemble de données riches, mais aussi d’autres conditions. L’arrivée des mégadonnées a certainement augmenté les possibilités d’analyses en général, mais ce n’est pas une solution miracle lorsqu’on cherche à répondre à des questions de nature causale spécifique. Par exemple, la question de l’impact causal de la syndicalisation sur la productivité des entreprises et sur leur rentabilité est une question qui ne peut pas être répondue de manière rigoureuse, même avec une base de données qui contient 100% des travailleurs·euses canadiens·nes et des entreprises canadiennes à moins d’avoir une variation exogène de la probabilité de syndicalisation.
Catherine Beaudry
Quand une personne répond à un questionnaire, est-ce qu’elle vous dit la vérité ? Monsieur Fredette, vous avez évoqué les mesures oculaires lorsque les gens regardent un site web. Le·la chercheur·e qui est dans un groupe de discussion ou en entrevue avec une personne, lit beaucoup le non verbal de la personne en face d’elle. Comment valider la donnée ?
René Morissette
Dans le cas de certains·es répondants·es, on peut penser qu’il peut y avoir un biais de justification. Par exemple, si j’ai eu une très mauvaise performance dans mon dernier emploi, et que mon employeur m’a congédié, lorsqu’on répond à une enquête et qu’on me demande la raison pour laquelle j’ai quitté mon emploi, il se peut que je dise que j’ai quitté volontairement, ou que j’ai été licencié en raison d’un manque de travail au sein de l’entreprise. Ce biais de justification est certainement présent.
Pour certaines variables quantitatives, il est possible pour les agences statistiques de les vérifier en intégrant les données que l’on collecte aux données administratives. En intégrant, par exemple, certains enregistrements d’enquête aux données d’impôt. Si, dans l’enquête, vous répondez que vous êtes membre d’un syndicat, dans votre déclaration d’impôt T1, vous devriez payer des cotisations syndicales. On peut donc valider si votre réponse correspond à ce que l’on observe dans votre déclaration d’impôt.
Marc Fredette
Je ne prétendrais jamais que les mesures des expressions faciales et du mouvement des yeux soient le Saint-Graal. Pas du tout. Nous avons encore beaucoup à apprendre, mais ce sont des outils supplémentaires dans notre boîte à outils. Ils nous apportent des éléments de temporalité. Par exemple, si une personne navigue sur un site web pendant 30 minutes, nous serons capables d’identifier les moments dans le temps où elle a eu une réaction faciale. Si la personne répond à des questions et que nous mesurons la sudation, cela peut nous donner une indication sur son niveau d’aisance à répondre ou non.
Cela dit, il est indéniable qu’il y a beaucoup de bruit avec ces outils, que nous n’avons pas avec les données de questionnaire. Par exemple, si je navigue sur un site web et que je me rappelle soudainement que j’ai oublié d’éteindre le four chez moi, cela se verra sur mon visage, mais cela n’a absolument aucun rapport avec ma navigation sur le site web.
Hélène Vidot-Delerue
Il est souvent dit que dans les recherches qualitatives, nous avons cette validité interne parce que nous sommes en présence du ou de la répondante. Cela dit, ce qu’un individu exprime est ce qu’il choisit de partager. Sa réponse à un questionnaire est ce qu’il décide de répondre. Il y a inévitablement un biais à ce niveau-là. C’est ici que l’importance des différentes méthodes et des diverses façons de collecter les données entre en jeu, afin de permettre une triangulation.
René Morissette
Les mégadonnées, bien qu’offrant des opportunités d’analyse accrues, ne sont pas en elles-mêmes suffisantes pour permettre des analyses de causalité. Les travaux de recherche que nous menons s’adressent principalement aux décideurs·ses politiques au gouvernement fédéral. Ces informations causales sont cruciales pour leur permettre d’identifier les leviers en ce qui concerne les politiques économiques et sociales.
Bien que nous puissions avoir des données sur tous les individus au Canada, cela ne suffit pas pour répondre à une question de recherche de nature causale. Par exemple, les individus s’auto-sélectionnent dans différents programmes sociaux et entreprises, et ces dernières diffèrent de manière non observable.
Cependant, les mégadonnées augmentent la probabilité que nous puissions répondre à des questions de nature causale. Par exemple, si nous avons des données sur 100% des individus, nous pourrions mesurer avec précision les comportements dans différentes régions au Canada et dans le temps. Cela pourrait nous permettre d’examiner l’impact du déclin du secteur manufacturier sur les salaires des travailleurs·ses au Canada, en comparant les variations régionales.
Ainsi, bien que les mégadonnées ne soient pas la solution parfaite pour les analyses de causalité, elles augmentent la probabilité de pouvoir mener de telles analyses en fournissant des mécanismes d’identification statistique qui ne seraient pas accessibles avec les enquêtes conventionnelles.
Ce contenu a été mis à jour le 2023-10-05 à 10 h 11 min.