Moissonner les données du web (Web Scraping)

par Nicolas Sacchetti

Le web scraping sert à récolter des informations sur les sites internet. À l’aide des données récoltées, on prédit les problèmes financiers futurs d’une compagnie. Josep Domenech est professeur agrégé au département d’Économie et de Sciences sociales à l’Université Polytechnique de Valence. En tant que chercheur, Pr Domenech s’intéresse à l’extraction des données web et à l’économie numérique. Il présente la méthodologie du web scraping.

L’événement a eu lieu en visioconférence lors du Congrès P4IE sur les politiques, les pratiques et les processus liés à la performance de l’écosystème d’innovation présenté par le Partenariat pour l’organisation de l’innovation et des nouvelles technologies (4POINT0) du 11 au 13 mai 2021.

Les petites et moyennes entreprises (PME) sont l’épine dorsale de l’Union européenne (UE). Elles représentent 99% des entreprises du continent, selon la Commission européenne de 2008 et le « Small Business Act » de la même année. Par contre, elles ont besoin de subventions pour faire preuve de compétitivité alors qu’elles sont dans leur début, et bénéficiant d’un crédit limité. 

Pour contrecarrer la problématique de temps d’enquête afin d’établir la valeur économique d’une PME, l’étude Prédire le défaut de paiement des PME : leurs sites web sont-ils informatifs ? (Predicting SME’s default: Are their websites informative? ), de Josep Domenech (2022) et de ses collègues Lisa Crosato et Caterina Liberati, propose une nouvelle approche. Utiliser les données moissonnées de leur site internet (Web Scraping). Ces informations disponibles en ligne permettent une supervision en quasi-temps réel des PME, en détectant automatiquement les informations pertinentes à l’analyse économique.

L’intuition première du Pr Domenech était que les sites internet des compagnies constituent une mine d’informations pertinentes pour prédire leur valeur économique : « Les résultats ont montré que les modifications du contenu des sites web reflètent avec évidence le statut de l’entreprise. Les PME actives étaient principalement associées à des sites web mis à jour, tandis que celles inactives étaient davantage associées à des sites web fermés. En fait, les résultats ont confirmé que le risque de fermeture des entreprises augmente lorsque l’activité du site web diminue. »

Mathématiques

Des régressions logistiques multipériodes et des analyses de survie statistiques ont été appliquées pour étudier le statut d’activité de l’entreprise et comprendre la manière dont le statut du site web est lié à sa survie. Le web scraping utilise aussi le modèle de l’Analyse discriminante de Fisher (Kernel Discriminant Analysis – KDA) ainsi que d’autres formules mathématiques complexes. 

Bien sûr, un site internet de faible activité et qui utilise une technologie périmée (Adobe Flash Player) diminue sa prédiction de valeur économique par défaut : « Ceci est interprété que la compagnie s’affaiblit », explique Domenech.

Les informations présentées sur le site internet sont extraites et classifiées en trois niveaux pour faire la prédiction. Soit le contenu du site, le code HTML, et la réaction du serveur. Aussi, l’approche par apprentissage automatique (Machine Learning) permet une validation croisée des classifications en utilisant l’ensemble des données de formations (Train Set), et l’ensemble de données d’essai (Test Set).

Les variables

Les variables utilisées pour faire la prédiction économique de défaillance des entreprises se déclinent ainsi dans l’étude de Domenech et collab. (2022) : « Les variables hors-ligne sélectionnées comme prédicteurs sont le nombre d’employés, l’année d’activité, le pourcentage d’endettement, la productivité et le profit économique, conformément à la théorie classique.

En ce qui concerne les variables en ligne, les sites web ont été consultés par le biais de la Wayback Machine de l’Internet Archive, qui est une bibliothèque numérique de sites internet capable de montrer l’aspect et les caractéristiques d’un site et ses changements au fil des ans. » On peut ainsi constater si le site a été hors-ligne un moment, et l’envergure des changements qui se sont opérés au fil du temps.

Données de formation

Pour former le modèle sur lequel l’IA se base pour apprendre, il faut tout d’abord rassembler les données. Vaut mieux avoir un échantillon équilibré entre les compagnies qui réussissent le test de compagnie prospère et celles qui l’échouent, afin de prévenir les biais informatiques, soit un manque de neutralité. Pour traiter le déséquilibre de l’échantillonnage, Domenech propose cinq techniques :

Le suréchantillonnage (Oversampling) permet d’ajouter davantage de points de données aux firmes en défaut de paiement dans le but de rééquilibrer les échantillons. On répète les observations de défaillance. 

Le SMOTE (Synthetic Minority Oversampling Technique) génère des données synthétiques entre chaque échantillon de la classe minoritaire.

« Lorsqu’il y a trop de fluctuations à propos de quelques variables, disons que le nombre d’en-têtes de bloc (Header) sur un site web est de 1, et que sur un autre il est de 1 000, alors quoi faire de cette si grande variabilité », demande Domenech. Il informe que la conversion des caractéristiques du site internet en variables binaires tempère cette situation.

D’autre part, lorsqu’il y a trop de variables, la méthode statistique de régression LASSO (Least Absolute Shrinkage and Selection Operator) « effectue à la fois une sélection de variables et une régularisation afin de réduire les erreurs de généralisation. »

La réduction de la dimensionnalité (RD) est un processus utilisé alors que l’on veut analyser ou organiser des données de trop grande dimension. La RD peut être obtenue par une analyse des correspondances multiples MCA (Multiple Correspondence Analysis). Ceci consiste en une « extension de l’analyse de corrélation qui permet d’analyser le modèle de relations de plusieurs variables dépendantes catégorielles. » L’analyse discriminatoire de classification non linéaire de Kernel Fisher (Kernel Discriminant Analysis – KDA’s solution) peut être aussi utile pour faire la réduction.

Josep Domenech vous invite aussi à remettre en question la pertinence de faire un web scraping de l’entièreté du site. Dans certains cas, la page d’accueil est suffisante. La prédiction peut être faite sur différentes échelles de temps. 

Données d’essai

L’évaluation de l’approche se fait par de multiples répétitions des procédures de tests de formation et d’essai (k-Fold Cross-Validation). « Les indicateurs sont basés sur les critères de précision de l’équilibre d’échantillonnage, la sensibilité du suréchantillonnage, et la spécificité du SMOTE. », explique Domenech. Les banques sont davantage intéressées par le critère de sensibilité, car elles veulent savoir la proportion de défaillance de l’entreprise qui a été détectée.

Enfin, Josep Domenech conclut sur ces mots : « Les sites internet sont une riche source d’informations qui reste à exploiter. Des techniques spécifiques doivent être utilisées pour les transformer en sources de données utilisables. »

Articles connexes :

Pierre-Samuel Dubé d’Irosoft Juridique présente : L’efficience de l’IA au service du domaine juridique — Benjamin Zweig de Revelio Labs expose comment : Créer la taxonomie des emplois  — Jean-François Connolly d’IVADO présente : Des outils pour entreprendre l’analyse de données

Ce contenu a été mis à jour le 2023-01-31 à 4 h 10 min.