A machine learning approach for identifying clusters in real-time

La théorie des clusters constitue une dimension clé de notre modèle de diamant de données, mais quelle est la pertinence des recherches existantes lorsqu'il s'agit de définir les limites d'un cluster à mesure que les industries évoluent ? En s'appuyant sur la théorie des clusters, les chercheurs Lucien Chaffa et Thierry Warin ont développé une nouvelle méthode quantitative pour identifier et redéfinir de manière dynamique les limites des clusters et des industries qui les composent.

Le milieu de la recherche a utilisé diverses méthodes pour rendre opérationnelle la définition de Porter d'un cluster - une concentration d'entreprises, de fournisseurs et d'institutions associées interconnectés dans une région - en s'appuyant sur des facteurs tels que la colocalisation, les intrants partagés et les similitudes en matière d'emploi et de brevets pour mesurer la connectivité des secteurs d'activité. Si ces facteurs permettent de saisir les liens interindustriels visibles, les algorithmes d'apprentissage non supervisé peuvent mettre au jour des structures et des relations cachées qui ne sont pas toujours immédiatement apparentes.

La création d'entreprises, préalablement définie comme une mesure de l'interconnexion, est utilisée par les auteurs pour développer une mesure des taux de croissance de l'industrie. Le taux de croissance de l'industrie est un indicateur intéressant, car il reflète les divers facteurs économiques et non économiques qui influencent une industrie. Les auteurs utilisent un algorithme de regroupement k-means, ainsi que d'autres techniques d'apprentissage automatique non supervisées, pour regrouper en grappes les industries présentant des modèles de croissance similaires, tout en définissant des limites de grappes dynamiques qui indiquent une forte interconnexion interindustrielle. Cette approche permet de saisir les changements et les co-mouvements dans les performances industrielles au fil du temps, en transformant les définitions statiques des grappes en définitions dynamiques.

Pour tester leur méthodologie, les auteurs utilisent les données au niveau de l'entreprise du Registre des Entreprises du Québec (REQ), qui sont actualisées tous les quinze jours, pour calculer les taux de croissance de l'industrie. En exploitant des données en temps quasi réel, les changements dans la santé et la compétitivité d'une industrie sont capturés presque immédiatement. Cette approche contraste fortement avec les méthodes traditionnelles de définition des grappes d'entreprises qui reposent sur des ensembles de données transversales dépassées et qui ne tiennent pas compte de l'importance des industries naissantes.

La granularité de cet ensemble de données s'étend sur trois dimensions : la classification industrielle, la localisation géographique et les attributs temporels. Cela permet d'identifier les grappes à différents niveaux de la classification industrielle tout en tenant compte de la géographie qu'elles occupent. Les données géospatiales des entreprises sont particulièrement précieuses pour comprendre le comportement des grappes au-delà des frontières politiques. Enfin, la dimension temporelle de l'ensemble de données permet de comprendre l'évolution des grappes dans le temps.

En résumé, cette méthodologie basée sur l'apprentissage automatique modernise non seulement la théorie des clusters, mais ouvre également la voie à des analyses de la géographie économique et de la compétitivité régionale plus dynamiques et basées sur des données. Pour les décideurs publics, cette approche fournit des informations cruciales sur la santé des industries régionales, permettant des interventions éclairées et ciblées pour stimuler le développement économique des régions.

Une approche basée sur l'apprentissage automatique pour identifier les grappes d'entreprises en temps réel