Dans un monde connecté, le volume de données produites, gérées et stockées augmente de façon exponentielle, et dans la même proportion, la nécessité d’obtenir des informations pertinentes et significatives. Les avantages d’une bonne exploitation de ces données grâce à l’application de technologies de Big Data et d’analyse avancée sont multiples, et l’information qui peut être obtenue est extrêmement précieuse et révélatrice.
Les administrations publiques n’ignorent pas cette réalité et il y en a plusieurs qui sont conscientes de l’importance et le besoin d’exploiter efficacement l’énorme quantité de données qu’elles chérissent (santé, économie et finances, environnement, agriculture, etc.).
Quel problème résout-il ?
À la fin de 2014, la Secretaría de Estado de Telecomunicaciones y para la Sociedad de la Información a vu une occasion claire d’appliquer dans le domaine des taches de l’évaluation des demandes d’aide visant à encourager la mise en œuvre de projets à fort potentiel et qui permettent d’augmenter la compétitivité de l’industrie espagnole des TIC. Le scénario de l’évaluation des aides implique un volume élevé de documentation non structurée soutenue par un ensemble limité de données structurées, qui doivent être examinées et contrastées par un ensemble d’évaluateurs, de sorte que l’application des techniques de traitement du langage naturel a été identifiée comme un excellent mécanisme pour soutenir et faciliter le travail de ces professionnels.
Comment l’avons-nous résolu ?
Le système d’information pour soutenir l’évaluation des aides est basé sur l’utilisation d’outils et de technologies Open Source sur l’ensemble de données disponibles, à travers un pipeline de traitement composé de :
- Processus d’extraction, de transformation et de chargement d’information (ETL)
- Traitement du langage naturel y compris :
- Segmentation, lemmatisation et reconnaissance des entités
- Analyse des sujets
- Analyse sémantique
- Calculs de similitude entre les documents basés sur ces analyses
- Téléchargement des informations de sites Web
- Recherche textuelle et facettée sur le corpus documentaire
La solution mise en œuvre facilite :
- L’analyse générale des sujets sur l’ensemble complet des aides demandées, y compris quels sujets sont couverts et dans quel nombre ils sont traités, pour une planification plus efficace de l’affectation des évaluateurs.
- Une vision spécifique des sujets couverts par chacune des demandes individuellement
- L’analyse des hiérarchies de sujets qui ont été détectées dans lesdites demandes
- Une présentation de l’évolution temporelle des sujets détectés dans les demandes d’aide des différents appels.
- Aide à déterminer les combinaisons thématiques qui ont tendance à se produire plus fréquemment dans la documentation présentée.
- Fonctionnalités de recherche pour aider à identifier les documents pertinents lors de l’évaluation d’un projet innovant, y compris la recherche textuelle, le filtrage par métadonnées spécifiques (années, entreprises, CNAE, provinces …), et la possibilité de réaliser recherches thématiques et identification de documents similaires.
Les résultats obtenus sont alignés avec les objectifs fixés et ont permis d’identifier de nouvelles possibilités d’application telles que :
- L’identification des entreprises qui travaillent sur certains sujets innovants.
- La possibilité d’élargir les connaissances de la R + D espagnole en associant les demandes d’aide aux articles scientifiques et aux brevets déposés.
- L’impact des projets financés sur la R + D et la compétitivité.
- L’extension des services offerts par l’outil à d’autres organisations qui octroient des aides au sein de l’Administration Générale de l’État et les Administrations des Communautés Autonomes.
Plus d’informations
Chez SATEC, nous collaborons avec le Plan de Impulso de Technologies del Lenguaje, vous pouvez trouver plus de détails sur la plate-forme Corpus Viewer sur son site Web.