En un mundo conectado, el volumen de datos que se producen, gestionan y almacenan crece de forma exponencial, y en la misma proporción, las necesidades de obtener información relevante y significativa. Los beneficios de una explotación adecuada de estos datos mediante la aplicación de tecnologías Big Data , procesamiento lenguaje natural y analítica avanzada son múltiples, y la información que se puede llegar a obtener extremadamente valiosa y reveladora.
Las Administraciones Públicas no son ajenas a esta realidad y no son pocas las que son conscientes de la importancia y necesidad de explotar de manera eficiente la ingente cantidad de datos que atesoran (sanidad, economía y hacienda, medio ambiente, agricultura, etc.).
¿Qué problema resuelve?
A finales de 2014, la Secretaría de Estado de Telecomunicaciones y para la Sociedad de la Información vio una clara oportunidad de aplicación en el ámbito de las tareas de evaluación de las solicitudes de ayuda estatales dirigidas a incentivar la puesta en marcha de proyectos de alto potencial y que permitan incrementar la competitividad de la industria TIC española. El escenario de la evaluación de ayudas supone un elevado volumen de documentación no estructurada apoyada por un conjunto limitado de datos estructurados, que debe ser revisada y contrastada por un conjunto de evaluadores, por lo que la aplicación de técnicas de procesamiento de lenguaje natural se identificó como un excelente mecanismo para dar soporte y facilitar la labor de estos profesionales.
¿Cómo lo hemos resuelto?
El sistema de información para el apoyo a la evaluación de ayudas estatales está basado en el uso de herramientas y tecnologías Open Source sobre el conjunto de datos disponible, a través de un pipeline de procesamiento consistente en:
- Procesos de extracción, transformación y carga (ETL) de información
- Procesamiento de lenguaje natural: incluyendo
- Tokenizado, lematizado y reconocimiento de entidades
- Análisis de tópicos
- Análisis semántico
- Cálculos de similitud entre documentos basados en dichos análisis
- Descarga de información de sitios web
- Búsqueda textual y facetada sobre el corpus documental
La solución implementada facilita:
- El análisis general de las temáticas sobre el conjunto completo de las ayudas estatales solicitadas, incluyendo qué temáticas se tratan y en qué número son tratadas, para una planificación más eficiente de la asignación de evaluadores.
- Una visión específica de las temáticas que trata cada una de las solicitudes de forma individual
- El análisis de las jerarquías de temas que se han detectado en dichas solicitudes
- Una presentación de la evolución temporal de las temáticas detectadas en las solicitudes de ayudas de las distintas convocatorias.
- Ayuda en la determinación de las combinaciones temáticas que suelen darse más frecuentemente en la documentación presentada.
- Funcionalidades de búsqueda para ayudar en la identificación de documentos relevantes a la hora de realizar la evaluación de un proyecto innovador, incluyendo la búsqueda textual, el filtrado por metadatos específicos (años, empresas, CNAE, provincias…), y la posibilidad de realizar búsquedas temáticas e identificar documentos similares.
Los resultados obtenidos están alineados con los objetivos marcados y han servido para identificar nuevas posibilidades de aplicación como pueden ser:
- La identificación de qué empresas que están trabajando en determinadas temáticas innovadoras.
- La posibilidad de ampliar el conocimiento del I+D español relacionando las solicitudes de ayuda con artículos científicos y patentes presentadas.
- El impacto que tienen los proyectos financiados sobre el I+D y la competitividad.
- La extensión de los servicios ofrecidos por la herramienta a otros organismos que conceden ayudas estatales dentro de la AGE y las Administraciones de las CCAA.