Num mundo conectado, o volume de dados produzidos, geridos e armazenados cresce exponencialmente e, na mesma proporção, precisa obter informações relevantes e significativas. Os benefícios da exploração adequada desses dados através da aplicação de tecnologias de Big Data e análises avançadas são vários e as informações que podem ser obtidas são extremamente valiosas e reveladoras.
As administrações públicas não são alheias a essa realidade e são poucas as que estão cientes da importância e precisam explorar eficientemente a vasta quantidade de dados que eles estimam (saúde, economia e finanças, meio ambiente, agricultura, etc.).
Que problema resolve?
No final de 2014, a Secretaria de Estado das Telecomunicações e da Sociedade da Informação viu uma oportunidade clara de implementação no campo de avaliação de aplicações de ajuda, destinadas a incentivar a implementação de projetos de alto potencial e a aumentar a competitividade da indústria espanhola de TIC. O cenário de avaliação de ajudas envolve um elevado volume de documentação não estruturada suportada por um conjunto limitado de dados estruturados, que devem ser revistos e testados por um conjunto de avaliadores, de modo que a aplicação de técnicas de processamento de linguagem natural se identificou como um excelente mecanismo para apoiar e facilitar o trabalho desses profissionais.
Como o resolvemos?
O sistema de informações para apoiar a avaliação de ajudas baseia-se no uso de ferramentas e tecnologias de Open Source no conjunto de dados disponível, através de um pipeline de processamento composto por:
- Processos de extração, transformação e carregamento (ETL) de informação
- Processamento de linguagem natural:
- Incluindo tokenização, lematizado e reconhecimento de entidades
- Análise de tópicos
- Análise semântica
- Cálculos de similaridade entre documentos baseados nessas análises
- Download de informação de sites
- Pesquisa textual e facetada no corpus documental
A solução implementada facilita
- A análise geral dos tópicos sobre o conjunto completo de ajudas solicitadas, incluindo quais tópicos são abordados e em que número são tratados, para uma planificação mais eficiente da alocação de avaliadores.
- Uma visão específica dos tópicos que cada uma das aplicações lida de forma individual
- Análise das hierarquias de tópicos detectados nessas solicitações
- Uma apresentação da evolução temporal dos temas detectados nas aplicações para ajuda das diferentes convocatórias
- Ajuda na determinação das combinações temáticas que são mais frequentemente na documentação apresentada.
- Funcionalidades de pesquisa para ajudar na identificação de documentos relevantes na realização da avaliação de um projeto inovador, incluindo pesquisa textual, filtragem por metadados específicos (anos, empresas, CNAE, províncias…), e a possibilidade de realizar pesquisas temáticas e identificar documentos semelhantes.
Os resultados obtidos estão alinhados com os objetivos definidos e têm servido para identificar novas possibilidades de aplicação, tais como:
- Identificar quais as empresas que estão a trabalhar em certos temas inovadores
- Possibilidade de ampliar o conhecimento de I&D espanhol, vinculando pedidos de ajuda a artigos científicos e patentes apresentadas.
- O impacto dos projetos financiados em I&D e competitividade.
- A extensão dos serviços oferecidos pela ferramenta a outros órgãos que concedem ajudas dentro da AGE e das Administrações das Comunidades Autónomas.
Mais informação
Na SATEC colaboramos com o Plano de Impulso das Tecnologias da Linguagem e podemos encontrar mais detalhes sobre a plataforma Corpus Viewer no seu web.