Este projeto consiste no desenvolvimento de um sistema de recuperação de informação e análise de dados das notícias publicadas na primeira página do jornal Público no domínio http://www.publico.pt/ ao longo do período de tempo compreendido entre 2010 e 2021. Para a concretização deste projeto recorremos às notícias preservadas pelo Arquivo.pt. No total foram coletadas 10,976 versões da página principal do Jornal Público a partir das quais foram extraídas um total de 67,242 notícias.
Objetivos do Projeto
Os principais objetivos deste projeto passam por disponibilizar um sistema de pesquisa de informação que permita aos utilizadores efetuar pesquisas sobre qualquer assunto que tenha sido objeto de cobertura noticiosa por parte do Jornal Público no domínio publico.pt, entre os anos 2010 e 2021. Adicionalmente, facultamos aos utilizador do Arquivo Público, uma análise dos dados obtidos com enfoque nas palavras relevantes, localidades, organizações e pessoas mencionadas no conjunto dos 67,242 artigos coletados. Paralelamente, oferecemos aos utilizadores uma análise de dados similar, restrita ao conjunto de notícias referentes à pandemia Covid-19. A arquitetura desenvolvida no âmbito deste projeto pode no futuro ser adaptada a outros meios de comunicação social.
Arquitetura do Arquivo Público
Para a realização deste projeto recorremos à API TextSearch do Arquivo.pt para obter um total de 10,976 versões da página principal do jornal Público no período de tempo compreendido entre 2010 e 2021. Posteriormente fazemos uso de técnicas de web scrapping para, a partir dessas páginas principais, automatizar o processo de extração de informação, nomeadamente o título, a descrição, a data, o link e o/a autor/a de cada notícia. A alteração do visual gráfico na página principal do jornal público ocorrida nos anos de 2012 e 2017 obrigou a uma adaptação do processo de webscraping por parte da nossa equipa em cada um desses anos. Adicionalmente, procedemos à extração de informação a partir das notícias coletadas com recurso ao spacy (deteção automática das entidades), ao yake (extração automática de palavras relevantes) e ao geopy (mapeamento das localidades identificadas pelo spacy em coordenadas geodésicas). Para a indexação da informação coletada e implementação do sistema de pesquisa recorremos ao Elastic Search. Finalmente, procedemos ao desenvolvimento e à disponibilização do website a partir da tecnologia Flask. A arquitetura aqui descrita assenta em Docker e é adaptável a diferentes cenários e meios de comunicação social.
A figura abaixo ilustra a arquitetura do nosso sistema.