Prosebot. É inglês, mas um nome apropriado se tivermos em conta que estamos a referir-nos a uma ferramenta automática de processamento de informação assente em resultados de jogos de futebol existentes em base de dados. O sistema está já a funcionar na redação do zerozero.pt, um site informativo “nascido” na Faculdade de Engenharia da Universidade do Porto (FEUP) e que se dedica a acompanhar atividades relacionadas com algumas modalidades desportivas em Portugal e no estrangeiro, com destaque para o futebol.

Com sede em Vila Nova de Gaia, o zerozero.pt existe desde 2003. O projeto foi ganhando vida e os tempos eram entusiasmantes para quem queria apostar no jornalismo online. Marco Sousa e Pedro Dias, ambos alumni da FEUP e dois dos fundadores do zerozero, conheciam-se desde os tempos de faculdade e desde logo começaram a pesquisar ferramentas que pudessem potenciar o alcance das notícias que eram produzidas. Juntamente com Sérgio Nunes,  professor do Departamento de Engenharia Informática da FEUP e ex-colega de curso, iniciaram uma série de colaborações no contexto das dissertações de mestrado enquadradas em ambiente empresarial que duram já há cinco anos e que permitiram contribuir para o desenvolvimento do Prosebot.

“Pessoalmente sempre tive um forte interesse e ligação à área dos Média e do Jornalismo, em particular à interseção entre a tecnologia e os média. O zerozero.pt é um projeto incontornável no panorama mediático nacional e fazia sentido esta colaboração”, explica Sérgio Nunes.

A principal vantagem do Prosebot é permitir que os jornalistas tenham uma base de trabalho para a elaboração de notícias. Através das sínteses automáticas da ferramenta, o Prosebot funciona como uma ferramenta de elaboração de “drafts” instantâneos que o jornalista pode utilizar quando estiver a escrever conteúdos noticiosos. Isto pode ser particularmente poderoso em termos de escalabilidade se atendermos à quantidade de resultados que acontecem todos os fins-de-semana em campeonatos nacionais e distritais, sobretudo nas camadas jovens.

Estas sínteses automáticas vão permitir que muitos dos jogos passem a ter textos associados: a título ilustrativo, pouco mais de 1% dos jogos sobre os quais existe informação no zerozero.pt têm uma versão em texto, mas com o Prosebot os restantes 99% passam a ter textos associados, não apenas fichas de jogo.

“Com um conceito como o do Prosebot poderemos ambicionar que as mais de 3 milhões de Fichas de Jogo que o zerozero tem atualmente passem a ter uma síntese e com isso um tripla vantagem: aumentar a visibilidade de equipas e jogadores que têm menos visibilidade pública; por outro lado, responder ao desejo de um perfil de leitores que preferem ler um texto a ter que consultar tabelas e ainda aumentar a oferta para os motores de busca.

Com atualização diária permanente, e cobrindo desde a atualidade desportiva profissional até aos escalões mais jovens e até campeonatos distritais do “desporto-rei”, o zerozero é hoje, porventura, a maior base de dados de futebol do mundo e o Prosebot é – e será – uma ferramenta fundamental para podermos explorar a quantidade “absurda” de dados que dispomos”, afirma Pedro Dias, um dos fundadores do projeto.

O caminho para as redações do futuro…

Mas como funciona a ferramenta? O sistema segue uma abordagem baseada em modelos (‘templates’ em inglês). “O funcionamento deste tipo de algoritmos pode ser explicado recorrendo a um exemplo simples — o sistema tem um conjunto de modelos construídos manualmente. Por exemplo: “[jogador] marcou um golo aos [minutos_do_golo] minutos”. Notar que o que está entre parêntesis retos representa o que se designa por variável. Para cada jogo em particular, estas variáveis são substituídas pelos valores concretos que se encontram na base de dados. Por exemplo, usando a base de dados sobre um jogo em particular, é possível gerar uma frase como “Cristiano Ronaldo marcou um golo aos 32 minutos”, esclarece Sérgio Nunes.

Na verdade, existem inúmeros modelos como este e que são aplicados e adaptados de acordo com condições que se verificam ou não. Por exemplo, se um jogador marca três golos, um modelo como “hat-trick de [jogador]” será ativado.

De acordo com os responsáveis pelo Prosebot, este trabalho situa-se na área da Geração de Linguagem Natural (Natural Language Generation), uma subárea da área da Inteligência Artificial em que, além da simples substituição de variáveis em modelos pré-elaborados, há todo um conjunto de condições e regras que controlam a ativação dos modelos e ajustes ao nível gramatical (p.e. concordância de género e número). Outra particularidade: apesar de até agora o foco ser a produção de sínteses em português, há já modelos desenvolvidos para inglês, português do Brasil, e espanhol.

Mas há ainda trabalho pela frente. Sobretudo explorar a componente que tem a ver com a parte estatística, dos recordes e das curiosidades. “Com este golo Cristiano Ronaldo ultrapassou Ali Dae na lista de melhores marcadores por Seleções”; “Cardozo passou a ser o melhor marcador estrangeiro com a camisola do Benfica”; “Nunca um jogador tão novo tinha marcado em Campeonatos do Mundo de Futebol. “Obviamente são apenas exemplos, mas este tipo de heurística, de procura de informação ( “Data Mining”) numa ligação entre a API e o Prosebot, permitirá ao sistema colocar na síntese, em tempo útil, informação relevante que o Jornalista ou o Colaborador muitas vezes desconhece ou que apenas encontraria após estudo intenso”, acredita Pedro Dias.

“Antevisão de jogos, biografia de jogadores e equipas, palmarés de competições são outras áreas onde no futuro próximo o Prosebot vai ser uma ferramenta essencial para podermos explorar um repositório de informação ímpar que o zerozero disponibiliza”, remata Pedro.

… ou uma ameaça para o jornalismo?

Este tipo de ferramenta não é novidade nas redacções. Na esfera informativa internacional há casos antigos, que remontam a 2005, nas áreas de meteorologia, desporto, e mercados financeiros.

Em Portugal, a LUSA informou em 2019 que estaria a explorar ferramentas deste tipo para sínteses relacionadas com a abertura e fecho dos mercados bolsistas. O jornal Público tem também vários trabalhos em que recorrem a técnicas de “produção automática de textos” para apresentar textos adaptados ao leitor (personalizados). Um exemplo recente é o trabalho sobre o que se pode fazer em segurança no contexto pandémico atual.

“Um aspeto que acreditamos ser inovador no nosso trabalho (a nível nacional e internacional), é o envolvimento da comunidade de leitores na criação destes ‘sumários textuais automáticos’. É algo que surgiu naturalmente uma vez que o zerozero.pt é um projeto assente num forte envolvimento da comunidade de leitores na recolha de informação”, assume Sérgio Nunes.

O professor da FEUP adianta ainda que “há muita inovação nas redações e no jornalismo em Portugal, sendo o Prosebot apenas um desses exemplos. E o uso de ferramentas automáticas para apoiar as redações na fase de elaboração de textos veio para ficar. É já uma realidade e que não se limita à fase de elaboração de textos, é central na recolha, na filtragem, na análise, e na verificação de informação”,

“Num mundo em que o ritmo de produção de informação cresce de forma exponencial, as tecnologias da informação, e a inteligência artificial em particular, são ferramentas essenciais para o Jornalismo – uma profissão cada vez mais imprescindível para identificar e tornar acessível a informação relevante (e verdadeira). Um jornalismo exclusivamente manual não escala no panorama informacional atual. Os desafios são crescentes e conceitos como o de “jornalismo computacional” – a aplicação de métodos computacionais às atividades jornalísticas – fazem cada vez mais parte das ferramentas ao dispor das redações”, continua o investigador.

A aceitação do Prosebot por parte dos jornalistas tem sido muito positiva, de acordo com uma investigação muito recente da autoria de Pedro Fernandes, no âmbito da tese final de curso. Pelo menos no que toca à redação do zerozero.pt, que é uma equipa que já está em contacto com esta ferramenta há cinco anos e tem conhecido de perto a evolução desta tecnologia. No futuro um dos objetivos passa por explorar esta possibilidade numa redação mais tradicional, onde poderá existir uma maior resistência a este tipo de inovação.

Ainda assim, na opinião de Sérgio Nunes, a tecnologia nunca poderá ter um papel central em trabalhos jornalísticos em que a narrativa é fundamental: “Poderão ser úteis na elaboração de uma referência, na recuperação de uma estatística ou curiosidade, mas na construção da narrativa o papel humano é incontornável”. Mas, da mesma forma que o uso de corretores gramaticais e ortográficos é corrente, “o uso de ferramentas que nos ajudam na escrita será cada vez mais comum, apoiadas ou não por bases de dados especializadas”, conclui.