Identificar microrganismos raros em dados do microbioma é agora mais fácil graças a uma equipa de investigação de Portugal e do Canadá, que envolve cientistas do Centro Interdisciplinar de Investigação Marinha e Ambiental (CIIMAR) e da Faculdade de Ciências (FCUP) da Universidade do Porto. Juntos, desenvolveram uma nova ferramenta que utiliza “machine learning” – um ramo da Inteligência Artificial (AI) – para detetar automaticamente a biosfera rara em conjuntos de dados ecológicos.

Esta nova ferramenta, designada ulrb, responde a um desafio de longa data na ecologia microbiana: distinguir os microrganismos raros dos mais abundantes em ambientes naturais.

A nova metodologia e o novo software ulrb foram apresentados num artigo – intitulado “Definition of the microbial rare biosphere through unsupervised machine learning” – publicado na revista científica Communications Biology. Para além dos cientistas da U.Porto, estiveram também envolvidas equipas do Instituto de Bioengenharia e Biociências (iBB) do Instituto Superior Técnico da Universidade de Lisboa e ainda da School of Electrical Engineering and Computer Science of University of Ottawa (EECS) e da Faculty of Computer Science of Dalhousie University, ambos no Canadá.

Este software resulta do projeto de doutoramento de Francisco Pascoal, estudante do 3.º ano do Programa Doutoral em Biologia, a desenvolver sob orientação da investigadora Catarina Magalhães (FCUP e CIIMAR) e coorientação dos investigadores Rodrigo Costa (iBB) e Paula Branco (EECS).

Esta nova ferramenta aumentará não só a precisão das análises ecológicas de diferentes microbiomas e ecossistemas, mas também a profundidade a que estas análises são feitas melhorando, em última instância, a nossa compreensão da diversidade microbiana e do seu papel na resiliência dos ecossistemas.

 O que é a biosfera rara?

As comunidades microbianas seguem normalmente um padrão em que apenas algumas espécies são altamente abundantes, enquanto a grande maioria da diversidade é pouco abundante e pertence à chamada “biosfera rara”.

Na verdade, são milhares o número de espécies de microrganismos procariotas que podem habitar 1 L de água marinha. No entanto, apenas 2 a 5% dessas espécies são abundantes, sendo as restantes raras e muito difíceis de detetar e identificar devido a limitações metodológicas.

Apesar de pouco abundantes, as espécies raras contêm em si a maior diversidade genética do planeta e são elas que fornecem grande resiliência a um ecossistema. “Se as espécies mais abundantes ficarem ameaçadas pelas alterações climáticas, outras espécies raras podem assumir o controlo e assegurar as funções do microbioma, mantendo o ecossistema estável”, explica Francisco Pascoal.

A biosfera rara tem, por isso, um papel muito relevante nas respostas dos ecossistemas a grandes alterações do meio, como é o caso dos efeitos das alterações climáticas. Estudar os organismos raros permite-nos conhecer a resiliência dos ecossistemas a estas mudanças e estudar a sua reação às alterações do meio.

O que traz o ulrb de inovador?

Ao empregar técnicas de machine learning não supervisionadas, o ulrb permite aos investigadores identificar rapidamente e de forma fiável quais são os microrganismos raros de uma comunidade. Uma grande vantagem deste método é a sua adaptabilidade a diferentes contextos metodológicos, isto é, o algoritmo “aprende” os padrões presentes nos próprios dados, independentemente da sua origem. 

“A possibilidade de identificar os microrganismos raros surgiu com o desenvolvimento de tecnologias de sequenciação de DNA com alto rendimento, mas mesmo com esses dados nunca foi claro entre os pares como identificar os microrganismos raros, pois estes eram ofuscados pelos abundantes. Assim, muitos investigadores limitavam-se a estabelecer níveis aleatórios de abundância, que era uma abordagem insuficiente uma vez que não era suportada por uma justificação biológica. Com este novo método, conseguimos usar dados de sequenciação para distinguir de forma automática quais são os microrganismos raros, com base na informação disponibilizada em cada amostragem”, afirma Francisco Pascoal. 

Para a automatização criou-se um algoritmo que agrupa os microrganismos mais semelhantes entre si, relativamente à sua abundância numa dada amostra. Como se baseia na distância relativa entre eles, pode ser automatizado e aplicado a bases de dados de qualquer tamanho, e produz um resultado com valor ecológico e biológico rigoroso e uniforme.

“No fundo, o algoritmo “aprende” quais são os grupos de abundância numa comunidade e faz a correspondência entre eles e uma classificação de abundância, que permite distinguir os microrganismos que são raros dos que são abundantes” remata o primeiro autor do estudo agora publicado.

Quais as aplicações possíveis?

O ulrb pode ser aplicado a dados derivados de protocolos comuns de ecologia microbiana, podendo ser útil para o estudo de doenças emergentes e invasões biológicas. Uma vez que este método pode ser aplicado a dados não microbianos, também poderá ser útil para determinar que espécies de animais e/ou plantas estão em risco em determinados contextos, o que poderá ser útil para a monitorização ambiental.

Se é investigador e quiser aplicar esta ferramenta aos seus próprios dados, o ulrb está disponível como um pacote R de código aberto no CRAN e no GitHub.

A equipa de investigadores criou também uma página Web com materiais de aprendizagem para incentivar a utilização da ferramenta.