A visão é essencial para a forma como os humanos interpretam e navegam o mundo, seja para reconhecer um rosto familiar numa fotografia ou conduzir até casa para um jantar de família. Para a Inteligência Artificial (IA), contudo, mesmo distorções visuais mínimas, como alterações de brilho, contraste, ou perturbações subtis, podem levar algoritmos de reconhecimento de objetos a falhar. Ultrapassar esta diferença de desempenho tem sido um desafio importante na aprendizagem automática (machine learning).
Em resposta a esta necessidade, investigadores do INESC-ID, Instituto Superior Técnico (IST), e da Fundação Champalimaud (FC), em Lisboa, desenvolveram as EVNets – Early Vision Networks, uma arquitetura com base biológica que reflete de melhor forma o modo como o processamento visual inicial ocorre no cérebro dos primatas.
O trabalho, desenvolvido por Lucas Piper e Arlindo L. Oliveira (INESC-ID e IST) e Tiago Marques (FC), foi recentemente publicado e apresentado na conferência NeurIPS 2025, em San Diego, Califórnia, uma das conferências mais prestigiadas, competitivas e influentes do mundo nas áreas de Machine Learning e IA.
Desenhar algoritmos inspirados na biologia
O reconhecimento de objetos por IA avançou rapidamente na última década, impulsionado por pioneiros como Geoffrey Hinton, vencedor do Prémio Nobel da Física de 2024. Apesar destes avanços, as abordagens convencionais continuam consideravelmente mais frágeis do que a visão biológica. A comunidade científica tem, por isso, convergido em duas estratégias principais para ultrapassar esta limitação:
Construir modelos cada vez maiores, que exigem enormes quantidades de dados e poder computacional, levantando questões ambientais e de escalabilidade;
Procurar inspiração nos processos neurais de animais e humanos, incorporando mecanismos biológicos no design algorítmico.
“Decidimos seguir esta segunda abordagem, construindo modelos inspirados pela biologia que combinam computações neurocientíficas com redes neuronais convolucionais (CNNs), uma arquitetura muito utilizada em visão por computador”, explica Tiago Marques.
Esta investigação baseia-se no trabalho anterior de Tiago no MIT, publicado e apresentado no NeurIPS em 2020, no qual introduziu o VOneBlock, um módulo para CNNs concebido para emular o córtex visual primário (V1) dos primatas. Este trabalho foi depois levado mais além quando Lucas Piper desenvolveu as EVNets ao combinar o VOneBlock com um novo Subcortical-Block, inspirado em cálculos essenciais que ocorrem na retina e no núcleo geniculado lateral, duas estruturas fundamentais que formam a via entre o olho e o córtex visual. Esta nova camada permite lidar melhor com distorções visuais de forma semelhante à humana, aumentando substancialmente a robustez geral do sistema.
Curiosamente, as EVNets não só mostraram melhor desempenho em tarefas de visão por computador, como também se alinham mais com a visão humana. Para avaliar esta semelhança biológica, a equipa utilizou ferramentas de benchmarking como o Brain-Score, que mede quão próximo um modelo computacional está do processamento visual dos primatas. As EVNets apresentaram melhorias claras nestas métricas, aproximando a IA dos sistemas biológicos que procura reproduzir.
A IA devolve-nos respostas sobre nós próprios
Uma das grandes vantagens destes algoritmos com base biológica é a sua interpretabilidade. À medida que crescem as preocupações com modelos opacos ou “caixas-pretas”, a capacidade de compreender o funcionamento interno de um algoritmo torna-se cada vez mais importante. “Queremos desenvolver modelos que possamos compreender e explicar”, diz Lucas. “Se estes algoritmos, como os nossos, estão alinhados com o funcionamento do cérebro humano, começamos logo com uma base que os torna intrinsecamente mais interpretáveis.”
Ao modelar processos biológicos, estes algoritmos podem ajudar os investigadores a explorar os próprios sistemas que inspiraram a sua criação, criando um ciclo virtuoso entre a neurociência e a IA.
Para além de ajudar a compreender o cérebro, as EVNets podem também ter outras aplicações. Uma delas já está em desenvolvimento no Programa de Investigação em Cancro da Mama (BCRP) na Fundação Champalimaud, onde Tiago Marques co-lidera o Digital Surgery Lab com João Santinha, investigador em imagiologia médica e IA, e Pedro Gouveia, cirurgião de cancro da mama. O objetivo deste novo projeto é estudar se as EVNets conseguem analisar exames médicos resultantes de máquinas de diferentes fabricantes, algo que tem sido um desafio para os modelos tradicionais de IA. Se as melhorias em robustez e precisão observadas em tarefas de visão por computador se traduzirem para os problemas de imagiologia médica, as EVNets poderão vir a melhorar o apoio ao diagnóstico e os cuidados prestados aos doentes.
Publicação original aqui.