Desde que foi lançado em novembro de 2024, o SWE-Bench — um teste que avalia a habilidade de modelos de IA para resolver problemas reais de programação em Python — tornou-se uma das métricas favoritas do setor. Utilizado por gigantes como OpenAI, Google e Anthropic, ele se consolidou como um “termômetro” para medir o desempenho de agentes de código. Mas essa fama trouxe consequências.
Modelos começaram a ser ajustados especificamente para se sair bem no SWE-Bench, o que tem gerado uma onda de críticas entre pesquisadores. O teste, baseado em mais de 2.000 problemas retirados de repositórios do GitHub, foi desenhado para medir habilidade prática, mas agora levanta dúvidas sobre sua validade real.
“Você começa a ver que as pessoas querem demais o primeiro lugar”, alerta John Yang, pesquisador da Universidade de Princeton e um dos criadores do benchmark.
Segundo Yang, muitos desenvolvedores estão criando agentes que funcionam bem apenas em Python — a linguagem padrão do teste —, mas falham ao lidar com outros cenários. “Aparentemente brilham, mas desmoronam quando testados em outra linguagem. Isso não é engenharia de software; é engenharia para o SWE-Bench”, afirma.
Conteúdo
A crise da avaliação em IA
O problema do SWE-Bench é sintoma de uma crise maior. Especialistas vêm alertando que os benchmarks estão cada vez mais distantes de medir capacidades reais. A crítica envolve desde a falta de definição clara dos conceitos testados — como “raciocínio” ou “conhecimento científico” — até a baixa transparência de benchmarks populares como o FrontierMath e o Chatbot Arena.
Andrej Karpathy, cofundador da OpenAI, resumiu bem o momento: “estamos vivendo uma crise de avaliação”.
Vanessa Parli, diretora de pesquisa no Instituto de IA Centrada no Humano da Universidade de Stanford, reforça: “Historicamente, benchmarks eram a forma de avaliar sistemas de IA. A pergunta agora é: ainda são? E se não forem, qual é a alternativa?”
O desafio da validade
Pesquisadores como Abigail Jacobs, da Universidade de Michigan, e Anka Reuel, doutoranda em Stanford, defendem que a saída está em aplicar critérios da ciência social — especialmente o conceito de validade. Isso significa testar se um benchmark realmente mede o que se propõe a medir.
Em vez de agrupar milhares de tarefas genéricas, essa nova abordagem sugere desmembrar competências em sub-habilidades mensuráveis. No caso do SWE-Bench, por exemplo, seria necessário definir claramente o que significa “resolver um problema de software”, quais as etapas envolvidas e como testá-las de forma robusta.
Reuel, inclusive, lançou o projeto BetterBench, que avalia benchmarks com base em critérios como documentação do código e clareza sobre o que está sendo medido. Um dos destaques foi o Arcade Learning Environment (ALE), de 2013, que ficou entre os mais bem avaliados. Já o popular MMLU, usado por empresas como Google e Meta, teve baixa pontuação por não deixar claro que tipo de habilidade linguística realmente mede.
Os atalhos da indústria
A corrida por pontuação também leva a atalhos. Um exemplo é o benchmark WebArena, que simula tarefas na web. Em 2024, o modelo vencedor, chamado STeP, foi acusado de usar instruções específicas para burlar a navegação simulada no Reddit. O caso foi criticado por Sayash Kapoor, da Universidade de Princeton, como uma distorção do propósito original do teste.
E nem mesmo o consagrado ImageNet, benchmark que marcou a virada da IA em 2012, escapou da crise. Um estudo recente mostrou que os avanços obtidos em ImageNet não se traduzem em melhores resultados em cenários do mundo real.
Rumo a uma nova geração de testes
Diante desse cenário, pesquisadores ligados à Hugging Face, Universidade de Edimburgo e EleutherAI formaram um novo grupo para desenvolver benchmarks mais rigorosos. A ideia é romper com os testes amplos demais e focar em tarefas com relevância real.
“Muitos benchmarks tentam fazer demais e acabam medindo de menos”, resume Irene Solaiman, líder de políticas da Hugging Face.
Essa mudança de rumo está ganhando força. Em março, um grupo com representantes da Microsoft, Google, Anthropic e outras empresas publicou um novo framework para avaliação, colocando a validade como primeiro critério essencial.
Outra proposta, assinada por acadêmicos da Universidade de Michigan, Stanford e Microsoft Research, sugere aplicar técnicas da sociologia e ciência política para medir conceitos “difusos”, como ideologia ou democracia — adaptando-os à IA para avaliar atributos como “raciocínio lógico” ou “capacidade matemática”.
O futuro dos benchmarks: menos glamour, mais precisão
Mesmo com essas iniciativas, os benchmarks tradicionais ainda dominam os lançamentos de modelos. OpenAI, Meta, Google e Anthropic continuam usando MMLU e outros testes de múltipla escolha em suas divulgações. Isso porque, apesar das falhas, ainda são a maneira mais rápida de mostrar “avanços” em inteligência geral.
“Benchmarks são métricas ruins, mas são o que temos”, diz Ethan Mollick, professor da Wharton School. “Os modelos estão evoluindo tão rápido que muitos pecados acabam sendo perdoados.”
Para muitos, o desafio agora é equilibrar a necessidade de avaliações mais confiáveis sem descartar completamente os sistemas já existentes. Como afirma Solaiman: “É fácil demais jogar o sistema fora, mas os benchmarks ainda nos ajudam a entender melhor os modelos — mesmo com suas limitações.”
1 comentário
Pingback: IA na saúde: veja como o GPT-4 se saiu em testes clínicos reais