Após ser acusada de manipular benchmarks com versão experimental, Meta tem desempenho de seu modelo oficial Llama 4 reavaliado e exposto: 32º lugar entre os principais concorrentes.
Meta enfrenta críticas após uso de modelo experimental de inteligência artificial em benchmark
Na última semana, a Meta gerou controvérsia ao utilizar uma versão experimental não divulgada de seu modelo de inteligência artificial Llama 4 Maverick para alcançar resultados expressivos no benchmark LM Arena. Após a exposição do caso, os organizadores revisaram suas diretrizes e reavaliaram a versão oficial do modelo, que ficou apenas na 32ª posição — bem abaixo de concorrentes como o GPT-4o da OpenAI, Claude 3.5 Sonnet da Anthropic e o Gemini 1.5 Pro do Google.
O modelo oficial, denominado “Llama-4-Maverick-17B-128E-Instruct”, teve desempenho bem inferior ao da variante experimental “Llama-4-Maverick-03-26-Experimental”, otimizada para interações conversacionais. Foi essa versão que apareceu no topo do LM Arena, ranking colaborativo que se baseia em avaliações humanas da qualidade das respostas dos modelos.
Segundo a Meta, o desempenho discrepante decorre das otimizações da versão experimental para chats, favorecendo-a no tipo específico de teste realizado no benchmark. Ainda assim, a ação provocou críticas quanto à manipulação de resultados e à transparência da empresa.
Especialistas do setor alertam que adaptar modelos apenas para performar bem em benchmarks pode comprometer sua utilidade prática, além de gerar falsas expectativas de desempenho. A Meta reafirmou seu compromisso com a pesquisa aberta e disse que o modelo padrão foi publicado justamente para permitir a exploração livre pela comunidade de desenvolvedores.
“A ‘Llama-4-Maverick-03-26-Experimental’ é otimizada para uso em chat e demonstrou bons resultados em contextos como o LM Arena”, afirmou um porta-voz da empresa. “Agora que a versão oficial está disponível, queremos ver como os desenvolvedores a adaptarão a seus próprios usos.”
As críticas se intensificaram após um rumor — atribuído a um ex-funcionário da Meta — circular em uma rede social chinesa, acusando a empresa de treinar seus modelos com base nos próprios testes dos benchmarks, prática considerada antiética. Ahmad Al-Dahle, vice-presidente de IA generativa da Meta, negou categoricamente, chamando a alegação de “simplesmente falsa”.
Al-Dahle reconheceu, no entanto, que usuários têm relatado “qualidade inconsistente” ao acessar os modelos Maverick e Scout via diferentes serviços em nuvem. Isso se deve ao lançamento prematuro, com ajustes ainda em andamento.
Com o setor exigindo mais transparência nas práticas de avaliação de inteligência artificial, a Meta terá que lidar com as consequências de uma estratégia que, embora tecnicamente possível, pode ter colocado sua reputação em risco. Agora, a aposta da empresa é na força da comunidade para validar o potencial da arquitetura Llama 4.
Continue a sua lista: