Meta em Xeque: Modelo oficial de IA da empresa fracassa em benchmark após polêmica com versão experimental

Após ser acusada de manipular benchmarks com versão experimental, Meta tem desempenho de seu modelo oficial Llama 4 reavaliado e exposto: 32º lugar entre os principais concorrentes.

Na última semana, a Meta se envolveu em uma controvérsia ao utilizar uma versão experimental e não divulgada de seu modelo de inteligência artificial Llama 4 Maverick para alcançar um resultado expressivo no popular benchmark LM Arena. Após a revelação, os organizadores do ranking revisaram suas políticas e avaliaram a versão oficial do modelo — que ficou em uma modesta 32ª posição, muito atrás de rivais como o GPT-4o da OpenAI, o Claude 3.5 Sonnet da Anthropic e o Gemini 1.5 Pro do Google.

O modelo avaliado, batizado de “Llama-4-Maverick-17B-128E-Instruct”, apresentou desempenho significativamente inferior à sua versão experimental “Llama-4-Maverick-03-26-Experimental”, otimizada para conversação. Essa última foi justamente a que figurou nas primeiras colocações do LM Arena, um benchmark colaborativo que se baseia na avaliação humana da qualidade das respostas geradas pelos modelos.

A Meta alegou que a discrepância de desempenho se deve às otimizações voltadas ao estilo conversacional da versão experimental, favorecendo-a no tipo específico de avaliação conduzido pelo LM Arena. No entanto, a prática gerou críticas sobre a confiabilidade de benchmarks manipuláveis e sobre a transparência da empresa ao divulgar resultados.

Especialistas do setor destacam que adaptar modelos para se saírem bem em benchmarks pode prejudicar sua aplicabilidade no mundo real, além de criar uma falsa expectativa sobre sua performance. A Meta, em resposta, reiterou seu compromisso com a experimentação aberta e defendeu a publicação do modelo “vanilla” para que a comunidade de desenvolvedores possa explorá-lo livremente.

“A ‘Llama-4-Maverick-03-26-Experimental’ é uma versão otimizada internamente para chat, que demonstrou boa performance em contextos específicos como o LM Arena”, disse um porta-voz da empresa. “Agora que o modelo oficial está disponível, queremos ver como os desenvolvedores vão adaptá-lo a seus próprios casos de uso.”

As acusações ganharam força após um rumor — supostamente iniciado por um ex-funcionário da Meta em uma rede social chinesa — alegar que a empresa teria treinado seus modelos nos próprios testes dos benchmarks, algo considerado antiético no setor. Ahmad Al-Dahle, vice-presidente de IA generativa da Meta, negou a acusação, classificando-a como “simplesmente falsa”.

Al-Dahle admitiu, no entanto, que usuários têm relatado “qualidade inconsistente” ao acessar os modelos Maverick e Scout via diferentes provedores de nuvem. Segundo ele, isso se deve ao lançamento antecipado dos modelos, com ajustes e correções ainda em andamento.

Enquanto o setor cobra maior transparência nas práticas de avaliação de modelos de IA, a Meta terá que lidar com as consequências de uma estratégia que, embora tecnicamente válida, pode ter comprometido sua credibilidade. A empresa aposta agora na comunidade de desenvolvedores para redimir o potencial de sua arquitetura Llama 4.

ASSINE NOSSA NEWSLETTER

O futuro acontece aqui: esteja entre os primeiros a receber insights, tendências e oportunidades que moldam o mercado.