Meta em Xeque: Modelo oficial de IA da empresa fracassa em benchmark após polêmica com versão experimental

Na última semana, a Meta se envolveu em uma controvérsia ao utilizar uma versão experimental e não divulgada de seu modelo de inteligência artificial Llama 4 Maverick para alcançar um resultado expressivo no popular benchmark LM Arena. Após a revelação, os organizadores do ranking revisaram suas políticas e avaliaram a versão oficial do modelo — que ficou em uma modesta 32ª posição, muito atrás de rivais como o GPT-4o da OpenAI, o Claude 3.5 Sonnet da Anthropic e o Gemini 1.5 Pro do Google.

O modelo avaliado, batizado de “Llama-4-Maverick-17B-128E-Instruct”, apresentou desempenho significativamente inferior à sua versão experimental “Llama-4-Maverick-03-26-Experimental”, otimizada para conversação. Essa última foi justamente a que figurou nas primeiras colocações do LM Arena, um benchmark colaborativo que se baseia na avaliação humana da qualidade das respostas geradas pelos modelos.

A Meta alegou que a discrepância de desempenho se deve às otimizações voltadas ao estilo conversacional da versão experimental, favorecendo-a no tipo específico de avaliação conduzido pelo LM Arena. No entanto, a prática gerou críticas sobre a confiabilidade de benchmarks manipuláveis e sobre a transparência da empresa ao divulgar resultados.

Especialistas do setor destacam que adaptar modelos para se saírem bem em benchmarks pode prejudicar sua aplicabilidade no mundo real, além de criar uma falsa expectativa sobre sua performance. A Meta, em resposta, reiterou seu compromisso com a experimentação aberta e defendeu a publicação do modelo “vanilla” para que a comunidade de desenvolvedores possa explorá-lo livremente.

“A ‘Llama-4-Maverick-03-26-Experimental’ é uma versão otimizada internamente para chat, que demonstrou boa performance em contextos específicos como o LM Arena”, disse um porta-voz da empresa. “Agora que o modelo oficial está disponível, queremos ver como os desenvolvedores vão adaptá-lo a seus próprios casos de uso.”

As acusações ganharam força após um rumor — supostamente iniciado por um ex-funcionário da Meta em uma rede social chinesa — alegar que a empresa teria treinado seus modelos nos próprios testes dos benchmarks, algo considerado antiético no setor. Ahmad Al-Dahle, vice-presidente de IA generativa da Meta, negou a acusação, classificando-a como “simplesmente falsa”.

Al-Dahle admitiu, no entanto, que usuários têm relatado “qualidade inconsistente” ao acessar os modelos Maverick e Scout via diferentes provedores de nuvem. Segundo ele, isso se deve ao lançamento antecipado dos modelos, com ajustes e correções ainda em andamento.

Enquanto o setor cobra maior transparência nas práticas de avaliação de modelos de IA, a Meta terá que lidar com as consequências de uma estratégia que, embora tecnicamente válida, pode ter comprometido sua credibilidade. A empresa aposta agora na comunidade de desenvolvedores para redimir o potencial de sua arquitetura Llama 4.

More

Social Media

Meta em Xeque: Modelo oficial de IA da empresa fracassa em benchmark após polêmica com versão experimental

SoundCloud muda termos de uso e passa a permitir uso de conteúdo de usuários para treinar IA

Microsoft proíbe funcionários de usarem o app DeepSeek por preocupações com segurança

Anthropic lança API que conecta IA Claude à web para buscas em tempo real

Amazon lança ferramenta com IA para otimizar listagens de produtos

Figma lança ferramentas com IA para criar sites, apps e campanhas de marketing

Netflix lança busca com IA generativa no iOS utilizando tecnologia da OpenAI

Manus capta US$ 75 milhões para levar seus agentes de IA a novos mercados globais

Google lança Gemini 2.5 Pro Preview com foco em desenvolvedores antes da conferência I/O

Presidente da China incentiva IA e reforça liderança do “Sul Global” em meio à guerra comercial com os EUA

Nuvo capta US$34 milhões para escalar sua rede B2B inspirada no LinkedIn

ASSINE NOSSA NEWSLETTER

SUGESTÕES DE PRÓXIMA LEITURA...

SoundCloud muda termos de uso e passa a permitir uso de conteúdo de usuários para treinar IA

Microsoft proíbe funcionários de usarem o app DeepSeek por preocupações com segurança

Anthropic lança API que conecta IA Claude à web para buscas em tempo real

Amazon lança ferramenta com IA para otimizar listagens de produtos

EXPLORE ABJ

notícias

EM BREVE