OpenAI lança modelos GPT-4.1 com foco em codificação e agentes de software

OpenAI apresenta nova família de modelos GPT-4.1 com foco em tarefas de programação. Versões mini e nano oferecem eficiência e custo reduzido para desenvolvedores.

A OpenAI revelou nesta segunda-feira a nova família de modelos de inteligência artificial GPT-4.1, projetada com foco em tarefas de programação e engenharia de software. Os modelos — GPT-4.1, GPT-4.1 mini e GPT-4.1 nano — possuem uma janela de contexto de 1 milhão de tokens, permitindo processar o equivalente a cerca de 750 mil palavras simultaneamente. Disponíveis via API, mas fora do ChatGPT, os modelos foram otimizados para instruções detalhadas e codificação precisa.

Em um cenário de forte concorrência, com gigantes como Google e Anthropic lançando modelos como o Gemini 2.5 Pro e Claude 3.7 Sonnet, a OpenAI intensifica sua ambição de criar um “engenheiro de software agente”, como descreveu a CFO Sarah Friar em um evento recente. A meta é que futuras versões consigam desenvolver aplicações completas — do código à documentação.

De acordo com a empresa, o GPT-4.1 foi ajustado com base no feedback direto de desenvolvedores para melhorar em aspectos como codificação frontend, consistência na estrutura de resposta, uso eficiente de ferramentas e redução de alterações desnecessárias. A OpenAI afirma que esses avanços tornam os modelos mais adequados para tarefas reais de engenharia de software.

Nos benchmarks, o GPT-4.1 superou os modelos anteriores GPT-4o e GPT-4o mini em testes como o SWE-bench. Já as versões mini e nano oferecem mais velocidade e economia, embora com alguma perda de precisão. O modelo nano, inclusive, é apontado como o mais rápido e barato da história da empresa.

Os preços variam conforme o modelo: o GPT-4.1 custa US$ 2 por milhão de tokens de entrada e US$ 8 por milhão de saída. O mini sai por US$ 0,40 e US$ 1,60 respectivamente, enquanto o nano custa apenas US$ 0,10 por milhão de tokens de entrada e US$ 0,40 por saída.

No benchmark SWE-bench Verified, o GPT-4.1 alcançou entre 52% e 54,6% de precisão — ligeiramente abaixo dos 63,8% do Gemini 2.5 Pro e dos 62,3% do Claude 3.7 Sonnet. No teste de vídeo Video-MME, o modelo obteve 72% de acerto na categoria mais complexa, “vídeos longos sem legenda”.

Apesar dos avanços, a OpenAI reconhece limitações. A performance do modelo cai significativamente quando lida com grandes volumes de entrada. Em um teste interno (OpenAI-MRCR), a precisão caiu de 84% com 8 mil tokens para 50% com 1 milhão. Além disso, o GPT-4.1 mostrou-se mais “literal”, exigindo prompts mais específicos.

Com a chegada do GPT-4.1, a OpenAI reforça sua liderança na corrida pela automação inteligente de tarefas de engenharia de software. O desafio agora é equilibrar performance, confiabilidade e custo em larga escala.

ASSINE NOSSA NEWSLETTER

O futuro acontece aqui: esteja entre os primeiros a receber insights, tendências e oportunidades que moldam o mercado.