Nova Sonic é a resposta da Amazon à nova geração de modelos conversacionais com voz natural. Além de maior precisão e latência ultrabaixa, modelo estreia com API de streaming e já integra a nova Alexa+.
Nova Sonic é a resposta da Amazon à nova geração de modelos conversacionais com voz natural. Além de maior precisão e latência ultrabaixa, modelo estreia com API de streaming e já integra a nova Alexa+.
Na terça-feira, a Amazon anunciou o Nova Sonic, um novo modelo de IA generativa com voz nativa, capaz de compreender comandos falados e responder com fluência quase humana. Segundo a empresa, o Sonic supera rivais como o modelo de voz do ChatGPT da OpenAI e ferramentas da Google em velocidade, reconhecimento de fala e qualidade conversacional — e custa até 80% menos.
Disponível via Amazon Bedrock, plataforma de desenvolvimento de IA corporativa da empresa, o Nova Sonic estreia com uma API de streaming bidirecional, permitindo interações em tempo real com baixa latência. Em benchmarks internos, o modelo registrou 1,09 segundo de latência percebida — mais rápido que os 1,18 segundos do GPT-4o com Realtime API, segundo a consultoria Artificial Analysis.
O Nova Sonic também se destaca por sua precisão em cenários complexos. No benchmark Multilingual LibriSpeech, obteve uma taxa de erro de palavras (WER) de apenas 4,2% em cinco idiomas — inglês, francês, italiano, alemão e espanhol. Em testes com múltiplos participantes em ambientes barulhentos, o Sonic foi 46,7% mais preciso que o GPT-4o-transcribe.
Segundo Rohit Prasad, cientista-chefe da divisão de AGI da Amazon, o diferencial do Sonic está em sua capacidade de orquestração. O modelo entende quando buscar dados externos, consultar APIs proprietárias ou interagir com ferramentas — e faz isso com precisão contextual. A mesma tecnologia já está embutida na nova Alexa+, que marca o renascimento da assistente pessoal da Amazon com recursos mais robustos e conversação fluida.
Outro destaque técnico do Sonic é seu comportamento conversacional mais humano: o modelo respeita pausas naturais, espera o momento certo para responder e compreende bem mesmo quando o usuário murmura ou comete erros de fala. O sistema também gera transcrições em tempo real, facilitando sua aplicação em serviços corporativos, educacionais e de atendimento ao cliente.
O lançamento faz parte de uma estratégia mais ampla da Amazon para avançar rumo à AGI — inteligência artificial geral, conceito definido pela empresa como “sistemas capazes de fazer tudo que um humano pode realizar em um computador”. Além do Sonic, a Amazon também apresentou recentemente o Nova Act, modelo de IA com acesso ao navegador, que já alimenta funções como o Buy for Me no ecossistema da Alexa+.
Com o Nova Sonic, a Amazon sai da sombra da Alexa e se reposiciona como player de ponta na corrida pela IA multimodal. A promessa é clara: modelos mais rápidos, mais baratos e cada vez mais humanos. A próxima fronteira? Imagem, vídeo e sensores físicos — e uma IA capaz de ouvir, ver e agir.
O futuro acontece aqui: esteja entre os primeiros a receber insights, tendências e oportunidades que moldam o mercado.