DeepSeek é acusada de treinar inteligência artificial com Gemi

DeepSeek é acusada de usar saídas do Gemini no treinamento de novo modelo de inteligência artificial

A startup chinesa DeepSeek lançou na semana passada uma nova versão do seu modelo de IA, o R1-0528, com desempenho expressivo em benchmarks de matemática e programação. No entanto, a origem dos dados usados no treinamento do modelo permanece obscura — e alguns especialistas agora sugerem que a empresa pode ter utilizado, sem autorização, saídas geradas pela família de modelos Gemini, da Google, levantando sérias preocupações sobre o uso ético de conteúdos gerados por inteligência artificial.

As suspeitas ganharam força após o desenvolvedor australiano Sam Paech publicar indícios de que o R1-0528 exibe padrões linguísticos e preferências textuais muito semelhantes às do Gemini 2.5 Pro. Outro pesquisador, criador do projeto SpeechMap, afirmou que os “rastros de pensamento” do modelo da DeepSeek são quase idênticos aos do Gemini, sugerindo que o modelo chinês pode ter sido treinado com outputs da concorrente americana.

Não é a primeira vez que a DeepSeek é acusada de usar dados de modelos rivais. Em dezembro, desenvolvedores notaram que a versão V3 da empresa frequentemente se identificava como o ChatGPT, da OpenAI — o que levantou a hipótese de que logs da plataforma poderiam ter sido usados no treinamento. A própria OpenAI afirmou, em entrevista ao Financial Times, ter detectado distilação de seus modelos por meio de contas de desenvolvedores associadas à DeepSeek.

O processo de distillation, apesar de comum no desenvolvimento de IA, é proibido pelas diretrizes da OpenAI quando envolve a utilização dos outputs de seus modelos para treinar soluções concorrentes. Microsoft e OpenAI detectaram, no final de 2024, grandes volumes de dados sendo exfiltrados de contas ligadas ao ecossistema da OpenAI, segundo a Bloomberg.

A crescente presença de conteúdos gerados por IA na internet torna o cenário ainda mais nebuloso. Isso porque muitos modelos começam a replicar padrões e frases semelhantes ao serem treinados com materiais “contaminados” por outputs anteriores, dificultando a distinção entre convergência linguística natural e cópia deliberada.

Ainda assim, pesquisadores como Nathan Lambert, da AI2, afirmam que o uso de saídas do Gemini não seria uma surpresa. “Se eu fosse a DeepSeek, geraria toneladas de dados sintéticos com o melhor modelo API disponível. É uma forma indireta de conseguir mais capacidade computacional”, disse Lambert no X.

Na tentativa de conter essas práticas, empresas como OpenAI e Google têm reforçado medidas de segurança. A OpenAI passou a exigir verificação de identidade com documentos oficiais para acesso a modelos avançados — processo indisponível para usuários na China. Já a Google e a Anthropic começaram a resumir os rastros de execução de seus modelos, dificultando sua replicação.

As acusações contra a DeepSeek reacendem o debate sobre ética e segurança no treinamento de modelos de inteligência artificial, destacando os desafios crescentes em um ecossistema onde os dados — e sua origem — tornam-se cada vez mais difíceis de rastrear.

Continue a sua leitura:

Visite

DeepSeek é acusada de usar saídas do Gemini no treinamento de novo modelo de inteligência artificial

Novo hub da Nokia no Canadá fortalece pesquisa em 6G e infraestrutura de inteligência artificial

Warner Music fecha acordo com a Suno e redefine uso de inteligência artificial na criação musical

Como e até que ponto as empresas estão implementando IA no RH?

AWS anuncia US$ 50 bi para ampliar infraestrutura de inteligência artificial

xAI investe em energia solar para sustentar operações de inteligência artificial

Do caos à conversão: como a IA reinventa o UGC para marcas

Copilot deixa o WhatsApp em janeiro após nova política para inteligência artificial da Meta

A OpenAI atualizou o ChatGPT Voice para tornar a interação com sua inteligência artificial mais fluida e integrada

CX com IA: Como transformar a experiência do cliente em crescimento exponencial

Colaboração entre Lambda e Microsoft acelera expansão de data centers de IA

SUGESTÕES DE PRÓXIMA LEITURA...

Novo hub da Nokia no Canadá fortalece pesquisa em 6G e infraestrutura de inteligência artificial

Warner Music fecha acordo com a Suno e redefine uso de inteligência artificial na criação musical

Como e até que ponto as empresas estão implementando IA no RH?

AWS anuncia US$ 50 bi para ampliar infraestrutura de inteligência artificial

EXPLORE o ABIJ

notícias

Assine a Newsletter AIBJ