DeepSeek é acusada de usar saídas do Gemini no treinamento de novo modelo de inteligência artificial

DeepSeek pode ter treinado seu modelo de IA R1-0528 com saídas do Gemini, da Google, levantando novas preocupações sobre uso indevido de dados entre rivais do setor.

DeepSeek é acusada de usar saídas do Gemini no treinamento de novo modelo de inteligência artificial

A startup chinesa DeepSeek lançou na semana passada uma nova versão do seu modelo de IA, o R1-0528, com desempenho expressivo em benchmarks de matemática e programação. No entanto, a origem dos dados usados no treinamento do modelo permanece obscura — e alguns especialistas agora sugerem que a empresa pode ter utilizado, sem autorização, saídas geradas pela família de modelos Gemini, da Google, levantando sérias preocupações sobre o uso ético de conteúdos gerados por inteligência artificial.

As suspeitas ganharam força após o desenvolvedor australiano Sam Paech publicar indícios de que o R1-0528 exibe padrões linguísticos e preferências textuais muito semelhantes às do Gemini 2.5 Pro. Outro pesquisador, criador do projeto SpeechMap, afirmou que os “rastros de pensamento” do modelo da DeepSeek são quase idênticos aos do Gemini, sugerindo que o modelo chinês pode ter sido treinado com outputs da concorrente americana.

Não é a primeira vez que a DeepSeek é acusada de usar dados de modelos rivais. Em dezembro, desenvolvedores notaram que a versão V3 da empresa frequentemente se identificava como o ChatGPT, da OpenAI — o que levantou a hipótese de que logs da plataforma poderiam ter sido usados no treinamento. A própria OpenAI afirmou, em entrevista ao Financial Times, ter detectado distilação de seus modelos por meio de contas de desenvolvedores associadas à DeepSeek.

O processo de distillation, apesar de comum no desenvolvimento de IA, é proibido pelas diretrizes da OpenAI quando envolve a utilização dos outputs de seus modelos para treinar soluções concorrentes. Microsoft e OpenAI detectaram, no final de 2024, grandes volumes de dados sendo exfiltrados de contas ligadas ao ecossistema da OpenAI, segundo a Bloomberg.

A crescente presença de conteúdos gerados por IA na internet torna o cenário ainda mais nebuloso. Isso porque muitos modelos começam a replicar padrões e frases semelhantes ao serem treinados com materiais “contaminados” por outputs anteriores, dificultando a distinção entre convergência linguística natural e cópia deliberada.

Ainda assim, pesquisadores como Nathan Lambert, da AI2, afirmam que o uso de saídas do Gemini não seria uma surpresa. “Se eu fosse a DeepSeek, geraria toneladas de dados sintéticos com o melhor modelo API disponível. É uma forma indireta de conseguir mais capacidade computacional”, disse Lambert no X.

Na tentativa de conter essas práticas, empresas como OpenAI e Google têm reforçado medidas de segurança. A OpenAI passou a exigir verificação de identidade com documentos oficiais para acesso a modelos avançados — processo indisponível para usuários na China. Já a Google e a Anthropic começaram a resumir os rastros de execução de seus modelos, dificultando sua replicação.

As acusações contra a DeepSeek reacendem o debate sobre ética e segurança no treinamento de modelos de inteligência artificial, destacando os desafios crescentes em um ecossistema onde os dados — e sua origem — tornam-se cada vez mais difíceis de rastrear.

Continue a sua leitura: 

Paulo Junio

Paulo Júnio de Lima é Administrador com MBA em Comunicação e Marketing Digital pela HSM University, especializado em planejamento estratégico, inovação e gestão de projetos. Atua na área de Comunicação e Relações Públicas da Grande Loja Maçônica de Minas Gerais, onde desenvolve e implementa soluções criativas para fortalecimento institucional e relacionamento com o público. Com uma trajetória sólida em marketing digital, Paulo acumulou experiências em empresas como ORO, Agência Open, Brasil84 Comunicação e VTIC, liderando equipes multidisciplinares e conduzindo projetos com foco em performance, posicionamento de marca e transformação digital. Entusiasta das novas tecnologias, tem se dedicado à aplicação prática da Inteligência Artificial em ambientes criativos e de gestão. É certificado pelo IA Lab do Estúdio Kimura, com foco em IA aplicada ao design, branding e automação de processos, ampliando seu repertório estratégico para entregar soluções mais inovadoras e eficientes. Além de sua atuação profissional, é membro ativo da Ordem DeMolay há mais de 18 anos, exercendo funções de liderança em iniciativas sociais, educacionais e filantrópicas. Suas principais competências envolvem estratégia digital, branding, IA aplicada à comunicação, marketing de impacto e gestão de projetos ágeis.