DeepSeek é acusada de treinar nova IA com dados do Gemini da Google

DeepSeek pode ter treinado seu modelo de IA R1-0528 com saídas do Gemini, da Google, levantando novas preocupações sobre uso indevido de dados entre rivais do setor.

A startup chinesa DeepSeek lançou na semana passada uma nova versão do seu modelo de IA, o R1-0528, com desempenho expressivo em benchmarks de matemática e programação. No entanto, a origem dos dados usados no treinamento do modelo permanece obscura — e alguns especialistas agora sugerem que a empresa pode ter utilizado, sem autorização, saídas geradas pela família de modelos Gemini, da Google.

As suspeitas ganharam força após o desenvolvedor australiano Sam Paech publicar indícios de que o R1-0528 exibe padrões linguísticos e preferências textuais muito semelhantes às do Gemini 2.5 Pro. Outro pesquisador, criador do projeto SpeechMap, afirmou que os “rastros de pensamento” do modelo da DeepSeek são quase idênticos aos do Gemini, sugerindo que o modelo chinês pode ter sido treinado com outputs da concorrente americana.

Não é a primeira vez que a DeepSeek é acusada de usar dados de modelos rivais. Em dezembro, desenvolvedores notaram que a versão V3 da empresa frequentemente se identificava como o ChatGPT, da OpenAI — o que levantou a hipótese de que logs da plataforma poderiam ter sido usados no treinamento. A própria OpenAI afirmou, em entrevista ao Financial Times, ter detectado distilação de seus modelos por meio de contas de desenvolvedores associadas à DeepSeek.

O processo de distillation, apesar de comum no desenvolvimento de IA, é proibido pelas diretrizes da OpenAI quando envolve a utilização dos outputs de seus modelos para treinar soluções concorrentes. Microsoft e OpenAI detectaram, no final de 2024, grandes volumes de dados sendo exfiltrados de contas ligadas ao ecossistema da OpenAI, segundo a Bloomberg.

A crescente presença de conteúdos gerados por IA na internet torna o cenário ainda mais nebuloso. Isso porque muitos modelos começam a replicar padrões e frases semelhantes ao serem treinados com materiais “contaminados” por outputs anteriores, dificultando a distinção entre convergência linguística natural e cópia deliberada.

Ainda assim, pesquisadores como Nathan Lambert, da AI2, afirmam que o uso de saídas do Gemini não seria uma surpresa. “Se eu fosse a DeepSeek, geraria toneladas de dados sintéticos com o melhor modelo API disponível. É uma forma indireta de conseguir mais capacidade computacional”, disse Lambert no X.

Na tentativa de conter essas práticas, empresas como OpenAI e Google têm reforçado medidas de segurança. A OpenAI passou a exigir verificação de identidade com documentos oficiais para acesso a modelos avançados — processo indisponível para usuários na China. Já a Google e a Anthropic começaram a resumir os rastros de execução de seus modelos, dificultando sua replicação.

As acusações contra a DeepSeek reacendem o debate sobre ética e segurança no treinamento de modelos de IA, destacando os desafios crescentes em um ecossistema onde os dados — e sua origem — tornam-se cada vez mais difíceis de rastrear.