DeepSeek é acusada de usar saídas do Gemini no treinamento de novo modelo de inteligência artificial

DeepSeek pode ter treinado seu modelo de IA R1-0528 com saídas do Gemini, da Google, levantando novas preocupações sobre uso indevido de dados entre rivais do setor.

DeepSeek é acusada de usar saídas do Gemini no treinamento de novo modelo de inteligência artificial

A startup chinesa DeepSeek lançou na semana passada uma nova versão do seu modelo de IA, o R1-0528, com desempenho expressivo em benchmarks de matemática e programação. No entanto, a origem dos dados usados no treinamento do modelo permanece obscura — e alguns especialistas agora sugerem que a empresa pode ter utilizado, sem autorização, saídas geradas pela família de modelos Gemini, da Google, levantando sérias preocupações sobre o uso ético de conteúdos gerados por inteligência artificial.

As suspeitas ganharam força após o desenvolvedor australiano Sam Paech publicar indícios de que o R1-0528 exibe padrões linguísticos e preferências textuais muito semelhantes às do Gemini 2.5 Pro. Outro pesquisador, criador do projeto SpeechMap, afirmou que os “rastros de pensamento” do modelo da DeepSeek são quase idênticos aos do Gemini, sugerindo que o modelo chinês pode ter sido treinado com outputs da concorrente americana.

Não é a primeira vez que a DeepSeek é acusada de usar dados de modelos rivais. Em dezembro, desenvolvedores notaram que a versão V3 da empresa frequentemente se identificava como o ChatGPT, da OpenAI — o que levantou a hipótese de que logs da plataforma poderiam ter sido usados no treinamento. A própria OpenAI afirmou, em entrevista ao Financial Times, ter detectado distilação de seus modelos por meio de contas de desenvolvedores associadas à DeepSeek.

O processo de distillation, apesar de comum no desenvolvimento de IA, é proibido pelas diretrizes da OpenAI quando envolve a utilização dos outputs de seus modelos para treinar soluções concorrentes. Microsoft e OpenAI detectaram, no final de 2024, grandes volumes de dados sendo exfiltrados de contas ligadas ao ecossistema da OpenAI, segundo a Bloomberg.

A crescente presença de conteúdos gerados por IA na internet torna o cenário ainda mais nebuloso. Isso porque muitos modelos começam a replicar padrões e frases semelhantes ao serem treinados com materiais “contaminados” por outputs anteriores, dificultando a distinção entre convergência linguística natural e cópia deliberada.

Ainda assim, pesquisadores como Nathan Lambert, da AI2, afirmam que o uso de saídas do Gemini não seria uma surpresa. “Se eu fosse a DeepSeek, geraria toneladas de dados sintéticos com o melhor modelo API disponível. É uma forma indireta de conseguir mais capacidade computacional”, disse Lambert no X.

Na tentativa de conter essas práticas, empresas como OpenAI e Google têm reforçado medidas de segurança. A OpenAI passou a exigir verificação de identidade com documentos oficiais para acesso a modelos avançados — processo indisponível para usuários na China. Já a Google e a Anthropic começaram a resumir os rastros de execução de seus modelos, dificultando sua replicação.

As acusações contra a DeepSeek reacendem o debate sobre ética e segurança no treinamento de modelos de inteligência artificial, destacando os desafios crescentes em um ecossistema onde os dados — e sua origem — tornam-se cada vez mais difíceis de rastrear.

Continue a sua leitura: 

Paulo Junio

Paulo Júnio de Lima é Administrador com MBA em Marketing Digital e especialista em estratégia, inovação e gestão de projetos. Na Comunicação e Relações Públicas da Grande Loja Maçônica de Minas Gerais, desenvolve soluções para fortalecimento institucional. Com passagens por ORO, Agência Open, Brasil84 e VTIC, acumula experiência em marketing digital, branding e transformação digital. Certificado pelo IA Lab do Estúdio Kimura, aplica inteligência artificial em design, automação e comunicação. Membro ativo da Ordem DeMolay há mais de 18 anos, atua também em projetos sociais e educacionais.