DeepSeek и подозрения в использовании данных Google Gemini

Китайская лаборатория DeepSeek недавно представила обновленную версию своей AI-модели R1, которая демонстрирует высокие результаты на математических и программных тестах. Однако компания не раскрывает, какие именно данные были использованы для обучения этой модели, что стало поводом для подозрений среди экспертов в сфере искусственного интеллекта.

Об этом сообщает ProIT

Подозрения в использовании данных Google Gemini

Некоторые специалисты считают, что DeepSeek могла использовать результаты работы семейства моделей Google Gemini для подготовки собственного AI. Разработчик из Мельбурна Сем Пич, который специализируется на оценках «эмоционального интеллекта» для AI, опубликовал доказательства, что модель DeepSeek R1-0528 использует лексику и выражения, характерные для Google Gemini 2.5 Pro.

«Если вы задаетесь вопросом, почему новый deepseek r1 звучит немного иначе, я думаю, они, вероятно, переключились с обучения на синтетических данных openai на синтетические данные gemini.»

Еще один анонимный разработчик, известный как автор инструмента SpeechMap для оценки свободы слова в AI, также отметил, что «логические цепочки» DeepSeek очень похожи на те, что генерируются моделями Gemini.

История использования чужих данных и реакция AI-индустрии

Ранее DeepSeek уже обвиняли в использовании данных конкурентов. В декабре 2024 года разработчики заметили, что модель DeepSeek V3 иногда идентифицирует себя как ChatGPT, что намекало на возможное обучение на чат-логах этого сервиса. В начале 2025 года OpenAI сообщила, что обнаружила доказательства применения DeepSeek техники дистилляции — метода обучения моделей с использованием данных, полученных от более мощных систем. Microsoft, партнер и инвестор OpenAI, выяснила, что в конце 2024 года через аккаунты разработчиков OpenAI, которые, вероятно, связаны с DeepSeek, выводились большие объемы данных.

Стоит отметить, что дистилляция — не редкая практика в мире искусственного интеллекта, но правила OpenAI прямо запрещают использование ее результатов для создания конкурирующих продуктов.

Одна из проблем современных моделей — растущее количество так называемого «AI-мусора» в интернете. Многие контент-фермы генерируют кликбейт с помощью AI, а социальные сети, в частности Reddit и X, переполнены ботами. Из-за этого очистить обучающие данные моделей от чужих AI-выводов становится все сложнее.

Несмотря на сложности с проверкой, эксперты, в частности исследователь из института AI2 Натан Ламберт, считают, что вероятность использования DeepSeek данных Google Gemini вполне реальна.

«Если бы я был DeepSeek, я бы определенно создал кучу синтетических данных из лучшей API-модели, которая есть,» — написал Ламберт в X. «[DeepSeek] испытывает нехватку GPU и полон наличных. Это буквально эффективно больше вычислений для них.»

В ответ на подобные риски компании, разрабатывающие AI, усиливают меры безопасности. В апреле OpenAI внедрила обязательную верификацию для доступа к ряду своих моделей — нужно предоставить документ, выданный государством, из списка стран, поддерживаемых API OpenAI (Китай в этот список не входит). Google также начала «обобщать» следы, которые остаются от работы моделей на своей платформе AI Studio, а компания Anthropic в мае заявила, что будет защищать уникальные особенности своих моделей путем аналогичного обобщения.