Китайська лабораторія DeepSeek нещодавно представила оновлену версію свого AI-моделі R1, яка демонструє високі результати на математичних і програмних тестах. Однак компанія не розкриває, які саме дані були використані для навчання цієї моделі, що стало приводом для підозр серед експертів у сфері штучного інтелекту.
Про це розповідає ProIT
Підозри у використанні даних Google Gemini
Деякі фахівці вважають, що DeepSeek могла використати результати роботи сімейства моделей Google Gemini для підготовки власного AI. Розробник із Мельбурна Сем Піч, який спеціалізується на оцінках «емоційного інтелекту» для AI, опублікував докази, що модель DeepSeek R1-0528 використовує лексику та вирази, характерні для Google Gemini 2.5 Pro.
“If you’re wondering why new deepseek r1 sounds a bit different, I think they probably switched from training on synthetic openai to synthetic gemini outputs.”
Ще один анонімний розробник, відомий як автор інструменту SpeechMap для оцінки свободи слова у AI, також зазначив, що «логічні ланцюжки» DeepSeek дуже схожі на ті, що генеруються моделями Gemini.
Історія використання чужих даних та реакція AI-індустрії
Раніше DeepSeek вже звинувачували у використанні даних конкурентів. У грудні 2024 року розробники помітили, що модель DeepSeek V3 іноді ідентифікує себе як ChatGPT, що натякало на можливе навчання на чат-логах цього сервісу. На початку 2025 року OpenAI повідомила, що виявила докази застосування DeepSeek техніки дистиляції — методу навчання моделей за допомогою даних, отриманих від більш потужних систем. Microsoft, партнер і інвестор OpenAI, виявила, що наприкінці 2024 року через акаунти розробників OpenAI, які, ймовірно, пов’язані з DeepSeek, виводилися великі обсяги даних.
Варто зазначити, що дистиляція — не рідкісна практика у світі штучного інтелекту, але правила OpenAI прямо забороняють використання її результатів для створення конкуруючих продуктів.
Одна з проблем сучасних моделей — зростаюча кількість так званого «AI-шлаку» в інтернеті. Багато контент-ферм генерують клікбейт за допомогою AI, а соціальні мережі, зокрема Reddit та X, переповнені ботами. Через це очистити навчальні дані моделей від чужих AI-виводів стає дедалі складніше.
Попри складнощі з перевіркою, експерти, зокрема дослідник з інституту AI2 Натан Ламберт, вважають, що ймовірність використання DeepSeek даних Google Gemini цілком реальна.
“If I was DeepSeek, I would definitely create a ton of synthetic data from the best API model out there,” — написав Ламберт у X. “[DeepSeek is] short on GPUs and flush with cash. It’s literally effectively more compute for them.”
У відповідь на подібні ризики компанії, що розробляють AI, посилюють заходи безпеки. У квітні OpenAI впровадила обов’язкову верифікацію для доступу до низки своїх моделей — потрібно надати документ, виданий державою, з переліку країн, підтримуваних API OpenAI (Китай до цього списку не входить). Google також почала «узагальнювати» сліди, які лишаються від роботи моделей у своїй платформі AI Studio, а компанія Anthropic у травні заявила, що захищатиме унікальні особливості своїх моделей шляхом аналогічного узагальнення.