OpenAI звинувачує DeepSeek у крадіжці даних для AI

Генеральний директор OpenAI Сем Альтман прокоментував ситуацію, що склалася навколо китайської компанії DeepSeek, яка, за його словами, могла незаконно використати дані OpenAI для створення конкурентної моделі штучного інтелекту. У заяві для Financial Times, Альтман зазначив, що є докази наявності техніки, відомої як «дистиляція», яка дозволяє меншим моделям навчатися на основі результатів більших систем.

Про це розповідає ProIT

Дистиляція та її наслідки

Дистиляція використовується для оптимізації моделей штучного інтелекту, проте в даному випадку її застосування DeepSeek ставить під загрозу умови обслуговування OpenAI. «Проблема у тому, що модель створена для власних цілей», — зазначила особа, близька до OpenAI.

У документах OpenAI чітко прописано, що користувачі не мають права «копіювати» сервіси компанії або «використовувати результати для розробки моделей, які конкурують з OpenAI». Випуск нової моделі DeepSeek викликав значні коливання на ринку штучного інтелекту — акції ключових компаній, зокрема Nvidia, зазнали серйозного падіння, а вартість компанії зменшилася на майже $600 мільярдів за день.

Дослідження та протидія OpenAI

Згідно з інформацією, OpenAI разом із своїм партнером Microsoft вивчила акаунти, які, ймовірно, належали DeepSeek і використовувалися минулої осені. Ці акаунти були заблоковані через підозру у дистиляції даних. Девід Сакс, підприємець, відповідальний за розвиток ШІ в адміністрації Дональда Трампа, також висловився на цю тему, зазначивши, що «крадіжка даних цілком можлива». Він пояснив, що в штучному інтелекті існує механізм, за допомогою якого одна модель може «висмоктувати» знання з іншої.

Експерти підтверджують, що для китайських і американських лабораторій ШІ звично красти навчальні дані у таких компаній, як OpenAI, оскільки повноцінне навчання потребує значних вкладень. DeepSeek заявляла, що витратила $5,6 мільйонів на навчання своєї моделі V3, використовуючи кластер з 2000 відеокарт Nvidia H800, тоді як навчання моделі GPT-4 коштувало близько $100 мільйонів.

Нагадаємо, що підозри у крадіжці даних з’явилися ще під час запуску китайської моделі, коли вона заявила, що «вона і є ChatGPT». OpenAI у своїй останній заяві підкреслила: «Ми знаємо, що китайські компанії — та інші — постійно намагаються скопіювати моделі провідних американських компаній зі штучного інтелекту. Ми вживаємо контрзаходів, щоб захистити нашу інтелектуальну власність».

Наразі OpenAI також стикається із звинуваченнями у порушенні авторських прав від відомих видань, зокрема від The New York Times, яке стверджує, що компанія без їхнього дозволу тренує свої моделі на статтях з їхнього контенту.