OpenAI обвиняет DeepSeek в краже данных для AI

Генеральный директор OpenAI Сэм Альтман прокомментировал ситуацию, сложившуюся вокруг китайской компании DeepSeek, которая, по его словам, могла незаконно использовать данные OpenAI для создания конкурентной модели искусственного интеллекта. В заявлении для Financial Times Альтман отметил, что есть доказательства наличия техники, известной как «дистилляция», которая позволяет меньшим моделям учиться на основе результатов больших систем.

Об этом сообщает ProIT

Дистилляция и ее последствия

Дистилляция используется для оптимизации моделей искусственного интеллекта, однако в данном случае ее применение DeepSeek подвергает угрозе условия обслуживания OpenAI. «Проблема в том, что модель создана для собственных целей», — отметила личность, близкая к OpenAI.

В документах OpenAI четко прописано, что пользователи не имеют права копировать сервисы компании или использовать результаты для разработки моделей, конкурирующих с OpenAI. Выпуск новой модели DeepSeek вызвал значительные колебания на рынке искусственного интеллекта — акции ключевых компаний, в частности Nvidia, испытали серьезное падение, а стоимость компании уменьшилась почти на $600 миллиардов в день.

Исследование и противодействие OpenAI

Согласно информации, OpenAI вместе со своим партнером Microsoft изучила аккаунты, которые, вероятно, принадлежали DeepSeek и использовались прошлой осенью. Эти аккаунты были заблокированы из-за подозрения в дистилляции данных. Дэвид Сакс, предприниматель, ответственный за развитие ИИ в администрации Дональда Трампа, также высказался по этой теме, отметив, что «кража данных вполне возможна». Он объяснил, что в искусственном интеллекте существует механизм, с помощью которого одна модель может "высасывать" знания из другой.

Эксперты подтверждают, что для китайских и американских лабораторий ИИ привычно воровать обучающие данные у таких компаний, как OpenAI, поскольку полноценное обучение требует значительных вложений. DeepSeek заявляла, что потратила $5,6 миллиона на обучение своей модели V3, используя кластер из 2000 видеокарт Nvidia H800, тогда как обучение модели GPT-4 стоило около $100 миллионов.

Напомним, что подозрения в краже данных появились еще при запуске китайской модели, когда она заявила, что «она и есть ChatGPT». OpenAI в своем последнем заявлении подчеркнула: «Мы знаем, что китайские компании и другие постоянно пытаются скопировать модели ведущих американских компаний по искусственному интеллекту. Мы принимаем контрмеры, чтобы защитить нашу интеллектуальную собственность».

OpenAI также сталкивается с обвинениями в нарушении авторских прав от известных изданий, в частности от The New York Times, которое утверждает, что компания без их разрешения тренирует свои модели на статьях по их контенту.