Генеральный директор OpenAI Сэм Альтман прокомментировал ситуацию, сложившуюся вокруг китайской компании DeepSeek, которая, по его словам, могла незаконно использовать данные OpenAI для создания конкурентной модели искусственного интеллекта. В заявлении для Financial Times Альтман отметил, что есть доказательства наличия техники, известной как «дистилляция», которая позволяет меньшим моделям учиться на основе результатов больших систем.
Об этом сообщает ProIT
Дистилляция и ее последствия
Дистилляция используется для оптимизации моделей искусственного интеллекта, однако в данном случае ее применение DeepSeek подвергает угрозе условия обслуживания OpenAI. «Проблема в том, что модель создана для собственных целей», — отметила личность, близкая к OpenAI.
В документах OpenAI четко прописано, что пользователи не имеют права копировать сервисы компании или использовать результаты для разработки моделей, конкурирующих с OpenAI. Выпуск новой модели DeepSeek вызвал значительные колебания на рынке искусственного интеллекта — акции ключевых компаний, в частности Nvidia, испытали серьезное падение, а стоимость компании уменьшилась почти на $600 миллиардов в день.
Исследование и противодействие OpenAI
Согласно информации, OpenAI вместе со своим партнером Microsoft изучила аккаунты, которые, вероятно, принадлежали DeepSeek и использовались прошлой осенью. Эти аккаунты были заблокированы из-за подозрения в дистилляции данных. Дэвид Сакс, предприниматель, ответственный за развитие ИИ в администрации Дональда Трампа, также высказался по этой теме, отметив, что «кража данных вполне возможна». Он объяснил, что в искусственном интеллекте существует механизм, с помощью которого одна модель может "высасывать" знания из другой.
Эксперты подтверждают, что для китайских и американских лабораторий ИИ привычно воровать обучающие данные у таких компаний, как OpenAI, поскольку полноценное обучение требует значительных вложений. DeepSeek заявляла, что потратила $5,6 миллиона на обучение своей модели V3, используя кластер из 2000 видеокарт Nvidia H800, тогда как обучение модели GPT-4 стоило около $100 миллионов.
Напомним, что подозрения в краже данных появились еще при запуске китайской модели, когда она заявила, что «она и есть ChatGPT». OpenAI в своем последнем заявлении подчеркнула: «Мы знаем, что китайские компании и другие постоянно пытаются скопировать модели ведущих американских компаний по искусственному интеллекту. Мы принимаем контрмеры, чтобы защитить нашу интеллектуальную собственность».
OpenAI также сталкивается с обвинениями в нарушении авторских прав от известных изданий, в частности от The New York Times, которое утверждает, что компания без их разрешения тренирует свои модели на статьях по их контенту.