Уничтожение книг для обучения AI: скандал Anthropic

Основатель стартапа Anthropic, который является разработчиком мощной языковой модели Claude, применял необычные и противоречивые методы сбора данных для обучения искусственного интеллекта. Компания массово скупала миллионы бумажных книг, после чего разрезала их, сканировала тексты для дальнейшего использования в тренировке Claude, а затем физически уничтожала сами издания.

Об этом сообщает ProIT

Юридические лазейки для сбора данных

Эта практика стала известна благодаря постановлению окружного судьи США Уильяма Олсапа. Выяснилось, что Anthropic пользовалась доктриной первого продажи — юридической нормой, которая позволяет покупателю полностью распоряжаться приобретенным товаром, не обращая внимания на права владельца интеллектуальной собственности. Именно эта доктрина делает возможными, например, магазины секонд-хенда, ведь в случае ее отсутствия издатели могли бы запрещать перепродажу книг или требовать дополнительное вознаграждение за каждую транзакцию.

«Таким образом, для обучения своих крупных языковых моделей, компаниям в сфере искусственного интеллекта теперь не нужно получать разрешение от правообладателей, если книги или другие материалы были приобретены законным путем».

Растущая тенденция в сфере искусственного интеллекта

Используя подобные юридические лазейки, компании, работающие над инновационными ИИ-технологиями, все чаще прибегают к нестандартным подходам ради получения больших объемов качественных данных для тренировки языковых моделей. Это позволяет им обходить необходимость согласовывать условия с авторами или издателями, а также избегать дополнительных затрат на оплату авторских прав.