Засновник стартапу Anthropic, який є розробником потужної мовної моделі Claude, застосовував незвичні і контроверсійні методи збору даних для навчання штучного інтелекту. Компанія масово скуповувала мільйони паперових книжок, після чого розшивала їх, сканувала тексти для подальшого використання у тренуванні Claude, а потім фізично знищувала самі видання.
Про це розповідає ProIT
Юридичні лазівки для збирання даних
Ця практика стала відома завдяки постанові окружного судді США Вільяма Олсапа. Виявилось, що Anthropic послуговувалася доктриною першого продажу — юридичною нормою, яка дозволяє покупцеві повністю розпоряджатися придбаним товаром, не зважаючи на права власника інтелектуальної власності. Саме ця доктрина робить можливими, наприклад, магазини секонд-хенду, адже у разі її відсутності видавці могли б забороняти перепродаж книжок або вимагати додаткову винагороду за кожну транзакцію.
«Таким чином, для навчання своїх великих мовних моделей, компаніям у сфері штучного інтелекту тепер не потрібно отримувати дозвіл від правовласників, якщо книги чи інші матеріали були придбані законним шляхом».
Зростаюча тенденція у сфері штучного інтелекту
Використовуючи подібні юридичні лазівки, компанії, що працюють над інноваційними ШІ-технологіями, все частіше вдаються до нестандартних підходів заради отримання великих обсягів якісних даних для тренування мовних моделей. Це дозволяє їм обходити необхідність погоджувати умови з авторами або видавцями, а також уникати додаткових витрат на оплату авторських прав.
Читайте також: У Китаї роботи під управлінням ШІ зіграли перший футбольний матч (ВІДЕО)