Розробник ChatGPT намагається залучити медіа до підписання ліцензійних угод, які спростять навчання ШІ та допоможуть уникнути проблем з авторським правом.
За даними The Information, OpenAI пропонує від $1 до $5 млн на рік за ліцензування захищених авторським правом новинних статей для навчання моделей ШІ. Інший звіт повідомляв раніше, що Apple готова платити медіакомпаніями щонайменше $50 млн за «багаторічне» використання подібних матеріалів.
Тим часом цифри OpenAI дещо подібні до інших ліцензійних угод, не пов’язаних зі штучним інтелектом. Meta, під час запуску вкладки «Новини» у Facebook (яку нещодавно скасувала у Європі), нібито пропонувала до $3 млн на рік за ліцензування новин, заголовків і попередніх переглядів.
Невідомо, чи загальна цифра сягала таких показників, як, наприклад, у Google, яка у 2020 оголосила, що інвестує $1 млрд у партнерство з новинними організаціями. Під тиском нового закону компанія також нещодавно погодилась платити канадським видавцям загалом $100 мільйонів доларів на рік в обмін на посилання на їхні статті.
Сучасні великі мовні моделі, наскільки нині відомо, здебільшого навчаються на інформації, взятій з інтернету. Ціни на набори даних різняться, але є й безплатні, як-от LAION, який використовує Stable Diffusion (щоправда, його тимчасово вилучили через наявність матеріалів із сексуальним насиллям над дітьми).
Розробники ШІ також час використовують вебсканери, що збирають інформацію для навчання з інтернету, та наймають людей для її перевірки та позначення (а це часто досить високі витрати). Водночас деякі медіа, як-от The New York Times і материнська компанія The Verge, Vox Media, заблокували доступ до даних GPT-сканеру OpenAI.
З іншого боку, кілька організацій стверджують, що навчання на їхніх даних є порушенням авторських прав. The New York Times, серед іншого, подала до суду на OpenAI й Microsoft, стверджуючи, що ChatGPT і Microsoft Copilot можуть генерувати відповідні, які майже дослівно цитують їхні роботи.