Головна ІТ-бізнес Співавтор RSS презентував новий протокол для ліцензування даних для ШІ

Співавтор RSS презентував новий протокол для ліцензування даних для ШІ

Після резонансної угоди Anthropic на $1,5 мільярда щодо врегулювання питань авторських прав, індустрія штучного інтелекту опинилася перед масштабною проблемою легального використання тренувальних даних. Наразі у судах розглядається близько 40 справ про нелегальне використання даних, серед яких справа проти Midjourney за створення зображень Супермена.

Про це розповідає ProIT

RSL — масштабований протокол для ліцензування даних

Щоб уникнути хвилі судових позовів, група технологів і веб-видавців створила систему масового ліцензування даних — Real Simple Licensing (RSL). Проєкт уже підтримали великі веб-платформи, зокрема Reddit, Quora та Yahoo. Основне питання — чи погодяться провідні лабораторії штучного інтелекту долучитися до нової ініціативи.

Один із засновників RSL, Еккарт Вальтер, який також є одним зі співавторів стандарту RSS, пояснив, що головна мета — створити масштабовану систему ліцензування тренувальних даних для інтернету.

“Ми маємо впровадити машиночитані ліцензійні угоди для інтернету”, — наголосив Вальтер. “Саме цю проблему вирішує RSL”.

На відміну від попередніх ініціатив на кшталт Dataset Providers Alliance, які лише закликали до прозорості збору даних, RSL вперше пропонує практичну технічну та юридичну інфраструктуру для легального ліцензування. Технічна частина передбачає, що видавці можуть самостійно визначати умови використання контенту для ШІ — через спеціальний формат у файлі “robots.txt”, що спрощує контроль над даними.

Юридична інфраструктура і гравці ринку

Юридичний аспект RSL представлений колективною організацією RSL Collective, яка діє за принципом ASCAP у музичній чи MPLC у кіногалузі: укладає угоди, збирає роялті та виступає єдиною точкою контакту для правовласників. До колективу вже долучилися Yahoo, Reddit, Medium, O’Reilly Media, Ziff Davis (Mashable, Cnet), Internet Brands (WebMD), People Inc. та The Daily Beast. Деякі компанії, включно з Fastly, Quora та Adweek, підтримують стандарт, проте не входять до колективу.

Серед учасників є й ті, хто вже уклав власні ліцензійні домовленості — наприклад, Reddit отримує близько $60 млн щороку від Google за використання своїх даних для навчання ШІ. Водночас система RSL дозволяє укладати окремі індивідуальні угоди, як це роблять окремі артисти у музичній індустрії, та одночасно користуватися перевагами колективної ліцензії.

Водночас розрахунок роялті у сфері ШІ складніший, ніж у музиці чи кіно. Якщо для Google AI Search Abstracts можна точно фіксувати використання кожного факту, то у разі використання великих мовних моделей (LLM) відстежити, які саме документи були використані для тренування, майже неможливо без спеціального логування. Додаткові труднощі виникають, якщо видавці хочуть отримувати оплату за кожен запит, а не фіксований платіж, що передбачено окремими стандартними ліцензіями RSL.

Попри ці виклики, творці RSL переконані, що компанії зможуть впоратися з новими вимогами. Як зауважив Даг Лідс, співзасновник RSL і колишній CEO IAC Publishing, деякі компанії вже мають практику звітування про використання даних, тому реалізувати це технічно можливо. “Не обов’язково, щоб система була ідеальною. Вона має бути достатньо доброю, щоб забезпечити виплати”, — вказав Лідс.

Чи погодяться AI-компанії використовувати RSL? Досвід таких гравців, як ScaleAI та Mercor, свідчить, що розробники ШІ готові платити за якісні дані, проте історично інтернет залишався джерелом дешевої або безкоштовної інформації. З огляду на доступність відкритих датасетів, як-от Common Crawl, впровадження масових роялті може зіткнутися з опором. Також, конфлікти на кшталт нещодавньої суперечки між CloudFlare та Perplexity демонструють складність відмінності між веб-скрапінгом і автоматизованим переглядом сайтів.

Втім, команда RSL налаштована рішуче й спирається на публічні заяви лідерів ШІ, зокрема Сундара Пічаї, які закликали до створення подібної системи ліцензування. Творці RSL мають намір домогтися виконання цих обіцянок, переконуючи: “Ми потребуємо протоколу. Нам потрібна система”.

Читайте також

About Us

Soledad is the Best Newspaper and Magazine WordPress Theme with tons of options and demos ready to import. This theme is perfect for blogs and excellent for online stores, news, magazine or review sites. Buy Soledad now!

Latest Articles

© ProIT. Видання не несе жодної відповідальності за зміст і достовірність фактів, думок, поглядів, аргументів та висновків, які викладені у інформаційних матеріалах з посиланням на інші джерела інформації. Усі запити щодо такої інформації мають надсилатися виключно джерелам відповідної інформації.