Meta використовувала піратські книги для навчання ШІ

У січні 2025 року під час судового процесу з’ясувалося, що компанія Meta, заснована Марком Цукербергом, незаконно використала мільйони книг для навчання штучного інтелекту Llama. Тепер існує можливість дізнатися, які саме твори були «зпіратені».

Про це розповідає ProIT

Великі мовні моделі штучного інтелекту потребують значних наборів текстових даних, щоб забезпечити точність у відтворенні мови. Однак знайти легальні оригінальні матеріали стає дедалі важче.

Використання піратської бібліотеки

«У нас буквально закінчується текст у Всесвіті, на якому можна навчати ці системи», — зазначив вчений-інформатик Стюарт Рассел у 2023 році.

У рамках судового розгляду було з’ясовано, що Meta незаконно завантажила відому піратську бібліотеку LibGen, щоб отримати мільйони захищених законом текстів. Програмісти отримали усне схвалення від Цукерберга на використання цих книг для навчання мовних моделей. Це викликало обурення, оскільки одна з найбільших корпорацій у світі не заплатила жодної копії за використані матеріали.

Новий інструмент пошуку

Сайт The Atlantic розробив пошукову систему, яка дозволяє користувачам виявити, які книги з файлів LibGen були використані Meta. Цей інструмент охоплює великий обсяг даних, що містять понад 7,5 мільйона книг та близько 81 мільйона наукових робіт.

«Моя книга тут — і це добре! LibGen робить тексти доступними для людей, які інакше не мали б доступу. Проблема полягає не в тому, що LibGen робить контент доступним безплатно, а в тому, що Meta краде цей матеріал заради прибутку», — заявив автор Wired Джастін Лінг.

Позов був ініційований авторами Та-Нехісі Коутсом і Сарою Сільверман, які раніше вже мали досвід у боротьбі з піратством даних через Meta. Очікується, що остаточне рішення у справі буде оголошене не раніше літа. Тим часом Llama доступний на таких платформах, як Facebook, Instagram та WhatsApp. Це не єдине судове переслідування проти великої корпорації: рік тому автори позивалися до NVIDIA.