Як ШІ навчився на основі фільмів та серіалів

Дослідження, проведене сайтом The Atlantic, виявило, що штучний інтелект (ШІ) був навчений на величезному наборі даних, що включає понад 140 000 фільмів і серіалів. Серед цих матеріалів були всі епізоди популярних серіалів «Пуститися берега» та «Клан Сопрано». Основний набір даних містив елементи з понад 53 000 фільмів і 85 000 серіалів, включаючи всі стрічки, номіновані на «найкращий фільм» з 1950 по 2016 рік, а також численні епізоди «Сімпсонів», «Сайнфелда» та «Твін Пікс».

Про це розповідає ProIT

The Atlantic наголошує, що для навчання ШІ використовувалися не оригінальні сценарії, а субтитри, отримані з сайту OpenSubtitles.org. Ці субтитри витягувались користувачами з DVD, Blu-ray та стримінгових платформ за допомогою спеціального програмного забезпечення для розпізнавання тексту. На OpenSubtitles.org знаходиться понад 9 мільйонів файлів із субтитрами на більш ніж 100 мовах.

Штучний інтелект у дослідженнях

Різні компанії вже використовують ці субтитри у своїх дослідницьких проєктах. Наприклад, Anthropic навчала на них чатбота Claude, тоді як Meta створила групу мовних моделей під назвою Open Pre-trained Transformer (OPT). Також Apple адаптувала свої LLM для роботи на iPhone, а Nvidia впроваджує NeMo Megatron LLM.

Згідно з коментарем від Apple, їхні великі мовні моделі використовуються «виключно для досліджень», тоді як Salesforce зазначила, що набір даних не застосовувався для покращення продуктів компанії. Інші компанії, згадані у дослідженні, як-от Bloomberg, EleutherAI і Databricks, або уникали коментарів, або не відповідали на запити.

Етичні та правові питання

Питання легальності використання таких даних для навчання ШІ залишається актуальним. З моменту запуску ChatGPT та зростання популярності текстових ботів це питання набуло ще більшої ваги. Прозорість компаній щодо цього питання досі залишається на низькому рівні, і розкрити деталі можуть лише судові процеси. Однак, як показав випадок з OpenAI, навіть така інформація може бути прихована.

Сценарист «Пуститися берега» Вінс Ґілліґан раніше висловив занепокоєння щодо генеративного ШІ, назвавши це «надзвичайно складною та енергомісткою формою плагіату». Це викликає питання, як би він відреагував на те, що його діалоги вже використовуються для навчання новітніх технологій.