Датасет LAION-5B загалом містить понад 5 млрд зображень і слугує навчальною базою для багатьох нейромереж, як-от Stable Diffusion.
Про це розповідає ProIT
Згідно з нещодавнім дослідженням Стенфордської Інтернет-обсерваторії, у наборі даних також виявили тисячі фрагментів з жорстоким поводженням з дітьми, що можуть сприяти створенню небезпечного реалістичного контенту у генераторах зображень.
Представник організації, яка стоїть за LAION-5B, заявив, що вони дотримуються «політики нульової терпимості» до незаконного контенту і тимчасово видаляють набір даних, аби переконатися у його безпечності та переопублікувати.
«Цей звіт зосереджений на наборі даних LAION-5B в цілому. ШІ-моделі Stability тренувалися на його відфільтрованій підмножині», — сказали у Stability AI, британському стартапі штучного інтелекту, який фінансував і популяризував Stable Diffusion.
LAION-5B або його підмножини використовувалися для створення кількох версій Stable Diffusion — новіша, Stable Diffusion 2.0, була навчена на даних, які суттєво відфільтрували «небезпечні» матеріали в наборі даних, що значно ускладнило користувачам створення відвертих зображень. Але Stable Diffusion 1.5 дійсно генерує відверто сексуальний вміст і все ще використовується в Інтернеті.
Прессекретар компанії також сказав, що Stable Diffusion 1.5 взагалі була випущена не Stability AI, а Runway, відеостартапом зі штучним інтелектом, який допоміг створити оригінальну версію Stable Diffusion (тут дещо смішна ситуація, оскільки під час випуску цієї версії Stability AI й не згадала Runway, присвоївши собі усі заслуги).
«Ми додали фільтри для перехоплення небезпечних запитів або небезпечних результатів, а також інвестували в функції маркування вмісту, щоб допомогти ідентифікувати зображення, створені на нашій платформі. Ці рівні пом’якшення ускладнюють неправильне використання штучного інтелекту зловмисниками», — додали у компанії.
LAION-5B був випущений у 2022 році та використовує необроблений HTML-код, зібраний каліфорнійською некомерційною організацією, щоб шукати зображення в Інтернеті та пов’язувати їх з описами. Місяцями на дискусійних форумах і в соціальних мережах ширилися чутки про те, що набір даних містить незаконні зображення.
«Наскільки нам відомо, це перша спроба фактично кількісно визначити та підтвердити занепокоєння», — сказав Девід Тіль, головний технолог Стенфордської інтернет-обсерваторії.
Дослідники Стенфордської Інтернет-обсерваторії раніше також виявили, що генеративні моделі зображень штучного інтелекту можуть створювати CSAM, але шляхом поєднання двох «концепцій», таких як діти та сексуальна активність. Тіль сказав, що нове дослідження показує, що ці моделі можуть генерувати такі незаконні зображення через деякі основні дані.
Джерело: Engadget, Bloomberg