Головна Технології Нова система безпеки Microsoft «вловлює» галюцинації в ШІ-програмах клієнтів Azure

Нова система безпеки Microsoft «вловлює» галюцинації в ШІ-програмах клієнтів Azure

by host

Фахівці підрозділу відповідального штучного інтелекту Microsoft розробили кілька нових функцій безпеки для клієнтів платформи Azure AI Studio.

Про це розповідає ProIT

Керівниця підрозділу Сара Берд каже, що ці інструменти, побудовані на базі великої мовної моделі, можуть виявляти потенційні вразливості у системах, відстежувати «правдоподібні» галюцинації ШІ й блокувати зловмисні підказки в режимі реального часу — коли клієнти Azure AI працюють з будь-якою моделлю, розмішеною на платформі.

«Ми знаємо, що не всі клієнти мають досвід у миттєвих атаках, тому система оцінки генерує підказки, необхідні для імітації таких типів атак. Тоді клієнти можуть отримати оцінку та побачити результати», — каже вона.

Система потенційно може нівелювати суперечки щодо генеративного ШІ, спричинені небажаними або ненавмисними відповідями — як-от нещодавні з відвертими фейками про знаменитостей в генераторі зображень Microsoft Designer чи історично неточними результатами від Google Gemini, або тривожними зображеннями анімаційних героїв, який пілотують літак у напрямку до веж-близнюків, згенерованими Bing.

Наразі в попередній версії на Azure AI доступні три функції:

  • Prompt Shields, яка блокує швидкі запити або зловмисні підказки, які змушують моделі забувати свої навчальні дані;
  • Groundedness Detection, яка знаходить і блокує галюцинації;
  • Функція оцінки безпеки, яка зважує вразливості моделі.

Дві інші функції для спрямування моделей на безпечні результати та відстеження підказок для позначення потенційно проблемних користувачів з’являться незабаром.

Незалежно від того, вводить підказку користувач чи модель обробляє дані третьої сторони, система моніторингу оцінить її, щоб побачити, чи запускає вона якісь заборонені слова, чи має приховані підказки, перш ніж вирішить надіслати її моделі для відповіді. Після цього система переглядає відповідь та перевіряє, чи не галюцинувала модель (тобто видавала помилкові дані).

У майбутньому клієнти Azure також зможуть отримувати звіти про користувачів, які намагаються ініціювати небезпечні виходи. Берд каже, що це дозволить системним адміністраторам розрізняти червоні команди та людей зі зловмисними намірами.

Зазначається, що функції безпеки одразу «підключаються» до GPT-4 та інших популярних моделей, таких як Llama 2. Однак, оскільки колекція моделей Azure містить багато систем штучного інтелекту — користувачам менш використовуваних систем з відкритим кодом, можливо, доведеться додати їх вручну.

Джерело: The Verge

Читайте також

About Us

Soledad is the Best Newspaper and Magazine WordPress Theme with tons of options and demos ready to import. This theme is perfect for blogs and excellent for online stores, news, magazine or review sites. Buy Soledad now!

Latest Articles

© ProIT. Видання не несе жодної відповідальності за зміст і достовірність фактів, думок, поглядів, аргументів та висновків, які викладені у інформаційних матеріалах з посиланням на інші джерела інформації. Усі запити щодо такої інформації мають надсилатися виключно джерелам відповідної інформації.