Головна Технології Google DeepMind та Стенфорд розробили систему перевірки даних ШІ — виправляє 76% неправдивих відповідей

Google DeepMind та Стенфорд розробили систему перевірки даних ШІ — виправляє 76% неправдивих відповідей

by host

Одним з найбільших недоліків чатботів на основі штучного інтелекту є так звані «галюцинації», коли ШІ вигадує недійсну інформацію, тобто фактично бреше. Деякі експерти кажуть, що це одна з цікавих особливостей ШІ, і це може бути корисним для генеративних моделей, які створюють зображення та відео. Але не для мовних моделей, які дають відповіді на запитання користувачів, котрі розраховують на точні дані.

Лабораторія Google DeepMind та Стенфордський університет, схоже знайшли обхідний шлях для розв’язання проблеми. Дослідники розробили систему перевірки для великих мовних моделей штучного інтелекту: Search-Augmented Factuality Evaluator, або SAFE перевіряє довгі відповіді, створені чатботами ШІ. Їхні дослідження доступні як препринт на arXiv разом з усім експериментальним кодом та наборами даних.

Система аналізує, обробляє та оцінює відповіді в чотири кроки, щоб перевірити їхню точність та відповідність. Спочатку SAFE розбиває відповідь на окремі факти, переглядає їх і порівнює з результатами пошуку Google. Система також перевіряє релевантність окремих фактів наданому запиту.

Щоб оцінити продуктивність SAFE, дослідники створили LongFact, набір даних із приблизно 16 000 фактів. Потім вони випробували систему на 13 великих мовних моделях з чотирьох різних сімейств (Claude, Gemini, GPT, PaLM-2). У 72% випадків SAFE давала ті самі результати, що й перевірка людьми. У випадках незгоди з результатами ШІ SAFE мала рацію у 76% випадків.

Дослідники стверджують, що використання SAFE у 20 разів дешевше, ніж перевірка людьми. Таким чином, рішення виявилося економічно життєздатним та придатним до масштабування. Наявні підходи до оцінки відповідності контенту, створеного моделлю, зазвичай покладаються на безпосередню людську оцінку. Попри цінність, цей процес обмежений суб’єктивністю та мінливістю людського судження та проблемами масштабованості застосування людської праці до великих наборів даних.

ШІ-чатбот влади Нью-Йорку дає неправдиві відповіді щодо міських правил та діяльності бізнесу

Джерело: Marktechpost

Читайте також

About Us

Soledad is the Best Newspaper and Magazine WordPress Theme with tons of options and demos ready to import. This theme is perfect for blogs and excellent for online stores, news, magazine or review sites. Buy Soledad now!

Latest Articles

© ProIT. Видання не несе жодної відповідальності за зміст і достовірність фактів, думок, поглядів, аргументів та висновків, які викладені у інформаційних матеріалах з посиланням на інші джерела інформації. Усі запити щодо такої інформації мають надсилатися виключно джерелам відповідної інформації.