Google DeepMind та Стенфорд розробили систему перевірки даних ШІ — виправляє 76% неправдивих відповідей

by host 4 місяці назад

4 місяці назад

Одним з найбільших недоліків чатботів на основі штучного інтелекту є так звані «галюцинації», коли ШІ вигадує недійсну інформацію, тобто фактично бреше. Деякі експерти кажуть, що це одна з цікавих особливостей ШІ, і це може бути корисним для генеративних моделей, які створюють зображення та відео. Але не для мовних моделей, які дають відповіді на запитання користувачів, котрі розраховують на точні дані.

Лабораторія Google DeepMind та Стенфордський університет, схоже знайшли обхідний шлях для розв’язання проблеми. Дослідники розробили систему перевірки для великих мовних моделей штучного інтелекту: Search-Augmented Factuality Evaluator, або SAFE перевіряє довгі відповіді, створені чатботами ШІ. Їхні дослідження доступні як препринт на arXiv разом з усім експериментальним кодом та наборами даних.

Система аналізує, обробляє та оцінює відповіді в чотири кроки, щоб перевірити їхню точність та відповідність. Спочатку SAFE розбиває відповідь на окремі факти, переглядає їх і порівнює з результатами пошуку Google. Система також перевіряє релевантність окремих фактів наданому запиту.

Щоб оцінити продуктивність SAFE, дослідники створили LongFact, набір даних із приблизно 16 000 фактів. Потім вони випробували систему на 13 великих мовних моделях з чотирьох різних сімейств (Claude, Gemini, GPT, PaLM-2). У 72% випадків SAFE давала ті самі результати, що й перевірка людьми. У випадках незгоди з результатами ШІ SAFE мала рацію у 76% випадків.

Дослідники стверджують, що використання SAFE у 20 разів дешевше, ніж перевірка людьми. Таким чином, рішення виявилося економічно життєздатним та придатним до масштабування. Наявні підходи до оцінки відповідності контенту, створеного моделлю, зазвичай покладаються на безпосередню людську оцінку. Попри цінність, цей процес обмежений суб’єктивністю та мінливістю людського судження та проблемами масштабованості застосування людської праці до великих наборів даних.

ШІ-чатбот влади Нью-Йорку дає неправдиві відповіді щодо міських правил та діяльності бізнесу

Джерело: Marktechpost

Google DeepMind та Стенфорд розробили систему перевірки даних ШІ — виправляє 76% неправдивих відповідей

About Us

Categories

Userful Links

Latest Articles

Editor's Picks

Штучний інтелект впорався з найскладнішою...

Викидайте батарейки — тепер електроенергію...

Хакери підробляють UKR.NET для фішингу...

безпосередній доступ до файлів смартфону...

Google DeepMind та Стенфорд розробили систему перевірки даних ШІ — виправляє 76% неправдивих відповідей

Читайте також

About Us

Categories

Userful Links

Latest Articles

Editor's Picks