Популярні штучні інтелекти ChatGPT, Claude і Gemini пройшли тестування на точність під час аналізу новин про військовий конфлікт в Ірані. За результатами дослідження, проведеного експертами, було виявлено суттєві недоліки в роботі цих чат-ботів, особливо щодо достовірності їхніх відповідей.
Про це розповідає ProIT
Виявлені проблеми з достовірністю відповідей
Gemini, який часто надавав найдетальніші й найупевненіші пояснення, виявився лідером за кількістю помилок. Дослідники зафіксували вигадані імена представників іранської влади, неточні дати та неправильні цифри у відповідях бота. Це свідчить про схильність Gemini доповнювати відсутню інформацію ймовірними, але неправдивими деталями, створюючи так звані «галюцинації» штучного інтелекту.
ChatGPT показав середній рівень точності. Його відповіді були структурованими та містили загальні достовірні відомості, однак іноді чат-бот додавав неперевірені деталі. Частина аналітичних оцінок або припущень подавалася як встановлені факти, що може вводити користувачів в оману.
Claude виділився уважністю до фактів
На відміну від інших, Claude найбільш чітко відрізняв підтверджену інформацію від здогадок. Цей чат-бот регулярно посилався на джерела, а на питання щодо закритих військових операцій відмовлявся відповідати. Експерти наголошують, що в умовах швидкої зміни обставин під час війни особливо важливо, щоб штучний інтелект визнавав обмеження своїх знань і не вводив користувачів в оману.
«Найгірший результат показав Gemini. Хоча бот давав детальні та впевнені пояснення, він найчастіше припускався так званих “галюцинацій”. Дослідники виявили вигадані імена іранських посадовців, неправильні дати та неточні цифри. Фактично система намагалася заповнювати прогалини у знаннях правдоподібною, але недостовірною інформацією».