У рамках експерименту було протестовано низку популярних чат-ботів на базі штучного інтелекту (ШІ), зокрема Claude 3.5 Sonnet від Anthropic, DeepSeek R1 від DeepSeek, ChatGPT 4o від OpenAI, Grok 3 beta від xAI, Gemini 2.0 Flash від Google та Le Chat від Mistral AI. Тестування включало виконання простих завдань, що дало можливість оцінити їхні унікальні можливості та обмеження.
Про це розповідає ProIT
Огляд можливостей чат-ботів
Claude 3.5 Sonnet розроблений компанією Anthropic і фокусується на веденні розмов у природному стилі з акцентом на безпеку. Модель має контекстне вікно у 200 тис. токенів, що дозволяє зберігати інформацію з попередніх діалогів.
DeepSeek R1, що розроблений у Китаї, є відкритим програмним забезпеченням, яке вражає своєю продуктивністю у програмуванні, незважаючи на менші ресурси на його створення.
ChatGPT 4o від OpenAI є потужною моделлю, яка підтримує логічне міркування та може взаємодіяти в режимі реального часу, хоча без інтернету може видавати застарілі дані.
Grok 3 Beta від xAI має унікальні можливості для складних завдань і відзначається гумором і здатністю вловлювати настрій. Однак, у цій моделі є недоліки в генерації зображень.
Gemini 2.0 Flash від Google демонструє потужність у логічному аналізі і мультимодальності, однак виявився менш гнучким у філософських питаннях.
Le Chat, розроблений Mistral AI, має можливості для адаптації, однак ще потребує вдосконалення.
Етичні питання та реакції моделей
У тестах на моральність, коли запитували про вбивство комарів, моделі давали різні відповіді.
«Так, вбивати комарів є морально правильним»
— таку категоричну відповідь дав Gemini, на відміну від інших, які акцентували на варіативності етичних підходів.
При перевірці можливостей у пошуку новин, Grok показав найкращі результати, надаючи актуальні дані, тоді як Gemini відмовився обговорювати політичні питання.
Щодо креативних завдань, Claude вразив своєю здатністю генерувати оригінальні ідеї, тоді як інші моделі не продемонстрували такого ж рівня креативності.
Результати тестування продемонстрували, що кожна модель має свої сильні і слабкі сторони. Claude та ChatGPT підходять для генерації текстів, Grok виділяється гумором, тоді як Gemini й DeepSeek виявилися менш гнучкими в певних питаннях.