Чому штучний інтелект не може малювати руки: думка експерта

Олександр Краковецький, керівник компанії DevRain, має понад 20-річний досвід у сфері штучного інтелекту. Нещодавно він взяв участь у проєкті «Запитай мене» на YouTube-каналі AIN, де відповів на популярні запитання з інтернету про ШІ.

Про це розповідає ProIT

Чому штучний інтелект не вміє малювати руки?

Однією з головних проблем, з якою стикаються великі мовні моделі та інші інструменти ШІ, є нездатність генерувати зображення рук. Ця ситуація пояснюється не лише проблемами з малюванням рук, але й труднощами в відтворенні інших анатомічних елементів, таких як очі та вуха. В основі цієї проблеми лежить недостатня кількість прикладів у наборах даних, на яких навчали моделі. Відтак, LLM (великі мовні моделі) не можуть належно генерувати ці частини тіла.

LLM створюють зображення попіксельно, не маючи розуміння анатомії та фізики тіла. Тому багато розробників почали більше уваги приділяти поліпшенню наборів даних, що стосуються анатомічних особливостей людини. З огляду на це, останні версії LLM демонструють значний прогрес у генерації зображень.

Чи стає тест Тюрінга застарілим?

Тест Тюрінга, що полягає у визначенні, чи спілкується людина з роботом чи з живою істотою, був успішно пройдений ще в 60-х роках. Проте, з приходом великих мовних моделей, він поступово відходить на другий план. Наразі для оцінки прогресу таких моделей використовуються різні бенчмарки, і тест Тюрінга вже не є основним критерієм.

«Тест Тюрінга вже стає застарілим, але саме з нього почався штучний інтелект».

Штучний інтелект може бути упередженим через різноманітні фактори, найпершим з яких є набір даних. Якщо дані містять упередження, то модель, яка на них навчалася, також буде упереджена. Однак це не єдиний етап. Упередження можуть виникати під час додаткового навчання, коли люди оцінюють роботу ШІ та впливають на процес своїми упередженнями. Можливі також організаційні упередження, коли компанії встановлюють обмеження та модерацію.

Це явище можна спостерігати на прикладі компанії DeepSeek, де над великою мовною моделлю було накладено певний шар цензури, що також свідчить про упередженість.

Додаткові питання, такі як можливість заміни психолога штучним інтелектом та перспективи повстання машин, також викликають обговорення в спеціалістів галузі.