OpenAI анонсує нову аудіомодель для голосової взаємодії

OpenAI анонсує випуск інноваційної аудіомоделі, яка має з’явитися у першому кварталі 2026 року. Головна мета цієї розробки — наблизити голосову взаємодію з штучним інтелектом до максимально природної. Очікується, що нова модель зможе підтримувати діалог у реальному часі, адекватно реагувати на паузи та переривання, а її звучання стане ще ближчим до живої людської мови в порівнянні з нинішніми голосовими технологіями.

Про це розповідає ProIT

Стратегічний фокус на аудіо та апаратні рішення

Новий проект є частиною ширшої стратегії OpenAI із створення пристрою, який орієнтується насамперед на звук, а не на екран. Для розвитку цієї технології компанія об’єднала декілька команд, оскільки теперішні аудіомоделі ще поступаються текстовим у точності та швидкості. Передбачається, що нова система стимулюватиме користувачів дедалі частіше взаємодіяти з ШІ голосом, що відкриє додаткові можливості для її впровадження в автомобілях, побутових гаджетах та інших розумних пристроях.

Ринок і конкуренція в сегменті голосових технологій

Раніше спроби випуску масових пристроїв на базі штучного інтелекту, як-от Humane AI Pin чи кулон Friend AI, не здобули популярності через обмежений функціонал, високу вартість або побоювання щодо захисту приватних даних. Водночас такі гіганти, як Google, Meta та Amazon, активно розвивають власні рішення для покращення голосової взаємодії, зокрема для якісної ізоляції голосу навіть у галасливих середовищах.

Апаратний напрямок OpenAI курує колишній головний дизайнер Apple Джоні Айв, чия компанія io була придбана OpenAI за 6,5 мільярда доларів. Він розглядає аудіопристрої як спосіб зменшити залежність людей від екранів, пропонуючи новий підхід до роботи зі споживчою електронікою. Поява першого пристрою на основі нової аудіомоделі очікується вже приблизно через рік.

OpenAI готує нову аудіомодель, яка з’явиться у першому кварталі 2026 року та покликана зробити голосову взаємодію більш природною. Очікується, що вона зможе вести діалог у реальному часі, реагувати на паузи та переривання та звучати ближче до живої людської мови, ніж існуючі голосові рішення.