Нові голосові функції OpenAI для API: транскрипція та переклад

OpenAI оголосила про впровадження нових голосових інтелектуальних функцій у свій API, які дозволяють розробникам створювати застосунки, здатні спілкуватися, транскрибувати та перекладати розмови в режимі реального часу.

Про це розповідає ProIT

Нові голосові моделі та переклад у реальному часі

Серед найважливіших оновлень — модель GPT-Realtime-2, яка забезпечує реалістичне і природне голосове спілкування з користувачами. На відміну від попередньої версії, GPT-Realtime-2 створена на основі GPT-5-класу й може справлятися зі складнішими завданнями завдяки розширеному логічному мисленню.

Ще одне нововведення — GPT-Realtime-Translate, що надає можливість автоматичного перекладу розмов у реальному часі. Ця функція підтримує понад 70 мов для розуміння й 13 мов для озвучування, що дозволяє ефективно спілкуватися багатомовним командам і користувачам по всьому світу.

Технології для бізнесу та безпеки користувачів

Також OpenAI представила GPT-Realtime-Whisper — інструмент, який дає змогу миттєво перетворювати мовлення у текст під час розмови. Ця можливість стане в пригоді для створення нотаток, ведення протоколів зустрічей і автоматизації обробки дзвінків.

«Разом моделі, які ми впроваджуємо, переводять роботу з аудіо в реальному часі від простого принципу “запит–відповідь” до голосових інтерфейсів, здатних виконувати завдання: слухати, міркувати, перекладати, транскрибувати й діяти в міру розвитку розмови», — зазначили в компанії.

Оновлення будуть особливо корисними для компаній, які прагнуть розширити можливості клієнтської підтримки, а також для освітньої сфери, медіа, організаторів заходів і платформ для контент-крієторів. OpenAI наголошує, що нові функції також вплинуть на різноманітні галузі, де голосова взаємодія відіграє ключову роль.

Щоб запобігти можливим зловживанням, компанія впровадила спеціальні запобіжники, які блокуватимуть використання сервісу для створення спаму, шахрайства чи інших форм онлайн-зловживань. У системі передбачено тригери, які дозволяють зупинити розмову, якщо виявлено порушення політики щодо шкідливого контенту.

Усі нові голосові моделі вже доступні через Realtime API від OpenAI. GPT-Realtime-Translate та GPT-Realtime-Whisper тарифікуються за хвилину використання, а GPT-Realtime-2 — відповідно до кількості використаних токенів.