Новые голосовые функции OpenAI для API: перевод и транскрипция

OpenAI объявила о внедрении новых голосовых интеллектуальных функций в свой API, которые позволяют разработчикам создавать приложения, способные общаться, транскрибировать и переводить разговоры в режиме реального времени.

Об этом сообщает ProIT

Новые голосовые модели и перевод в реальном времени

Среди важнейших обновлений — модель GPT-Realtime-2, которая обеспечивает реалистичное и естественное голосовое общение с пользователями. В отличие от предыдущей версии, GPT-Realtime-2 создана на основе GPT-5-класса и может справляться со сложными задачами благодаря расширенному логическому мышлению.

Еще одно нововведение — GPT-Realtime-Translate, которое предоставляет возможность автоматического перевода разговоров в реальном времени. Эта функция поддерживает более 70 языков для понимания и 13 языков для озвучивания, что позволяет эффективно общаться многоязычным командам и пользователям по всему миру.

Технологии для бизнеса и безопасности пользователей

Также OpenAI представила GPT-Realtime-Whisper — инструмент, который позволяет мгновенно преобразовывать речь в текст во время разговора. Эта возможность станет полезной для создания заметок, ведения протоколов встреч и автоматизации обработки звонков.

«Вместе модели, которые мы внедряем, переводят работу с аудио в реальном времени от простого принципа “запрос–ответ” к голосовым интерфейсам, способным выполнять задачи: слушать, размышлять, переводить, транскрибировать и действовать по мере развития разговора», — отметили в компании.

Обновления будут особенно полезны для компаний, стремящихся расширить возможности клиентской поддержки, а также для образовательной сферы, медиа, организаторов мероприятий и платформ для контент-криэйторов. OpenAI подчеркивает, что новые функции также повлияют на различные отрасли, где голосовое взаимодействие играет ключевую роль.

Чтобы предотвратить возможные злоупотребления, компания внедрила специальные защитные механизмы, которые будут блокировать использование сервиса для создания спама, мошенничества или других форм онлайн-злоупотреблений. В системе предусмотрены триггеры, которые позволяют остановить разговор, если обнаружено нарушение политики в отношении вредоносного контента.

Все новые голосовые модели уже доступны через Realtime API от OpenAI. GPT-Realtime-Translate и GPT-Realtime-Whisper тарифицируются за минуту использования, а GPT-Realtime-2 — в зависимости от количества использованных токенов.