OpenAI анонсирует выпуск инновационной аудиомодели, которая появится в первом квартале 2026 года. Главная цель этой разработки — приблизить голосовое взаимодействие с искусственным интеллектом к максимально естественному. Ожидается, что новая модель сможет поддерживать диалог в реальном времени, адекватно реагировать на паузы и прерывания, а ее звучание станет еще ближе к живой человеческой речи по сравнению с нынешними голосовыми технологиями.
Об этом сообщает ProIT
Стратегический фокус на аудио и аппаратные решения
Новый проект является частью более широкой стратегии OpenAI по созданию устройства, которое ориентируется прежде всего на звук, а не на экран. Для развития этой технологии компания объединила несколько команд, поскольку современные аудиомодели все еще уступают текстовым в точности и скорости. Предполагается, что новая система будет стимулировать пользователей все чаще взаимодействовать с ИИ голосом, что откроет дополнительные возможности для ее внедрения в автомобилях, бытовых гаджетах и других умных устройствах.
Рынок и конкуренция в сегменте голосовых технологий
Ранее попытки выпуска массовых устройств на базе искусственного интеллекта, таких как Humane AI Pin или кулон Friend AI, не завоевали популярности из-за ограниченного функционала, высокой стоимости или опасений по поводу защиты личных данных. В то же время такие гиганты, как Google, Meta и Amazon, активно развивают собственные решения для улучшения голосового взаимодействия, в том числе для качественной изоляции голоса даже в шумных средах.
Аппаратным направлением OpenAI руководит бывший главный дизайнер Apple Джони Айв, чья компания io была приобретена OpenAI за 6,5 миллиарда долларов. Он рассматривает аудиоустройства как способ уменьшить зависимость людей от экранов, предлагая новый подход к работе с потребительской электроникой. Появление первого устройства на основе новой аудиомодели ожидается уже примерно через год.
OpenAI готовит новую аудиомодель, которая появится в первом квартале 2026 года и призвана сделать голосовое взаимодействие более естественным. Ожидается, что она сможет вести диалог в реальном времени, реагировать на паузы и прерывания и звучать ближе к живой человеческой речи, чем существующие голосовые решения.