Google DeepMind и Hume AI: Развитие голосового ИИ

Google DeepMind объявила о заключении лицензионного соглашения с Hume AI, в результате которого к ее команде присоединятся генеральный директор Алан Коэн и около семи ведущих инженеров голосового стартапа. Задачей нового подразделения станет совершенствование голосовых возможностей ИИ-системы Gemini.

Об этом сообщает ProIT

Развитие голосовых технологий в сфере искусственного интеллекта

По информации Wired, Hume AI и впредь будет предоставлять свои технологии другим компаниям в сфере искусственного интеллекта. Финансовые условия соглашения не раскрываются.

«Это соглашение является очередным примером того, как крупные игроки индустрии ИИ привлекают ведущих специалистов, обходя регуляторные барьеры путем приобретения не компаний, а именно команд», – подчеркивает издание. В прошлом году Google уже привлекла руководство и ведущих исследователей стартапа Windsurf, а OpenAI в последнее время интегрировала команды стартапов Covogo и Roi. Федеральная торговая комиссия США более внимательно следит за подобными сделками.

Hume AI и рынок голосовых интерфейсов

Особенность Hume AI заключается в способности распознавать эмоции и настроение пользователя по голосу. В 2024 году стартап выпустил интерфейс Empathetic Voice Interface — разговорный ИИ с эмоциональным интеллектом. По данным PitchBook, Hume AI привлекла уже почти $80 млн инвестиций и рассчитывает получить $100 млн дохода в этом году.

«Голос — это единственный приемлемый способ ввода для носимых устройств», — заявила инвестор Ванесса Ларко.

На рынке продолжается конкуренция за лидерство в сфере голосовых технологий. Google совершенствует функцию Gemini Live, которая позволяет вести диалоги с чат-ботом, недавно представив нативную аудиомодель для Live API с улучшенной поддержкой сложных сценариев использования.

OpenAI также инвестирует в развитие аудиомоделей и готовит к запуску персональное устройство с голосовым управлением, разработанное совместно с Джонни Айвом (io). Согласно последним утечкам, это устройство может быть в форме наушников-вкладышей.

В прошлом году Meta усилила свои позиции на рынке аудио ИИ, приобретя стартап Play AI. Умные очки Ray-Ban от Facebook все больше используют голосовое управление для осуществления звонков, отправки текстов, прослушивания музыки и фотографирования в режиме hands-free.

Спрос на голосовые решения продолжает расти. Например, ElevenLabs, стартап по созданию голосов на основе ИИ, уже превысил $330 млн годового повторяющегося дохода.