Google DeepMind та Hume AI: Розвиток голосового ШІ

Google DeepMind оголосила про укладання ліцензійної угоди з Hume AI, внаслідок якої до її команди приєднаються генеральний директор Алан Коуен та близько семи провідних інженерів голосового стартапу. Завданням нового підрозділу стане вдосконалення голосових можливостей ШІ-системи Gemini.

Про це розповідає ProIT

Розвиток голосових технологій у сфері штучного інтелекту

За інформацією Wired, Hume AI й надалі надаватиме свої технології іншим компаніям у сфері штучного інтелекту. Фінансові умови угоди не розголошуються.

«Ця угода є черговим прикладом того, як великі гравці індустрії ШІ залучають провідних фахівців, обходячи регуляторні бар’єри шляхом придбання не компаній, а саме команд», – наголошує видання. Торік Google вже залучила керівництво та провідних дослідників стартапу Windsurf, а OpenAI останнім часом інтегрувала команди стартапів Covogo і Roi. Федеральна торгова комісія США пильніше стежить за подібними угодами.

Hume AI та ринок голосових інтерфейсів

Особливість Hume AI полягає у здатності розпізнавати емоції та настрій користувача за голосом. У 2024 році стартап випустив інтерфейс Empathetic Voice Interface — розмовний ШІ з емоційним інтелектом. За даними PitchBook, Hume AI залучила вже майже $80 млн інвестицій і розраховує отримати $100 млн доходу цього року.

«Voice is the only acceptable input mode for wearables», — заявила інвесторка Ванесса Ларко.

На ринку триває конкуренція за лідерство у сфері голосових технологій. Google удосконалює функцію Gemini Live, яка дозволяє вести діалоги з чат-ботом, нещодавно представивши нативну аудіомодель для Live API з покращеною підтримкою складних сценаріїв використання.

OpenAI також інвестує у розвиток аудіомоделей та готує до запуску персональний пристрій з голосовим керуванням, розроблений спільно з Джонні Айвом (io). Згідно з останніми витоками, цей пристрій може бути у формі навушників-вкладишів.

Минулого року Meta посилила свої позиції на ринку аудіо ШІ, придбавши стартап Play AI. Розумні окуляри Ray-Ban від Facebook усе більше використовують голосове управління для здійснення дзвінків, надсилання текстів, прослуховування музики та фотографування у режимі hands-free.

Попит на голосові рішення продовжує зростати. Наприклад, ElevenLabs, стартап зі створення голосів на основі ШІ, вже перевищив $330 млн річного повторюваного доходу.