Нова модель Fugatto від Nvidia для генерації звуку

Nvidia представила нову експериментальну генеративну модель штучного інтелекту, яку описує як «універсальний інструмент для роботи зі звуком». Ця модель отримала назву Foundational Generative Audio Transformer Opus 1, або Fugatto. Її можливості включають сприйняття текстових підказок для створення чи редагування музичних, голосових і звукових файлів.

Про це розповідає ProIT

Розробкою Fugatto займалася міжнародна команда дослідників штучного інтелекту, що значно підвищило її багатоакцентні та багатомовні можливості. Рафаель Валле, один із провідних дослідників проєкту та менеджер із прикладних аудіодосліджень в Nvidia, наголосив: «Ми хотіли створити модель, яка розуміє і генерує звук так само, як це роблять люди».

Застосування Fugatto

Компанія навела кілька можливих сценаріїв використання Fugatto. Музичні продюсери зможуть швидко створювати прототипи пісень із можливістю редагування стилів, голосів та інструментів. Також модель може допомогти у створенні матеріалів для вивчення мов із обраним голосом. Розробники відеоігор отримають змогу створювати різноманітні варіанти заздалегідь записаних звуків, що відповідають вибору та діям гравців під час гри.

Інноваційні можливості Fugatto

Дослідники відзначили, що Fugatto може виконувати завдання, яких її раніше не навчали. Наприклад, модель може поєднувати окремо засвоєні команди для генерації специфічних голосів, таких як сердитий голос із певним акцентом, або створювати звуки природи, як-от спів пташок під час грози. Здатність моделі створювати звуки, що змінюються з часом, наприклад, звук дощу, що наближається, є ще однією її важливою особливістю.

Поки що Nvidia не повідомила, чи надасть публічний доступ до Fugatto. Втім, ця модель не є першою генеративною технологією, яка створює звуки з тексту. Meta вже випустила відкритий інструментарій для генерації звуків на основі текстових описів, а Google презентував свій інструмент MusicLM для перетворення тексту на музику.