ИИ-модель Fugatto от Nvidia «понимает и генерирует звук, как это делают люди»

26.11.2024 12:31

Infocity

Компания Nvidia представила новую генеративную ИИ-модель под названием Fugatto (Foundational Generative Audio Transformer Opus 1), которая использует текстовые подсказки для генерации новых или изменения существующих музыкальных, голосовых и звуковых файлов.

Разработчики описывают Fugatto как «швейцарский армейский нож для звука». В создании ИИ-модели принимали участие разработчики со всего мира. «Мы хотели создать модель, которая понимает и генерирует звук, как это делают люди», — рассказал участник проекта и менеджер по прикладным исследованиям звука в Nvidia Рафаэль Валле (Rafael Valle).

Nvidia выделила несколько сценариев, в которых Fugatto может быть полезна:

Музыкальным продюсерам в создании прототипа песен с их дальнейшим редактированием;
При создании аудиоматериалов для изучения языка;
Разработчикам видеоигр для озвучки персонажей в зависимости от действий геймера.

Кроме того, разработчики утверждают, что модель при некоторой дополнительной тонкой настройке может выполнять задачи, не входившие в ее предварительное обучение. В частности, Fugatto способна объединять различные инструкции, например, генерировать речь с определенными интонациями и акцентом или звук пения птиц во время грозы. Модель также умеет генерировать изменяющиеся со временем звуки, например, шум приближающегося ливня или удаляющегося поезда.

Пока что Nvidia не предоставила публичный доступ к Fugatto.

The post ИИ-модель Fugatto от Nvidia «понимает и генерирует звук, как это делают люди» appeared first on InfoCity.