Инструмент под названием Fugatto создаёт музыку, звуки и речь на основе текстовых и аудиоматериалов, с которыми он ранее не был знаком.
В показанном видео Fugatto создаёт музыкальные композиции, следуя нестандартным инструкциям. Например, «сымитируй звук саксофона, затем лай, а затем добавь электронную музыку с лаем собак».
Среди других возможностей, продемонстрированных Nvidia, — создание уникальных звуковых эффектов по описанию. Например, «глубокие, грохочущие басовые импульсы, дополненные прерывистыми, высокими цифровыми щебетаниями, напоминающими пробуждение гигантской разумной машины».
Fugatto также может модифицировать звучание голоса, изменяя интонацию или тембр. Это позволяет сделать голос более спокойным или, наоборот, более эмоциональным.
Кроме того, Fugatto предоставляет возможность редактировать музыку. С его помощью можно выделить вокал, добавить новые инструменты или изменить звучание, например, заменив фортепиано на оперный вокал.
В документации, сопровождающей продукт Fugatto от Nvidia, перечисляются наборы данных, которые были использованы для его обучения. Среди них есть и библиотека звуковых эффектов от BBC.
На рынке уже есть и другие инструменты на основе искусственного интеллекта, которые могут работать с аудио, например, Stability AI, OpenAI, Google DeepMind, ElevenLabs и Adobe. Однако Fugatto выделяется среди них тем, что может создавать звуки, которых раньше не существовало.
Важно подчеркнуть, что некоторые стартапы, занимающиеся разработкой искусственного интеллекта для музыки, сталкиваются с судебными исками из-за нарушения авторских прав. Недавние расследования показали, что такие компании, как Nvidia, использовали для обучения своих моделей субтитры из тысяч видео на YouTube.
Для создания Fugatto исследователи собрали большой объём данных, содержащий миллионы аудиозаписей, и разработали инструкции, которые улучшили работу модели, сделав её более точной и универсальной.
На данный момент нет информации о том, когда и будет ли Fugatto доступен для всех желающих.