Компания Nvidia представила "швейцарский нож для звука" – свою новую генеративную ИИ-модель, которая способна создавать новые звуки и менять существующие с помощью тестовых подсказок. Ее назвали Fugatto, сокращенно от Foundational Generative Audio Transformer Opus 1.
По словам разработчиков, новая нейросеть умеет создавать "звуки, которые вы никогда раньше не слышали" – например, мяукающую трубу или превратить звук фортепиано в человеческий голос. Как все это работает, показали на видео:
Исследователи также обнаружили, что ИИ Fugatto умеет справляться с задачами, которые изначально не входили в ее программу обучения. Например, модель может выделять речь и менять характеристики ее звучания – тон, акцент и даже настроение. А еще она способна генерировать звуки, которые меняются со временем, вроде шума ливня, движущегося по земле.
Менеджер по прикладным аудиоисследованиям компании Рафаэль Валле считает, что Fugatto станет для современной музыки "таким же прорывом, как 50 лет назад им стал синтезатор". Но пока разработчики не спешат открывать технологию для всех желающих.
По мнению компании, любая генеративная ИИ-модель всегда несет в себе определенные риски, поскольку люди могут использовать его "для создания того, чего мы предпочли бы избегать", в частности, связанные с авторским правом, а также нарушением некоторых законов.
Напомним, ранее в этом году Nvidia выпустила собственный аналог ChatGPT. Его отличительной чертой является то, что он способен работать локально на компьютере с Windows. Доступ к интернету при этом не потребуется.