Чтение онлайн

на главную - закладки

Жанры

Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:

В целом наиболее продвинутой, основанной на трансформерах генеративной моделью для музыки является MuseNet от OpenAI. Её архитектура основана на тех же принципах, что и текстовые генеративные модели GPT-2 и GPT-3 (в MuseNet, как и в GPT-3, используются блоки разреженного трансформера). Длина контекста 72-слойной модели составляет 4096 токенов. По примерным прикидкам, в MuseNet должно быть около 2–3 млрд весов.

Для обучения модели был создан огромный датасет MIDI-файлов, в который вошли коллекции classicalarchives.com и bitmidi.com, датасет MAESTRO [2972] , а также ряд тематических и этнических сборников MIDI-музыки, собранных авторами в интернете. Этот датасет был затем дополнительно аугментирован путём небольших изменений темпа. Также в модель был включён специальный механизм, предназначенный для снижения вероятности прямого плагиата, когда модель просто воспроизводит достаточно длинные фрагменты, представленные в обучающей выборке. К сожалению, хотя MuseNet и можно воспользоваться онлайн, информация о самой модели в настоящее время ограничивается лишь популярным постом [2973] в блоге OpenAI, то есть препринт

исследования не был опубликован. Будем надеяться, что OpenAI рано или поздно поделится с сообществом деталями своих экспериментов.

2972

Hawthorne C., Stasyuk A., Roberts A., Simon I., Huang C.-Z. A., Dieleman S., Elsen E., Engel J., Eck D. (2019). Enabling Factorized Piano Music Modeling and Generation with the MAESTRO Dataset / In International Conference on Learning Representations // https://openreview.net/forum?id=r1lYRjC9F7

2973

Payne C. M. (2019). MuseNet / OpenAI blog, April 25, 2019 // https://openai.com/blog/musenet/

В целом генеративные музыкальные модели, работающие на уровне нотного текста, стали в наши дни помощниками композиторов, а иногда способны и на создание вполне самостоятельных произведений на уровне лучших композиторов. В 2019 г. впервые в истории был подписан контракт между крупным музыкальным лейблом (Warner Music) и компанией, создавшей систему для алгоритмической генерации музыки — Endel [2974] .

Семейство генеративных музыкальных моделей SymFormer, работающих в нотном домене, создано у нас в Управлении экспериментальных систем машинного обучения департамента SberDevices «Сбера» командой под руководством Алексея Минина [2975] , [2976] . С творчеством этих нейросетей можно познакомиться в сервисе «Звук», где оно размещается от имени нейросетевого ансамбля Aiphoria [2977] .

2974

Deahl D. (2019). Warner music signed an algorithm to a record deal — what happens next? / The Verge, Mar 27, 2019 // https://www.theverge.com/2019/3/27/18283084/warner-music-algorithm-signed-ambient-music-endel

2975

Минин А. (2022). Маэстро: как виртуальные ассистенты Салют превращают текст в музыку / Хабр, 23 декабря 2022 // https://habr.com/ru/companies/sberdevices/articles/707138/

2976

Минин А. (2021). SymFormer: как мы написали музыку с помощью трансформеров и вариационных автоэнкодеров / Хабр, 25 ноября 2021 // https://habr.com/ru/companies/sberdevices/articles/591441/

2977

Aiphoria (2024) // https://zvuk.com/artist/211304339

Концерт, где генеративная нейросеть впервые в мире стала солистом и импровизатором, состоялся в рамках культурной программы Восточного экономического форума (ВЭФ) в сентябре 2023 г. Это выступление стало результатом нашей совместной работы с известным российским музыкантом и композитором Петром Дрангой [2978] .

Но нельзя ли добиться столь же впечатляющих результатов, работая с акустическими данными? В конце концов, мы же упоминали, что модель WaveNet, обученная на записях фортепианных концертов, способна на самостоятельную импровизацию? Почему бы не избавиться раз и навсегда от всех этих библиотек инструментов и математически точного исполнения нот, лишённого индивидуального стиля исполнителя? Быть может, удастся замахнуться и на большее? Быть может, такая модель сможет заодно воспроизводить и человеческое пение — чем голос не музыкальный инструмент, пусть и сложный? Так или иначе, всё многообразие звуков, составляющих в сумме музыку, сводится к колебаниям среды, которые можно описать в виде наборов чисел. С вычислительной точки зрения это, на первый взгляд, звучит совершенно фантастически. Однако в мире нашлись исследователи, которых это не испугало. Речь идёт о создателях модели Jukebox. В конце апреля 2020 г. в блоге компании OpenAI появилась статья [2979] , описывающая доселе невиданную модель. Статья содержала ссылку на препринт исследования под названием «Jukebox: генеративная модель для музыки» (Jukebox: A Generative Model for Music) [2980] , а также популярное объяснение принципов работы модели и примеры сгенерированных музыкальных произведений.

2978

ИИ впервые в мире солировал на концерте ВЭФ во Владивостоке // https://ria.ru/20230910/kontsert-1895341104.html

2979

Dhariwal P., Jun H., Payne C. M., Kim J. W., Radford A., Sutskever I. (2020). Jukebox / OpenAI blog, April 30, 2020 // https://openai.com/blog/jukebox/

2980

Dhariwal P., Jun H., Payne C., Kim J. W., Radford A., Sutskever I. (2020). Jukebox: A Generative Model for Music // https://arxiv.org/abs/2005.00341

Jukebox получает на вход информацию о жанре, исполнителе, а также текст песни и генерирует на их основе готовое музыкальное произведение. Можно сказать, что Jukebox самостоятельно сочиняет и исполняет музыкальное произведение с заданным текстом в стиле заданного исполнителя. Выглядит как магия, не правда ли?

Типичная песня продолжительностью четыре минуты в CD-качестве (44 кГц, 16 бит) представляет собой последовательность из более чем 10 млн элементов. Современные модели на основе трансформеров способны

«видеть» контекст длиною всего в несколько тысяч элементов. Этого совершенно недостаточно для того, чтобы «постичь» высокоуровневую музыкальную семантику. Одним из наиболее популярных инструментов глубокого обучения, предназначенных для борьбы с «проклятием размерности», являются автокодировщики. Автокодировщик может сжать оригинальный звук в пространство меньшей размерности, отбрасывая некоторые несущественные для восприятия части информации. Затем можно обучить модель генерировать звук в этом сжатом пространстве, а затем «развернуть» полученное латентное представление в исходное звуковое пространство при помощи декодера. В Jukebox роль автокодировщика выполняет усовершенствованная версия модели VQ-VAE. При этом используется сразу три уровня кодирования, которые сжимают исходный звук в 8, 32 и 128 раз соответственно. В зависимости от степени сжатия восстановленный звук становится всё более и более шумным, но даже сжатый в 128 раз сигнал сохраняет информацию о высоте тона, тембре и громкости звука.

Каждый уровень VQ-VAE кодирует вход независимо. Кодирование нижнего уровня (8 : 1) обеспечивает реконструкцию самого высокого качества, в то время как кодирование верхнего уровня (128 : 1) сохраняет только важную музыкальную информацию.

Каждому уровню VQ-VAE соответствует нейронная сеть для прогнозирования распределения вероятностей следующего элемента последовательности. Эти 72-слойные сети основаны на упрощённой версии блоков разреженного трансформера. Длина контекста каждой из сетей составляет 8192 элемента, что составляет для каждого из уровней 24 секунды, 6 секунд и 1,5 секунды соответственно. Модели более низкого уровня позволяют детализировать звук, внося в него более низкоуровневую структуру.

Для обучения Jukebox авторы исследования использовали набор данных, состоящий приблизительно из 1,2 млн песен (примерно половина из них была на английском языке) в сочетании с соответствующими текстами песен и метаданными (исполнитель, жанр альбома, год создания песни, распространённые ключевые слова и отметки настроения для плейлистов, содержащих песню), позаимствованными у проекта LyricWiki. Весь звук был преобразован в моно, при этом для аугментации данных исследователи добавляли в обучающую выборку несколько версий каждой из песен, немного варьируя пропорции при смешении каналов.

Сеть верхнего уровня получает на вход информацию об исполнителе и жанре песни. Помимо исполнителя и жанра, используется текст песни. Большой проблемой при этом является отсутствие хорошо согласованного набора данных: тексты песен обычно не содержат меток временного выравнивания относительно звукозаписи. То есть текстовые данные существуют в отрыве от звуковых — точно неизвестно, в какой момент поются те или иные слова (здесь могли бы помочь записи для караоке, но их сравнительно немного). Чтобы выровнять текст относительно звуковой дорожки, авторы применяют специальную модель для автоматического выравнивания, использование которой, впрочем, не всегда позволяет достичь идеальной точности.

В январе 2023 г. свою новую нейросеть для генерации музыки представили исследователи из Google. Сеть получила название MusicLM. Она способна генерировать аудиозаписи с частотой дискретизации 24 кГц на основе текстовых описаний, таких как «успокаивающая мелодия скрипки, сопровождаемая гитарным риффом с дисторшн-эффектом» [a calming violin melody backed by a distorted guitar riff]. Авторы модели также опубликовали набор данных MusicCaps, состоящий из 5 521 пары «текстовое описание — музыка» [2981] .

2981

Agostinelli A., Denk T. I., Borsos Z., Engel J., Verzetti M., Caillon A., Huang Q., Jansen A., Roberts A., Tagliasacchi M., Sharifi M., Zeghidour N., Frank C. (2023). MusicLM: Generating Music From Text // https://arxiv.org/abs/2301.11325

Несмотря на то что Jukebox и MusicLM стали большими шагами вперёд в отношении качества музыки и возможности управлять результатами композиции, разрыв между созданной ими музыкой и музыкой, сочинённой и исполненной людьми, всё ещё значителен. Хотя сгенерированные песни демонстрируют локальную музыкальную согласованность, следуют традиционным последовательностям аккордов и даже могут содержать впечатляющие соло, в них отсутствуют характерные признаки крупномасштабной семантической структуры (например, припевы). Автокодировщики нередко вносят в звуковой ряд заметный шум. Кроме того, скорость синтеза чрезвычайно медленная. В экспериментах авторов модели для создания одной минуты звука требовалось около 9 часов, поэтому Jukebox пока что нельзя использовать в интерактивных приложениях. Помимо этого, модель может сочинять песни только на английском языке. И всё же в числе отобранных авторами исследования композиций есть замечательные образцы. Чего стоят хотя бы ожившие голоса Луи Армстронга и Фрэнка Синатры, поющие современные тексты в своём узнаваемом стиле! При этом прелесть ИИ заключается в том, что в будущем результаты будут только улучшаться. Талантливый композитор или исполнитель не столь долговечен, как человеческие знания и технологии. Композиторы и исполнители современности не всегда могут достичь столь же выдающихся результатов, как их предшественники, в отношении же моделей машинного обучения технический прогресс обещает нам движение только вперёд, без отступлений и компромиссов.

6.6.12 Машина создаёт всё: мультимодальные модели

В конце 2020 г. исследователи из Microsoft обнародовали работу, посвящённую созданию модели M3P (Multitask Multilingual Multimodal Pre-training, Многозадачное многоязычное мультимодальное предобучение) [2982] . Здесь мы снова, как и в случае с моделью Z-code M3, видим в названии три M, но теперь третья M обозначает не MoE, а мультимодальность. Таким образом, вероятно, в отношении некоторых моделей уже сейчас можно употребить термин M4: например, WuDao 2.0 является одновременно многозадачной, многоязычной, мультимодальной и MoE-моделью.

2982

Ni M., Huang H., Su L., Cui E., Bharti T., Wang L., Gao J., Zhang D., Duan N. (2020). M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training // https://arxiv.org/abs/2006.02635

Поделиться:
Популярные книги

Лучше подавать холодным

Аберкромби Джо
4. Земной круг. Первый Закон
Фантастика:
фэнтези
8.45
рейтинг книги
Лучше подавать холодным

Все романы Роберта Шекли в одной книге

Шекли Роберт
2. Собрание сочинений Роберта Шекли в двух томах
Фантастика:
фэнтези
научная фантастика
5.00
рейтинг книги
Все романы Роберта Шекли в одной книге

Его маленькая большая женщина

Резник Юлия
Любовные романы:
современные любовные романы
эро литература
8.78
рейтинг книги
Его маленькая большая женщина

Город воров. Темные переулки Империи

Муравьёв Константин Николаевич
8. Пожиратель
Фантастика:
боевая фантастика
5.00
рейтинг книги
Город воров. Темные переулки Империи

Купи мне маму!

Ильина Настя
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Купи мне маму!

Возвышение Меркурия. Книга 7

Кронос Александр
7. Меркурий
Фантастика:
героическая фантастика
попаданцы
аниме
5.00
рейтинг книги
Возвышение Меркурия. Книга 7

Корпорация «Исполнение желаний»

Мелан Вероника
2. Город
Приключения:
прочие приключения
8.42
рейтинг книги
Корпорация «Исполнение желаний»

Идеальный мир для Лекаря 18

Сапфир Олег
18. Лекарь
Фантастика:
юмористическое фэнтези
аниме
5.00
рейтинг книги
Идеальный мир для Лекаря 18

Лучший из худший 3

Дашко Дмитрий
3. Лучший из худших
Фантастика:
городское фэнтези
попаданцы
аниме
6.00
рейтинг книги
Лучший из худший 3

Если твой босс... монстр!

Райская Ольга
Любовные романы:
любовно-фантастические романы
5.50
рейтинг книги
Если твой босс... монстр!

Королева Солнца. Предтечи. Повелитель зверей. Кн. 1-17

Нортон Андрэ
Королева Солнца
Фантастика:
фэнтези
6.25
рейтинг книги
Королева Солнца. Предтечи. Повелитель зверей. Кн. 1-17

Безумный Макс. Поручик Империи

Ланцов Михаил Алексеевич
1. Безумный Макс
Фантастика:
героическая фантастика
альтернативная история
7.64
рейтинг книги
Безумный Макс. Поручик Империи

Real-Rpg. Еретик

Жгулёв Пётр Николаевич
2. Real-Rpg
Фантастика:
фэнтези
8.19
рейтинг книги
Real-Rpg. Еретик

Идеальный мир для Лекаря 26

Сапфир Олег
26. Лекарь
Фантастика:
аниме
фэнтези
5.00
рейтинг книги
Идеальный мир для Лекаря 26