Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
В целом наиболее продвинутой, основанной на трансформерах генеративной моделью для музыки является MuseNet от OpenAI. Её архитектура основана на тех же принципах, что и текстовые генеративные модели GPT-2 и GPT-3 (в MuseNet, как и в GPT-3, используются блоки разреженного трансформера). Длина контекста 72-слойной модели составляет 4096 токенов. По примерным прикидкам, в MuseNet должно быть около 2–3 млрд весов.
Для обучения модели был создан огромный датасет MIDI-файлов, в который вошли коллекции classicalarchives.com и bitmidi.com, датасет MAESTRO [2972] , а также ряд тематических и этнических сборников MIDI-музыки, собранных авторами в интернете. Этот датасет был затем дополнительно аугментирован путём небольших изменений темпа. Также в модель был включён специальный механизм, предназначенный для снижения вероятности прямого плагиата, когда модель просто воспроизводит достаточно длинные фрагменты, представленные в обучающей выборке. К сожалению, хотя MuseNet и можно воспользоваться онлайн, информация о самой модели в настоящее время ограничивается лишь популярным постом [2973] в блоге OpenAI, то есть препринт
2972
Hawthorne C., Stasyuk A., Roberts A., Simon I., Huang C.-Z. A., Dieleman S., Elsen E., Engel J., Eck D. (2019). Enabling Factorized Piano Music Modeling and Generation with the MAESTRO Dataset / In International Conference on Learning Representations // https://openreview.net/forum?id=r1lYRjC9F7
2973
Payne C. M. (2019). MuseNet / OpenAI blog, April 25, 2019 // https://openai.com/blog/musenet/
В целом генеративные музыкальные модели, работающие на уровне нотного текста, стали в наши дни помощниками композиторов, а иногда способны и на создание вполне самостоятельных произведений на уровне лучших композиторов. В 2019 г. впервые в истории был подписан контракт между крупным музыкальным лейблом (Warner Music) и компанией, создавшей систему для алгоритмической генерации музыки — Endel [2974] .
Семейство генеративных музыкальных моделей SymFormer, работающих в нотном домене, создано у нас в Управлении экспериментальных систем машинного обучения департамента SberDevices «Сбера» командой под руководством Алексея Минина [2975] , [2976] . С творчеством этих нейросетей можно познакомиться в сервисе «Звук», где оно размещается от имени нейросетевого ансамбля Aiphoria [2977] .
2974
Deahl D. (2019). Warner music signed an algorithm to a record deal — what happens next? / The Verge, Mar 27, 2019 // https://www.theverge.com/2019/3/27/18283084/warner-music-algorithm-signed-ambient-music-endel
2975
Минин А. (2022). Маэстро: как виртуальные ассистенты Салют превращают текст в музыку / Хабр, 23 декабря 2022 // https://habr.com/ru/companies/sberdevices/articles/707138/
2976
Минин А. (2021). SymFormer: как мы написали музыку с помощью трансформеров и вариационных автоэнкодеров / Хабр, 25 ноября 2021 // https://habr.com/ru/companies/sberdevices/articles/591441/
2977
Aiphoria (2024) // https://zvuk.com/artist/211304339
Концерт, где генеративная нейросеть впервые в мире стала солистом и импровизатором, состоялся в рамках культурной программы Восточного экономического форума (ВЭФ) в сентябре 2023 г. Это выступление стало результатом нашей совместной работы с известным российским музыкантом и композитором Петром Дрангой [2978] .
Но нельзя ли добиться столь же впечатляющих результатов, работая с акустическими данными? В конце концов, мы же упоминали, что модель WaveNet, обученная на записях фортепианных концертов, способна на самостоятельную импровизацию? Почему бы не избавиться раз и навсегда от всех этих библиотек инструментов и математически точного исполнения нот, лишённого индивидуального стиля исполнителя? Быть может, удастся замахнуться и на большее? Быть может, такая модель сможет заодно воспроизводить и человеческое пение — чем голос не музыкальный инструмент, пусть и сложный? Так или иначе, всё многообразие звуков, составляющих в сумме музыку, сводится к колебаниям среды, которые можно описать в виде наборов чисел. С вычислительной точки зрения это, на первый взгляд, звучит совершенно фантастически. Однако в мире нашлись исследователи, которых это не испугало. Речь идёт о создателях модели Jukebox. В конце апреля 2020 г. в блоге компании OpenAI появилась статья [2979] , описывающая доселе невиданную модель. Статья содержала ссылку на препринт исследования под названием «Jukebox: генеративная модель для музыки» (Jukebox: A Generative Model for Music) [2980] , а также популярное объяснение принципов работы модели и примеры сгенерированных музыкальных произведений.
2978
ИИ впервые в мире солировал на концерте ВЭФ во Владивостоке // https://ria.ru/20230910/kontsert-1895341104.html
2979
Dhariwal P., Jun H., Payne C. M., Kim J. W., Radford A., Sutskever I. (2020). Jukebox / OpenAI blog, April 30, 2020 // https://openai.com/blog/jukebox/
2980
Dhariwal P., Jun H., Payne C., Kim J. W., Radford A., Sutskever I. (2020). Jukebox: A Generative Model for Music // https://arxiv.org/abs/2005.00341
Jukebox получает на вход информацию о жанре, исполнителе, а также текст песни и генерирует на их основе готовое музыкальное произведение. Можно сказать, что Jukebox самостоятельно сочиняет и исполняет музыкальное произведение с заданным текстом в стиле заданного исполнителя. Выглядит как магия, не правда ли?
Типичная песня продолжительностью четыре минуты в CD-качестве (44 кГц, 16 бит) представляет собой последовательность из более чем 10 млн элементов. Современные модели на основе трансформеров способны
Каждый уровень VQ-VAE кодирует вход независимо. Кодирование нижнего уровня (8 : 1) обеспечивает реконструкцию самого высокого качества, в то время как кодирование верхнего уровня (128 : 1) сохраняет только важную музыкальную информацию.
Каждому уровню VQ-VAE соответствует нейронная сеть для прогнозирования распределения вероятностей следующего элемента последовательности. Эти 72-слойные сети основаны на упрощённой версии блоков разреженного трансформера. Длина контекста каждой из сетей составляет 8192 элемента, что составляет для каждого из уровней 24 секунды, 6 секунд и 1,5 секунды соответственно. Модели более низкого уровня позволяют детализировать звук, внося в него более низкоуровневую структуру.
Для обучения Jukebox авторы исследования использовали набор данных, состоящий приблизительно из 1,2 млн песен (примерно половина из них была на английском языке) в сочетании с соответствующими текстами песен и метаданными (исполнитель, жанр альбома, год создания песни, распространённые ключевые слова и отметки настроения для плейлистов, содержащих песню), позаимствованными у проекта LyricWiki. Весь звук был преобразован в моно, при этом для аугментации данных исследователи добавляли в обучающую выборку несколько версий каждой из песен, немного варьируя пропорции при смешении каналов.
Сеть верхнего уровня получает на вход информацию об исполнителе и жанре песни. Помимо исполнителя и жанра, используется текст песни. Большой проблемой при этом является отсутствие хорошо согласованного набора данных: тексты песен обычно не содержат меток временного выравнивания относительно звукозаписи. То есть текстовые данные существуют в отрыве от звуковых — точно неизвестно, в какой момент поются те или иные слова (здесь могли бы помочь записи для караоке, но их сравнительно немного). Чтобы выровнять текст относительно звуковой дорожки, авторы применяют специальную модель для автоматического выравнивания, использование которой, впрочем, не всегда позволяет достичь идеальной точности.
В январе 2023 г. свою новую нейросеть для генерации музыки представили исследователи из Google. Сеть получила название MusicLM. Она способна генерировать аудиозаписи с частотой дискретизации 24 кГц на основе текстовых описаний, таких как «успокаивающая мелодия скрипки, сопровождаемая гитарным риффом с дисторшн-эффектом» [a calming violin melody backed by a distorted guitar riff]. Авторы модели также опубликовали набор данных MusicCaps, состоящий из 5 521 пары «текстовое описание — музыка» [2981] .
2981
Agostinelli A., Denk T. I., Borsos Z., Engel J., Verzetti M., Caillon A., Huang Q., Jansen A., Roberts A., Tagliasacchi M., Sharifi M., Zeghidour N., Frank C. (2023). MusicLM: Generating Music From Text // https://arxiv.org/abs/2301.11325
Несмотря на то что Jukebox и MusicLM стали большими шагами вперёд в отношении качества музыки и возможности управлять результатами композиции, разрыв между созданной ими музыкой и музыкой, сочинённой и исполненной людьми, всё ещё значителен. Хотя сгенерированные песни демонстрируют локальную музыкальную согласованность, следуют традиционным последовательностям аккордов и даже могут содержать впечатляющие соло, в них отсутствуют характерные признаки крупномасштабной семантической структуры (например, припевы). Автокодировщики нередко вносят в звуковой ряд заметный шум. Кроме того, скорость синтеза чрезвычайно медленная. В экспериментах авторов модели для создания одной минуты звука требовалось около 9 часов, поэтому Jukebox пока что нельзя использовать в интерактивных приложениях. Помимо этого, модель может сочинять песни только на английском языке. И всё же в числе отобранных авторами исследования композиций есть замечательные образцы. Чего стоят хотя бы ожившие голоса Луи Армстронга и Фрэнка Синатры, поющие современные тексты в своём узнаваемом стиле! При этом прелесть ИИ заключается в том, что в будущем результаты будут только улучшаться. Талантливый композитор или исполнитель не столь долговечен, как человеческие знания и технологии. Композиторы и исполнители современности не всегда могут достичь столь же выдающихся результатов, как их предшественники, в отношении же моделей машинного обучения технический прогресс обещает нам движение только вперёд, без отступлений и компромиссов.
6.6.12 Машина создаёт всё: мультимодальные модели
В конце 2020 г. исследователи из Microsoft обнародовали работу, посвящённую созданию модели M3P (Multitask Multilingual Multimodal Pre-training, Многозадачное многоязычное мультимодальное предобучение) [2982] . Здесь мы снова, как и в случае с моделью Z-code M3, видим в названии три M, но теперь третья M обозначает не MoE, а мультимодальность. Таким образом, вероятно, в отношении некоторых моделей уже сейчас можно употребить термин M4: например, WuDao 2.0 является одновременно многозадачной, многоязычной, мультимодальной и MoE-моделью.
2982
Ni M., Huang H., Su L., Cui E., Bharti T., Wang L., Gao J., Zhang D., Duan N. (2020). M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training // https://arxiv.org/abs/2006.02635