Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Успехи в области синтеза произвольных видео пока что куда более скромные. Модели, подобные DVD-GAN [2921] от DeepMind или TGAN-F [2922] , — те же Gen-1 и Gen-2, Make-A-Video [2923] , CogVideo [2924] , Text2Video-Zero [2925] , VideoFusion (она же ModelScope text2video 1.7B) [2926] , [2927] — способны генерировать короткие фрагменты видео небольшого разрешения, при этом степень их правдоподобия пока оставляет желать лучшего. Впрочем, уже сейчас вы можете порадовать себя жутковатыми видеороликами с Уиллом Смитом, поедающим непокорные спагетти. В целом прогресс генеративных моделей в синтезе изображений оставляет мало сомнений в том, что и задача генерации видео будет в обозримом будущем решена на весьма качественном уровне.
2921
Clark A., Donahue J., Simonyan K. (2019). Adversarial Video Generation on Complex Datasets // https://arxiv.org/abs/1907.06571
2922
Kahembwe E., Ramamoorthy S. (2019). Lower Dimensional Kernels for Video Discriminators // https://arxiv.org/abs/1912.08860
2923
Singer U., Polyak A., Hayes T., Yin X., An J., Zhang S., Hu Q., Yang H., Ashual O., Gafni O., Parikh D., Gupta S., Taigman Y. (2022). Make-A-Video: Text-to-Video Generation without Text-Video Data // https://arxiv.org/abs/2209.14792
2924
Hong W., Ding M., Zheng W., Liu X., Tang J. (2022). CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers // https://arxiv.org/abs/2205.15868
2925
Khachatryan L., Movsisyan A., Tadevosyan V., Henschel R., Wang Z., Navasardyan S., Shi H. (2023). Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators // https://arxiv.org/abs/2303.13439
2926
Luo Z., Chen D., Zhang Y., Huang Y., Wang L., Shen Y., Zhao D., Zhou J., Tan T. (2023). VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation // https://arxiv.org/abs/2303.08320
2927
Храпов
6.6.11 Машина как композитор
Давайте теперь обратимся к успехам современных генеративных моделей в области музыки.
Интуитивно понятно, что музыка представляет собой некоторую последовательность — каждая музыкальная композиция имеет протяжённость во времени, но что является элементом этой последовательности? Что следует использовать в качестве отдельного токена в генеративной модели? Вопрос этот, как это ни странно, может иметь несколько разных ответов. Во-первых, музыку можно рассматривать как звуковой сигнал, в таком случае музыкальное произведение — это некий колебательный процесс, который можно выразить в амплитудном (последовательность амплитуд звуковой волны для каждого выбранного отрезка времени) или частотном (разложение на элементарные колебательные процессы) представлении (домене). Этот подход аналогичен подходу, применяемому при синтезе речи. Во-вторых, можно рассматривать музыку как нотный текст, в котором каждый инструмент играет (или не играет) определённую ноту (или аккорд) в каждом отдельно взятом такте музыкальной композиции. Этот подход абстрагируется от некоторых особенностей процесса извлечения звука — индивидуальных характеристик инструментов (гитара со стальными струнами звучит не так, как с нейлоновыми, и т. п.), нюансов звукоизвлечения (например, у флейты звучание ноты может зависеть от дыхания флейтиста и т. п.) — в общем, всего того, что не отражено в музыкальном тексте и что позволяет музыкантам-виртуозам проявлять свою индивидуальную манеру при исполнении одних и тех же произведений. Однако, несмотря на присущие ему потери и огрубление, у этого метода есть одно неоспоримое преимущество — он обеспечивает гораздо более компактное представление музыкальной информации, что сильно снижает требования к вычислительным затратам при создании и использовании соответствующих генеративных моделей. Именно поэтому исторически модели, работающие с нотным представлением музыки, появились и получили развитие раньше, чем модели, использующие звуковое представление.
Синтез нотного текста — задача, сильно напоминающая задачу синтеза текста на естественном языке. Неудивительно, что история алгоритмической музыкальной композиции весьма напоминает историю развития систем для генерации текстов. Первые алгоритмы генерации музыки, так же как и алгоритмы для порождения текстов, появились задолго до первых ЭВМ.
Идея использования формальных методов в музыкальной композиции была известна уже в эпоху Античности. Например, Пифагор верил в связь между законами природы и гармонией звуков, выраженной в музыке [2928] . Само слово «музыка» имело для древних греков более широкое значение, чем в наши дни. В учении пифагорейцев музыка была неотделима от чисел, которые считались ключом ко всей духовной и физической вселенной. Система музыкальных звуков и ритмов, упорядоченная при помощи чисел, олицетворяла гармонию космоса [2929] .
2928
Maurer J. A. (1999). A Brief History of Algorithmic Composition // https://ccrma.stanford.edu/~blackrse/algorithm.html
2929
Grout D. J., Palisca C. V. (2001). A History of Western Music. W. W. Norton & Company: New York // https://books.google.ru/books?id=OdGOPwAACAAJ
О связи математики и музыки рассуждали также Птолемей и Платон [2930] . Птолемей, «самый систематический из древних теоретиков музыки» по мнению признанных специалистов в области музыковедения Клода Палиски и Дональда Граута, был среди прочего ведущим астрономом своего времени. Он считал, что математические законы «лежат в основе систем как музыкальных интервалов, так и расстояний между небесными телами» и что определённые лады и даже ноты «соответствуют определённым планетам, их расстояниям друг от друга и их движениям». У Платона эта идея приобрела поэтическую форму в мифе о «музыке сфер», неслыханной музыке, «созданной вращениями планет». Позже к этой идее обращались многие умы Средневековья и эпохи Возрождения, включая Шекспира и Мильтона [2931] .
2930
Maurer J. A. (1999). A Brief History of Algorithmic Composition // https://ccrma.stanford.edu/~blackrse/algorithm.html
2931
Grout D. J., Palisca C. V. (2001). A History of Western Music. W. W. Norton & Company: New York // https://books.google.ru/books?id=OdGOPwAACAAJ
Впрочем, эти рассуждения имели, по всей видимости, лишь теоретический характер. Хотя они повлияли на появление различных видов музыкального строя и, следовательно, в определённой мере на практику музыкальной композиции, речи о замене композитора алгоритмом в то время не шло. Следующий
2932
Maurer J. A. (1999). A Brief History of Algorithmic Composition // https://ccrma.stanford.edu/~blackrse/algorithm.html
2933
* Здесь — полифонический приём преобразования нотной последовательности, заключающийся в воспроизведении её интервалов в противоположном направлении от некоего неизменяющегося звука: восходящему ходу в основном (прямом) движении партии в обратном движении соответствует ход на такой же интервал вниз, и наоборот.
2934
Grout D. J., Palisca C. V. (2001). A History of Western Music. W. W. Norton & Company: New York // https://books.google.ru/books?id=OdGOPwAACAAJ
Следующий смелый шаг вперёд сделал не абы кто, а сам Моцарт, который явил миру свою полушутливую «музыкальную игру в кости» [Musikalisches Wurfelspiel]. Эта игра была основана на сочинении нескольких небольших музыкальных фрагментов с их последующим случайным соединением. Эта примитивная форма алгоритмической композиции доверяет творческие решения воле случая, позволяя игральным костям выбирать используемые ноты [2935] . Таким образом, вопреки расхожему стереотипу, гармонию в некотором смысле поверил алгеброй вовсе не «злой и бездарный» Сальери, а его одарённый антагонист. Так что, возможно, мировой литературе нужна новая интерпретация старой истории, в которой жертвой становится как раз тот, что посмел вмешаться в творческую сферу при помощи богомерзкой математики. Впрочем, Лем со своим «Электрувером Трурля», как уже не раз бывало, обогнал зазевавшихся драматургов.
2935
Alpern A. (1995). Techniques for algorithmic composition of music // http://alum.hampshire.edu/~adaF92/algocomp/algocomp95.html
Существуют и более современные примеры автоматизированной композиции, не предполагающей использования компьютера. Например, американский композитор Джон Кейдж, как и Моцарт, использовал случайность при создании многих своих композиций. 5 марта 1968 г. Кейдж организовал перформанс под названием «Воссоединение» (Reunion). В ходе него участники играли в шахматы на доске, оборудованной 64 фоторезисторами. При передвижении шахматных фигур фоторезисторы подавали сигналы, в результате чего в громкоговорителях, размещённых среди слушателей, звучали фрагменты электронной и электроакустической музыки.
В другом своём произведении, «Эклиптический атлас» (Atlas Eclipticalis, 1961), Кейдж делегировал процесс композиции природным явлениям — музыка создавалась путём наложения нотных листов поверх астрономических карт и размещения нот в точках, в которых располагались звёзды. Таким образом Кейдж воплотил в жизнь идею «музыки сфер». Элементы случайности были положены в основу и более ранних композиций Кейджа. Например, фортепианное соло «Музыка перемен» (Music of Changes), написанное Кейджем для его друга, пианиста Дэвида Тюдора, в 1951 г., было основано на гадательных практиках китайской «Книги перемен» (??, «И цзин»). В том же году была создана композиция «Воображаемый ландшафт № 4» (Imaginary Landscape No. 4), написанная для 24 исполнителей на 12 радиоприёмниках и базировавшаяся на непредсказуемости того, что именно будет звучать в тот или иной момент в программе вещания. Кейдж был мастером музыкального эпатажа — в конце концов самым известным его творением стала композиция «4'33''» 1952 г., чуть более чем полностью состоящая из тишины [2936] , [2937] , [2938] . В наши дни он вместе с Карлхайнцем Штокхаузеном и Пьером Булезом считается одним из пионеров «алеаторики» (слово alea на латыни обозначает игральную кость) — течения в музыкальной композиции, представители которого отдают отдельные элементы музыкального произведения на волю случая.
2936
Maurer J. A. (1999). A Brief History of Algorithmic Composition // https://ccrma.stanford.edu/~blackrse/algorithm.html
2937
Alpern A. (1995). Techniques for algorithmic composition of music // http://alum.hampshire.edu/~adaF92/algocomp/algocomp95.html
2938
Хаскинс Р. (2016). Быть Джоном Кейджем. Американский «плодотворный анархизм»: танец души / Гефтер, 18.05.2016 // http://gefter.ru/archive/18580
Противоположными алеаторике направлениями в музыке традиционно считаются двенадцатитоновый метод (додекафония) и сериализм. Но и они удивительным образом в конечном счёте также являются способами, позволяющими уменьшить роль человека в процессе музыкальной композиции. Ведь они стремятся к тому, чтобы сделать процесс сочинения максимально объективным и регламентированным, то есть подчинить его определённым алгоритмам. Выбор нот или ритма в них часто зависит от заранее составленных «серий» и «матриц», которые по сути автоматизируют процесс создания музыкального произведения, вытесняя из него человеческий произвол. Например, фортепианный этюд «Лад длительностей и интенсивностей» (Mode de Valeurs et D’intensites) Оливье Мессиана, написанный в 1949 г., состоит из 36 серий определённых нот, длительностей этих нот и их громкости — и ни один из элементов серии не может повториться, пока не будут сыграны все остальные [2939] .
2939
Maurer J. A. (1999). A Brief History of Algorithmic Composition // https://ccrma.stanford.edu/~blackrse/algorithm.html
Идея использовать вычислительную машину для сочинения музыки была высказана ещё Адой Лавлейс (мы упоминали об этом в разделе, посвящённом её идеям), однако до её практического воплощения пришлось ждать более ста лет. В 1955–1956 гг. Леджарен Хиллер и Леонард Исааксон из Иллинойсского университета в Урбане-Шампейне использовали для этой цели компьютер ILLIAC I. Одним из результатов их экспериментов стала «Сюита Иллиака» (Illiac Suite), созданная в 1956 г. Партитура пьесы была составлена компьютером, а затем переведена в традиционную нотную запись для исполнения струнным квартетом.