Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
Вот что пишет об этом проекте один из его авторов — Иван Ямщиков:
После того, как Алексей Тихонов показал мне «нейропоэта», мы так сильно захотели использовать стихи, написанные нейросетью, что даже кушать не могли. Понятно было несколько вещей:
1. Надо попробовать сделать стилизацию чего-нибудь культового,
2. Надо, чтобы культовый оригинал был достаточно маргинален.
Поясню, что имею в виду под пунктом два. Хармс, к примеру, у нейросетки получался годный, мощный у неё выходил Хармс, а вот Александр Сергеевич Пушкин выходил сомнительный. Нейросеть хорошо стилизовала тексты авторов, которые предпочитали диссоциированный нарратив (скажем мягко) или вообще работали с эстетикой абсурда. В целом, можно было бы заморочиться, найти каких-нибудь актёров и заставить их читать нейрохармса
А вот один из текстов «Нейронной обороны»:
Ничего, ничего, кроме будничных дел
Я хотел бы уехать, куда не хотел
Я буду ходить по дорогам своим,
Но пока мы сидим и страдаем, скулим
Припев:
Будет свет
И будет
Будет свет
Ничего
Будет свет
И будет
Будет вечный смех
А в окне у костра не хватает цветов
В городах от бумажных и диких богов
Я гляжу не дыша и не прячу в карман
А в безлюдных рубашках звенит барабан
Припев
Под ногами земля, под ногами хрупкий лёд
Старый аист, который, как рыба, гниёт
Никто никогда ни в кого ни придёт
и вот опять по кругу всё время идёт
Припев [2525] , [2526] , [2527]
Методы, использованные создателями «Нейронной обороны», стали достоянием публики в 2018 г., когда на XV симпозиуме по вычислительным исследованиям в фонетике, фонологии и морфологии [Fifteenth Workshop on Computational Research in Phonetics, Phonology, and Morphology] была представлена работа Тихонова и Ямщикова под названием «Звучит по-уайльдовски. Фонетически расширенные эмбеддинги для генерации поэзии в стиле определённого автора» (Sounds Wilde. Phonetically Extended Embeddings for Author-Stylized Poetry Generation) [2528] . В названии статьи содержится каламбур, связанный с созвучием слов Wilde [Уайльд] и wild [дико]. Хотя, конечно, ничего особенно дикого с точки зрения машинного обучения в работе нет — авторы исследования придумали способ расширить классический эмбеддинг слова. Для этого к нему присоединяются векторы, являющиеся выходами двух двунаправленных LSTM-сетей, одна из которых получает на вход буквы, из которых составлено слово, а другая — фонемы из фонетической транскрипции слова. Также к итоговому вектору присоединяются эмбеддинги автора и произведения. В итоге генеративная модель «знает» не только семантику каждого слова, но и то, как это слово пишется, звучит, и то, как слово вписывается в конкретное произведение конкретного автора. Фонетическая информация чрезвычайно важна для генеративной модели, предназначенной для сочинения стихов, поскольку классические системы стихосложения построены именно на фонетической организации поэтического текста.
2525
Нейронная оборона — Комиссар Михаил (2018) / https://lyrdb.ru/lyrics/neyronnaya-oborona-komissar-mihail/
2526
Голованов В. (2016). Нейронная оборона: запись альбома-посвящения Егору Летову при помощи нейросетей / Хабр, 28 июня // https://habr.com/ru/post/395503/
2527
В "Яндексе" научили нейросеть писать музыку в стиле Летова и
2528
Tikhonov A., Yamshchikov I. P. (2018). Sounds Wilde. Phonetically Extended Embeddings for Author-Stylized Poetry Generation / Proceedings of the Fifteenth Workshop on Computational Research in Phonetics, Phonology, and Morphology, October 2018, Brussels, Belgium, pp. 117–124 // https://doi.org/10.18653/v1/W18-5813
Примечательно, что авторы использовали представление слова как в виде фонем, так и в виде букв. Дело в том, что система преобразования слов в фонемы была основана на наборе правил, а такие правила, хотя и позволяют привлечь дополнительные знания о языке, не всегда в состоянии учесть всю вариативность и все нюансы произношения каждого слова. Поэтому логичным решением было снабдить нейронную сеть всей полнотой знаний о слове и позволить ей самой выбрать те признаки, на которые следует опереться.
Для обучения своей модели Ямщиков и Тихонов использовали набор из 440 000 документов (110 000 на английском языке и 330 000 на русском), принадлежавших перу 20 700 авторов (19 000 для англоязычной части датасета и 1700 для русскоязычной). Для тестирования качества генерации текста были выбраны тексты семи англоязычных и пяти русскоязычных авторов. В число первых вошли произведения Уильяма Шекспира, Эдгара По, Льюиса Кэрролла, Оскара Уайльда и Боба Марли, а также тексты песен музыкальных групп Nirvana и Muse. Для русского языка были отобраны произведения Александра Пушкина, Сергея Есенина, Иосифа Бродского, Егора Летова и Земфиры Рамазановой.
Для того чтобы оценить качество генерации текста, Тихонов и Ямщиков заставляли модель продолжать случайно выбранные фрагменты из произведений перечисленных выше авторов, отсутствующих в обучающей выборке. Затем результаты генерации сравнивались с оригинальными текстами при помощи метрики BLEU, знакомой нам по задаче машинного перевода. Авторы исследования сравнили свою модель с двумя методами случайной генерации текста: «классической» моделью на основе LSTM и словарных эмбеддингов и усовершенствованной версией последней модели, получавшей ещё и сведения об авторе произведения. Как и ожидалось, наилучшие показатели продемонстрировала модель с фонетической информацией.
В небольшом эксперименте с привлечением 140 респондентов Тихонов и Ямщиков показали, что для англоязычных авторов с узнаваемым стилем (т. е. таких, тексты которых респонденты узнавали хотя бы в два раза чаще, чем при случайном угадывании) люди примерно с той же частотой приписывали результат генерации перу автора, что и оригинальные произведения этого автора (37% сочли произведения «нейро-Шекспира» шекспировскими против 46% для оригинальных текстов Шекспира, аналогично 47% против 40% для Боба Марли и 34% против 39% для Muse).
Некоторые дополнительные подробности о работе Ивана и Алексея можно также узнать из статьи «Угадай кто? Многоязычный подход к автоматической генерации поэзии, стилизованной под некоторого автора» (Guess who? Multilingual Approach For The Automated Generation Of Author-Stylized Poetry) [2529] , вышедшей в конце того же 2018-го. Например, в ней приведён отрывок из произведения «нейронного По»:
her beautiful eyes were bright
this day is a burden of tears
2529
Tikhonov A., Yamshchikov I. P. (2018). Guess who? Multilingual Approach For The Automated Generation Of Author-Stylized Poetry / 2018 IEEE Spoken Language Technology Workshop (SLT) // https://doi.org/10.1109/SLT.2018.8639573
the darkness of the night
our dreams of hope and fears
[её красивые глаза были яркими
этот день — бремя слёз
ночная тьма
наши мечты о надеждах и страхах]
В более поздней работе 2019 г. под названием «Сквозное обучение литературному стилю при помощи искусственных нейронных сетей» (Learning Literary Style End-to-end with Artificial Neural Networks) [2530] Иван и Алексей также приводят несколько образцов генерации для русского языка.
2530
Yamshchikov I. P., Tikhonov A. (2019). Learning Literary Style End-to-end with Artificial Neural Networks / Advances in Science, Technology and Engineering Systems Journal, Vol. 4, No. 6, pp. 115—125 // https://doi.org/10.25046/aj040614