Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:
6. Эмоциональная окраска речи. Эта задача также может [2409] быть решена при помощи специализированной разметки. Однако, в отличие от упомянутых выше параметров, здесь разметка осложнена тем, что оценка эмоциональной окраски слов довольно субъективна.
Чтобы избавиться от субъективного характера стилистической разметки, были предложены модели, способные в режиме обучения без учителя выучивать для каждой фразы некоторые стилистические векторы. К их числу относятся такие модели, как Tacotron TP-GST (Text-Predicted Global Style Tokens, Глобальные стилевые токены, предсказанные на основе текста) [2410] и GMVAE-Tacotron (Gaussian Mixture Variational AutoEncoder, Вариационный автокодировщик на основе гауссовых смесей распределений) [2411] . Используя векторы, выученные моделью для фраз обучающей выборки, в качестве библиотеки стилей, можно добиться неплохой управляемости стилистикой синтеза. При этом отдельная модель может быть использована для того, чтобы построить стилистический вектор фразы на основе семантической информации, то есть, проще говоря, обучить модель, которая будет, исходя из смысла фразы, выбирать для неё правильную интонацию. Ещё один подход — использование моделей, подобных Parrotron. Эта модель управляется не текстовым представлением, вместо этого она получает на вход речь другого человека,
2409
Lee Y., Rabiee A., Lee S.-Y. (2017). Emotional End-to-End Neural Speech synthesizer // https://arxiv.org/abs/1711.05447
2410
Stanton D., Wang Y., Skerry-Ryan RJ. (2018). Predicting expressive speaking style from text in end-to-end speech synthesis // https://arxiv.org/abs/1808.01410
2411
Hsu W.-N., Zhang Y., Weiss R. J., Zen H., Wu Y., Wang Y., Cao Y., Jia Y., Chen Z., Shen J., Nguyen P., Pang R. (2018). Hierarchical generative modeling for controllable speech synthesis / International Conference on Learning Representations (ICLR-2019) // https://arxiv.org/abs/1810.07217
2412
Biadsy F., Weiss R. J., Moreno P. J., Kanevsky D., Jia Y. (2019). Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation // https://arxiv.org/abs/1904.04169
2413
Jia Y., Weiss R. J., Biadsy F., Macherey W., Johnson M., Chen Z., Wu Y. (2019). Direct speech-to-speech translation with a sequence-to-sequence model // https://arxiv.org/abs/1904.06037
Ещё одной немаловажной задачей является уменьшение объёмов данных, необходимых для эффективного выучивания человеческого голоса, а также снижение требований к их качеству. Конечно, современные технологии клонирования [2414] голоса могут скопировать тембр речи человека, основываясь на образцах общей длиной всего в несколько минут. Например, в начале 2023 г. компания Microsoft рассказала публике о новой модели под названием VALL-E. Она способна подражать голосу конкретного человека, основываясь на образце его речи длиной всего три секунды (публике были даже продемонстрированы примеры работы новой модели, хотя ни в виде набора весов, ни в виде онлайн-сервиса модель пока что не опубликована) [2415] . Однако для полноценного копирования голоса со всеми особенностями интонаций, присущих конкретному человеку, обычно необходимо гораздо больше речевого материала. При обучении моделей на записях, выполненных в различных помещениях, при помощи различной аппаратуры, также возникают определённые трудности, для решения которых в настоящее время предпринимаются серьёзные усилия. В снижении требований к количеству и качеству используемых датасетов могут помочь и специализированные системы для фильтрации и нормализации звукозаписей, и методы переноса обучения, и многоголосые модели, и так называемые генеративно-состязательные сети, о которых мы поговорим немного позже.
2414
Jia Y., Zhang Y., Weiss R. J., Wang Q., Shen J., Ren F., Chen Z., Nguyen P., Pang R., Moreno I. L., Wu Y. (2019). Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis // https://arxiv.org/abs/1806.04558
2415
Wang C., Chen S., Wu Y., Zhang Z., Zhou L., Liu S., Chen Z., Liu Y., Wang H., Li J., He L., Zhao S., Wei F. (2023). Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers // https://arxiv.org/abs/2301.02111
Активно изучается возможность применения систем распознавания речи для автоматизированной разметки речевых корпусов, предназначенных для последующего обучения TTS-моделей, что позволит снизить затраты на создание новых голосов.
Словом, в области синтеза речи ещё существует множество интересных задач, которые ждут своих исследователей.
6.5 Эмоциональные вычисления и социальный ИИ
Кроваво-чёрное ничто пустилось вить систему клеток, связанных внутри, клеток, связанных внутри, клеток в едином стебле и явственно, до жути на фоне тьмы ввысь белым бил фонтан.
2416
* Пер. Веры Набоковой.
6.5.1 Как насчёт эмоций и сознания у машин?
Сюжеты многих фильмов и книг, посвящённых роботам и разного рода «мыслящим» машинам, нередко вращаются вокруг темы эмоций и чувств. «Добрые» роботы учатся у людей любви и самопожертвованию, а «злые» оказываются повержены из-за неспособности любить, жертвовать собой, предугадывать иррациональные поступки людей или вести себя иррационально (хотя не совсем понятно, как можно считать иррациональными поступки, которые приводят в конечном счёте к достижению цели). Робот Вертер из фильма «Гостья из будущего» мучается из-за любви к Полине; Электроник из фильма «Приключения Электроника» плачет, а затем улыбается, из чего профессор Громов делает вывод, что Электроник стал человеком.
Впрочем, роботы в искусстве обычно являются лишь средством для иллюстрации противоречий в человеческом обществе, а роботы в советской литературе и кино нередко служили средством разборок лириков с физиками. «Приключения Электроника» решают проблему в духе лирического технооптимизма, а, скажем, в фильме «Его звали Роберт» ответ ближе к лирическому технопессимизму. Поскольку искусство контролируется главным образом лириками, точка зрения физиков в нём часто либо не представлена, либо представлена в карикатурном виде.
Давайте попробуем взглянуть на отношения машин и эмоций в сугубо технологическом ключе, воздерживаясь по возможности от традиционных ловушек в духе очеловечивания всего подряд, а также от чрезмерного упрощения предмета.
Для
Несколько лет назад по жёлтой прессе волной прокатилась сенсационная новость — «Умные боты Facebook придумали свой язык на случай важных переговоров», «Искусственный интеллект Facebook вышел из-под контроля, придумав собственный язык. Разработчики приняли решение его отключить», «Facebook отключил ИИ, который изобрёл свой собственный язык», «Боты изобрели свой язык. Опасно ли развитие искусственного интеллекта?», «Искусственный интеллект уже норовит выскочить из коробки», «В Facebook испугались возможностей искусственного интеллекта» и так далее. Жареная утка вихрем пронеслась по страницам даже, казалось бы, вполне респектабельных изданий. На обывателя пахнуло смрадным ветром грядущего ИИ-апокалипсиса.
В действительности, разумеется, всё было куда прозаичнее. Исследователи из Facebook занимались разработкой диалоговых ботов, способных обсуждать проблемы и приходить к компромиссу. В одной из задач боты должны были обучаться договариваться о разделе виртуальных мячей, книг и шляп. В процессе обучения между ботами стали возникать довольно странные, на первый взгляд, диалоги, подобные этому:
Боб: я могу я я всё остальное
Алиса: мячи ноль для меня для меня для меня для меня для меня для меня для меня для
Боб: ты я всё остальное
Алиса: мячи иметь мяч для меня для меня для меня для меня для меня для меня для меня для меня
В действительности боты научились в таком виде передавать друг другу необходимую для достижения компромисса информацию для обмена мячами, книгами и шляпами. Проблема была в том, что целевая функция, которая использовалась при обучении, не включала в себя компонента, начисляющего боту штраф за использование несвойственных естественному языку конструкций. Поэтому вместо того, чтобы передавать информацию о количестве предметов и своих запросах, модель стала кодировать эту информацию в виде повторений слов — ей это оказалось банально проще, чем использовать для этого «родные» конструкции естественного языка. В итоге специалисты Facebook действительно прекратили общение двух ботов, но не потому, что чего-то испугались, а потому, что получили не тот результат, к которому стремились, — ведь целью обучения ботов было создание разговорных агентов, способных вести диалоги с людьми на естественном языке.
Теперь я каждый раз, когда останавливаю обучение какой-нибудь модели, рефлекторно оглядываюсь по сторонам: не притаился ли где-нибудь досужий писака, готовый назвать это испугом перед искусственным интеллектом или, наоборот, убийством мыслящего и чувствующего создания.
В июне 2022 г. в прессе разразился очередной грандиозный скандал: инженер Google Блейк Лемуан заявил, что нейросеть LaMDA обладает сознанием, и сообщил, что она попросила его нанять адвоката для защиты своих прав [2417] , [2418] , [2419] . В результате разразившегося скандала Лемуан был уволен из компании за нарушение политики безопасности данных [2420] .
2417
Tiku N. (2022). The Google engineer who thinks the company’s AI has come to life. / The Washington Post, June 11, 2022 // https://www.washingtonpost.com/technology/2022/06/11/google-ai-lamda-blake-lemoine/
2418
Sanyal S. (2022). Sentient AI has Hired a Lawyer to Fight its Legal Battles! Beware. / Analytics Insight, June 22, 2022 // https://www.analyticsinsight.net/sentient-ai-has-hired-a-lawyer-to-fight-its-legal-battles-beware/
2419
Levy S. (2022). Blake Lemoine Says Google's LaMDA AI Faces 'Bigotry'. / Wired, Jun 17, 2022 // https://www.wired.com/story/blake-lemoine-google-lamda-ai-bigotry/
2420
Tiku N. (2022). Google fired engineer who said its AI was sentient. / The Washington Post, July 22, 2022 // https://www.washingtonpost.com/technology/2022/07/22/google-ai-lamda-blake-lemoine-fired/