Чтение онлайн

на главную - закладки

Жанры

Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:

6. Эмоциональная окраска речи. Эта задача также может [2409] быть решена при помощи специализированной разметки. Однако, в отличие от упомянутых выше параметров, здесь разметка осложнена тем, что оценка эмоциональной окраски слов довольно субъективна.

Чтобы избавиться от субъективного характера стилистической разметки, были предложены модели, способные в режиме обучения без учителя выучивать для каждой фразы некоторые стилистические векторы. К их числу относятся такие модели, как Tacotron TP-GST (Text-Predicted Global Style Tokens, Глобальные стилевые токены, предсказанные на основе текста) [2410] и GMVAE-Tacotron (Gaussian Mixture Variational AutoEncoder, Вариационный автокодировщик на основе гауссовых смесей распределений) [2411] . Используя векторы, выученные моделью для фраз обучающей выборки, в качестве библиотеки стилей, можно добиться неплохой управляемости стилистикой синтеза. При этом отдельная модель может быть использована для того, чтобы построить стилистический вектор фразы на основе семантической информации, то есть, проще говоря, обучить модель, которая будет, исходя из смысла фразы, выбирать для неё правильную интонацию. Ещё один подход — использование моделей, подобных Parrotron. Эта модель управляется не текстовым представлением, вместо этого она получает на вход речь другого человека,

чтобы затем произнести ту же самую фразу другим голосом. Меняя интонацию входной речи, можно управлять речью, производимой системой. Подобные модели могут быть очень полезны в ситуациях, когда необходимо компенсировать дефекты речи или нежелательный акцент [2412] . Создатели некоторых моделей пошли ещё дальше. Translatotron получает на вход фразу, сказанную на одном языке, чтобы затем произнести её перевод на другом языке [2413] . Система перевода, не использующая текст в качестве промежуточного представления, обладает целым рядом преимуществ: она может извлечь дополнительную смысловую информацию из интонаций речи и пауз, а также воспроизвести в переводе эмоциональную окраску исходной речи. Не исключено, что в будущем системы перевода будут основаны именно на таком подходе.

2409

Lee Y., Rabiee A., Lee S.-Y. (2017). Emotional End-to-End Neural Speech synthesizer // https://arxiv.org/abs/1711.05447

2410

Stanton D., Wang Y., Skerry-Ryan RJ. (2018). Predicting expressive speaking style from text in end-to-end speech synthesis // https://arxiv.org/abs/1808.01410

2411

Hsu W.-N., Zhang Y., Weiss R. J., Zen H., Wu Y., Wang Y., Cao Y., Jia Y., Chen Z., Shen J., Nguyen P., Pang R. (2018). Hierarchical generative modeling for controllable speech synthesis / International Conference on Learning Representations (ICLR-2019) // https://arxiv.org/abs/1810.07217

2412

Biadsy F., Weiss R. J., Moreno P. J., Kanevsky D., Jia Y. (2019). Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation // https://arxiv.org/abs/1904.04169

2413

Jia Y., Weiss R. J., Biadsy F., Macherey W., Johnson M., Chen Z., Wu Y. (2019). Direct speech-to-speech translation with a sequence-to-sequence model // https://arxiv.org/abs/1904.06037

Ещё одной немаловажной задачей является уменьшение объёмов данных, необходимых для эффективного выучивания человеческого голоса, а также снижение требований к их качеству. Конечно, современные технологии клонирования [2414] голоса могут скопировать тембр речи человека, основываясь на образцах общей длиной всего в несколько минут. Например, в начале 2023 г. компания Microsoft рассказала публике о новой модели под названием VALL-E. Она способна подражать голосу конкретного человека, основываясь на образце его речи длиной всего три секунды (публике были даже продемонстрированы примеры работы новой модели, хотя ни в виде набора весов, ни в виде онлайн-сервиса модель пока что не опубликована) [2415] . Однако для полноценного копирования голоса со всеми особенностями интонаций, присущих конкретному человеку, обычно необходимо гораздо больше речевого материала. При обучении моделей на записях, выполненных в различных помещениях, при помощи различной аппаратуры, также возникают определённые трудности, для решения которых в настоящее время предпринимаются серьёзные усилия. В снижении требований к количеству и качеству используемых датасетов могут помочь и специализированные системы для фильтрации и нормализации звукозаписей, и методы переноса обучения, и многоголосые модели, и так называемые генеративно-состязательные сети, о которых мы поговорим немного позже.

2414

Jia Y., Zhang Y., Weiss R. J., Wang Q., Shen J., Ren F., Chen Z., Nguyen P., Pang R., Moreno I. L., Wu Y. (2019). Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis // https://arxiv.org/abs/1806.04558

2415

Wang C., Chen S., Wu Y., Zhang Z., Zhou L., Liu S., Chen Z., Liu Y., Wang H., Li J., He L., Zhao S., Wei F. (2023). Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers // https://arxiv.org/abs/2301.02111

Активно изучается возможность применения систем распознавания речи для автоматизированной разметки речевых корпусов, предназначенных для последующего обучения TTS-моделей, что позволит снизить затраты на создание новых голосов.

Словом, в области синтеза речи ещё существует множество интересных задач, которые ждут своих исследователей.

6.5 Эмоциональные вычисления и социальный ИИ

Кроваво-чёрное ничто пустилось вить систему клеток, связанных внутри, клеток, связанных внутри, клеток в едином стебле и явственно, до жути на фоне тьмы ввысь белым бил фонтан.

Владимир Набоков. Бледный огонь [2416]

2416

* Пер. Веры Набоковой.

6.5.1 Как насчёт эмоций и сознания у машин?

Сюжеты многих фильмов и книг, посвящённых роботам и разного рода «мыслящим» машинам, нередко вращаются вокруг темы эмоций и чувств. «Добрые» роботы учатся у людей любви и самопожертвованию, а «злые» оказываются повержены из-за неспособности любить, жертвовать собой, предугадывать иррациональные поступки людей или вести себя иррационально (хотя не совсем понятно, как можно считать иррациональными поступки, которые приводят в конечном счёте к достижению цели). Робот Вертер из фильма «Гостья из будущего» мучается из-за любви к Полине; Электроник из фильма «Приключения Электроника» плачет, а затем улыбается, из чего профессор Громов делает вывод, что Электроник стал человеком.

Впрочем, роботы в искусстве обычно являются лишь средством для иллюстрации противоречий в человеческом обществе, а роботы в советской литературе и кино нередко служили средством разборок лириков с физиками. «Приключения Электроника» решают проблему в духе лирического технооптимизма, а, скажем, в фильме «Его звали Роберт» ответ ближе к лирическому технопессимизму. Поскольку искусство контролируется главным образом лириками, точка зрения физиков в нём часто либо не представлена, либо представлена в карикатурном виде.

Давайте попробуем взглянуть на отношения машин и эмоций в сугубо технологическом ключе, воздерживаясь по возможности от традиционных ловушек в духе очеловечивания всего подряд, а также от чрезмерного упрощения предмета.

Для

начала рассмотрим такой интересный вопрос, как эмоции самих машин. Можно ли сказать, что машины испытывают или могут испытывать эмоции? На первый взгляд, это звучит фантастично — ведь машинам пока что не под силу многое из того, что по плечу даже трёхлетнему ребёнку. Мы привыкли считать эмоциональную сферу чем-то мистическим, едва ли не высшим проявлением развития живых существ. Разве можно у современных машин найти что-то, что может быть хотя бы отдалённым аналогом человеческих чувств? Однако более внимательное изучение вопроса показывает, что даже в поведении примитивных организмов наблюдаются явления, которые могут быть интерпретированы как наличие у них чувств. У некоторых моллюсков в результате обучения формируются условные рефлексы, которые заставляют их избегать определённых стимулов. Можно ли это интерпретировать как наличие у них чувства страха? Поиск полового партнёра или пищи, стремление избегать опасностей — что это, если не отдалённые аналоги человеческих чувств и эмоций? Кто-то может сказать, что человеческие чувства не столь прямолинейны, что человек может принести себя в жертву, но разве не приносит себя в жертву самец богомола? Разве много прямолинейности в строительстве птицей шалашником совершенно нефункциональных шалашей, украшенных цветами и ракушками? Конечно, люди имеют куда более сложную нервную систему, чем богомолы, и куда более развитую культуру, чем шалашники, с этим трудно поспорить. Однако что касается чувств, эмоций, то они, по всей видимости, всё-таки довольно базовое явление в животном мире. Способность живых организмов учиться на своём опыте основана на наличии положительного и отрицательного подкрепления. Досада от допущенной ошибки, радость победы, страх перед опасностью, предвкушение удовольствия — все эти явления непосредственно связаны с поведенческими адаптациями. В этом смысле модель машинного обучения, основанная на обучении с учителем (и тем более в случае использования обучения с подкреплением в мультиагентных средах), подобна пусть и примитивному, но живому организму, способному формировать условные рефлексы, менять поведение под воздействием собственных удач или неудач, выборочно относиться к стимулам среды. Наблюдая за поведением AlphaStar или любого другого более-менее сложного бота в игре, мы видим, как программа «проявляет осторожность», отступает, «нащупывает слабые места» противника, «паникует» в тяжёлой ситуации и так далее. Мы невольно интерпретируем действия системы как действия агента, испытывающего определённые чувства. И хотя люди (и даже другие приматы) могут очеловечивать и более примитивные явления, например проявлять нежность к игрушке или разговаривать с собственным автомобилем, в ситуации с нейросетевой моделью для такого очеловечивания есть куда больше оснований, под влиянием которых люди легко ударяются в другую крайность: начинают приписывать существующим системам ИИ наличие у них разума, подобного человеческому, самосознания, коварных планов и так далее. Такие взгляды, помноженные на паранойю, способны создать настоящую гремучую смесь.

Несколько лет назад по жёлтой прессе волной прокатилась сенсационная новость — «Умные боты Facebook придумали свой язык на случай важных переговоров», «Искусственный интеллект Facebook вышел из-под контроля, придумав собственный язык. Разработчики приняли решение его отключить», «Facebook отключил ИИ, который изобрёл свой собственный язык», «Боты изобрели свой язык. Опасно ли развитие искусственного интеллекта?», «Искусственный интеллект уже норовит выскочить из коробки», «В Facebook испугались возможностей искусственного интеллекта» и так далее. Жареная утка вихрем пронеслась по страницам даже, казалось бы, вполне респектабельных изданий. На обывателя пахнуло смрадным ветром грядущего ИИ-апокалипсиса.

В действительности, разумеется, всё было куда прозаичнее. Исследователи из Facebook занимались разработкой диалоговых ботов, способных обсуждать проблемы и приходить к компромиссу. В одной из задач боты должны были обучаться договариваться о разделе виртуальных мячей, книг и шляп. В процессе обучения между ботами стали возникать довольно странные, на первый взгляд, диалоги, подобные этому:

Боб: я могу я я всё остальное

Алиса: мячи ноль для меня для меня для меня для меня для меня для меня для меня для

Боб: ты я всё остальное

Алиса: мячи иметь мяч для меня для меня для меня для меня для меня для меня для меня для меня

В действительности боты научились в таком виде передавать друг другу необходимую для достижения компромисса информацию для обмена мячами, книгами и шляпами. Проблема была в том, что целевая функция, которая использовалась при обучении, не включала в себя компонента, начисляющего боту штраф за использование несвойственных естественному языку конструкций. Поэтому вместо того, чтобы передавать информацию о количестве предметов и своих запросах, модель стала кодировать эту информацию в виде повторений слов — ей это оказалось банально проще, чем использовать для этого «родные» конструкции естественного языка. В итоге специалисты Facebook действительно прекратили общение двух ботов, но не потому, что чего-то испугались, а потому, что получили не тот результат, к которому стремились, — ведь целью обучения ботов было создание разговорных агентов, способных вести диалоги с людьми на естественном языке.

Теперь я каждый раз, когда останавливаю обучение какой-нибудь модели, рефлекторно оглядываюсь по сторонам: не притаился ли где-нибудь досужий писака, готовый назвать это испугом перед искусственным интеллектом или, наоборот, убийством мыслящего и чувствующего создания.

В июне 2022 г. в прессе разразился очередной грандиозный скандал: инженер Google Блейк Лемуан заявил, что нейросеть LaMDA обладает сознанием, и сообщил, что она попросила его нанять адвоката для защиты своих прав [2417] , [2418] , [2419] . В результате разразившегося скандала Лемуан был уволен из компании за нарушение политики безопасности данных [2420] .

2417

Tiku N. (2022). The Google engineer who thinks the company’s AI has come to life. / The Washington Post, June 11, 2022 // https://www.washingtonpost.com/technology/2022/06/11/google-ai-lamda-blake-lemoine/

2418

Sanyal S. (2022). Sentient AI has Hired a Lawyer to Fight its Legal Battles! Beware. / Analytics Insight, June 22, 2022 // https://www.analyticsinsight.net/sentient-ai-has-hired-a-lawyer-to-fight-its-legal-battles-beware/

2419

Levy S. (2022). Blake Lemoine Says Google's LaMDA AI Faces 'Bigotry'. / Wired, Jun 17, 2022 // https://www.wired.com/story/blake-lemoine-google-lamda-ai-bigotry/

2420

Tiku N. (2022). Google fired engineer who said its AI was sentient. / The Washington Post, July 22, 2022 // https://www.washingtonpost.com/technology/2022/07/22/google-ai-lamda-blake-lemoine-fired/

Поделиться:
Популярные книги

Проводник

Кораблев Родион
2. Другая сторона
Фантастика:
боевая фантастика
рпг
7.41
рейтинг книги
Проводник

Царь Федор. Трилогия

Злотников Роман Валерьевич
Царь Федор
Фантастика:
альтернативная история
8.68
рейтинг книги
Царь Федор. Трилогия

Барин-Шабарин 2

Гуров Валерий Александрович
2. Барин-Шабарин
Фантастика:
попаданцы
альтернативная история
фэнтези
5.00
рейтинг книги
Барин-Шабарин 2

Мужчина не моей мечты

Ардова Алиса
1. Мужчина не моей мечты
Любовные романы:
любовно-фантастические романы
8.30
рейтинг книги
Мужчина не моей мечты

Идеальный мир для Лекаря 27

Сапфир Олег
27. Лекарь
Фантастика:
аниме
фэнтези
5.00
рейтинг книги
Идеальный мир для Лекаря 27

Хроники странного королевства. Возвращение (Дилогия)

Панкеева Оксана Петровна
Хроники странного королевства
Фантастика:
фэнтези
9.30
рейтинг книги
Хроники странного королевства. Возвращение (Дилогия)

Башня Ласточки

Сапковский Анджей
6. Ведьмак
Фантастика:
фэнтези
9.47
рейтинг книги
Башня Ласточки

Ответ

Дери Тибор
1. Библиотека венгерской литературы
Проза:
роман
5.00
рейтинг книги
Ответ

Око василиска

Кас Маркус
2. Артефактор
Фантастика:
городское фэнтези
попаданцы
аниме
5.00
рейтинг книги
Око василиска

Девочка для Генерала. Книга первая

Кистяева Марина
1. Любовь сильных мира сего
Любовные романы:
остросюжетные любовные романы
эро литература
4.67
рейтинг книги
Девочка для Генерала. Книга первая

Прогулки с Бесом

Сокольников Лев Валентинович
Старинная литература:
прочая старинная литература
5.00
рейтинг книги
Прогулки с Бесом

Магия чистых душ

Шах Ольга
Любовные романы:
любовно-фантастические романы
5.40
рейтинг книги
Магия чистых душ

Не грози Дубровскому! Том III

Панарин Антон
3. РОС: Не грози Дубровскому!
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Не грози Дубровскому! Том III

Бастард Императора. Том 8

Орлов Андрей Юрьевич
8. Бастард Императора
Фантастика:
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Бастард Императора. Том 8