Чтение онлайн

на главную - закладки

Жанры

Охота на электроовец. Большая книга искусственного интеллекта
Шрифт:

Поэтому в качестве альтернативы команда исследователей из Facebook предложила иной подход, получивший название «псевдоразметка». Его суть заключается в том, что модель сначала обучается на размеченных данных, а затем используется для разметки неразмеченной части данных, которые после этого пополняют обучающую выборку.

Стоп-стоп-стоп, а почему это вообще работает?.. Ведь, казалось бы, модель ориентируется на свои собственные результаты? Как это может улучшить точность распознавания? В глубоком обучении нередко прибегают к использованию пар моделей «учитель» — «ученик», в которых более простая и быстрая модель-ученик может использовать разметку, выполненную более большой и медленной, но точной моделью-учителем. Но разве может модель выступать в роли учителя для самой себя?

На самом деле этот трюк работает благодаря двум вещам. Во-первых, ввиду аугментации — при псевдоразметке модель выполняется на неискажённых аугментацией данных. После завершения псевдоразметки эти данные попадают на этап обучения модели уже в аугментированном виде, то есть с некоторыми искажениями спектрограммы, при этом они снабжены

транскрипцией, выполненной по неискажённым данным. Во-вторых, при псевдоразметке используется языковая модель, которая позволяет исправить неверно распознанные фонетической моделью фонемы благодаря привлечению языкового контекста. Также процесс псевдоразметки можно сделать итеративным — доученная модель используется для псевдоразметки очередной порции неразмеченных данных и так далее несколько раз, пока ошибка распознавания продолжает падать. Благодаря этому методу третье место на сентябрь 2023 г. в рейтинге точности распознавания речи для массива LibriSpeech занимает связка свёрточно-трансформерной архитектуры — усовершенствованной версии SpecAugment и итеративной псевдоразметки, достигшая значений WER 3,1 и 1,5% на «грязной» и «чистой» частях датасета соответственно [1939] .

1939

Xu Q., Baevski A., Likhomanenko T., Tomasello P., Conneau A., Collobert R., Synnaeve G., Auli M. (2020). Self-training and Pre-training are Complementary for Speech Recognition // https://arxiv.org/abs/2010.11430

В 2021 г. модель W2v-BERT, основанная, как можно догадаться из названия, на комбинации wav2vec и BERT, поставила новый рекорд в точности распознавания речи из набора LibriSpeech: 2,5% для «грязной» и 1,4% WER для «чистой» частей датасета. Скорее всего, этот результат будет ещё немного улучшен в ближайшие годы, хотя, по всей видимости, LibriSpeech ждёт судьба ImageNet — задача распознавания на его основе стала слишком простой для современных моделей, именно поэтому в сообществе специалистов по распознаванию речи активно обсуждается возможность использования альтернативных наборов тестовых данных [1940] .

1940

Chung Y.-A., Zhang Y., Han W., Chiu C.-C., Qin J., Pang R., Wu Y. (2021). W2v-BERT: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-Training // https://arxiv.org/abs/2108.06209

Рис. 128. Снижение ошибки распознавания по метрике WER для «чистой» части датасета LibriSpeech

В 2022 г. исследователи из компании OpenAI представили на суд общественности модель для распознавания речи под названием Whisper. Для её обучения использовалось целых 680 000 часов аудиозаписей, снабжённых субтитрами, причём записи содержали речь сразу на 97 языках (впрочем, основная часть всё-таки пришлась на английский). При сборе записей исследователи постарались отсеять те из них, субтитры у которых были сгенерированы автоматически при помощи различных систем распознавания речи, чтобы избежать попадания в обучающую выборку ошибок, допущенных этими системами. Хотя Whisper и не демонстрирует «из коробки» рекордного значения WER для популярных публичных наборов данных, его результаты выглядят весьма достойно (например, на «чистой» части LibriSpeech WER составляет 2,7%). Одним из основных преимуществ Whisper является его устойчивость к смене домена (ведь на этапе обучения он видел очень разнообразные записи) и возможность недорогой адаптации к целевой задаче путём непродолжительного дообучения на соответствующих данных [1941] .

1941

Radford A., Kim J. W., Xu T., Brockman G., McLeavey C., Sutskever I. (2022). Robust Speech Recognition via Large-Scale Weak Supervision // https://arxiv.org/abs/2212.04356

В ноябре 2022 г. Google объявила об «Инициативе 1000 языков» — амбициозной программе, которая призвана помочь вовлечению в международное общение миллиардов людей, принадлежащих к множеству разобщённых языковых сообществ. В рамках этой инициативы Google обучила модель USM (Universal Speech Model, Универсальная языковая модель), способную распознавать речь более чем на 100 языках мира и осваивать новые языки, отталкиваясь от совсем небольшого количества примеров. Этот результат был получен за счёт предобучения кодировщика модели на большом неразмеченном многоязычном наборе аудиозаписей продолжительностью 12 млн часов, охватывающем более 300 языков, с последующим дообучением на меньшем наборе записей, снабжённых текстовой транскрипцией [1942] , [1943] .

1942

Dean J. (2022). 3 ways AI is scaling helpful technologies worldwide / Google blog, Nov 02, 2022 // https://blog.google/technology/ai/ways-ai-is-scaling-helpful/

1943

Zhang Y., Han W., Qin J., Wang Y., Bapna A., Chen Z., Chen N., Li B., Axelrod V., Wang G., Meng Z., Hu K., Rosenberg A., Prabhavalkar R., Park D. S., Haghani P., Riesa J., Perng G., Soltau H., Strohman T., Ramabhadran B., Sainath T., Moreno P., Chiu C., Schalkwyk J., Beaufays F., Wu Y. (2022). Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages // https://arxiv.org/abs/2303.01037

В

целом качество распознавания речи в наши дни позволяет системам ИИ распознавать речь со сверхчеловеческой точностью при условии, что в обучающей выборке присутствовали записи, близкие по параметрам к записям из сферы целевого применения. Таким образом, модель, обученная на записях из GSM-канала, будет испытывать проблемы при работе с обычными микрофонными записями. Другие параметры оборудования — сильное эхо или фоновые шумы, потери пакетов в сетях связи, сильно различающаяся тематика разговоров — могут мешать качественному распознаванию речи. Русский язык по сравнению с английским обладает большей флективностью (т. е. среднее число форм одного и того же слова в нём немного выше, чем в английском), что создаёт системам распознавания дополнительные трудности. И всё же сегодня при грамотном использовании технологий распознавания речи можно создавать удобные продукты и сервисы, пользующиеся большой популярностью: голосовые помощники, роботизированные системы обзвона, голосовые интерфейсы навигационных систем и медиаплееров, системы управления в умных домах, системы речевой аналитики в колл-центрах и так далее.

Помимо собственно распознавания речи, системы, основанные на технологиях машинного обучения, применяются сегодня для идентификации пользователей по голосу, выделения в аудиозаписях реплик различных людей (так называемая диаризация), активации устройств по ключевым словам, определения интонационной окраски речи, улучшения качества звука и многих других задач в области обработки голосовой информации. При этом прогресс во всех этих областях продолжается, а это означает, что все вышеперечисленные способности или уже стали обыденными для современных продуктов и сервисов, или станут таковыми в ближайшие годы.

6.2.3 Распознавание образов в играх

Онода Шестой дан, арбитр в прощальной партии Мэйдзина Хонинбо, несколько лет спустя, незадолго до своей смерти, вдруг разгромил всех противников на большом квалификационном турнире Отэай, устраиваемом Ассоциацией го. Его игра была блестящей, а я бы даже сказал — пугающе великолепной. И за доской он держался не так, как обычно: при ходе противника тихо сидел с закрытыми глазами. Потом он объяснял, что в это время старался побороть в себе жажду победы. После турнира он почти сразу лёг в больницу, где вскоре скончался от рака желудка, о котором и сам не подозревал. Точно так же Кубомацу Шестой дан, у которого одно время учился Отакэ. Незадолго до смерти он показал выдающиеся результаты в турнире Отэай.

Кавабата Ясунари. Мэйдзин

6.2.3.1 Победа в го

Как мы писали ранее, в главе 3.7, игра го на протяжении многих лет исполняла роль своеобразного философского камня в области искусственного интеллекта и успехи в ней компьютерных программ несколько лет назад были весьма невелики.

Возможно, уважаемый читатель, вас удивит такая смена темы повествования — с распознавания изображений и звука на игру в го.

Но дело в том, что позиция в го ничем принципиально не отличается от изображения размером 19 x 19 пикселей, а различные её варианты, возникающие в процессе игры, — прямые аналоги зрительных образов. Как выяснилось, нейросетевая модель, хорошо зарекомендовавшая себя в задачах распознавания зрительных образов, может использоваться и в нахождении важных позиционных структур на игровой доске в го.

И не только в го…

Но обо всём по порядку.

27 января 2016 г. в журнале Nature вышла статья [1944] коллектива исследователей из компании DeepMind (была приобретена Alphabet — родительским холдингом Google в 2014 г., поэтому иногда называется Google DeepMind) под названием «Овладение игрой го при помощи глубоких нейронных сетей и дерева поиска» (Mastering the game of Go with deep neural networks and tree search). Эта статья произвела в сообществе игроков в го эффект разорвавшейся бомбы. Дело в том, что, помимо описания алгоритмов, лежащих в основе новой программы для игры в го, получившей название AlphaGo, в статье приводились результаты матча AlphaGo против чемпиона Европы по го — Фань Хуэя. Фань Хуэй, профессионал второго дана, не просто потерпел в этом матче поражение, а проиграл его всухую, со счётом 0 : 5. Сам матч прошёл в штаб-квартире DeepMind в Лондоне в октябре 2015 г. при «длинном» временном контроле (час для каждого игрока, потом 30 секунд на ход без накопления, с тремя дополнительными полуминутами на всю игру). Это стало первым случаем в истории, когда компьютерная программа для игры в го победила профессионального игрока-человека на полноразмерной доске без форы.

1944

Silver D., Huang A., Maddison C. J., Guez A., Sifre L., van den Driessche G., Schrittwieser J., Antonoglou I., Panneershelvam V., Lanctot M., Dieleman S., Grewe D., Nham J., Kalchbrenner N., Sutskever I., Lillicrap T., Leach M., Kavukcuoglu K., Graepel T., Hassabis D. (2016). Mastering the game of Go with deep neural networks and tree search / Nature, Vol. 529(7587), pp. 484—489 // https://doi.org/10.1038/nature16961

Поделиться:
Популярные книги

Личник

Валериев Игорь
3. Ермак
Фантастика:
альтернативная история
6.33
рейтинг книги
Личник

Карабас и Ко.Т

Айрес Алиса
Фабрика Переработки Миров
Фантастика:
фэнтези
попаданцы
5.00
рейтинг книги
Карабас и Ко.Т

Измена. Тайный наследник

Лаврова Алиса
1. Тайный наследник
Фантастика:
фэнтези
5.00
рейтинг книги
Измена. Тайный наследник

История "не"мощной графини

Зимина Юлия
1. Истории неунывающих попаданок
Фантастика:
попаданцы
фэнтези
5.00
рейтинг книги
История немощной графини

Жена неверного ректора Полицейской академии

Удалова Юлия
Любовные романы:
любовно-фантастические романы
4.25
рейтинг книги
Жена неверного ректора Полицейской академии

Студент из прошлого тысячелетия

Еслер Андрей
2. Соприкосновение миров
Фантастика:
героическая фантастика
попаданцы
аниме
5.00
рейтинг книги
Студент из прошлого тысячелетия

Хозяйка старой усадьбы

Скор Элен
Любовные романы:
любовно-фантастические романы
8.07
рейтинг книги
Хозяйка старой усадьбы

Измена. Право на счастье

Вирго Софи
1. Чем закончится измена
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Измена. Право на счастье

Я – Стрела. Трилогия

Суббота Светлана
Я - Стрела
Любовные романы:
любовно-фантастические романы
эро литература
6.82
рейтинг книги
Я – Стрела. Трилогия

Зайти и выйти

Суконкин Алексей
Проза:
военная проза
5.00
рейтинг книги
Зайти и выйти

Север и Юг. Великая сага. Компиляция. Книги 1-3

Джейкс Джон
Приключения:
исторические приключения
5.00
рейтинг книги
Север и Юг. Великая сага. Компиляция. Книги 1-3

Сын Тишайшего

Яманов Александр
1. Царь Федя
Фантастика:
попаданцы
альтернативная история
фэнтези
5.20
рейтинг книги
Сын Тишайшего

Меч Предназначения

Сапковский Анджей
2. Ведьмак
Фантастика:
фэнтези
9.35
рейтинг книги
Меч Предназначения

Самый богатый человек в Вавилоне

Клейсон Джордж
Документальная литература:
публицистика
9.29
рейтинг книги
Самый богатый человек в Вавилоне