Чтение онлайн

на главную - закладки

Жанры

Методы статистического анализа исторических текстов (часть 2)
Шрифт:

Интерес к проблематике задач о "разладке" стал возрастать с середины 60-х годов, что вызывалось потребностями приложений. При этом основные усилия исследователей направлялись на то, чтобы разработать методы, использующие как можно меньше априорной информации. Дело в том, что оптимальные и близкие к ним методы основаны на точном знании функций распределения до и после момента "разладки" и функции распределения момента "разладки" (если он случаен). Такую информацию трудно получить во многих интересных практических приложениях. В связи с этим обстоятельством стали развиваться минимаксные методы (позволяющие избавиться от информации о функции рапсределения момента "разладки") и непараметрические методы, позволяющие отказаться от информации о рапсределениях

случайной последовательности. Большие обзоры работ по этой проблематике за последние 15-20 лет содержатся в работах [543]-[545].

Работы авторов настоящей работы были в числе первых работ в области непараметрических методов решения задач о "разладке". С самого начала мы стремились синтезировать такие методы, которые можно достаточно легко применять для решения практических задач. В этом отношении именно непараметричесике методы, не использующие априорную информацию о распределениях, представляются наиболее подходящими.

Итог нашим исследованиям в рассматриваемой области математической статистики подведен в книге [546]. Здесь мы изложим основные идеи нашего подхода применительно к ретроспективным методам обнаружения "разладки", т.к. именно эти методы использовались для анализа исторических текстов.

Наша методология основана на двух основных идеях. Первая состоит в том, что обнаружение изменения любой функции распределения или какой-либо иной вероятностной характеристики может быть (с любой степенью точности) сведено к обнаружению изменения математического ожидания в некоторой новой случайной последовательности, сформированной из исходной. Поясним это положение на следующем примере. Пусть анализируется случайная последовательность

X = {x } ,

"склеенная" из двух строго стационарных случайных последовательностей

1 t=1

склейки n .

Пусть известно, что X и X отличаются между собой одной из двумерных функций распределения, а именно, предположим, что функция

P{x u , x u } = F(u ,u ) до момента t = n - 2 равна F ,

а при t t = n +1 - F , причем \F - F \ > 0, где \ \ -обычная sup-норма. Хорошо известно, что функция распределения конечномерного случайного вектора может быть приближена равномерно с любой точностью функцией распределения случайного вектора с конечным числом значений. Отсюда следует, что при разбиении плоскости R на достаточно большое число непересекающихся областей A , j=1,...,r, вектор (x ,x ) можно аппроксимировать по распределению вектором с конечным числом значений. Поэтому, если ввести новые случайные последовательности

(I(A) - индикатор множества А), то хотя бы в одной из этих последовательностей происходит изменение математического ожидания. Следовательно, если существует алгоритм, обнаруживающий изменение математического ожидания, то этот же алгоритм обнаружит и изменение функции распределения. Аналогично можно обнаружить и изменение произвольной вероятностной характеристики. Например, если в последовательности меняется корреляционная функция, то рассматривая новые последовательности V = x x , =0,1,2,..., мы сведем задачу к обнаружению изменения математического ожидания в одной из последовательностей V .

Указанное обстоятельство позволяет ограничиться разработкой только одного, базового, алгоритма, который может обнаруживать изменение математического ожидания, а не создавать (вообще говоря, бесконечное) семейство алгоритмов для обнаружения изменений тех или иных вероятностных характеристик.

Вторая идея нашего подхода заключается в использовании для обнаружения моментов "разладок" семейства статистик вида

Y (n) = [(1 - - )] [ - x - x ] (1)

где 0 1, 1 n N-1, X= {x } - исследуемая реализация, и некоторых производных от этих статистик.

Семейство (1) представляет собой обобщенный вариант статистики Колмогорова-Смирнова, которая используется для проверки совпадения или различия функций распределения у двух выборок (при фиксированном n). Можно показать, что статистики вида (1) асимптотически (при N--> и сохранении соотношения между объемами "склеенных"

реализаций) минимаксны (т.е. минимизируют максимально возможную вероятность ошибки оценивания момента "разладки") по порядку.

Указанные идеи (подробнее см.[546]) воплощены в комплексе прикладных программ VERDIA для персональной ЭВМ типа IBM-PC. Этот комплекс позволяет в диалоговом режиме обнаруживать "разладки" произвольной случайной последовательности. При помощи комплекса VERDIA нами был проведен анализ ряда конкретных исторических текстов. Результаты этого анализа изложены в следующем Дополнении 2 к настоящей книге.

ДОПОЛНЕНИЕ 2.

Б.Е.Бродский, Б.С.Дарховский, Г.В.Носовский, А.Т.Фоменко.

ВЫЯВЛЕНИЕ ОДНОРОДНЫХ И НЕОДНОРОДНЫХ ФРАГМЕНТОВ ВНУТРИ

РУССКИХ ЛЕТОПИСЕЙ, РИМСКИХ И ГРЕЧЕСКИХ ХРОНИК, В БИБЛИИ.

1. ВВЕДЕНИЕ.

В современной математической статистике большое применение нашел важный метод разладки, созданный А.Н.Ширяевым. В настоящей работе кратко описываются результаты интересного численного эксперимента, идея которого была впервые предложена А.Н.Ширяевым и А.Т.Фоменко. Эта идея и эксперимент обсуждались на научно-исследовательском семинаре "Геометрия и статистика", работавшем под их руководством в математическом ин-те им В.А.Стеклова АН СССР. Цель эксперимента - применить метод разладки к важной задаче выявления, распознавания "однородных кусков" внутри достаточно больших исторических (и более общо, - т.н. нарративных) текстов. К таким текстам относятся, в частности, исторические хроники, летописи и т.п. Теоретические основы метода разладки см. в статье Б.Е.Бродского и В.С.Дарховского, помещенного в настоящей книге как Дополнение 2.

Выявление информативных количественных характеристик текстов и предварительная обработка исторических текстов, в частности, русских летописей и исторических книг Библии, были выполнены Г.В.Носовским и А.Т.Фоменко. Статистический анализ и компьютерный эксперимент были затем проведены Б.С.Дарховским и Б.Е.Бродским. Большую помощь при этом нам оказали Т.Толозова, А.Громова и Л.Мищенко.

Сейчас мы опишем постановку задачи, полученные результаты и их интерпретацию. Многие древние исторические источники составлены из отдельных фрагментов, кусков разной природы. Например, эти отдельные куски могли быть написаны в разное время разными авторами и вообще в разных странах. Поэтому могут существенно отличаться друг от друга своим характером, языком и стилем изложения, степенью подробности, эмоциональной окраской. Затем могло случиться так, что эти отдельные фрагменты были объединены каким-то более поздним летописцем в одну книгу. После этого первоначальное происхождение этих текстов-фрагментов было забыто. Они начинали существовать, "спаянные" в единое целое внутри какой-то одной поздней летописи. С течением времени, при многократной переписке летописей, их изменений под влиянием разных "редакторов", внешние различия, существовавшие первоначально между различными старыми фрагментами, составляющими "новый большой текст", постепенно стирались. Сегодня такие составные тексты часто воспринимаются как единое целое, поскольку предистория их возникновения давно забыта.

Возникает естественный и важный вопрос: можно ли, опираясь на численный, статистический анализ различных частотных характеристик, выявить сегодня внутри единой большой летописи эти первичные составные части, куски, то есть можно ли снова разрезать большой текст на его первичные, древние фрагменты-первоисточники ?

В основу излагаемого ниже метода положена идея, согласно которой каждый первичный, древний фрагмент был более или менее "однороден". Например, он мог быть написан одним автором, а потому несет на себе характерный отпечаток одной индивидуальности. Единый стиль, манера и т.п. Поскольку эта гипотетическая индивидуальность по-видимому "мало менялась" в процессе написания одного текста, то можно сформулировать естественную гипотезу, модель о "первичной однородности" фрагментов, написанных одним автором, в одно время, или в одной и той же исторической школе летописцев.

Поделиться:
Популярные книги

Бастард Императора

Орлов Андрей Юрьевич
1. Бастард Императора
Фантастика:
фэнтези
аниме
5.00
рейтинг книги
Бастард Императора

Измена дракона. Развод неизбежен

Гераскина Екатерина
Фантастика:
городское фэнтези
фэнтези
5.00
рейтинг книги
Измена дракона. Развод неизбежен

Барон ненавидит правила

Ренгач Евгений
8. Закон сильного
Фантастика:
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Барон ненавидит правила

Завод 2: назад в СССР

Гуров Валерий Александрович
2. Завод
Фантастика:
попаданцы
альтернативная история
фэнтези
5.00
рейтинг книги
Завод 2: назад в СССР

Пышка и Герцог

Ордина Ирина
Фантастика:
юмористическое фэнтези
историческое фэнтези
фэнтези
5.00
рейтинг книги
Пышка и Герцог

Экономка тайного советника

Семина Дия
Фантастика:
фэнтези
5.00
рейтинг книги
Экономка тайного советника

Обгоняя время

Иванов Дмитрий
13. Девяностые
Фантастика:
попаданцы
5.00
рейтинг книги
Обгоняя время

Битва королей

Мартин Джордж Р.Р.
2. Песнь Льда и Огня
Фантастика:
фэнтези
9.61
рейтинг книги
Битва королей

Душелов. Том 2

Faded Emory
2. Внутренние демоны
Фантастика:
фэнтези
боевая фантастика
аниме
5.00
рейтинг книги
Душелов. Том 2

Возрождение Феникса. Том 2

Володин Григорий Григорьевич
2. Возрождение Феникса
Фантастика:
фэнтези
попаданцы
альтернативная история
6.92
рейтинг книги
Возрождение Феникса. Том 2

Черный маг императора 3

Герда Александр
3. Черный маг императора
Фантастика:
попаданцы
аниме
5.00
рейтинг книги
Черный маг императора 3

Сирота

Шмаков Алексей Семенович
1. Светлая Тьма
Фантастика:
юмористическое фэнтези
городское фэнтези
аниме
5.00
рейтинг книги
Сирота

Меч Предназначения

Сапковский Анджей
2. Ведьмак
Фантастика:
фэнтези
9.35
рейтинг книги
Меч Предназначения

Матабар. II

Клеванский Кирилл Сергеевич
2. Матабар
Фантастика:
фэнтези
5.00
рейтинг книги
Матабар. II