Чтение онлайн

на главную - закладки

Жанры

Методы статистического анализа исторических текстов (часть 2)
Шрифт:

Эксперименты показывают, что обнаружение числовых характеристик, позволяющих различать тексты разных авторов, весьма сложная задача, поскольку при написании текста существенную роль играют не только подсознательные факторы, но и осознаваемые. Например, частота употребления автором редких и иностранных слов может служить в некотором смысле показателем его эрудиции, но этот показатель достаточно легко контролируется автором на сознательном уровне, что не позволяет, использовать эту числовую характеристику в качестве авторского инварианта.

Трудности также связаны с тем, что многие числовые характеристики текстов чрезвычайно

чувствительны в смене стиля в произведениях одного и того же автора, то есть принимают существенно различные значения для текстов, написанных автором в разное время. Таким образом, установление отличительных особенностей каждого автора весьма сложно, особенно если оценивать эти индивидуальные параметры количественно.

Искомая характеристика должна удовлетворять условиям:

1) Она должна быть достаточно "массовой", чтобы слабо контролироваться автором. То есть, эта характеристика должна быть в некотором смысле "бессознательным параметром", авторов.

2) Она должна быть "постоянной" для данного автора, то есть иметь небольшое отклонение от среднего значения, то есть слабо колебаться, вдоль всех его произведений.

3) Она должна различать между собой разные группы авторов, то есть должны существовать разные группы авторов, для которых отличия в значениях этой характеристики были бы больше, чем ее колебания внутри текстов одного автора.

После проведения обширного численного эксперимента оказалось, что числовым параметром текстов, который удовлетворяет перечисленным условиям, является относительная частота употребления автором совокупности служебных слов - предлогов, союзов и частиц. См. рис.1 и рис.2 в работе [к3], и рис.Доп-3.7. При величине выборки в 16000 слов процент служебных слов для каждого автора оказался приблизительно постоянным для всех его произведений. То есть, график изображается практически горизонтальной прямой. Оказалось, что разность между максимальным и минимальным значениями этого параметра (минимум и максимум взяты по всем исследованным авторам) значительно больше амплитуды его колебаний внутри произведений отдельных авторов. Это и означает что, он хорошо различает между собой многих авторов. На этом основании он был назван авторским инвариантом. Он может служить как для атрибуции неизвестных произведений, так и для обнаружения плагиата, хотя и с определенной осторожностью: наблюдается иногда авторы с очень близкими инвариантами. Например, Фонвизин и Толстой. Кроме того, для достаточно уверенных выводов требуются тексты большого объема.

Последнее условие в данном случае к счастью выполнено: как и у Миллера, так и у Ломоносова есть работы, содержащие более 16000 слов каждая. Таким образом, условия применимости методики выполнены.

Работа по применению методики авторского инварианта в рассматриваемом случае состоит в следующем.

1. Были рассматрены все доступные произведения Миллера и из них были выбраны те, которые содержат русский прозаический текст достаточного объема.

2. Затем был вычислен авторский инвариант Миллера, то есть процент употребления им служебных слов. При этом использовалась методика, изложенная в работе [к3].

3. То же самое было проделано с текстами Ломоносова.

4. Наконец, полученные значения инварианта были сравнены друг с другом.

Нам были доступны и были использованы следующие тексты Миллера [к1]:

1. "О первом летописателе Российском преподобном

Несторе, о его летописи и о продолжателях оныя".

2. "Предложение, как исправить погрешности, находящиеся в иностранных писателях, писавших о Российском государстве".

3. "Описание морских путешествий по Ледовитому и по Восточному морю, с Российской стороны учиненных".

4. "Известия о новейших кораблеплаваниях по Ледовитому и Камчатскому морю с 1742 года, то есть по окончании второй Камчатской экспедиции. Часть из истории государствования великия императрицы Екатерины Вторыя".

5. "Известие о дворянех [Российских]".

6. "[Описание городов Московской провинции]".

7. "История жизни и царствования Федора Алексеевича".

8. "[Проект создания исторического департамента Академии наук]".

9. "Важности и трудности при сочинении Российской истории".

10. "Инструкция переводчику Андреяну Дубровскому".

11. "Из переписки".

Из перечисленных работ Миллера только работы 3 - 7 имеют достаточный, более 6000 слов, объем. Кроме того, необходимо отделить те работы, которые были написаны в оригинале не по-русски, и возможно переведены на русский язык не Миллером, а кем-то другим. Из работ 3-7 это относится к работе 6: описание Коломны Миллер сделал на немецком. Кроме того в работе 6 есть много табличного материала, затрудняющего вычисления. Работы 3 и 4 содержат много числового материала, который также усложняет подсчеты. В тексте 7 много табличного и числового материала; кроме того он набран в разных форматах, что затрудняет его обработку по чисто техническим причинам.

Поэтому на первом этапе исследований был взят только текст 5. Его объем больше 16000 слов. При этом часть текста, расположенная между неудобными для посчетов таблицами (страницы 197 - 206) была исключена из рассмотрения. Обработке подверглись: начало (страницы 180 - 197) и конец (страницы 206 -225) данной работы. Страницы даны по изданию [к1].

Результат вычислений таков. Авторский инвариант Миллера оказался равным 28 процентам!

ЭТО - ИСКЛЮЧИТЕЛЬНО БОЛЬШОЕ ЗНАЧЕНИЕ ИНВАРИАНТА. Оно является наибольшим по сравнению со всеми другими авторами, проанализированными В.П.Фоменко и Т.Г.Фоменко в работе [к3].

Перейдем к подсчету авторского инварианта для М.В.Ломоносова. Были обработаны следующие его тексты.

1. "Описание стрелецких бунтов и правления царевны Софьи".

2. "Краткая история о поведении Академической канцелярии в рассуждении ученых людей и дел с начала сего корпуса до нынешнего времени".

3. "Древняя Российская история от начала российского народа до кончины великого князя Ярослава Первого, или до 1054 года, сочиненная Михайлом Ломоносовым, статским советником, профессором химии и членом Санктпетербургской императорской и королевской Шведской Академий наук".

Остальные 44 текста из книги [к2] не обрабатывались нами, как по уже перечисленным (в случае Миллера) причинам, так и потому, что примерно треть из них написаны в стихотворной, а не в прозаической форме, как того требуют условия вычислительного эксперимента. Причина выбраковки многих текстов состояла также в том, что до настоящего времени не сохранились их оригиналы, как и в случае с интересующей нас "Древней Российской историей". Поэтому принадлежность их М.В.Ломоносову может оказаться не бесспорной. В результате для счета осталась работа 2.

Поделиться:
Популярные книги

Record of Long yu Feng saga(DxD)

Димитров Роман Иванович
Фантастика:
фэнтези
5.00
рейтинг книги
Record of Long yu Feng saga(DxD)

Вусмиор. По ту сторону барьера

Глакс М. О.
7. Легенды Верхнего Мира
Фантастика:
городское фэнтези
фэнтези
5.00
рейтинг книги
Вусмиор. По ту сторону барьера

Мастер 9

Чащин Валерий
9. Мастер
Фантастика:
боевая фантастика
попаданцы
технофэнтези
аниме
фэнтези
5.00
рейтинг книги
Мастер 9

Шаман. Ключи от дома

Калбазов Константин Георгиевич
2. Шаман
Фантастика:
боевая фантастика
7.00
рейтинг книги
Шаман. Ключи от дома

Начальник милиции. Книга 6

Дамиров Рафаэль
6. Начальник милиции
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Начальник милиции. Книга 6

Вы не прошли собеседование

Олешкевич Надежда
1. Укротить миллионера
Любовные романы:
короткие любовные романы
5.00
рейтинг книги
Вы не прошли собеседование

Попаданка

Ахминеева Нина
Любовные романы:
любовно-фантастические романы
5.00
рейтинг книги
Попаданка

Гладиатор по крови

Скэрроу Саймон
9. Орел
Приключения:
исторические приключения
7.78
рейтинг книги
Гладиатор по крови

Красная королева

Ром Полина
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Красная королева

Чужая семья генерала драконов

Лунёва Мария
6. Генералы драконов
Фантастика:
фэнтези
5.00
рейтинг книги
Чужая семья генерала драконов

Боярышня Евдокия

Меллер Юлия Викторовна
3. Боярышня
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Боярышня Евдокия

Санек

Седой Василий
1. Санек
Фантастика:
попаданцы
альтернативная история
4.00
рейтинг книги
Санек

Барон нарушает правила

Ренгач Евгений
3. Закон сильного
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Барон нарушает правила

Третий. Том 4

INDIGO
Вселенная EVE Online
Фантастика:
боевая фантастика
космическая фантастика
попаданцы
5.00
рейтинг книги
Третий. Том 4