Методы статистического анализа исторических текстов (часть 2)
Шрифт:
Для изученных нами писателей параметр 3 может принимать значения от 19,4 процентов до 27,5 процентов, т.е. диапазон его значений достаточно велик по сравнению с колебаниями параметра внутри текстов отдельных авторов.
Приведем теперь таблицу значений параметров 3,7 и 8 для Гоголя, Герцена, Достоевского, Леонова и Фадеева.
– ----------|------|------|------|------------|------|------|------| параметры: | 3 | 7 | 8 | параметры: | 3 | 7 | 8 | -----------|------|------|------|------------|------|------|------| ГОГОЛЬ 23,82 2,25 2,10 | ГЕРЦЕН 22,42 2,87 2,03
23,54 2,29 1,86 | 22,87 3,10 2,04
23,61 2,61 1,82 | 22,98 2,64 1,92
23,62 2,75 1,90 |
23,85 2,10 2,50 | --------------------------------|---------------------------------сред.знач. 23,65 2,45 1,95 |
25,29 2,13 2,14 | --------------------------------|---------------------------------сред.знач. 25,32 2,38 2,02 | сред.знач. 23,06 2,83 1,90 отклонение 0,007 0,15 0,25 | отклонение 0,003 0,14 0,10 -----------|------|------|------|------------|------|------|------| параметры: | 3 | 7 | 8 | параметры: | 3 | 7 | 8 | -----------|------|------|------|------------|------|------|------| ФАДЕЕВ 23,40 2,54 1,78 |
23,43 2,72 1,99 | --------------------------------| сред.знач. 23,40 2,62 1,89 | отклонение 0,002 0,07 0,11 | --------------------------------|--------------------------------
Приведем таблицу значений параметров 3,1,2,9 для Гончарова и Лескова.
– -------------|------|------|------|------| параметры: | 3 | 1 | 2 | 9 | --------------|------|------|------|------| ГОНЧАРОВ 25,13 11,67 2,09 2,92
24,88 13,16 2,03 3,31
24,98 13,72 2,06 3,68
25,47 15,05 2,10 3,58 ------------------------------------------сред.значение 25,06 13,41 2,06 3,37 отклонение 0,019 0,25 0,03 0,26 --------------|------|------|------|------| параметры: | 3 | 1 | 2 | 9 | --------------|------|------|------|------| ЛЕСКОВ 26,08 15,65 2,05 3,99
25,83 18,11 2,16 4,69
26,18 15,40 2,11 4,02 ------------------------------------------сред.значение 26,01 16,58 2,11 4,28 отклонение 0,010 0,16 0,05 0,163 ------------------------------------------
Высокой стабильностью характеризуются значения параметра 3 для А.М.Горького: 22,02, 22,21, 22,20, 22,17 и т.д. Среднее значение 22,15, а отклонение 0,009.
Кстати, значения всех перечисленных параметров вычислялись с точностью до ТРЕХ десятичных знаков. В таблицах значения округлены до двух десятичных знаков. Три знака оставлены только для отклонений параметра 3 от среднего значения.
Поскольку параметр 3 - процентное содержание всех служебных слов - выделяется среди остальных параметров своей поразительной СТАБИЛЬНОСТЬЮ И РАЗЛИЧАЮЩЕЙ СПОСОБНОСТЬЮ, то интересно специально проследить за его колебаниями в зависимости от объема выборки. Приведем таблицу, показывающую зависимость величины отклонения от среднего значения при разных выборках.
– --------------|-----------|-------------------------------------Писатели | Процент | Величина отклонения этого параметра
| служебных | от его среднего значения при
| слов | следующих объемах выборок:
| |---------|--------|--------|--------
| | 2000 | 4000 | 8000 | 16000 ---------------|-----------|---------|--------|--------|--------ЧУЛКОВ..............22,15......0,064....0,004......-........НОВИКОВ.............23,57......0,136....0,019......-........ФОНВИЗИН............23,62......0,069....0,013....0,001......РАДИЩЕВ.............22,30......0,054....0,018......-........КАРАМЗИН............19,44......0,051....0,014....0,003......КРЫЛОВ..............23,67......0,040....0,013......-........ГОГОЛЬ..............23,65......0,169....0,066....0,019....0,013
Как видно из таблицы, стабилизация параметра 3 иногда наступает на объемах выборок, меньших чем 16000. Особенно это относится к писателям XVIII века. Например, для Карамзина стабилизация авторского инварианта наступает при объеме в 8000 слов, для Фонвизина - также 8000 слов. Вероятно, это указывает на несколько большую устойчивость стиля писателей XVIII века по сравнению с их коллегами в XIX и XX веках.
Подмеченное нами обстоятельство - ранняя стабилизация показывает, что в некоторых случаях авторским инвариантом (процент служебных слов) можно пользоваться и при изучении текстов небольших объемов. Однако при широких исследованиях необходимо все-таки пользоваться выборками в 16000 слов, поскольку только для них стабилизация параметра 3 наступает ОДНОВРЕМЕННО для всех исследованных авторов.
После обнаружения авторского инварианта для перечисленных 22 писателей, рамки эксперимента были расширены и аналогичные подсчеты были проведены еще для пяти авторов: А.Н.ОСТРОВСКОГО, А.К.ТОЛСТОГО, В.А.ЖУКОВСКОГО, А.С.ПУШКИНА и А.П.ЧЕХОВА. Были отобраны ПРОЗАИЧЕСКИЕ тексты БОЛЬШОГО объема. Расширенный эксперимент полностью подтвердил высокую стабильность параметра 3 при выборках в 16000 слов и его способность различать разные группы авторов. Таким образом, полный список писателей, для которых параметр 3 оказался устойчивым и различающим авторским инвариантом, расширился с 22 до 27.
10. КАК МОЖНО ПРИМЕНЯТЬ ОБНАРУЖЕННЫЙ АВТОРСКИЙ ИНВАРИАНТ?
ВОЗМОЖНОЕ ОБНАРУЖЕНИЕ ПЛАГИАТА.
Одно из возможных применений обнаруженного авторского инварианта - это распознавания плагиата, установления возможного авторства и т.п. Можно предложить следующую естественную методику. Если для двух исследуемых произведений значения параметра 3 (процент служебных слов) разнятся больше, чем на единицу, то есть основания заподозрить различное авторство сравниваемых текстов. Чем больше разница в значениях инварианта, тем подозрение серьезнее.