Одна формула и весь мир
Шрифт:
*Одна из 32 карточек должна быть пустой. При извлечении этой карточки в тексте оставляется пропуск, соответствующий интервалу между словами.
Математик Р. Л. Добрушин в результате такого эксперимента получил текст, который вы уже видели на 25-й странице. Возвращаясь к нему теперь, спросим себя: стоило ли ради такой бессмыслицы делать специальный эксперимент? Оказывается, стоило. Ведь полученный Добрушиным текст — это не просто бессмыслица, а самая бессмысленная бессмыслица, какую только можно вообразить. Чередование букв наиболее беспорядочно, хаотично. Энтропия текста обладает наибольшей их всех возможных текстов величиной.
Все это вытекает
Ра = Рб=... =Ря= 1/32
Чтобы это условие не нарушилось, мы настоятельно рекомендовали после извлечения карточки возвращать ее к коробку и тщательно снова все перемешивать.
Заметим, что вероятность извлечения пустой карточки, соответствующей интервалу между словами, также равна 1/32. Поэтому-то такими несуразно длинными получились слова нашего странного текста: каждое слово, формируемое описанным способом, состоит в среднем из 32 букв, то есть на каждые 32 наугад извлеченные буквы попадется в среднем один интервал.
В реальных текстах средняя длина слова составляет примерно 6 букв. Это значит, что в реальных текстах интервал встречается примерно в 5 раз чаще, чем в нашем эксперименте. Значит, его вероятность для реального текста составляет не 1/32, а 5/32= 1/6=0,17.
Так же обстоит дело и с остальными буквами вероятность их появления в реальных текстах значительно отличается от 1/32.
Для определения реальных значений вероятностей появления букв в письменных текстах фиксировали частоту появления каждой буквы на протяжении сотен и тысяч страниц.
В результате такого учета было установлено, что чаще всего в русских текстах появляется буква «О» (ро = 0,09), а реже всего буква «Ф» (рф = 0,002) 6.
**Сравните с вероятностью появления тех же букв в описанном эксперименте:Ро=Рф=1/32= 0,03
Чаще, чем буква «О» и другие буквы, появляются в русских текстах интервалы между словами. Их вероятность составляет ринтервала = 0,17.
Благодаря тому, что вероятности появления различных букв в реальных текстах неодинаковы, их энтропия (беспорядочность) меньше, чем в экспериментальном, искусственном тексте. Реальные тексты отличаются от энтропийного определенным порядком чередования букв.
Чтобы уяснить, как возникает порядок, попытаемся составить текст, в котором соблюдались бы реальные вероятности появления букв. Для этого нам придется вновь поместить карточки с буквами в общую коробку, но теперь понадобится не 32 карточки, а значительно больше, потому что число карточек должно быть пропорционально вероятностям появления букв (например, на две карточки с буквой «Ф», имеющей вероятность рф =0,002, должно приходиться 90 карточек с буквой «О», имеющей вероятность Ро =0,09 и т. д.).
Впрочем, можно не тратить времени на приготовление множества карточек с буквами. Тот же эксперимент можно проделать без карточек, используя обычный печатный текст. Ведь в тексте каждая буква будет встречаться именно с той частотой, которая соответствует ее вероятности.
Если, закрыв глаза, наугад переворачивать страницы и указывать на букву, а затем приписывать ее к ряду ранее таким же
Мы намеренно расположили фразу № 2 рядом с ранее полученной искусственной фразой № 1, чтобы читатель мог наглядно убедиться, насколько возрос порядок в тексте после того, как мы учли реальные вероятности появления букв.
В чем проявляется порядок? Во-первых, исчезли из текста слова несуразно длинные. Это произошло потому, что мы учли реальную вероятность появления интервала между словами (Ринтервала =0,17).
Во-вторых, в отличие от фразы № 1, где друг за другом следовали 5 или 6 согласных букв (ЖТЛФВНЗ и т. п.), во фразе № 2 гласные и согласные буквы чередуются более или менее равномерно, потому что учтены реальные вероятности появления и тех и других. Благодаря этому слова фразы № 2 стали более или менее «удобочитаемы», в отличие от фразы № 1, где сколько бы вы ни старались, вам не удастся произнести вслух такие сочетания букв, как БЬДЩ или ЖТЛФВНЗ.
Впрочем, и во фразе № 2 порядок не столь велик, чтобы всю эту фразу можно было «озвучить». Ну как, например, произнести стоящий в начале слова ЬУЕМЛОЛЙК-ЗБЯ мягкий знак?
По всей видимости, в нашей упорядоченной фразе № 2 еще не учтены все правила, по которым строятся реальные тексты. Чтобы сделать еще один шаг, приближающий наши искусственные фразы к фразам реальных текстов, давайте несколько усложним эксперимент. Будем учитывать вероятности не только отдельных букв, но л их сочетаний. Для этого снова раскроем наугад какую-нибудь книгу и из случайно выбранного слова выпишем четыре буквы, идущие одна за другой, например ВЕСЕ. Теперь будем скользить глазами по строчкам текста до тех пор, пока не встретим в тексте сочетание ЕСЕ (три последние буквы нашей записи ВЕСЕ). Выпишем ту букву, которая следует за сочетанием ЕСЕ (если, к примеру, встретившееся нам сочетание ЕСЕ принадлежит слову «ПЕРЕСЕЛЕНИЕ», то выпишем следующую за сочетанием ЕСЕ букву Л). Теперь записанное нами сочетание букв превратилось в ВЕСЕЛ. Снова запоминаем три последние буквы СЕЛ и ищем такое же сочетание в реальном тексте. Допустим, что такое сочетание встретилось нам в словах «присел на скамейку». В этом тексте следом за сочетанием СЕЛ следует интервал. Значит и в «конструируемом» нами тексте интервал должен следовать за сочетанием ВЕСЕЛ.