Одна формула и весь мир
Шрифт:
Для выявления закономерностей взаимодействия информации с энтропией очень удобной системой оказался письменный текст. В отличие, скажем, от наследственных кодов, спрятанных от любопытного взгляда ученого на глубокий молекулярный уровень (в ДНК), все взаимосвязи букв текста и их сочетаний, все вероятностные зависимости между элементами системы осуществляются буквально у нас на глазах. Вот почему, рассуждая об энтропийно-информационных свойствах самых разнообразных явлений, мы будем вновь и вновь сопоставлять их с письменным текстом, проецировать общие вероятностные закономерности, наглядно проявляющиеся в тексте, на целый
В свою очередь, текст отражает в себе статистические свойства более сложной и универсальной системы — человеческого языка.
Проведенные с помощью методов теории информации статистические исследования написанных на разных языках текстов показали, что несмотря на различия грамматических и фонетических правил, все исследованные языки обладают очень близкими статистическими характеристиками. Этот факт свидетельствует о действии неких общих статистических механизмов, управляющих процессами формирования и развития всех языков.
Наш язык — это гибкая, подвижная, легко адаптирующаяся в различных условиях система. В способности отражать, выражать, объяснять самые разнообразные стороны жизни и заключается основное достоинство языка, сохранившееся в нем потому, что в процессе своей эволюции он не достиг предела «приспособленности», в результате которой системы способны существовать только в определенных жестко детерминированных условиях (пчелы повторяют лишенные смысла инстинктивные действия, а тексты вырождаются в повторение одинаковых букв или слов).
Чтобы всего этого не случилось, язык сохранил в себе непредсказуемость, определенную «порцию» энтропии Оценить, каков удельный вес этой порции, позволяет опять-таки письменный текст. Подсчитано, что на каждые 4 бита обусловленной жесткими правилами избыточной (предсказуемой) информации приходится порция энтропии (непредсказуемой информации), составляющая примерно 1 бит.
Введем для удобства обозначения
Для обычного текста G = 0,25.
Текст из одних «А» обладает нулевой энтропией (Нр = 0), поэтому для него G = Нр/Iп= 0.
Текст с максимальной энтропией не подчиняется правилам. Для него Iп= 0 и соответственно G = Нр/Iп=
Помимо обычных текстов, существуют специальные тексты: бухгалтерские отчеты, протоколы собраний и заседаний и т. п. Они больше обычных текстов тяготеют к шаблону, в них повторяются стандартные термины и выражения (дебет-кредит, сальдо-бульдо, слушали-постановили и т. д.). Для таких текстов коэффициент G будет меньше, чем для
А обычный текст сохранил одну пятую часть (20 процентов) спасительной энтропии именно для того, чтобы иметь гибкость и многозначность, из которых проистекает совершенство, красота, образность, универсальность и все прочие бесценные качества нашего языка. При G = 0 мы не могли бы сообщить друг другу ничего нового — можно было бы предсказать заранее все последующие буквы и слова. При G = мы не могли бы понять друга, потому что каждый из нас в процессе общения обрушивал бы на собеседника не подчиняющийся никаким правилам набор несогласованных друг с другом слов («гвоздь бежала при тихое завтра...») или звуков (вроде приведенной в таблице фразы № 1). G = 1/4 — это наилучшее (на языке кибернетики — оптимальное) соотношение непредсказуемости (энтропийности) и детерминации (правил). Такое соотношение не случайно, оно возникло как результат длительной эволюции языка.
Наличие детерминированных правилами связей (Iп = 4 бита на каждую букву) обусловливает целостность языка как системы. Гибкие вероятностные связи между словами и буквами позволяют осуществлять и грамматическое и смысловое согласование слов. Именно благодаря вероятностным связям язык приобретает необходимую мягкость: каждое употребляемое нами слово может иметь множество оттенков, зависящих от предыдущих и последующих слов. Сравните, к примеру, значение слова «малиновый» в таких сочетаниях, как «малиновое варенье» и «малиновый звон». Или значение слова «чистый» в сочетаниях «чистый лист бумаги» и «чистый эксперимент»...
Язык поистинне неисчерпаем.
Слова многолики, их реальное значение трудно бывает ограничить какими-либо рамками — они то и дело норовят разорвать эти рамки, вступить в совершенно новые смысловые связи. И это не порок, а величайшее достоинство нашего языка как системы. Именно оно, это достоинство, основа великого многообразия выразительных средств подлинной поэзии и по-настоящему художественной прозы.
Подойдем теперь к этой обладающей величайшей гибкостью системе с позиций науки. «Недисциплинированность» языка означает для нее недисциплинированность мышления. Наука всегда, во все времена стремилась к терминологической строгости.
Определяйте значения слов,— призывал ученых Декарт. Что значит определяйте?
Это означает: сужайте! Чтобы четко отграничить понятие, нужно его конкретизировать, а такой процедуре далеко не каждое понятие поддается. Отсюда трудности, которые испытывают ученые в своих попытках «обучить» электронную машину понимать человека. Не стоило математикам больших усилий формализовать понятие «равенство». Современной математике удалось даже формализовать такие понятия, как «эквивалентность» и «сходство». Но попробуйте выразить строгим и жестким математическим языком такое понятие, как «впечатление»... Пока это еще никому не удалось и, по-видимому, не удастся никогда.