Информация как основа жизни
Шрифт:
Теперь мы вплотную подошли к проблеме распознавания. Если имеется некий физический объект и мы хотим выяснить, содержит ли он информацию, то ответ на этот вопрос предполагает хотя бы потенциальную возможность ответить на три следующих вопроса: к какой информационной системе он относится или может относиться? какие способы фиксации информации здесь использованы? и какова семантика этой информации? Естественно, что здесь предполагается искусственное фиксирование информации на данной подложке, а не спонтанное ее возникновение, проистекающее из самой природы объекта. Ведь сведения, которые мы "получаем", анализируя какой-либо объект, могут быть использованы для создания информации об этом объекте, а это не следует смешивать со считыванием информации, в данном объекте содержащейся, – если, конечно, она там имеется.
С фиксируемостью
Свойство, или, точнее, принцип, инвариантности информации означает, что одна и та же информация, независимо от ее семантики, может быть "записана" на любом языке, любым алфавитом, т. е. системой знаков, наносимых любыми способами на любые носители. Другими словами, ни количество, ни семантика никакой информации не зависят от того, какая система записи избрана для ее фиксации и какой для этого использован носитель. Инвариантность информации как бы подчеркивает ее внутреннюю независимость от ее материальных оков, ее автономность и суверенность, которые сохраняются как бы наперекор судьбе, обрекающей информацию быть вечным узником мира вещей – ее физических носителей.
Инвариантность информации обусловливает возможность использовать разные способы ее фиксации на разных носителях при осуществлении разных элементарных информационных актов – создания, передачи, приема, хранения и использования информации. Для "перевода" информации с одной системы записи на другую или для перекодировки во многих информационных системах существуют специальные устройства. Перевод информации с одного языка на другой или с одной системы записи на другую возможен только благодаря свойству инвариантности. Таким образом, именно инвариантность лежит в основе возможности понимания информации – перевода ее с чуждого языка (или способа записи) на язык (или способ записи), свойственный данной информационной системе. Свойство инвариантности информации по отношению к системе записи и природе носителя также означает, что результаты ее реализации (или использования) не зависят ни от того, ни от другого, а определяются лишь ее семантикой.
Ярчайшим примером инвариантности информации может служить наше понимание генетической информации и создание искусственных генов в соответствии с заранее составленным планом.
Инвариантность информации по отношению к носителям создает принципиальную возможность записи любой информации на одном и том же языке с помощью одного и того же алфавита, т. е. как бы "сведения ее к единому знаменателю". Это, хотя и не явно, было использовано К.Шенноном при решении вопроса о способе определения количества информации. Для этого можно воспользоваться формулой (12)
где М - число букв в тексте, a i - порядковый номер одной буквы в алфавите, использованном для записи информации. Здесь k - коэффициент, величина которого зависит от выбора единиц измерения количества информации и основания логарифмов. Если Н выражать в битах, то при q = 2 величина k = 2. При использовании для записи информации бинарного кода (п = 2, р1 = ро = 0,5) величина Нм = М. Другими словами, количество информации, выраженное в битах, равно числу знаков бинарного алфавита, необходимому для ее записи.
Последнее утверждение далеко не тривиально. В основе его лежит, во-первых, свойство инвариантности информации по отношению к носителям; во-вторых, представление о емкости информационной тары; в-третьих, способ количественного измерения этой емкости, которым, по существу, и является формула Шеннона. Рассмотрим эти вопросы более внимательно.
Свойство инвариантности, как мы уже видели, позволяет утверждать, что одну и ту же информацию можно фиксировать любыми носителями. Носители информации – языки, алфавиты, способы фиксации и подложки – выступают как бы в роли "информационной тары", которая может содержать информацию, причем любую. Если представление о количестве информации не лишено смысла, то отсюда следует, что для фиксации одного и того же количества информации с помощью разных носителей емкость используемой для этого информационной тары должна быть одной и той же. Полагая элементарные носители информации – отдельные буквы алфавита – дискретными, можно утверждать, что одну и ту же информацию, по меньшей мере в пределах одного и того же языка, можно записывать самыми разными алфавитами, содержащими разное число букв, в том числе и бинарным. Формула (1), показывающая, сколько битов информации содержится в некотором сообщении, по существу означает, что для записи этого сообщения бинарным кодом требуется М букв.
Формулу (1) можно записать
Очевидно, что данная формула показывает, сколько знаков М алфавита, состоящего из п букв, требуется для записи данного количества Н информации. Очевидно, что в основе формулы (13) лежит формула (6), означающая, следовательно, сколько информации может "вместиться" в один из символов данного алфавита. Приняв в качестве единицы количества информации один бит и используя разные значения п и pi, легко убедиться, что информационная емкость отдельных символов может быть выражена любым числом, как целым, так и дробным, в том числе апериодическим. Это лучше согласуется с представлением о континуальности, нежели о дискретности самой информации, в отличие от единиц информационной тары.
Итак, мы пришли к выводу, что информационная емкость i-го символа любого алфавита, выраженная в битах, равна –log2pi, где pi есть частота встречаемости этого символа в данном языке. Это утверждение, выведенное из формулы (6) К. Шеннона, можно назвать правилом Шеннона.
Заметим, однако, что в работах самого К. Шеннона речь идет не об информационной емкости, а о количестве информации. Справедливо полагая, что количество информации, связанной с каким-либо сообщением, не должно зависеть от его семантики, К. Шеннон формулировал вопрос так: сколько информации получает адресат, воспринимая каждую из букв сообщения? Количество такой информации он и предложил выражать через величину Н и постулировал аддитивность этой величины по отношению к любому числу символов, составляющих сообщение. При этом непроизвольно произошла подмена терминов: понятие об информации, как о содержательной стороне сообщения, было подменено понятием о количестве информации, представляющем собой функцию статистических характеристик составляющих сообщение символов. Эта подмена терминов не имела никаких последствий для развития математической теории связи и даже оказалась для нее благотворной: ведь по каналам связи передают не информацию, а ее носителей, и для оптимизации работы систем связи безразлично, какую именно информацию эти носители содержат и содержат ли они ее вообще. Однако для теории информации эти различия весьма существенны, и вот почему.
Рассмотрим два сообщения: "Каин убил Авеля" и "инилА ваКу лебя". Оба они состоят из одинаковых 15 знаков, но первое – вполне осмысленно, т. е. содержит информацию, а второе представляет собой случайную последовательность букв и никакой информации не содержит. Согласно формуле (8), однако, с ними обоими связано одно и то же количество информации –около 45 битов. Если принять это утверждение за истинное, то отсюда следует, что информация может быть лишена семантики, что на самом деле нонсенс, ибо бессмысленной информации не бывает. Но возможен другой выход из этого противоречия: считать, что формула (8) является мерой не количества информации, а емкости информационной тары. Первая фраза – это тара, "полностью загруженная информацией", а вторая фраза это совершенно пустая тара. Очевидно, что емкость тары не зависит от того, загружена она или нет, полностью загружена или частично, а также от того, чем именно она загружена. Если тара заполнена, то ее емкость может служить мерой количества содержащегося в ней груза. Эти простые соображения позволяют сделать три вывода. Во-первых, если H-функцию считать емкостью информационной тары, то ее в равной мере можно прилагать и к осмысленным, и к бессмысленным наборам символов, которые могут служить носителями информации. Во-вторых, одни и те же единицы измерения, биты, можно применять для оценки и емкости тары, и количества информации, которая в ней может содержаться. В-третьих, при измерении в битах количество информации В, содержащейся в сообщении, заключено в интервал 0<=В<=Н, где Н – емкость составляющих сообщение носителей информации. Н сообщения, таким образом, – это верхняя граница того количества информации, которое может в нем содержаться, причем В = Н только при абсолютно компактном тексте.
К этим же выводам можно прийти и другим путем, рассматривая смысловое содержание понятия "избыточности", или условную вероятность встречаемости i- ro символа после 1-го, 2-го и т. д., а также после разных сочетаний двух, трех и т. д. символов [11]. При таком подходе легко показать, что величина Н имеет максимальное значение только при совершенно случайном расположении символов в сообщении, а при возрастании его осмысленности величины pi независимо от i, стремятся к единице, а Я стремится к нулю. В нашей интерпретации это выглядит вполне естественным: по мере заполнения тары информацией свободного места в ней остается все меньше. Если перед правыми частями формул (6)-(8) не ставить знак минус, как это делал Н. Винер [5], то величина Н будет меньше или равной нулю и будет обозначать количество недостающей в таре информации до ее полного заполнения. Естественно, что эта величина имеет минимальное значение лишь при совершенно случайном расположении составляющих сообщение букв.