Чтение онлайн

на главную - закладки

Жанры

Аналитика: методология, технология и организация информационно-аналитической работы

Конотопов Павел Юрьевич

Шрифт:

Практика показывает, что этот класс источников обладает колоссальной информационной емкостью, другое дело, что «плотность» информации (коэффициент информативности данных) существенно варьируется от издания к изданию, от выпуска к выпуску, от программы к программе. Еще сложнее дело обстоит с релевантностью информации (ее свойством соответствовать текущим информационным потребностям субъекта): данных, содержащих релевантную информацию значительно меньше. А если учесть и иные ограничения, все более и более сужающие перечень источников и сообщений, то можно сделать вывод, что относительное количество сообщений, отвечающих потребностям управления некоторой конкретной системой в заданных условиях, крайне мало. К числу таких ограничений относятся: актуальность (возможность использования информации

для управления системой или процессом в их современном состоянии), своевременность (возможность использовать информацию в контуре управления с учетом быстродействия подсистемы доведения управляющих воздействий), точность, достоверность, непротиворечивость и иные. Соответственно при всем обилии информации, которая может быть в принципе извлечена из всей совокупности источников, доля информации, представляющей ценность для ИАР, направленной на достижение некоторой цели, относительно невысока.

Коль скоро мы решили, что в этом подразделе проблемы поиска, отбора и экспресс-анализа информации будут рассматриваться применительно к классу источников, использующих для представления информации языковые средства, то, в первую очередь, нам следует проанализировать состав этого класса и режимы коммуникации (коммуникационные ситуации). В типовой коммуникационной ситуации (при обмене информацией между производителем и потребителем информации в режиме реального времени) в качестве основных источников текстовой информации может выступать всего два типа систем: разумные (человек), интеллектуальные (системы искусственного интеллекта). Перечисленные системы способны самостоятельно генерировать новые тексты и информацию, то есть являются источниками и в узком, и в широком смысле, а также могут выступать в роли первичных источников текстовой информации. При наличии задержки в канале коммуникации речь идет о наличии промежуточного материального носителя информации, который обеспечивает возможность длительного хранения информации без внесения собственных искажений. Такие носители информации также могут рассматриваться в качестве источника информации, хотя сами не способны продуцировать информацию.

Чаще всего языковые средства коммуникации реализуют неоперативный режим коммуникации с использованием средств символьного представления информации (текстов). Поэтому, когда речь идет о неоперативной языковой коммуникации, в качестве источников принято рассматривать второй класс источников (материальные носители текстов). Если ввести строгие классификационные основания, то к классу источников, обеспечивающих неоперативные языковые коммуникации, следует причислять:

— источники неоперативной информации (хранилища, архивы и библиотеки, содержащие текстовые документы):

— на традиционных носителях символьных данных: бумага, фотопленка и т. д. (книги, журналы, реферативные журналы, газеты, рукописи, микропленки и иные);

— на нетрадиционных носителях символьных данных: магнитные ленты и диски, магнитооптические и оптические накопители ЭВМ, голографические накопители, электронные запоминающие устройства, сети ЭВМ различного уровня интеграции и т. д. (файлы, базы данных, хранилища данных, геоинформационные системы, глобальные, региональные и локальные сети ЭВМ и иные);

— источники оперативной информации (коммуникационные и связные системы, реализующие функцию коммуникации посредством передачи текстовых данных в символьном формате):

— воспроизводимые данные (зарегистрированные на материальных носителях, для которых существует возможность повторного воспроизведения), передаваемые в каналах связных и телекоммуникационных систем, основанных на различных физических принципах действия, в том числе, воспроизведенные методом оптической проекции и т. д.;

— невоспроизводимые данные (возможность регистрации которых на материальных носителях и повторного воспроизведения отсутствует по тем или иным причинам), передаваемые в каналах связных и телекоммуникационных систем, основанных на различных физических принципах действия, в том числе, воспроизведенные методом оптической проекции и т. д.

Источники информации, не воспроизводимой

с требуемой степенью точностью, мы исключим из рассмотрения
в силу их малой полезности, а также по причине того, что их поиск становится невозможным в силу отсутствия доступа к материальной копии. Впрочем, определив потенциального носителя таких данных или расположение материальной копии, возможно организовать доступ к материальной копии или носителю сведений, как, например, в случае захвата вражеского «языка», получения несанкционированного доступа к данным и иных случаях насильственного изъятия информации.

При наличии доступа к материальной копии информации (данным) всю совокупность доступных данных можно рассматривать в качестве источниковой базы проведения исследований. В этом случае, решив проблему согласования форматов представления, аналитик получает возможность применения комплекса информационных технологий к полученному массиву текстов. При этом, как мы уже указывали, аналитиком решается задача сжатия или обобщения информации, первыми этапами которой является отбор текстов, релевантных теме исследования, то есть — формирование специализированного массива текстов, которые имеют отношение к решаемой задаче.

При этом выделяются два класса источников, не рассматривавшихся в предложенной ранее классификации, а именно: класс источников неструктурированных текстовых данных и класс источников структурированных текстовых данных. При этом под текстом можно понимать и числа, как частный случай.

5.1 Неструктурированные текстовые данные

Наиболее доступным источниками информации на сегодня можно считать средства массовой информации и издания в диапазоне от художественной литературы и публицистики до специализированных научных изданий. Предположим, что в результате применения некоторого комплекса инструментальных средств вами получен неспециализированный массив текстовой информации на компьютерных носителях, обеспечивающий возможность применения разнообразных технологий обработки и анализа информации с применением программных и аппаратно-программных средств.

Также будем считать, что существует возможность оперативного пополнения этого массива за счет ресурсов глобальных, региональных и локальных телекоммуникационных сетей, подключения к ресурсам информационных агентств, а также получения текстов, публикуемых в электронных и обычных средствах массовой информации.

Такими возможностями на сегодня располагает большинство субъектов ИАР, обладающих возможностью подключения к ГСТК Интернет (Спринтнет, Гласнет, Релком, локальной вычислительной сети организации) и несложным комплектом технических средств, включающим в свой состав ЭВМ и периферийные устройства типа сканера, среднескоростного модема для аналоговых или цифровых каналов связи. Возможны и иные варианты комплектации, что в данном случае несущественно.

Задача состоит в том, чтобы осуществить над имеющимся массивом данных некие манипуляции, в результате которых будет получен специализированный массив каталогизированных и, возможно, аннотированных данных, необходимых для проведения дальнейших исследований.

Одним из вариантов решения задачи является использование неавтоматизированного режима поиска и отбора информации (в этом случае массив источников последовательно прочитывается на предмет поиска необходимой информации, и тексты, содержащие необходимые сведения подвергаются копированию/перемещению в некоторую область дискового пространства и/или каталогизации, при этом возможно параллельное аннотирование/комментирование текстов). Однако на достаточно больших массивах текстов такая технология представляется крайне трудоемкой и малоэффективной. Несмотря на то, что существуют технологии быстрого чтения, обеспечивающие человеку за счет оптимизации траектории перемещения точки фиксации зрения по носителю текста скорость чтения порядка 3000 знаков в минуту, эти технологии не могут сравниться с быстродействием, которое способны обеспечить компьютерные системы. Поэтому основное внимание мы сосредоточим на инструментальном обеспечении процессов поиска, отбора и экспресс анализа текстовых данных.

Поделиться:
Популярные книги

Перед бегущей

Мак Иван
8. Легенды Вселенной
Фантастика:
научная фантастика
5.00
рейтинг книги
Перед бегущей

Обгоняя время

Иванов Дмитрий
13. Девяностые
Фантастика:
попаданцы
5.00
рейтинг книги
Обгоняя время

Господин моих ночей (Дилогия)

Ардова Алиса
Маги Лагора
Любовные романы:
любовно-фантастические романы
6.14
рейтинг книги
Господин моих ночей (Дилогия)

Восхождение язычника 5

Шимохин Дмитрий
5. Проснувшийся
Фантастика:
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Восхождение язычника 5

Кротовский, вы сдурели

Парсиев Дмитрий
4. РОС: Изнанка Империи
Фантастика:
попаданцы
альтернативная история
рпг
5.00
рейтинг книги
Кротовский, вы сдурели

Господин следователь. Книга пятая

Шалашов Евгений Васильевич
5. Господин следователь
Детективы:
исторические детективы
5.00
рейтинг книги
Господин следователь. Книга пятая

Барон диктует правила

Ренгач Евгений
4. Закон сильного
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Барон диктует правила

Полное собрание сочинений. Том 25

Толстой Лев Николаевич
Проза:
классическая проза
5.00
рейтинг книги
Полное собрание сочинений. Том 25

Комсомолец 2

Федин Андрей Анатольевич
2. Комсомолец
Фантастика:
попаданцы
альтернативная история
7.50
рейтинг книги
Комсомолец 2

Хозяйка покинутой усадьбы

Нова Юлия
Любовные романы:
любовно-фантастические романы
5.00
рейтинг книги
Хозяйка покинутой усадьбы

Офицер-разведки

Поселягин Владимир Геннадьевич
2. Красноармеец
Фантастика:
боевая фантастика
попаданцы
5.00
рейтинг книги
Офицер-разведки

ЧОП ’ЗАРЯ’

Гарцевич Евгений Александрович
1. ЧОП ’ЗАРЯ’
Фантастика:
фэнтези
детективная фантастика
попаданцы
5.00
рейтинг книги
ЧОП ’ЗАРЯ’

Я тебя верну

Вечная Ольга
2. Сага о подсолнухах
Любовные романы:
современные любовные романы
эро литература
5.50
рейтинг книги
Я тебя верну

Белые погоны

Лисина Александра
3. Гибрид
Фантастика:
фэнтези
попаданцы
технофэнтези
аниме
5.00
рейтинг книги
Белые погоны