Чтение онлайн

на главную - закладки

Жанры

300 лучших программ на все случаи жизни
Шрифт:

К счастью, на свете существуют программы, способные перевести сканированный текст из графического в текстовый формат – программы распознавания текста или OCR (Optical Character Recognition).

Современная OCR должна уметь многое: распознавать тексты, набранные не только определенными шрифтами (именно так работали распознавалки первого поколения), но и самыми экзотическими, вплоть до рукописных. Уметь корректно работать с текстами, содержащими слова на нескольких языках, корректно распознавать таблицы. И самое главное – корректно распознавать не только четко набранные тексты, но и такие, качество которых, мягко говоря, далеко от идеала. Например, текст

с пожелтевшей газетной вырезки или третьей машинописной копии. Само собой, распознать текст – это еще полдела. Не менее важно обеспечить возможность сохранения результата в файле популярного текстового (или табличного) формата – скажем, формата Microsoft Word или Excel.

Как видим, для того, чтобы получить электронную, готовую к редактированию копию любого печатного текста, программе OCR необходимо выполнить «цепочку» из множества отдельных операций:

Сканирование. За эту работу отвечает, собственно, не программа OCR, а встроенное в систему программное обеспечение вашего сканера.

Сегментация. Полученную со сканера «картинку» подхватывает OCR-программа. Но до распознавания еще далеко – сначала надо отделить текстовые элементы от графики, да и текст в ряде случаев разбить на отдельные куски (например, при многоколонной верстке).

Распознавание. На этом этапе текст переводится из графической формы в текстовую.

Проверка орфографии и правка. Встроенная система проверки орфографии «проходится» по тексту, проверяя и корректируя последствия работы системы распознавания.

Сохранение. Для дальнейшей обработки документ должен быть передан «на поруки» соответствующей программе – как правило, одному из продуктов семейства Microsoft Office. Или сохранен в формате, соответствующем его содержанию: текст – в DOC или RTF, таблица – в XLS.

Все эти операции в большинстве программ OCR могут выполняться как в автоматическом, с помощью программы-мастера, так и в ручном режиме, по отдельности.

С двумя первыми и последней операциями справится любая программа распознавания. А вот весь процесс целиком по зубам, увы, только нескольким продуктам, разработанным в нашей стране. Хотя в теории с русским текстом должны справляться еще несколько западных «распознавалок», качество их работы не может сравниться с CuneiForm от фирмы Cognitive и FineReader от ABBYY Software.

Обе программы вы можете приобрести отдельно или получить бесплатно вместе с купленным вами сканером. В частности, известная во всем мире компания HewlettPackard (на долю которой приходится значительная часть рынка сканеров в России) поставляет вместе со своей продукцией упрощенную версию CuneiForm.

FineReader

Сайт: http://www.abbyy.com

Размер: 35 140 Мб (Поставляется на CD)

Статус: Commercial

Цена: $130 (Professional), $260 (Corporate)

Именно эту программу чаще всего поминают, когда речь заходит о системах распознавания. И вполне заслуженно – компания ABBYY ( смогла не просто создать удобный для пользователя и качественный продукт, но и, самое главное, удачно «раскрутить» его, обеспечив «Файнридеру» пламенную любовь всей компьютерной прессы. Одно это, согласитесь, многого стоит.

Другим удачным ходом разработчиков FineReader стало внедрение в продукт массы дополнительных функций, которые простому пользователю,

возможно, и без надобности, но зато производят впечатление на определенные группы покупателей. Так, одним из козырей FineReader является поддержка неимоверного количества языков распознавания – почти 200, в числе которых вы найдете экзотические и древние языки, и даже популярные языки программирования (Basic, С/C++, COBOL, Fortran, Java, Pascal)! Так что FineReader сможет без запинки справиться с древнегреческим свитком или с бледными распечатками исходных текстов программ, сделанных вашими предками лет 30 назад.

Как ни странно, большинство пользователей на деле интересуются совсем другим. Офисных работников интересует распознавание типовых форм документов, студентов – возможность быстро «передрать» для реферата многостраничный текст из учебника, сканируя и распознавая книжный разворот целиком, бухгалтеров – возможность автоматического распознавания таблиц и документов на бланках. Все это и многое другое FineReader умеет... или не все, а только частично, в зависимости от модификации продукта. Далеко не все возможности из нашего перечня включены в самую простую модификацию программы, которую вы можете получить бесплатно вместе со сканером. Пакетное сканирование, грамотная обработка таблиц и изображений – для всего этого стоит приобрести профессиональную версию программы – FineReader Pro. Заодно она умеет безукоризненно читать штрихкоды, позволяет добавлять в базу данных новые языки. А самая мощная (и дорогостоящая) версия – FineReader Corporate без труда справится и с распознаванием любых бланков и форм! Эта версия отличается также поддержкой сетевого режима, возможностью удаленного администрирования и рядом других возможностей.

После завершения распознавания страницы FineReader предложит пользователю выбор: сканировать и распознавать дальше (для многостраничного документа) или сохранить полученный текст в одном из множества популярных форматов – от документов Microsoft Office до HTML или PDF. Можно, впрочем, сразу же перебросить документ в Word или Excel, и уже там исправить все огрехи распознавания (без них обойтись просто невозможно). При этом FineReader полностью сохраняет все особенности форматирования документов и его графическое оформление.

Электронные архивы и системы поиска

Документы, как известно, имеют премерзкое свойство накапливаться. И чем больше документов, тем труднее в их залежах найти нужный. Электронные документы здесь не слишком отличаются от бумажных. Проблема места для хранения, правда, стоит в этом случае не столь остро. Но проблема поиска остается.

На вашем диске хранятся сотни и даже тысячи текстовых документов, страниц Интернета, электронных таблиц, графических и даже звуковых файлов. Попробуйте-ка быстро отыскать среди этой горы информации нужный документ – особенно если вы слабо представляете себе, где он лежит и как называется.

Выход один воспользоваться поиском, благо в Windows есть собственная искалка, которая (теоретически) может отыскать любой файл по нескольким ключевым словам. Однако стандартный механизм индексации и поиска в Windows изначально работает «спустя рукава», и на быстрый (и главное – успешный) поиск рассчитывать не приходится. Выход Windows Vista должен, как ожидается, исправить положение, ведь в эту операционную систему изначально включена мощная система индексации. Но владельцам Windows XP не стоит унывать, благо существует добрый десяток программ, которые способны решить проблему поиска без перехода на новую ОС.

Поделиться:
Популярные книги

Законы Рода. Том 10

Андрей Мельник
10. Граф Берестьев
Фантастика:
юмористическая фантастика
аниме
фэнтези
5.00
рейтинг книги
Законы Рода. Том 10

Офицер

Земляной Андрей Борисович
1. Офицер
Фантастика:
боевая фантастика
7.21
рейтинг книги
Офицер

На границе империй. Том 3

INDIGO
3. Фортуна дама переменчивая
Фантастика:
космическая фантастика
5.63
рейтинг книги
На границе империй. Том 3

Наследие Маозари 6

Панежин Евгений
6. Наследие Маозари
Фантастика:
попаданцы
постапокалипсис
рпг
фэнтези
эпическая фантастика
5.00
рейтинг книги
Наследие Маозари 6

Камень. Книга вторая

Минин Станислав
2. Камень
Фантастика:
фэнтези
8.52
рейтинг книги
Камень. Книга вторая

Черный Маг Императора 11

Герда Александр
11. Черный маг императора
Фантастика:
юмористическое фэнтези
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Черный Маг Императора 11

Отмороженный 9.0

Гарцевич Евгений Александрович
9. Отмороженный
Фантастика:
боевая фантастика
рпг
5.00
рейтинг книги
Отмороженный 9.0

Метатель

Тарасов Ник
1. Метатель
Фантастика:
боевая фантастика
попаданцы
рпг
фэнтези
фантастика: прочее
постапокалипсис
5.00
рейтинг книги
Метатель

Гоплит Системы

Poul ezh
5. Пехотинец Системы
Фантастика:
фэнтези
рпг
фантастика: прочее
5.00
рейтинг книги
Гоплит Системы

Хозяйка покинутой усадьбы

Нова Юлия
Любовные романы:
любовно-фантастические романы
5.00
рейтинг книги
Хозяйка покинутой усадьбы

Моя (не) на одну ночь. Бесконтрактная любовь

Тоцка Тала
4. Шикарные Аверины
Любовные романы:
современные любовные романы
7.70
рейтинг книги
Моя (не) на одну ночь. Бесконтрактная любовь

Газлайтер. Том 4

Володин Григорий
4. История Телепата
Фантастика:
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Газлайтер. Том 4

Боярышня Евдокия

Меллер Юлия Викторовна
3. Боярышня
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Боярышня Евдокия

Опасная любовь командора

Муратова Ульяна
1. Проклятые луной
Фантастика:
фэнтези
5.00
рейтинг книги
Опасная любовь командора