Чтение онлайн

на главную - закладки

Жанры

Домашний компьютер № 9 (123) 2006
Шрифт:

Для предварительного просмотра сканируемого документа в утилите моего сканера используется кнопка Preview: после недолгой калибровки девайса в окне появляется исходный документ. Еще раз повторю: нет абсолютно одинаковых интерфейсов, и вам придется самостоятельно отыскать параметры, регулирующие разрешение сканирования и тип документа. В данном случае этим «ведают» опции Output Resolution и Color Mode, где и были заданы оптимальные параметры сканирования. В рассматриваемом примере нет нужды сканировать весь текстовый документ, содержащий поля большого размера, — кроме увеличения времени сканирования мы ничего не получим. При помощи кнопки обрезки выделим нужную область и запустим процесс (кнопка Scan).

По окончании сканирования страница документа отобразится в левой части окна FineReader 6.0 Sprint (рис. 2)

— обратите

внимание на слово «Изображение»: действительно, в данный момент наша исходная «бумага» представлена в графической форме, поскольку сканер не способен переводить результат своей работы в другой формат. Этим и будет заниматься программа распознавания. Теперь вспомним о языках распознавания: наш текст написан по-русски, следовательно, выбрать нужно именно русский в меню «Язык». Если будет выбран «не родной» язык, то результат распознавания не сможет расшифровать ни одна разведка мира. Теперь нажмем кнопку «Распознать» и спустя несколько секунд получим текст в правой части программного окна (рис. 3).

Увы, результат не радует — софтина выделила текстовые блоки зеленым цветом, что называется, «от фонаря», притом что текст исходного документа был напечатан очень качественно. В результате такой «вольности» распознался не весь текст. Интересный нюанс: автограф на «исходнике» был распознан как графический блок, но и здесь все очень плохо — два отдельных блока на несколько рукописных букв. В таких случаях можно исправить положение дел, если растянуть границы блоков, потянув мышью за узловые точки. Не так уж это и трудно, но есть и более простой способ: меню Процесс · Анализ макета страницы.

Замечательно, теперь выделен весь текст без малейших потерь, но ситуация с автографом не улучшилась (рис. 4)

— что же, без ручной корректировки границ блоков нам не обойтись: потянув за угол зеленого блока на автографе, сдвинем зеленую границу вправо. Аналогичную операцию проделаем и с красными блоками, растянув один из них на всю площадь рукописного текста (рис. 5).

Если программа ошибется и неверно определит тип блока (что бывает крайне редко), можно исправить положение посредством группы команд «Тип блока» в меню «Изображение»: при необходимости вы без труда измените текстовый блок на графический или табличный.

Повторно нажимаем на кнопку «Распознать», и, казалось бы, можно праздновать победу, ан нет. Проявился «глюк»: в тексте имеется словосочетание Sales Guide, и оно превратилось в «8а!е8 СиЫез». Причина станет понятной, если вы загляните в меню «Язык». В нашем случае текст — двуязычный, то есть кроме русского в нем встречаются несколько английских слов, а «Спринт» не умеет распознавать такие конструкции. Впрочем, в конкретном документе неверно распознанные символы несложно исправить вручную, но для этого потребуется сохранить результат в какой-либо удобоваримый формат: кнопка «Сохранить».

«Мастер сохранения результатов» предложит несколько вариантов готового документа (рис. 6)

— вам достаточно выделить нужный формат и нажать ОК. Впрочем, можно обойтись и без услуг г-на «Мастера», если открыть выпадающее субменю кнопки «Сохранить». При конвертации в формат MS Word программа полностью сохранит как форматирование текста, так и размер и тип шрифта.

Обратите внимание на опцию «Передать в Adobe Acrobat»: у данной версии FineReader нет встроенного инструмента конвертации распознанного текста в PDF-формат, и она надеется на помощь стороннего продукта. Посмотрим, как поведут себя по отношению к PDF более продвинутые версии. Опция «Передать в веб-браузер» подразумевает создание веб-страницы. Для активации этой функции потребуется бесплатно зарегистрироваться на сайте

разработчика: меню Справка · Активация экспорта в HTML 26 . Только не дай вам бог увидеть HTML-код такого документа — то же нагромождение бессмысленных тэгов, что и при создании веб-страниц в среде MS Word. Впрочем, другого результата нельзя ожидать.

26 Вы без труда разберетесь с данной операцией.

Вся линейка FineReader обучена распознавать не только отсканированный текст, но и графические изображения, содержащие буквы и цифры (поддерживаются форматы BMP, TIFF, PNG, DCX и PCX). Сергей Костенок заранее усложнил задачу, предложив «скормить» программе обложку одного из продуктов ABBYY 27 (любит он поиздеваться над софтом) — посмотрим, как «Спринт» это осилит: меню Файл · Открыть изображение (Ctrl+O). Распознавание графики ничем не отличается от описанной выше процедуры, и результат можно было предсказать заранее: латинские буквы отобразились неверно (рис. 7).

27 В формате tiff.

Неизвестно почему программа отказалась распознавать и логотип своей компании, а его, по логике, можно смело рассмаривать как графический блок. Ну да ладно: не зря в программном окне красуется здоровенная кнопка «Профессиональная версия». Похоже, снобизм части пользователей по отношению к «урезанным» версиям вполне оправдан?.. Давайте разбираться. 

Конкуренты

Российская разработка CuneiForm 2000 компании Cognitive Technologies (16 Мбайт, $129) призвана выполнять те же задачи, что и FineReader. Демо-версия CuneiForm 2000 рассчитана на 100 запусков или на использование в течение 30 дней и позволяет распознавать тексты на русском, английском, русско-английском, немецком и французском языках (в нее не входят 15 дополнительных языковых библиотек). На сайте разработчиков предлагаются два варианта программы: CuneiForm 2000 R2 с русским интерфейсом и CuneiForm 2000 Professional (английский интерфейс). В списке поддерживаемых операционных систем нет Windows 2000/XP. При установке CuneiForm 2000 R2 в среде WinXP приложение выдало ошибку и тихонько испустило дух. Правда, при установке в раздел FAT32 (Windows 98SE) все прошло благополучно. Оказалось, что сей продукт не работает в среде Windows 2000/XP (что неудивительно, ведь число 2000 в названии означает год появления продукта). Комментарии излишни…

Readiris Pro 7 — профессиональная программа. По словам производителей (20 Мбайт, $130), для данной OCR характерна высочайшая точность преобразования обычных печатных документов (письма, факсы, журнальные статьи, газетные вырезки) в объекты, доступные для редактирования (включая файлы PDF). Работает со всеми версиями Windows. Поддерживаются 92 языка, включая русский.

OmniPage 11 ($600), продукт компании ScanSoft. Разработчики утверждают, что их программа практически со 100% точностью распознает печатные документы, восстанавливая их форматирование, включая столбцы, таблицы, переносы, заголовки, названия глав, подписи, номера страниц, сноски, параграфы, нумерованные списки, красные строки, графики и картинки. Есть возможность сохранения в формат Microsoft Office, PDF и в 20 других форматов, распознавания из файлов PDF и редактирования в формате PDF.

ABBYY FineReader 7.0 Home Edition

Судя по размеру дистрибутива и стоимости продукта — 115 Мбайт и 1100 рублей — есть все основания надеяться на более качественную работу. Параметры установки те же, что и в ABBYY FineReader 6.0 Sprint, за исключением лишь двух языков установки (и, следовательно, интерфейса) — русского и английского. Не забывайте о колоссальном числе языков распознавания и в меню отметьте лишь необходимые, отбросив заведомую экзотику.

Поделиться:
Популярные книги

Последняя Арена 7

Греков Сергей
7. Последняя Арена
Фантастика:
рпг
постапокалипсис
5.00
рейтинг книги
Последняя Арена 7

Ох уж этот Мин Джин Хо 4

Кронос Александр
4. Мин Джин Хо
Фантастика:
попаданцы
дорама
5.00
рейтинг книги
Ох уж этот Мин Джин Хо 4

Кодекс Охотника. Книга XXI

Винокуров Юрий
21. Кодекс Охотника
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Охотника. Книга XXI

Имя нам Легион. Том 5

Дорничев Дмитрий
5. Меж двух миров
Фантастика:
боевая фантастика
рпг
аниме
5.00
рейтинг книги
Имя нам Легион. Том 5

На границе империй. Том 7. Часть 3

INDIGO
9. Фортуна дама переменчивая
Фантастика:
космическая фантастика
попаданцы
5.40
рейтинг книги
На границе империй. Том 7. Часть 3

Темный Лекарь

Токсик Саша
1. Темный Лекарь
Фантастика:
фэнтези
аниме
5.00
рейтинг книги
Темный Лекарь

Хозяйка расцветающего поместья

Шнейдер Наталья
Фантастика:
попаданцы
фэнтези
5.00
рейтинг книги
Хозяйка расцветающего поместья

Привет из Загса. Милый, ты не потерял кольцо?

Лисавчук Елена
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Привет из Загса. Милый, ты не потерял кольцо?

Ученичество. Книга 5

Понарошку Евгений
5. Государственный маг
Фантастика:
фэнтези
попаданцы
аниме
фантастика: прочее
5.00
рейтинг книги
Ученичество. Книга 5

Дурная жена неверного дракона

Ганова Алиса
Любовные романы:
любовно-фантастические романы
5.00
рейтинг книги
Дурная жена неверного дракона

Шаг к звездам

Злотников Роман Валерьевич
2. Вселенная EVE Online
Фантастика:
боевая фантастика
космическая фантастика
9.09
рейтинг книги
Шаг к звездам

Генерал-адмирал. Тетралогия

Злотников Роман Валерьевич
Генерал-адмирал
Фантастика:
альтернативная история
8.71
рейтинг книги
Генерал-адмирал. Тетралогия

Вторая невеста Драконьего Лорда. Дилогия

Огненная Любовь
Вторая невеста Драконьего Лорда
Любовные романы:
любовно-фантастические романы
5.60
рейтинг книги
Вторая невеста Драконьего Лорда. Дилогия

Я тебя верну

Вечная Ольга
2. Сага о подсолнухах
Любовные романы:
современные любовные романы
эро литература
5.50
рейтинг книги
Я тебя верну