Чтение онлайн

на главную - закладки

Жанры

Домашний компьютер № 9 (123) 2006
Шрифт:

Жизненное наблюдение: едва освоив назначение кнопок системного блока, некоторые сразу же причисляют себя к клану IT-профессионалов — теперь им обеспечено внимание и почет со стороны тех, кто так и не научился правильно выключать компьютер. Самое забавное, что амбиции этих «профи» чрезвычайно высоки: если системный блок — то самый навороченный, если мышка — то непременно профессиональная 22 , а уж софт… И тут уж чувство меры теряется напрочь, поскольку еще не оскудели сетевые закрома с программами, готовыми к употреблению.

22

Как правило, означает несколько дополнительно-бесполезных кнопок на тельце «грызуна».

Неизбывная вера в некие магические функции Pro-версий программного обеспечения витает в головах и более толковых граждан. В самом деле, чем же отличаются профессиональные версии программ от домашних? Может быть, Pro работают лучше, нежели их простые собратья? Есть ли смысл расходовать дисковое пространство на более «тяжелые» вариации софта или достаточно обычных версий? Не следует забывать и о материальной стороне вопроса: неискушенный пользователь рискует истратить гораздо большую сумму за Pro-инкарнацию программы, нежели за обычную (или Home).

Попробуем разобраться с программными «профессионалами» на примере линейки продуктов для распознавания текста от компании ABBYY — семейство FineReader (или «Утонченный Чтец» в вольном переводе). Полагаю, четырех приложений, различающихся функциональными возможностями и, разумеется, ценой, будет вполне достаточно. Однако для более корректного сравнения возможностей этих программ следует уяснить основные принципы систем распознавания текста.

Что такое OCR

Представьте ситуацию, когда вам требуется ввести в компьютер солидный объем информации: это могут быть книжные и альбомные страницы, офисные документы, газеты и прочее. Согласитесь, перспектива столь рутинного труда вряд ли способна обрадовать, поэтому и были придуманы системы распознавания или OCR-системы (Optical Character Recognition). Все, что вам понадобится — это сканер, программа распознавания и, конечно же, исходные «бумажные» документы (толковые OCR-системы умеют распознавать текст в графических и PDF-файлах).

Механизм работы с такой системой чрезвычайно прост: вы загружаете документ в сканер, нажимаете определенную кнопку в окне программы, проверяете полученный результат, после чего даете команду сохранить распознанную информацию в один из поддерживаемых форматов (Word, Excel, HTML, RTF, PDF, TXT). Наиболее трудоемкая операция — это проверка результата распознавания и воссоздание оформления исходного документа: количество ошибок, допущенных при этом, в идеале должно быть единичным, а качество передачи оформления исходного документа должно максимально соответствовать «исходнику».

Немаловажную роль играют языки распознавания, встроенная поддержка проверки орфографии 23 , работа с таблицами и многоколоночными текстами, с цветом (сохранение цветных картинок и цвета шрифта, фона), скорость и простота использования. Чуть позже мы рассмотрим, чем «грешат» домашние версии и чем могут гордиться профессиональные. Начнем с самого «легкого» приложения, рассмотрев на его примере некоторые приемы работы, присущие всей линейке.

23 Весьма актуально для доброй половины пиар-менеджеров софтверных компаний.

Параметры сканирования

Качество

распознавания во многом зависит от параметров сканируемого изображения. Качество изображения регулируется установкой основных параметров сканирования: типа изображения, разрешения и яркости. Оптимальным типом в данном случае считается «Серый (256 градаций)», при этом будет осуществлен автоматический подбор яркости. Черно-белый тип обеспечивает более высокую скорость сканирования, но при этом будет утрачена часть информации о буквах, что может привести к ухудшению качества распознавания на документах среднего и низкого качества печати.

Если вам нужно, чтобы цветные элементы сканируемого документа (иллюстрации, цвет букв и фона) были переданы в FineReader точно, необходимо выбрать цветной тип изображения. Разрешение рекомендуется не более 300 dpi для обычных текстов (размер шрифта 10 и более пунктов) и 400—600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов). Для яркости в большинстве случаев подходит среднее значение — 50%.

ABBYY FineReader 6.0 Sprint

Самый простой продукт распознавания (65 Мбайт) вы не сможете купить отдельно — он поставляется в комплекте со сканерами и многофункциональными устройствами. Ряд пользователей относятся к такому «сопутствующему» софту с легким презрением, полагая «Спринт» недостойным их внимания. Но возможно, на первых порах «Спринт» вполне устроит вас, поскольку удобен и прост в использовании, а распознавание документа происходит с помощью одной кнопки Scan amp;Read.

Предлагается 13 языков установки, в том числе и русский. Учтите, выбирая язык, вы тем самым определяете локализацию интерфейса: в дальнейшем этот параметр изменить невозможно. По умолчанию будут установлены значок ABBYY FineReader в панели инструментов MS Word, а также огромное число языков распознавания, сгруппированных в четыре категории: «Основные» (наиболее употребимые языки), «Дополнительные» (сюда попали, например, албанский, белорусский, фиджи и гагаузский), «Формальные» (языки программирования и простые химические формулы) и «Искусственные» (эсперанто, интерлингва и другие). Нет смысла вводить все языки распознавания, в особенности, если вы не работаете с документами на языке Чаморо или Гуарани — экономия дискового пространства 24 окажется весьма существенной.

24 Которого никогда не бывает много.

Интерфейс программы являет образец аскетизма: две активные кнопки плюс рекламная (рис. 1).

Что сделает пользователь, начинающий знакомство с программой? Очевидно, в силу природного любопытства отправит под крышку сканера текстовый документ и нажмет кнопку «Сканировать». Точно так же поступим и мы, используя в качестве «подопытного кролика» страницу с русским текстом. Однако, каждый сканер имеет свою фирменную утилиту 25 , где необходимо указать оптимальные параметры сканирования, так как бездумные настройки сканера могут снизить результат распознавания.

25 В данном случае использовался видавший виды сканер CanoScan N650U.

Поделиться:
Популярные книги

На границе империй. Том 10. Часть 5

INDIGO
23. Фортуна дама переменчивая
Фантастика:
космическая фантастика
попаданцы
5.00
рейтинг книги
На границе империй. Том 10. Часть 5

Граф

Ланцов Михаил Алексеевич
6. Помещик
Фантастика:
альтернативная история
5.00
рейтинг книги
Граф

Кодекс Крови. Книга ХII

Борзых М.
12. РОС: Кодекс Крови
Фантастика:
боевая фантастика
попаданцы
5.00
рейтинг книги
Кодекс Крови. Книга ХII

Идеальный мир для Лекаря 27

Сапфир Олег
27. Лекарь
Фантастика:
аниме
фэнтези
5.00
рейтинг книги
Идеальный мир для Лекаря 27

Земная жена на экспорт

Шах Ольга
Любовные романы:
любовно-фантастические романы
5.57
рейтинг книги
Земная жена на экспорт

Делегат

Астахов Евгений Евгеньевич
6. Сопряжение
Фантастика:
боевая фантастика
постапокалипсис
рпг
5.00
рейтинг книги
Делегат

Не лечи мне мозги, МАГ!

Ордина Ирина
Фантастика:
городское фэнтези
попаданцы
фэнтези
5.00
рейтинг книги
Не лечи мне мозги, МАГ!

An ordinary sex life

Астердис
Любовные романы:
современные любовные романы
love action
5.00
рейтинг книги
An ordinary sex life

Надуй щеки! Том 5

Вишневский Сергей Викторович
5. Чеболь за партой
Фантастика:
попаданцы
дорама
7.50
рейтинг книги
Надуй щеки! Том 5

Спасение 6-го

Уолш Хлоя
3. Парни из школы Томмен
Любовные романы:
современные любовные романы
эро литература
5.00
рейтинг книги
Спасение 6-го

Сколько стоит любовь

Завгородняя Анна Александровна
Любовные романы:
любовно-фантастические романы
6.22
рейтинг книги
Сколько стоит любовь

Адвокат империи

Карелин Сергей Витальевич
1. Адвокат империи
Фантастика:
городское фэнтези
попаданцы
фэнтези
5.75
рейтинг книги
Адвокат империи

Часовая башня

Щерба Наталья Васильевна
3. Часодеи
Фантастика:
фэнтези
9.43
рейтинг книги
Часовая башня

Свет во мраке

Михайлов Дем Алексеевич
8. Изгой
Фантастика:
фэнтези
7.30
рейтинг книги
Свет во мраке