Чтение онлайн

на главную - закладки

Жанры

Интернет-журнал "Домашняя лаборатория", 2007 №9
Шрифт:

Энтузиасты подготовили полные подробные инструкции по обработке сканированных изображений и созданию электронных книг[7]. Каковы главные задачи обработки? Они зависят от того, ставим ли мы целью создание векторного файла или растрового файла. Для создания векторного файла производится распознавание (OCR) текста и его дальнейшее редактирование вручную в текстовом процессоре (таком, как MS Word или Adobe Pagemaker). Конечным продуктом обычно является сверстанная книга в формате PDF. Для создания растрового файла необходима доводка графических изображений до высокой степени сжатия и качества, а распознавание (OCR) производится лишь начерно, без вычитки и правки

текста, в самом конце процесса. Обработка графических изображений производится обычно в пакетном режиме, так что не требуется обрабатывать каждую страницу вручную в Photoshop'е или другом графическом редакторе. Поэтому затраты времени на создание растровой электронной книги гораздо меньше, чем на создание векторной книги.

Графическая обработка сканов состоит из следующих основных шагов:

• преобразование серых сканов в черно-белые (если исходные сканы были серыми в 300 dpi, то после этого получаются черно-белые в 600 dpi)

• разрезание разворотов на два изображения отдельных страниц (если книгу сканировали в развороте)

• поворот изображения каждой страницы, чтобы текст стал по возможности горизонтальным

• отрезание ненужных тёмных полос на краях, создание ровных и одинаковых для всех страниц белых полей

• вычищение "грязи" на страницах (включая помарки от руки, штампы и прочее)

Эти шаги частично автоматизированы в программе "Scan Kromsator" (Windows) и описаны в инструкции "Scan and Share"(см. сноску).

После создания чистовой версии всех страниц книги, которые пока что хранятся в отдельных графических файлах, приступают к сжатию всех страниц в единый файл формата DJVU или PDF.

Файлы PDF и DJVU могут использовать разные степени сжатия. Наибольшее сжатие достигается в формате DJVU (алгоритм JBIG2), если текст черно-белый, отсканирован четко (это сильно зависит от физического состояния исходной книги), шрифт не слишком мелкий, а края букв ровные (не рваные). Формат PDF позволяет сжимать как алгоритмом JBIG2 (при этом размер получается на 20–30 % больше, чем размер DJVU), так и менее эффективными алгоритмами, например TIFF-G4. Размер PDF файла после сжатия PDF/TIFF-G4 примерно в 4–8 раз больше, чем у PDF/JBIG2.

Имеются программы для создания хорошо сжатых DJVU и PDF/JBIG2 файлов. Для формата DJVU это коммерческие программы от LizardTech: DjvuSolo и Djvu

Document Editor. Для формата PDF это коммерческая версия Adobe Acrobat (не Reader). Есть и бесплатные программы для создания DJVU и PDF/JBIG2, но они пока не дают настолько хорошего сжатия, как коммерческие версии. Полубесплатная программа CPCtool, используемая как промежуточный этап перед окончательным сжатием, позволяет несколько улучшить сжатие DJVU (10–30 %) и во многих случаях сгладить "лохматые" контуры букв.

После создания окончательной чистовой версии книги делается распознавание текста (OCR). Распознавание текста на большинстве языков можно производить как коммерческой версией Djvu Document Editor (для DJVU), так и широко распространённой программой FineReader (для PDF). Имеется также бесплатный софт (утилита DjvuOCR) для вставления OCR-слоя в DJVU файлы после распознавания через FineReader. По опыту, FineReader дает лучшее качество распознавания, чем Djvu Document Editor (который использует движок IRIS). Ознакомительные или демо-версии этих программ можно получить на официальных сайтах производителей.

Имеется также возможность автоматически добавить гипертекстовые ссылки в оглавление и индекс DJVU-книги. Это делает бесплатная утилита Djvu Hyperlink Editor и последние версии DEE (Document Express Editor).

Доделка электронных книг

Часто

бывает необходимо улучшить уже имеющуюся электронную книгу. Доделка бывает по разным причинам необходима как для вёрстанных, так и для сканированных книг. Поскольку сканирование или вёрстка — самый трудоёмкий этап, то целесообразно обработать уже имеющийся файл до максимально хорошего качества (за исключением крайних случаев, когда качество имеющегося файла книги слишком низкое и лучше переделать всё сначала).

Доделка PS файлов

PS-файлы почти всегда являются продуктом вёрстки в системе LaTeX и могут быть автоматически сконвертированы в формат PDF с помощью бесплатного пакета ghostscript (утилита ps2pdf). Однако при этом иногда появляется проблема, состоящая в том, что полученные PDF файлы не позволяют делать поиск по тексту. Причина этого явления такова. Файлы, созданные ранними версиями LaTeX, часто имеют растровые шрифты (вместо векторных). В таком случае при переводе в PDF текст набран нестандартным (т. е. не векторным) шрифтом и поиск по файлу невозможен. При использовании достаточно новых версий LaTeX можно указать, что шрифты должны быть векторные, и эта проблема автоматически отпадает. Однако существует много PS и PDF-файлов, сделанных по-старому и проявляющих этот дефект.

Исправить этот дефект можно двумя способами:

• Перевести файл в формат DJVU и произвести распознавание (OCR) текста. Перевод из векторного PDF в DJVU производится утилитами gs2djvu или pdftodjvu.

• Если есть исходный PS файл, созданный утилитой dvips версии 5.58 или старше, то можно воспользоваться утилитой pkfix.

Доделка DJVU файлов

Весьма часты случаи, когда доделка DJVU файлов возможна и необходима. Эти случаи таковы:

• Файл DJVU содержит цветную информацию, то есть DJVU-элементы типа IW44 (это видно из свойств страницы, или из результата djvudump), в то время как текст на самом деле чисто чёрно-белый. Цветовая информация является лишней и была включена в файл по ошибке. Исправляется переделкой DJVU в черно-белом режиме. (Строго говоря, это не совсем так — черное поле буквы основное, но в "цветном" режиме края букв выглядят более сглаженными. Поэтому в ряде случаев, если буквы и так низкого разрешения, стоит оставлять книгу как есть. Обработка должна идти до сжатия в DjVu. Доделка часто ухудшает качество и читабельность, пусть даже уменьшая размер. Отключить же цвет в DjVu книге можно просто выбрав другой режим просмотра).

• Страницы в файле D JVU расставлены в неверном порядке. Исправляется вручную с помощью Djvu Editor/Djvu Solo, или с помощью утилит djvm/djvmcvt (разбирая DJVU файл на отдельные страницы и собирая обратно, без перекодирования).

• Гиперлинки показывают на неправильные страницы или на несуществующие файлы. Исправляется редактированием гиперлинков (утилита djvused и текстовый редактор).

• Отсутствует OCR-слой (распознанный текст). OCR-слой можно создать с помощью Fine Reader или Djvu Editor.

• Файл DJVU содержит изображения, сосканированные в развороте (2 страницы на лист), с тёмными полосами по краям, и/или невыровненные изображения страниц. Исправляется переделкой файла в ScanKromsator.

• Файл DJVU был сжат в неоптимальном режиме (например Lossless или с маленьким размером DJVU-словаря) и поэтому имеет слишком большой размер. Исправляется перекодированием в более оптимальном режиме.

Все эти дефекты можно устранить повторной обработкой DJVU-файла. Это позволит сэкономить время на повторное сканирование и получить файл меньшего размера и лучшего качества.

Поделиться:
Популярные книги

Чужбина

Седой Василий
2. Дворянская кровь
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Чужбина

Душелов. Том 2

Faded Emory
2. Внутренние демоны
Фантастика:
фэнтези
боевая фантастика
аниме
5.00
рейтинг книги
Душелов. Том 2

Царь Федор. Трилогия

Злотников Роман Валерьевич
Царь Федор
Фантастика:
альтернативная история
8.68
рейтинг книги
Царь Федор. Трилогия

Бестужев. Служба Государевой Безопасности. Книга 5

Измайлов Сергей
5. Граф Бестужев
Фантастика:
городское фэнтези
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Бестужев. Служба Государевой Безопасности. Книга 5

Чапаев и пустота

Пелевин Виктор Олегович
Проза:
современная проза
8.39
рейтинг книги
Чапаев и пустота

Комендант некромантской общаги 2

Леденцовская Анна
2. Мир
Фантастика:
юмористическая фантастика
7.77
рейтинг книги
Комендант некромантской общаги 2

Маленькая хозяйка большого герцогства

Вера Виктория
2. Герцогиня
Любовные романы:
любовно-фантастические романы
7.80
рейтинг книги
Маленькая хозяйка большого герцогства

Warhammer: Битвы в Мире Фэнтези. Омнибус. Том 2

Коллектив авторов
Warhammer Fantasy Battles
Фантастика:
фэнтези
5.00
рейтинг книги
Warhammer: Битвы в Мире Фэнтези. Омнибус. Том 2

Двойник Короля

Скабер Артемий
1. Двойник Короля
Фантастика:
попаданцы
аниме
фэнтези
фантастика: прочее
5.00
рейтинг книги
Двойник Короля

Дикая фиалка заброшенных земель

Рейнер Виктория
1. Попаданки рулят!
Любовные романы:
любовно-фантастические романы
эро литература
5.00
рейтинг книги
Дикая фиалка заброшенных земель

Комбинация

Ланцов Михаил Алексеевич
2. Сын Петра
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Комбинация

Предатель. Цена ошибки

Кучер Ая
Измена
Любовные романы:
современные любовные романы
5.75
рейтинг книги
Предатель. Цена ошибки

Академия

Кондакова Анна
2. Клан Волка
Фантастика:
боевая фантастика
5.40
рейтинг книги
Академия

Охота на попаданку. Бракованная жена

Герр Ольга
Любовные романы:
любовно-фантастические романы
5.60
рейтинг книги
Охота на попаданку. Бракованная жена