Благодарю "боевого Товарища" Вероника, которая посоветовала выложить этот алгоритм (являвшийся изначально ответом на вопрос одного из пользователей) на всеобщее обозрение.
Сразу оговорюсь: только алгоритм. Детальное описание процесса потянет на полновесное пособие.
Обратите внимание!
Это то, как работаю я.
Выложен исключительно в помощь тем, кто кто ищет свои пути к созданию качественных цифровых копий бумажных изданий.
Абсолютно не подходит "лепилам"!
Алгоритм гибкий и может варьироваться в зависимости от состояния исходника, и решаемых задач.
Не ленимся просматривать комментарии, т.к. они могут содержать полезную для Вас информацию, не вошедшую в данный текст.
Программы, которые использую в работе (некоторые специализированные редакторы, которые используются достаточно редко, опущены):
1. ABBYY FineReader 12 Professional
2. PDF-XChange Editor Plus
3. Adobe Acrobat Pro DC
4. Scan Tailor Просто незаменимая программа. Краткое руководство здесь
5. Benvista FotoZoom Pro
6. Adobe Photoshop CC1. Оцениваю состояние исходника: цветность, размерность страниц, наличие излишних полей и лишних фонов (особенно на фотографиях) и т.д.2. Преобразовываю файл через FR в tiff-изображения (цветные/серые), попутно можно на цветных сканах "поиграть" с контрастностью/цветностью, что нередко позволяет улучшить качество изображения на начальном этапе.
(При преобразовании использую встроенные настройки программы для сохранения в tiff-формат без сжатия, т.к. другие алгоритмы приводят к потере качества. Минус в том, что полученный на выходе пакет изображений может "весить" до нескольких десятков Гб. Поэтому, о месте на жестком диске необходимо позаботиться заранее.
Советую обратить внимание на то, что FR позволяет сохранять изображения в цветном, сером и черно-бело вариантах (это относится и к TIFF, и к PNG).* Для тех, кто ограничен свободным местом на HD, вполне подойдет сохранение в формате PNG, но опять же, не используйте сжатие - потери неминуемы.)
** DJVU-файлы из средневесного ридера возможно преобразовывать в отдельные изображения напрямую, хотя, по моему мнению - не самый удачный вариант.
О том, файлы какого формата лучше использовать в том или ином случае, советую ознакомится здесь. Благодарю Сергея Васильевича.
*** К готовым PDF-файлам подходить необходимо крайне осторожно. Использование FR оправдано лишь в тех случаях, когда данный тип файлов сохранен в режиме "PDF (только изображение)". Во многих же случаях к данному типу файлов более уместно на данном этапе применять программу PDF-XChange (благодарю пользователя adada, который в свое время заострил мое внимание на этой программе, при использовании в качестве исходника PDF-файлов).
3. Загружаю изображения в ST. На этом этапе произвожу деление разворотов, отсечение лишних фрагментов, определение полезной области, зон картинок, границ текста и т.д.
3a. Если страницы одинаковые по размеру, сразу произвожу обработку с выравниванием.
3b. Если изображения разноразмерные, то первоначальную обработку произвожу без приведения страниц к единому размеру (разрешение в проекте обязательно 600). Режим вывода выбираем в зависимости от цветности исходника.
3b-1. Разноразмерные обработанные изображения загружаю в BFZ и привожу страницы к единому размеру с сохранением dpi 600. (Если требуется, снова прогоняю через ST).
На каждом этапе, после автоматической обработки, обязательно произвожу ручную проверку и корректировку.4. Снова "загоняю" в FR и произвожу обработку: сначала в автоматическом режиме, затем в ручном (нередко использую настроенные шаблоны).
Если файл будет с OSR-слоем, в обязательном порядке постранично проверяем назначение текстовых полей, адекватную размерность шрифтов в текстовом слое, правильность распознавания иллюстраций.
Это необходимо для того что бы текстовые слои в готовом pdf не накладывались друг на друга и не выходили за границы листа.
Если просто - pdf без текстового слоя, то в данной процедуре нет необходимости.
Для OSR-слоя произвожу вычитку текста (Данную процедуру делаю не всегда. В основном для личного пользования, или для создания fb2-файлов).
4a. На этом же этапе, при необходимости, добавляю в проект обложку, приведенную к надлежащему размеру в BFZ.5. В этой же программе (FR) создаю pdf-файл.6. Открываю готовый pdf в AA и, если необходимо, корректирую иллюстрации с помощью Шопа или заменяю на подготовленные ранее более качественные.
При необходимости конвертирую (для личного пользования воздерживаюсь от данного шага) в оптимизированный pdf (для более быстрой и корректной работы в ридерах и оптимизации размера).
Данную опцию советую использовать с осторожностью, т. к. очень высока вероятность потери качества изображений.6a. Здесь же возможно преобразование страницы "Содержание/Оглавление" в интерактивную (не путать с созданием закладок, которые будут уместны, если Вы планируете дальнейшее преобразование pdf c OSR-слоем в аналогичный djvu).
Данный момент заметно облегчает навигацию по документу.Файл готов.В зависимости от поставленных задач, на обработку книги размером в 300-350 страниц, может потребоваться от 1,5 до 35+ трудочасов. ;)
Комментарии
В редакторе PDF-XChange Editor присутствует возможность назначить в меню кнопку для оперативного вызова внешней программы, той же Adobe Acrobat Pro DC.
А последняя имеет функцию экспорта pdf-файла в читабельный формат doc, причем с сохранением макета, и не только целиком, но и фрагмента в буфер обмена - весьма полезную в тех случаях, когда исходник начинен нечитаемыми при обычной комплектации системы шрифтами и зачастую нечетко распознаваемыми средствами ABBYY FineReader, и когда эту проблему не удается решить более компактной программой STDU Viewer.
Совсем забыл упомянуть об этом.
Предполагаю, что он восходит к нашему давнишнему обмену мнениями по поводу извлечения картинок из pdf-файлов и полезности для этой цели программы Infix PDF Editor.
Сам я ею, правда, не занимаюсь, поскольку решаю вопрос с картинками так: исходник распознаю в FineReader, сохраняю промежуточный файл с прежним dpi, а потом, чтобы отрешиться от повторного перекодирования, просто переношу все картинки оптом из исходника в новый файл.
Но делаю это не в Infix PDF Editor, а в PDF-XChange Editor, который мне привычнее.
И относится это именно к PDF-XChange Editor.
С удовольствием и продуктивно использую ее как одну из стержневых программ.
О чем, как и обещал, прямо указал в том посте, с благодарностью в Ваш адрес.
Примите от чистого сердца этот небольшой подарок, т.к. в первую очередь в выйгрыше пользователи сайта.
Успехов и всех Благ.
С Уважением,
Да, после OCR можно сохранять результат в однослойном виде (не виде оптической копии), в целом сохраняя качество картинок при примерно прежнем размере результирующего файла. Но - при условии внимательной вычитки результата, на что никакого терпения не хватит.
И тут я решения пока не нашел.
Хотя должен признать тот факт, что "кривые" True встречал крайне редко.
Продолжаю осваиваться и осваивать PDF-XChange Editor (сейчас пользуюсь portable-версией 9.0.350).(1)
В нем появилась функция "Наложить страницы" (в меню Документ). Начинаю использовать ее для того, чтобы, при необходимости, заменить в распознанном pdf-файле менее качественный (или более объемистый) слой изображений на тот же слой из исходника.
Раньше я это делал посредством выделением всех изображений и их переносом в режиме редактирования содержимого. Но в том случае наблюдались сбои.(2)
Иногда исходники имеют многослойную структуру, в связи с чем перенос слоя изображений осуществить автоматически не удавалось.
Но теперь я обнаружил, что в режиме "Растеризовать страницы" (меню "Документ" > "Дополнительно для страниц") можно выполнить растеризацию в цвете, что сопровождается слиянием всех слоев в один-единственный. После его уже становится возможным "привить" слитый слой к распознанному документу (или предварительно лишив его слоя изображений, или прямой заменой в режиме наложения слоев, что непринципиально).(3)
Ну и еще иногда применяю режим выравнивания страниц (меню "Документ"). Иногда этого достаточно, чтобы придать перекошенному облику пристойный вид. ))
PDF-XChange Editor Plus v8.0.336.0 - рассчитанное место в системе: 425 Мб
Adobe Acrobat Pro DC v 20.006.20042 - рассчитанное место в системе: 1.7 Гб
Scan Tailor - рассчитанное место в системе: около 29 Мб
список можно продолжать, но не вижу смысла.
Могу сказать, что в целом, программы которые использую для обработки текста и изображений, создания, конвертирования и проверки различных типов "книжных" фалов занимают в системе около 20 Гб + 100 Гб отведено под рабочее пространство для этих программ.
Много? Поверьте - мало.
2. Установочные.
В принципе, все эти программы можно (при желании) найти и в портабле, но мне удобнее распределять ресурсы систем и графических процессоров (видеокарт) в штатном режиме, а не в результате шаманских плясок.
Почему во множественном числе? Потому что использую стационарный комп с мониторами 21" и 24", или (находясь в длительном отъезде (или, чего греха таить - за кофе)) ноутбук - 17".
3."Взялся за гуж - не говори, что не дюж."
Вы же не станете отрицать тот факт, что профессионала всегда в первую очередь отличает тот инструментарий, который он использует. Пусть он (инструментарий) и не из разряда новомодных, но он всегда идеально "заточен" под выполняемую работу (Никто не отрицает тот факт, что в случае необходимости профессионал найдет применение и подручным средствам, но сейчас не об этом).
Любая серьезная работа требует затрат времени и средств/ресурсов. К этому всегда готов (или осознанно готовится) любой ответственный человек. Наш сайт не является исключением.
4. Можно в пример хоть одну из перечисленных мною программ?
5. Я (да и не только я) тоже. Не всегда в этом есть необходимость. Впрочем, писал об этом чуть выше.
Может кому то и сослужит добрую службу, или даст пищу для размышления.
*
Хотелось бы получить ответ на П.4.
Если Вас не затруднит.
Многие книги, которые выкладываю, обрабатываю для себя, некоторые озвучиваю, чтобы прослушать и не утомлять лишний раз глаза, да и на слух воспринимаю лучше. Расставляю ударения в омографах, чтобы робот читал с правильными акцентами. Хоть и стремлюсь по возможности получше обработать книгу, но стараюсь делать это без перфекционизма и фанатизма.
Я тоже, к примеру, очень часто для практических целей создаю для себя качественные fb файлы, и то же люблю их послушать (привычка анализировать на слух), но для цитирования нужны точные данные, а для этого уже необходимы либо оригинальные издания, либо их сканы.
Мы можем себе позволить роскошь - и то, и другое, а у кого нет такой возможности?
Ну и уж коль есть возможность сделать электронную копию хорошо - почему бы и нет? И уж чего пенять, если кто-то исправляет нашу халтуру.
А вот тех, кто сканирует, и активно пополняет фонды - уважать нужно в обязательно порядке. Тут уж простите - правда была, и будет на их стороне. Не по наслышке знаю - кропотливый и неблагодарный труд.
Так же верно и то, что усилия не всегда приводят к хорошему результату. В таких случаях попросту оставляю файл в покое.
* Признаться, озадачен. Никогда не прибегал в нем к данному действию. Кстати, отказался от данного действия и в FR, так как заметил такой минус, как изменение размерности страницы. Вполне хорошо справляется ST, даже если использую его только для данной цели (без изменения цветности и обрезки)
Поясню более подробно, почему держу такой тяжеловес, как Acrobat Pro DC.
1. Если PDF корректно работает в нем, однозначно - в других ридерах откроется без проблем.
2. В режиме редактора проявляются все огрехи файла: некорректные текстовые поля, скрытые дефекты изображений и т.д.
3. Возможность мгновенной вставки пустых масштабированных страниц/обложек с возможностью индексирования без ущерба для исходного файла.
4. Редактирование и замена изображений из файла или выбранного графического редактора.
5. Создание закладок с заданным уровнем вложения (очень хорошая опция, позволяющая при последующей конвертации в DJVU получить файл с оглавлением).
6. Возможность преобразования страницы содержания в интерактивную с минимальным количеством "телодвижений" (кстати, при конвертации в DJVU "правильным" конвертером, интерактивность сохраняется.)
И почему не рекомендуется вывод в tiff c LZW-сжатием без искажения?
Мне за многие годы так удобнее оценить качество исходника и приблизительный объем работы. (FR вносит погрешность в том случае, если были произведены некорректные "шаманские" пляски с настройками.)
Из личного опыта обработки файлов заметил, что в FR LZW приводит к потере качества иллюстраций. Вполне вероятно, что это огрехи сборок FR, которые были установлены у меня.)
Предложенный Вами вьювер попробую. О результате отпишусь.
С Уважением,
Точно таким же образом в Акробате выделяю картинку и, через опцию "Редактировать в ...", имеем подобный результат + оригинальную "картинку". Минус - поштучное извлечение.
И опять же, здесь речь идет о слоях, т.е. в нашем случае эта опция позволяет редактировать или заменять иллюстрации на более качественные.
Наша "задача максимум" - получить в работу изображения страниц в целом, в максимально возможном качестве (разумеется, если мы ставим целью сохранить копию печатного издания).