Зарегистрироваться
Восстановить пароль
FAQ по входу

Мой алгоритм создания PDF-файлов

  • Добавлена пользователем
  • Отредактирована
Благодарю "боевого Товарища" Вероника, которая посоветовала выложить этот алгоритм (являвшийся изначально ответом на вопрос одного из пользователей) на всеобщее обозрение.
Сразу оговорюсь: только алгоритм. Детальное описание процесса потянет на полновесное пособие.
Обратите внимание!
Это то, как работаю я.
Выложен исключительно в помощь тем, кто кто ищет свои пути к созданию качественных цифровых копий бумажных изданий.
Абсолютно не подходит "лепилам"!

Алгоритм гибкий и может варьироваться в зависимости от состояния исходника, и решаемых задач.
Не ленимся просматривать комментарии, т.к. они могут содержать полезную для Вас информацию, не вошедшую в данный текст.
Программы, которые использую в работе (некоторые специализированные редакторы, которые используются достаточно редко, опущены):
1. ABBYY FineReader 12 Professional
2. PDF-XChange Editor Plus
3. Adobe Acrobat Pro DC
4. Scan Tailor Просто незаменимая программа. Краткое руководство здесь
5. Benvista FotoZoom Pro
6. Adobe Photoshop CC
1. Оцениваю состояние исходника: цветность, размерность страниц, наличие излишних полей и лишних фонов (особенно на фотографиях) и т.д.
2. Преобразовываю файл через FR в tiff-изображения (цветные/серые), попутно можно на цветных сканах "поиграть" с контрастностью/цветностью, что нередко позволяет улучшить качество изображения на начальном этапе.
(При преобразовании использую встроенные настройки программы для сохранения в tiff-формат без сжатия, т.к. другие алгоритмы приводят к потере качества. Минус в том, что полученный на выходе пакет изображений может "весить" до нескольких десятков Гб. Поэтому, о месте на жестком диске необходимо позаботиться заранее.
Советую обратить внимание на то, что FR позволяет сохранять изображения в цветном, сером и черно-бело вариантах (это относится и к TIFF, и к PNG).
* Для тех, кто ограничен свободным местом на HD, вполне подойдет сохранение в формате PNG, но опять же, не используйте сжатие - потери неминуемы.)
** DJVU-файлы из средневесного ридера возможно преобразовывать в отдельные изображения напрямую, хотя, по моему мнению - не самый удачный вариант.
О том, файлы какого формата лучше использовать в том или ином случае, советую ознакомится здесь. Благодарю Сергея Васильевича.
*** К готовым PDF-файлам подходить необходимо крайне осторожно. Использование FR оправдано лишь в тех случаях, когда данный тип файлов сохранен в режиме "PDF (только изображение)". Во многих же случаях к данному типу файлов более уместно на данном этапе применять программу PDF-XChange (благодарю пользователя adada, который в свое время заострил мое внимание на этой программе, при использовании в качестве исходника PDF-файлов).
3. Загружаю изображения в ST. На этом этапе произвожу деление разворотов, отсечение лишних фрагментов, определение полезной области, зон картинок, границ текста и т.д.
3a. Если страницы одинаковые по размеру, сразу произвожу обработку с выравниванием.
3b. Если изображения разноразмерные, то первоначальную обработку произвожу без приведения страниц к единому размеру (разрешение в проекте обязательно 600). Режим вывода выбираем в зависимости от цветности исходника.
3b-1. Разноразмерные обработанные изображения загружаю в BFZ и привожу страницы к единому размеру с сохранением dpi 600. (Если требуется, снова прогоняю через ST).
На каждом этапе, после автоматической обработки, обязательно произвожу ручную проверку и корректировку.
4. Снова "загоняю" в FR и произвожу обработку: сначала в автоматическом режиме, затем в ручном (нередко использую настроенные шаблоны).
Если файл будет с OSR-слоем, в обязательном порядке постранично проверяем назначение текстовых полей, адекватную размерность шрифтов в текстовом слое, правильность распознавания иллюстраций.
Это необходимо для того что бы текстовые слои в готовом pdf не накладывались друг на друга и не выходили за границы листа.
Если просто - pdf без текстового слоя, то в данной процедуре нет необходимости.
Для OSR-слоя произвожу вычитку текста (Данную процедуру делаю не всегда. В основном для личного пользования, или для создания fb2-файлов).
4a. На этом же этапе, при необходимости, добавляю в проект обложку, приведенную к надлежащему размеру в BFZ.
5. В этой же программе (FR) создаю pdf-файл.
6. Открываю готовый pdf в AA и, если необходимо, корректирую иллюстрации с помощью Шопа или заменяю на подготовленные ранее более качественные.
При необходимости конвертирую (для личного пользования воздерживаюсь от данного шага) в оптимизированный pdf (для более быстрой и корректной работы в ридерах и оптимизации размера).
Данную опцию советую использовать с осторожностью, т. к. очень высока вероятность потери качества изображений.
6a. Здесь же возможно преобразование страницы "Содержание/Оглавление" в интерактивную (не путать с созданием закладок, которые будут уместны, если Вы планируете дальнейшее преобразование pdf c OSR-слоем в аналогичный djvu).
Данный момент заметно облегчает навигацию по документу.
Файл готов.
В зависимости от поставленных задач, на обработку книги размером в 300-350 страниц, может потребоваться от 1,5 до 35+ трудочасов. ;)

Комментарии

в теме Мой алгоритм создания PDF-файлов #
Пожалуй, имеет смысл добавить еще одну изюминку.
В редакторе PDF-XChange Editor присутствует возможность назначить в меню кнопку для оперативного вызова внешней программы, той же Adobe Acrobat Pro DC.
А последняя имеет функцию экспорта pdf-файла в читабельный формат doc, причем с сохранением макета, и не только целиком, но и фрагмента в буфер обмена - весьма полезную в тех случаях, когда исходник начинен нечитаемыми при обычной комплектации системы шрифтами и зачастую нечетко распознаваемыми средствами ABBYY FineReader, и когда эту проблему не удается решить более компактной программой STDU Viewer.
в теме Мой алгоритм создания PDF-файлов #
Спасибо огромное!
Совсем забыл упомянуть об этом.
в теме Мой алгоритм создания PDF-файлов #
Получил от Вас весьма приятный дар, спасибо!
Предполагаю, что он восходит к нашему давнишнему обмену мнениями по поводу извлечения картинок из pdf-файлов и полезности для этой цели программы Infix PDF Editor.
Сам я ею, правда, не занимаюсь, поскольку решаю вопрос с картинками так: исходник распознаю в FineReader, сохраняю промежуточный файл с прежним dpi, а потом, чтобы отрешиться от повторного перекодирования, просто переношу все картинки оптом из исходника в новый файл.
Но делаю это не в Infix PDF Editor, а в PDF-XChange Editor, который мне привычнее.
в теме Мой алгоритм создания PDF-файлов #
Вы правы - все именно так. )
И относится это именно к PDF-XChange Editor.
С удовольствием и продуктивно использую ее как одну из стержневых программ.
О чем, как и обещал, прямо указал в том посте, с благодарностью в Ваш адрес.
Примите от чистого сердца этот небольшой подарок, т.к. в первую очередь в выйгрыше пользователи сайта.
Успехов и всех Благ.
С Уважением,
в теме Мой алгоритм создания PDF-файлов #
Но последнее время все чаще попадаются однослойные издательские макеты TruePDF, с которыми операция подмены текста с "кракозябрами" на текст распознанный уже не проходит, поскольку "изобразительный" слой как таковой отсутствует.
Да, после OCR можно сохранять результат в однослойном виде (не виде оптической копии), в целом сохраняя качество картинок при примерно прежнем размере результирующего файла. Но - при условии внимательной вычитки результата, на что никакого терпения не хватит.
И тут я решения пока не нашел.
в теме Мой алгоритм создания PDF-файлов #
Думаю, что вряд-ли получиться отыскать приемлемую "ленивую" альтернативу.
Хотя должен признать тот факт, что "кривые" True встречал крайне редко.
в теме Мой алгоритм создания PDF-файлов #
Привет!
Продолжаю осваиваться и осваивать PDF-XChange Editor (сейчас пользуюсь portable-версией 9.0.350).
(1)
В нем появилась функция "Наложить страницы" (в меню Документ). Начинаю использовать ее для того, чтобы, при необходимости, заменить в распознанном pdf-файле менее качественный (или более объемистый) слой изображений на тот же слой из исходника.
Раньше я это делал посредством выделением всех изображений и их переносом в режиме редактирования содержимого. Но в том случае наблюдались сбои.
(2)
Иногда исходники имеют многослойную структуру, в связи с чем перенос слоя изображений осуществить автоматически не удавалось.
Но теперь я обнаружил, что в режиме "Растеризовать страницы" (меню "Документ" > "Дополнительно для страниц") можно выполнить растеризацию в цвете, что сопровождается слиянием всех слоев в один-единственный. После его уже становится возможным "привить" слитый слой к распознанному документу (или предварительно лишив его слоя изображений, или прямой заменой в режиме наложения слоев, что непринципиально).
(3)
Ну и еще иногда применяю режим выравнивания страниц (меню "Документ"). Иногда этого достаточно, чтобы придать перекошенному облику пристойный вид. ))
в теме Мой алгоритм создания PDF-файлов #
Подскажите, пожалуйста, какие номера версий, используемых вами программ. И портабельные они у вас или установочные. Вопрос вызван тем, что некоторые версии программ достаточно много весят, да и обилие навороченных в них функций просто ни к чему. Часто использую не самые последние версии, а некоторые в виде portable.
в теме Мой алгоритм создания PDF-файлов #
1.
номера версий, используемых вами программ
ABBYY FineReader 12 Professional v12.0.101.264 - рассчитанное место в системе: 890 Мб
PDF-XChange Editor Plus v8.0.336.0 - рассчитанное место в системе: 425 Мб
Adobe Acrobat Pro DC v 20.006.20042 - рассчитанное место в системе: 1.7 Гб
Scan Tailor - рассчитанное место в системе: около 29 Мб
список можно продолжать, но не вижу смысла.
Могу сказать, что в целом, программы которые использую для обработки текста и изображений, создания, конвертирования и проверки различных типов "книжных" фалов занимают в системе около 20 Гб + 100 Гб отведено под рабочее пространство для этих программ.
Много? Поверьте - мало.
2.
портабельные они у вас или установочные
Установочные.
В принципе, все эти программы можно (при желании) найти и в портабле, но мне удобнее распределять ресурсы систем и графических процессоров (видеокарт) в штатном режиме, а не в результате шаманских плясок.
Почему во множественном числе? Потому что использую стационарный комп с мониторами 21" и 24", или (находясь в длительном отъезде (или, чего греха таить - за кофе)) ноутбук - 17".
3.
некоторые версии программ достаточно много весят
"Взялся за гуж - не говори, что не дюж."
Вы же не станете отрицать тот факт, что профессионала всегда в первую очередь отличает тот инструментарий, который он использует. Пусть он (инструментарий) и не из разряда новомодных, но он всегда идеально "заточен" под выполняемую работу (Никто не отрицает тот факт, что в случае необходимости профессионал найдет применение и подручным средствам, но сейчас не об этом).
Любая серьезная работа требует затрат времени и средств/ресурсов. К этому всегда готов (или осознанно готовится) любой ответственный человек. Наш сайт не является исключением.
4.
обилие навороченных в них функций просто ни к чему
Можно в пример хоть одну из перечисленных мною программ?
5.
Часто использую не самые последние версии
Я (да и не только я) тоже. Не всегда в этом есть необходимость. Впрочем, писал об этом чуть выше.
в теме Мой алгоритм создания PDF-файлов #
Спасибо за ответ. Предпочтения и правда у нас разнятся, но в вашем подходе есть безусловные плюсы.
в теме Мой алгоритм создания PDF-файлов #
Это всего лишь то, как работаю я. Это не истина в последней инстанции, а мои предпочтения и личный опыт.
Может кому то и сослужит добрую службу, или даст пищу для размышления.
*
Хотелось бы получить ответ на П.4.
Если Вас не затруднит.
в теме Мой алгоритм создания PDF-файлов #
Не считаю себя профессионалом, а только любителем. Поэтому подчас выбираю нетрудоемкий путь обработки книги. Программы выбираю потребляющие малый ресурс и относительно простые в освоении. Большие программы устанавливаю в случае крайней необходимости. Например ABBYY FineReader у меня шестой версии. Долгое время был слабый компьютер и была вынуждена работать с легкими программами. А потом уже привыкла к ним. Поэтому обсуждать мой минимализм особого смысла не вижу.
Многие книги, которые выкладываю, обрабатываю для себя, некоторые озвучиваю, чтобы прослушать и не утомлять лишний раз глаза, да и на слух воспринимаю лучше. Расставляю ударения в омографах, чтобы робот читал с правильными акцентами. Хоть и стремлюсь по возможности получше обработать книгу, но стараюсь делать это без перфекционизма и фанатизма.
в теме Мой алгоритм создания PDF-файлов #
Дело не в фанатизме, а конечном пользователе.
Я тоже, к примеру, очень часто для практических целей создаю для себя качественные fb файлы, и то же люблю их послушать (привычка анализировать на слух), но для цитирования нужны точные данные, а для этого уже необходимы либо оригинальные издания, либо их сканы.
Мы можем себе позволить роскошь - и то, и другое, а у кого нет такой возможности?
Ну и уж коль есть возможность сделать электронную копию хорошо - почему бы и нет? И уж чего пенять, если кто-то исправляет нашу халтуру.
А вот тех, кто сканирует, и активно пополняет фонды - уважать нужно в обязательно порядке. Тут уж простите - правда была, и будет на их стороне. Не по наслышке знаю - кропотливый и неблагодарный труд.
в теме Мой алгоритм создания PDF-файлов #
Сознательной халтуры с моей стороны никогда не было. Случалось что после применения scantaylor результат получался без пятен, но буквы расплывались, на что мне указывала Dosia. Не всегда усилия по обработке приводят к хорошему результату. Поэтому приходится останавливаться, когда лучшее враг хорошего. Вот и интересуюсь как обрабатывают другие, если у них получается лучше. Да и выравнивание страниц в акробате в некоторых файлах заметно ухудшает качество. Не хочется портить качество выравниванием.
в теме Мой алгоритм создания PDF-файлов #
Не говорил про сознательную халтуру, да вот случаи, когда уверен, что файл в твоих силах сделать лучше, а вот нет - "сойдет и так", лично у меня (каюсь) случались.
Так же верно и то, что усилия не всегда приводят к хорошему результату. В таких случаях попросту оставляю файл в покое.
*
Да и выравнивание страниц в акробате
Признаться, озадачен. Никогда не прибегал в нем к данному действию. Кстати, отказался от данного действия и в FR, так как заметил такой минус, как изменение размерности страницы. Вполне хорошо справляется ST, даже если использую его только для данной цели (без изменения цветности и обрезки)
Поясню более подробно, почему держу такой тяжеловес, как Acrobat Pro DC.
1. Если PDF корректно работает в нем, однозначно - в других ридерах откроется без проблем.
2. В режиме редактора проявляются все огрехи файла: некорректные текстовые поля, скрытые дефекты изображений и т.д.
3. Возможность мгновенной вставки пустых масштабированных страниц/обложек с возможностью индексирования без ущерба для исходного файла.
4. Редактирование и замена изображений из файла или выбранного графического редактора.
5. Создание закладок с заданным уровнем вложения (очень хорошая опция, позволяющая при последующей конвертации в DJVU получить файл с оглавлением).
6. Возможность преобразования страницы содержания в интерактивную с минимальным количеством "телодвижений" (кстати, при конвертации в DJVU "правильным" конвертером, интерактивность сохраняется.)
в теме Мой алгоритм создания PDF-файлов #
Не совсем понял два момента по 2 этапу обработки.
Зачем преобразовывать страницы pdf в изображения посредством Файнридера, который, как мне кажется, может внести собственные погрешности в результат? Надежнее экспортировать их непосредственно из "правильного" вьюера (я использую PDF-XChange).
И почему не рекомендуется вывод в tiff c LZW-сжатием без искажения?
в теме Мой алгоритм создания PDF-файлов #
Вполне возможно Ваш вариант и неплохой.
Мне за многие годы так удобнее оценить качество исходника и приблизительный объем работы. (FR вносит погрешность в том случае, если были произведены некорректные "шаманские" пляски с настройками.)
Из личного опыта обработки файлов заметил, что в FR LZW приводит к потере качества иллюстраций. Вполне вероятно, что это огрехи сборок FR, которые были установлены у меня.)
Предложенный Вами вьювер попробую. О результате отпишусь.
С Уважением,
в теме Мой алгоритм создания PDF-файлов #
Располагаю выпиской из какого-то сетевого источника:
Относительно извлечения картинок из PDF
Недавно у меня стояла задача извлечение ОРИГИНАЛЬНЫХ изображений из PDF без малейших изменений картинки и в том формате в каком они были туда встроены. пробовал разные программы, но большинство из них просто предлагают несколько вариантов форматов для сохранения картинок.
InfixPDFEditor также предлагает форматы для сохранения картинок, но в отличие от других программ она может показать в каком формате она была встроена в PDF.
Для этого выделяем нужное изображение и идем в Код: Объект/Изображение/Изменить
и оно откроется в графическом редакторе в оригинальном формате.
Затем опять идем в Код: Объект/Изображение/Извлечь файл...
и сохраняем в том же формате.
Для извлечения всех страниц используем меню Экспорта и указываем исходный формат изображения, который узнали ранее.
Infix конечно добавляет некоторую информацию в МЕТА данные изображения, но абсолютно не трогает картинку.
Возиться с этим я сам пока не стал. ™)
в теме Мой алгоритм создания PDF-файлов #
Будем иметь ввиду.)
Точно таким же образом в Акробате выделяю картинку и, через опцию "Редактировать в ...", имеем подобный результат + оригинальную "картинку". Минус - поштучное извлечение.
И опять же, здесь речь идет о слоях, т.е. в нашем случае эта опция позволяет редактировать или заменять иллюстрации на более качественные.
Наша "задача максимум" - получить в работу изображения страниц в целом, в максимально возможном качестве (разумеется, если мы ставим целью сохранить копию печатного издания).
В этом разделе нет комментариев.