Зарегистрироваться
Восстановить пароль
FAQ по входу

Автоопределение кол-ва страниц в файлах PDF и Djvu при их загрузке на сайт

  • Добавлена пользователем
  • Отредактирована
Предлагаю по возможности добавить функционал автоопределения кол-ва страниц в файлах Djvu и PDF и последующего добавления этих данных в описание (без возможности пользователям их удалить или редактировать) с целью сравнения фактического кол-ва страниц и кол-ва страниц из библиографических данных. Это позволит пользователям сделать вывод относительно того, сохранен ли в этих файлах издательский макет, или же это сконвертированные из гипертекстовых форматов (а-ля epub) варианты, и таким образом решить будет ли у них желание скачивать тот или иной вариант и тратить на это баллы.
P.S. Такой функционал реализован, к примеру, на ресурсе Libgen (Library Genesis), и это действительно часто помогает определить является ли файл конвертацией из epub-подобных форматов.

Комментарии

Это позволит пользователям сделать вывод относительно того, сохранен ли в этих файлах издательский макет
Не позволит.
У несовпадений числа страниц бывают разные причины, некоторые из коих названы в моём предыдущем комментарии.
Если пояснения относительно причин не будет, а разница между вых. данными и фактом в меньшую сторону — первой мыслью пользователя, скорее всего, окажется, что это фрагмент.
И с ненулевой вероятностью он подаст предложение об удалении фрагмента. Не скачивая файл. Потому что потому.
Проверено реальными случаями, где человек, едва бросив взгляд на окошечко "число страниц" в своей программе просмотра, тут же ломился такое предложение подавать.
А Вы хотите таким любителям поспешных выводов ещё и тарелочку с голубой каёмочкой преподнести.
И всё это я разъясняла Вам не раз и не два.
Не циклитесь на идее 2-х циферок, которые якобы сами по себе всех спасут.
Хотите предложить приемлемое и приветствуемое решение - примите во внимание все перечисленные издержки и подумайте, как их обойти.
а разница между вых. данными и фактом в меньшую сторону
и сколько таких случаев и какова их доля от всех случаев несовпадения кол-ва страниц? Полагаю, что весьма небольшая.
И с ненулевой вероятностью он подаст предложение об удалении фрагмента.
Снова таки, не думаю, что такая вероятность будет сколь угодно значимой. А если это еще умножить на вероятность предыдущего аргумента (про факт < библиография), то она станет еще меньшей и, скорей всего, не будет доставлять особых хлопот.
Исходя из всего этого, склонен полагать, что польза будет в любом случае большей нежели издержки.
Полагаю, что весьма небольшая.
Вы провели на сайте 1,5 года в качестве рядового пользователя и говорите это человеку, который провёл на сайте половину его (сайта) срока существования в качестве модератора и имеет дело с такими случаями лично. Каждый день. Десятками.
И Вы правда верите, что не попадёте пальцем в небо с таким доводом?
На сайте тысячи только файлов с неразрезанными разворотами. Что говорить о других проблемных ситуациях.
P. S. И в миллиардный раз напоминаю, чтобы Вы не вносили предложения по всему сайту исходя из оценки ситуации в одном лишь компьютерном разделе.
польза будет в любом случае большей нежели издержки.
Этой фразой очень легко бросаться, когда иметь дело с издержками предстоит не Вам лично.
Зато другим сотням, если не тысячам, другим пользователям приходится регулярно терпеть издержки, связанные со скачиванием конвертированных из epub PDF и Djvu. Прошу эти соображения также принимать в расчет. Да и на мой вопрос о доле файлов с разворотами от общего числа загружаемых файлов Вы так и не ответили.
Зато другим сотням, если не тысячам,
Или ровно одному человеку, который зачем-то взял на себя смелость говорить от имени сотен и тысяч.
Если Вас не устраивает, что я не привожу точную статистику, то хотя бы приведите свою точную статистику со своей стороны.
На сайте тысячи только файлов с неразрезанными разворотами.
И не говорите мне после этого про выборочное чтение.
Это абсолютная величина, а не относительная (доля, процент, промилле и т.д.)
Если бы на сайте было волшебное ПО, позволяющее автоматически сканировать каждый файл и говорить: вот этот разрезан, а этот нет, а этот псевдо pdf, а этот true pdf — мы бы не то что вывели Вам точную статистику в процентах.
Мы бы, скорее всего, решили поставленную Вами проблему задолго до Вашей регистрации на сайте.
Банально выводя эти волшебные просканированные сведения в строку метаданных.
Но нет такого ПО. Соответственно, и статистики такой нет.
А есть ручной труд и не измеряемый в процентном отношении личный опыт модераторов, который можно вербализовать с точностью до:
"С точностью до заглядывания внутрь я рассматриваю в один день несколько десятков pdf файлов. Из них издательскому оригиналу + издательской пагинации* соответствует хорошо если половина (в каких-то частях сайта явно больше, в каких-то явно меньше, среди новых загрузок больше, чем среди давно лежащих — но, усредняя, так)."
Цифры и графики по этому вопросу нам взять неоткуда.
Если Вам нужен более точный ответ, что ж, я смогу его Вам дать, если где-то с месяц буду целенаправленно подсчитывать все встретившиеся неразрезанные сканы.
*В смысле обоим параметрам сразу.
Неразрезанный скан соответствует оригиналу в том смысле, что его можно постранично цитировать, но нумерация страниц по файлу сбита в сравнении с книжной.
Псевдо пдф не соответствет ничему.
среди новых загрузок больше
То есть среди новых загрузок можно предположить, что сканированных и конвертированных PDF будет где-то в худшем случае в среднем 35%. Из них именно сканов примерно 25%, а, в свою очередь, неразрезанных - максимум 20%. То бишь вероятность 0.2, по самым пессимистичным прогнозам. Вероятность того, что кто-то обратить внимание на несоотв. между фактическим и заявленным кол-вом страниц в меньшую сторону и решит потратить свое время на внесение соотв. предложения возьмем 0.4. В итоге получаем 0.2 * 0.4 = 0.08. В итоге, в самом худшем случае, Ваш объем работы как модератора по рассмотрению предложений увеличится на 8-10%. Это ли такие уж большие издержки? Зато изрядно добавит удобства многим пользователям, которые теперь не будут скачивать PDF "вслепую", тратя часто впустую свое время и баллы не те из них, которые не соотв. издательскому макету.
Да и вообще, как-то мне думается совсем неправильный подход не предоставлять пользователям свободы выбора, т.е. не указывая никаких технических данных о самом файле (кроме его формата) и средств/способов как-то оценить/предварительно ознакомится с файлом. Лишь библиографические данные, скриншот обложки и название формата. Очень уж скудно. Это как если бы Вы пришли в магазин за колбасой, но она в непрозрачной упаковке, на который обозначены лишь сорт колбасы, вес и цена. Но, при этом, ни ин-ции о составе, производителе, ни возможность посмотреть на неё, понюхать и т.д.
То есть среди новых загрузок
Не только.
Нужно иметь в виду все имеющиеся на сайте файлы, т.к. по ним точно так же бывают правки/вопросы/жалобы, которые занимают даже больше времени модераторов, чем проверка новых файлов.
(И снова к вопросу о выборочном чтении).
будет где-то в худшем случае в среднем 35%.
Я насколько могла отчётливо отдисклэймила, что никакие точные проценты невозможны, а Вы тем не менее взяли какие-то сферические цифры в вакууме и на них произвели удобный Вам подсчёт.
Я с тем же успехом могла бы сказать, что 65% сканов на сайте являются сырыми. Вот только я взяла эту цифру с потолка ради аргумента, пока набирала текст, и намеренно не пыталась сделать её правдоподобной.
Это ли такие уж большие издержки?
Когда штат сайта не расширяется, а только сужается?
Чем меньше рабочих рук, тем большим числом недоделок/недоработок в других местах оборачивается каждая одна (каждая одна!) доп. издержка.
И Вы первый на эти недоработки будете настойчиво жаловаться.
не указывая никаких технических данных о самом файле (кроме его формата) и средств/способов как-то оценить/предварительно ознакомится с файлом
Указывайте их сами вручную. Вам никто этого не запрещает.
Только они должны быть реально информативными и реально помогающими скачивающему.
Он должен видеть не только тот голый факт, что в книге 200 библиографических страниц vs. 100 фактических, но и причину этого положения дел: скан не разрезан.
Никакие программные средства эту задачу не решат, т.к. для её решения каждый файл нужно смотреть живыми человеческими глазами.
Вы готовы в этом участвовать? Пожалуйста, мы не будем против.
Никакие программные средства эту задачу не решат, т.к. для её решения каждый файл нужно смотреть живыми человеческими глазами.
Почему же не решат. В соседней теме уже предложил делать автоматически скриншоты страниц (по аналогии как это сейчас со скриншотом обложки). Можно также добавить возможность предварительного просмотра файла (к примеру первых 20-30 страниц) для пользователей.
Ну если не ляпать обложки на псевдо pdf и неразрезанные сканы, их состояние в большинстве случаев будет видно.
(Это уже не столько к Вам, сколько к правщикам, которые ищут лёгких путей получить 30 баллов).
На практике как раз в случае конвертированных из epub PDF лишь по обложке в большинстве случаев невозможно определить факт конвертации. И это, прошу обратить внимание, создает неудобства не только пользователям, но и потенциальным релизерам, у которых есть True PDF версии данных изданий. Поскольку весьма часто лишь по обложке и описанию невозможно определить, что это псевдо PDF.
Да и вообще, как-то мне думается совсем неправильный подход не предоставлять пользователям свободы выбора
Золотые слова. Как гласит старинная максима, ваша свобода заканчивается там, где начинается моя )
Это приведёт к огромному количеству недопониманий и навязчивых вопросов типа "а почему в выходных данных другое число".
Повторять как попугаи объяснение, чем библиоданные отличаются от технического описания файла, нет никакого желания.
Не говоря о том, что пользователи будут лениться и вносить автоматическое число в описание. И во многих случаях это будет не пренебрежимым образом неверно.
Повторюсь в 14000606-й раз:
Если хотите, чтобы было указано и библиографическое и фактическое число страниц, придумайте, как и где обозначить (максимально ёмко и доходчиво) причину разницы между ними.
Потому что автоконвертация? Потому что файл отсканирован разворотами? Потому что страницы пропущены? Ещё почему-то?
Это гораздо важнее, чем обозначить факт расхождения, который в вакууме вызовет больше вопросов/сомнений, чем поможет.
В этом разделе нет комментариев.