Автоопределение кол-ва страниц в файлах PDF и Djvu при их загрузке на сайт

Добавлена пользователем tothespace33 26.10.2021 19:05
Отредактирована 26.10.2021 19:08

Предлагаю по возможности добавить функционал автоопределения кол-ва страниц в файлах Djvu и PDF и последующего добавления этих данных в описание (без возможности пользователям их удалить или редактировать) с целью сравнения фактического кол-ва страниц и кол-ва страниц из библиографических данных. Это позволит пользователям сделать вывод относительно того, сохранен ли в этих файлах издательский макет, или же это сконвертированные из гипертекстовых форматов (а-ля epub) варианты, и таким образом решить будет ли у них желание скачивать тот или иной вариант и тратить на это баллы.

P.S. Такой функционал реализован, к примеру, на ресурсе Libgen (Library Genesis), и это действительно часто помогает определить является ли файл конвертацией из epub-подобных форматов.

Если пояснения относительно причин не будет, а разница между вых. данными и фактом в меньшую сторону — первой мыслью пользователя, скорее всего, окажется, что это фрагмент.
И с ненулевой вероятностью он подаст предложение об удалении фрагмента. Не скачивая файл. Потому что потому.

Проверено реальными случаями, где человек, едва бросив взгляд на окошечко "число страниц" в своей программе просмотра, тут же ломился такое предложение подавать.
А Вы хотите таким любителям поспешных выводов ещё и тарелочку с голубой каёмочкой преподнести.

И всё это я разъясняла Вам не раз и не два.

Не циклитесь на идее 2-х циферок, которые якобы сами по себе всех спасут.
Хотите предложить приемлемое и приветствуемое решение - примите во внимание все перечисленные издержки и подумайте, как их обойти.

Dosia

28 октября 2021 в 14:24 в теме Автоопределение кол-ва страниц в файлах PDF и Djvu при их загрузке на сайт #

а разница между вых. данными и фактом в меньшую сторону

и сколько таких случаев и какова их доля от всех случаев несовпадения кол-ва страниц? Полагаю, что весьма небольшая.

И с ненулевой вероятностью он подаст предложение об удалении фрагмента.

Снова таки, не думаю, что такая вероятность будет сколь угодно значимой. А если это еще умножить на вероятность предыдущего аргумента (про факт < библиография), то она станет еще меньшей и, скорей всего, не будет доставлять особых хлопот.

Исходя из всего этого, склонен полагать, что польза будет в любом случае большей нежели издержки.

tothespace33

29 октября 2021 в 00:04 в теме Автоопределение кол-ва страниц в файлах PDF и Djvu при их загрузке на сайт #

Полагаю, что весьма небольшая.

Вы провели на сайте 1,5 года в качестве рядового пользователя и говорите это человеку, который провёл на сайте половину его (сайта) срока существования в качестве модератора и имеет дело с такими случаями лично. Каждый день. Десятками.
И Вы правда верите, что не попадёте пальцем в небо с таким доводом?

На сайте тысячи только файлов с неразрезанными разворотами. Что говорить о других проблемных ситуациях.

P. S. И в миллиардный раз напоминаю, чтобы Вы не вносили предложения по всему сайту исходя из оценки ситуации в одном лишь компьютерном разделе.

польза будет в любом случае большей нежели издержки.

Этой фразой очень легко бросаться, когда иметь дело с издержками предстоит не Вам лично.

Dosia

29 октября 2021 в 10:14 в теме Автоопределение кол-ва страниц в файлах PDF и Djvu при их загрузке на сайт #

Зато другим сотням, если не тысячам, другим пользователям приходится регулярно терпеть издержки, связанные со скачиванием конвертированных из epub PDF и Djvu. Прошу эти соображения также принимать в расчет. Да и на мой вопрос о доле файлов с разворотами от общего числа загружаемых файлов Вы так и не ответили.

tothespace33

29 октября 2021 в 21:12 в теме Автоопределение кол-ва страниц в файлах PDF и Djvu при их загрузке на сайт #

Зато другим сотням, если не тысячам,

Или ровно одному человеку, который зачем-то взял на себя смелость говорить от имени сотен и тысяч.
Если Вас не устраивает, что я не привожу точную статистику, то хотя бы приведите свою точную статистику со своей стороны.

Dosia

29 октября 2021 в 21:11 в теме Автоопределение кол-ва страниц в файлах PDF и Djvu при их загрузке на сайт #

На сайте тысячи только файлов с неразрезанными разворотами.

И не говорите мне после этого про выборочное чтение.

Dosia

30 октября 2021 в 10:26 в теме Автоопределение кол-ва страниц в файлах PDF и Djvu при их загрузке на сайт #

Это абсолютная величина, а не относительная (доля, процент, промилле и т.д.)

tothespace33

30 октября 2021 в 10:38 в теме Автоопределение кол-ва страниц в файлах PDF и Djvu при их загрузке на сайт #

Если бы на сайте было волшебное ПО, позволяющее автоматически сканировать каждый файл и говорить: вот этот разрезан, а этот нет, а этот псевдо pdf, а этот true pdf — мы бы не то что вывели Вам точную статистику в процентах.
Мы бы, скорее всего, решили поставленную Вами проблему задолго до Вашей регистрации на сайте.
Банально выводя эти волшебные просканированные сведения в строку метаданных.
Но нет такого ПО. Соответственно, и статистики такой нет.

А есть ручной труд и не измеряемый в процентном отношении личный опыт модераторов, который можно вербализовать с точностью до:
"С точностью до заглядывания внутрь я рассматриваю в один день несколько десятков pdf файлов. Из них издательскому оригиналу + издательской пагинации* соответствует хорошо если половина (в каких-то частях сайта явно больше, в каких-то явно меньше, среди новых загрузок больше, чем среди давно лежащих — но, усредняя, так)."
Цифры и графики по этому вопросу нам взять неоткуда.

Если Вам нужен более точный ответ, что ж, я смогу его Вам дать, если где-то с месяц буду целенаправленно подсчитывать все встретившиеся неразрезанные сканы.

_{*В смысле обоим параметрам сразу.
Неразрезанный скан соответствует оригиналу в том смысле, что его можно постранично цитировать, но нумерация страниц по файлу сбита в сравнении с книжной.
Псевдо пдф не соответствет ничему.}

Dosia

30 октября 2021 в 11:50 в теме Автоопределение кол-ва страниц в файлах PDF и Djvu при их загрузке на сайт #

среди новых загрузок больше

То есть среди новых загрузок можно предположить, что сканированных и конвертированных PDF будет где-то в худшем случае в среднем 35%. Из них именно сканов примерно 25%, а, в свою очередь, неразрезанных - максимум 20%. То бишь вероятность 0.2, по самым пессимистичным прогнозам. Вероятность того, что кто-то обратить внимание на несоотв. между фактическим и заявленным кол-вом страниц в меньшую сторону и решит потратить свое время на внесение соотв. предложения возьмем 0.4. В итоге получаем 0.2 * 0.4 = 0.08. В итоге, в самом худшем случае, Ваш объем работы как модератора по рассмотрению предложений увеличится на 8-10%. Это ли такие уж большие издержки? Зато изрядно добавит удобства многим пользователям, которые теперь не будут скачивать PDF "вслепую", тратя часто впустую свое время и баллы не те из них, которые не соотв. издательскому макету.

Да и вообще, как-то мне думается совсем неправильный подход не предоставлять пользователям свободы выбора, т.е. не указывая никаких технических данных о самом файле (кроме его формата) и средств/способов как-то оценить/предварительно ознакомится с файлом. Лишь библиографические данные, скриншот обложки и название формата. Очень уж скудно. Это как если бы Вы пришли в магазин за колбасой, но она в непрозрачной упаковке, на который обозначены лишь сорт колбасы, вес и цена. Но, при этом, ни ин-ции о составе, производителе, ни возможность посмотреть на неё, понюхать и т.д.

tothespace33

30 октября 2021 в 21:30 в теме Автоопределение кол-ва страниц в файлах PDF и Djvu при их загрузке на сайт #

То есть среди новых загрузок

Не только.
Нужно иметь в виду все имеющиеся на сайте файлы, т.к. по ним точно так же бывают правки/вопросы/жалобы, которые занимают даже больше времени модераторов, чем проверка новых файлов.

^{(И снова к вопросу о выборочном чтении).}

будет где-то в худшем случае в среднем 35%.

Я насколько могла отчётливо отдисклэймила, что никакие точные проценты невозможны, а Вы тем не менее взяли какие-то сферические цифры в вакууме и на них произвели удобный Вам подсчёт.
Я с тем же успехом могла бы сказать, что 65% сканов на сайте являются сырыми. Вот только я взяла эту цифру с потолка ради аргумента, пока набирала текст, и намеренно не пыталась сделать её правдоподобной.

Это ли такие уж большие издержки?

Когда штат сайта не расширяется, а только сужается?
Чем меньше рабочих рук, тем большим числом недоделок/недоработок в других местах оборачивается каждая одна (каждая одна!) доп. издержка.
И Вы первый на эти недоработки будете настойчиво жаловаться.

не указывая никаких технических данных о самом файле (кроме его формата) и средств/способов как-то оценить/предварительно ознакомится с файлом

Указывайте их сами вручную. Вам никто этого не запрещает.
Только они должны быть реально информативными и реально помогающими скачивающему.
Он должен видеть не только тот голый факт, что в книге 200 библиографических страниц vs. 100 фактических, но и причину этого положения дел: скан не разрезан.
Никакие программные средства эту задачу не решат, т.к. для её решения каждый файл нужно смотреть живыми человеческими глазами.
Вы готовы в этом участвовать? Пожалуйста, мы не будем против.

Dosia

31 октября 2021 в 20:38 в теме Автоопределение кол-ва страниц в файлах PDF и Djvu при их загрузке на сайт #

Никакие программные средства эту задачу не решат, т.к. для её решения каждый файл нужно смотреть живыми человеческими глазами.

Почему же не решат. В соседней теме уже предложил делать автоматически скриншоты страниц (по аналогии как это сейчас со скриншотом обложки). Можно также добавить возможность предварительного просмотра файла (к примеру первых 20-30 страниц) для пользователей.

tothespace33

31 октября 2021 в 20:58 в теме Автоопределение кол-ва страниц в файлах PDF и Djvu при их загрузке на сайт #

Ну если не ляпать обложки на псевдо pdf и неразрезанные сканы, их состояние в большинстве случаев будет видно.

(Это уже не столько к Вам, сколько к правщикам, которые ищут лёгких путей получить 30 баллов).

Dosia

2 ноября 2021 в 11:25 в теме Автоопределение кол-ва страниц в файлах PDF и Djvu при их загрузке на сайт #

На практике как раз в случае конвертированных из epub PDF лишь по обложке в большинстве случаев невозможно определить факт конвертации. И это, прошу обратить внимание, создает неудобства не только пользователям, но и потенциальным релизерам, у которых есть True PDF версии данных изданий. Поскольку весьма часто лишь по обложке и описанию невозможно определить, что это псевдо PDF.

tothespace33

30 октября 2021 в 12:23 в теме Автоопределение кол-ва страниц в файлах PDF и Djvu при их загрузке на сайт #

Да и вообще, как-то мне думается совсем неправильный подход не предоставлять пользователям свободы выбора

Золотые слова. Как гласит старинная максима, ваша свобода заканчивается там, где начинается моя )

Аспарух

27 октября 2021 в 03:19 в теме Автоопределение кол-ва страниц в файлах PDF и Djvu при их загрузке на сайт #

Это приведёт к огромному количеству недопониманий и навязчивых вопросов типа "а почему в выходных данных другое число".
Повторять как попугаи объяснение, чем библиоданные отличаются от технического описания файла, нет никакого желания.
Не говоря о том, что пользователи будут лениться и вносить автоматическое число в описание. И во многих случаях это будет не пренебрежимым образом неверно.

Повторюсь в 14000606-й раз:
Если хотите, чтобы было указано и библиографическое и фактическое число страниц, придумайте, как и где обозначить (максимально ёмко и доходчиво) причину разницы между ними.
Потому что автоконвертация? Потому что файл отсканирован разворотами? Потому что страницы пропущены? Ещё почему-то?
Это гораздо важнее, чем обозначить факт расхождения, который в вакууме вызовет больше вопросов/сомнений, чем поможет.

Dosia

В этом разделе нет комментариев.

Главная

Наверх

Автоопределение кол-ва страниц в файлах PDF и Djvu при их загрузке на сайт

Комментарии