Предлагаю по возможности добавить функционал автоопределения кол-ва страниц в файлах Djvu и PDF и последующего добавления этих данных в описание (без возможности пользователям их удалить или редактировать) с целью сравнения фактического кол-ва страниц и кол-ва страниц из библиографических данных. Это позволит пользователям сделать вывод относительно того, сохранен ли в этих файлах издательский макет, или же это сконвертированные из гипертекстовых форматов (а-ля epub) варианты, и таким образом решить будет ли у них желание скачивать тот или иной вариант и тратить на это баллы.
P.S. Такой функционал реализован, к примеру, на ресурсе Libgen (Library Genesis), и это действительно часто помогает определить является ли файл конвертацией из epub-подобных форматов.
Комментарии
У несовпадений числа страниц бывают разные причины, некоторые из коих названы в моём предыдущем комментарии.Если пояснения относительно причин не будет, а разница между вых. данными и фактом в меньшую сторону — первой мыслью пользователя, скорее всего, окажется, что это фрагмент.
И с ненулевой вероятностью он подаст предложение об удалении фрагмента. Не скачивая файл. Потому что потому.Проверено реальными случаями, где человек, едва бросив взгляд на окошечко "число страниц" в своей программе просмотра, тут же ломился такое предложение подавать.
А Вы хотите таким любителям поспешных выводов ещё и тарелочку с голубой каёмочкой преподнести.И всё это я разъясняла Вам не раз и не два.Не циклитесь на идее 2-х циферок, которые якобы сами по себе всех спасут.
Хотите предложить приемлемое и приветствуемое решение - примите во внимание все перечисленные издержки и подумайте, как их обойти.
И Вы правда верите, что не попадёте пальцем в небо с таким доводом?На сайте тысячи только файлов с неразрезанными разворотами. Что говорить о других проблемных ситуациях.P. S. И в миллиардный раз напоминаю, чтобы Вы не вносили предложения по всему сайту исходя из оценки ситуации в одном лишь компьютерном разделе. Этой фразой очень легко бросаться, когда иметь дело с издержками предстоит не Вам лично.
Если Вас не устраивает, что я не привожу точную статистику, то хотя бы приведите свою точную статистику со своей стороны.
Мы бы, скорее всего, решили поставленную Вами проблему задолго до Вашей регистрации на сайте.
Банально выводя эти волшебные просканированные сведения в строку метаданных.
Но нет такого ПО. Соответственно, и статистики такой нет.А есть ручной труд и не измеряемый в процентном отношении личный опыт модераторов, который можно вербализовать с точностью до:
"С точностью до заглядывания внутрь я рассматриваю в один день несколько десятков pdf файлов. Из них издательскому оригиналу + издательской пагинации* соответствует хорошо если половина (в каких-то частях сайта явно больше, в каких-то явно меньше, среди новых загрузок больше, чем среди давно лежащих — но, усредняя, так)."
Цифры и графики по этому вопросу нам взять неоткуда.Если Вам нужен более точный ответ, что ж, я смогу его Вам дать, если где-то с месяц буду целенаправленно подсчитывать все встретившиеся неразрезанные сканы.*В смысле обоим параметрам сразу.
Неразрезанный скан соответствует оригиналу в том смысле, что его можно постранично цитировать, но нумерация страниц по файлу сбита в сравнении с книжной.
Псевдо пдф не соответствет ничему.
Нужно иметь в виду все имеющиеся на сайте файлы, т.к. по ним точно так же бывают правки/вопросы/жалобы, которые занимают даже больше времени модераторов, чем проверка новых файлов.(И снова к вопросу о выборочном чтении). Я насколько могла отчётливо отдисклэймила, что никакие точные проценты невозможны, а Вы тем не менее взяли какие-то сферические цифры в вакууме и на них произвели удобный Вам подсчёт.
Я с тем же успехом могла бы сказать, что 65% сканов на сайте являются сырыми. Вот только я взяла эту цифру с потолка ради аргумента, пока набирала текст, и намеренно не пыталась сделать её правдоподобной. Когда штат сайта не расширяется, а только сужается?
Чем меньше рабочих рук, тем большим числом недоделок/недоработок в других местах оборачивается каждая одна (каждая одна!) доп. издержка.
И Вы первый на эти недоработки будете настойчиво жаловаться. Указывайте их сами вручную. Вам никто этого не запрещает.
Только они должны быть реально информативными и реально помогающими скачивающему.
Он должен видеть не только тот голый факт, что в книге 200 библиографических страниц vs. 100 фактических, но и причину этого положения дел: скан не разрезан.
Никакие программные средства эту задачу не решат, т.к. для её решения каждый файл нужно смотреть живыми человеческими глазами.
Вы готовы в этом участвовать? Пожалуйста, мы не будем против.
Повторять как попугаи объяснение, чем библиоданные отличаются от технического описания файла, нет никакого желания.
Не говоря о том, что пользователи будут лениться и вносить автоматическое число в описание. И во многих случаях это будет не пренебрежимым образом неверно.Повторюсь в 14000606-й раз:
Если хотите, чтобы было указано и библиографическое и фактическое число страниц, придумайте, как и где обозначить (максимально ёмко и доходчиво) причину разницы между ними.
Потому что автоконвертация? Потому что файл отсканирован разворотами? Потому что страницы пропущены? Ещё почему-то?
Это гораздо важнее, чем обозначить факт расхождения, который в вакууме вызовет больше вопросов/сомнений, чем поможет.