Конечно, я напрямую не видел сайтов, где бы работал импорт библиографических файлов для описания других файлов, но есть программы - Zotero, Mendeley, которые разработаны для импорта, расширения и экспорта метаданных во всякие разные условно-"стандартизированные" файлы... Наверное, их парсинг не так сложен, зато можно для каждой книги заполнить сразу много полей метаданных и не вводить вручную ни автора, ни название, ни ISBN или doi или любой другой идентификатор, на которые и ориентируются ученые, аспиранты, студенты.
Проблема в том, что на сайте много очень разных файлов, не все из которых - книги, и не все из которых попадают в Прокрустово ложе какого-либо заданного набора/шаблона выходных данных. Мы на данный момент применяем такие шаблоны строго вручную и примерно в 1 случае из нескольких десятков сталкиваемся с такими не вписывающимися материалами.
Для библиографических материалов (т.е. реально изданных книг, пособий, материалов, публикаций) используются специальные библиотечные форматы хранения метаданных, аналоги карточек в картотеках. Если для таких материалов придерживаться библиографическх стандартов их описания, их поиск упрощается (т.к. в стандартизированной форме содержатся все возможные метаданные - авторы, издательство, год издания, название, иногда даже аннотация). Вот пример содержимого .bib файла:
@book{Berg1993,
abstract = {This book is a lucid, straightforward introduction to the concepts and techniques of statistical physics that students of biology, biochemistry, and biophysics must know. It provides a sound basis for understanding random motions of molecules, subcellular particles, or cells, or of processes that depend on such motion or are markedly affected by it. Readers do not need to understand thermodynamics in order to acquire a knowledge of the physics involved in diffusion, sedimentation, electrophoresis, chromatography, and cell motility-subjects that become lively and immediate when the author discusses them in terms of random walks of individual particles.},
author = {Berg, Howard C.},
booktitle = {Random Walks in Biology},
doi = {10.2307/j.ctv7r40w6},
edition = {REV - Revi},
file = {:E$\backslash$:/caesar/@ LIBRARY @/!{\_}Textbooks{\_}!/Math and classical Phys/Teorver/RandomWalks.pdf:pdf},
isbn = {9780691082455},
month = {may},
publisher = {Princeton University Press},
title = {{Random Walks in Biology}},
url = {http://www.jstor.org/stable/10.2307/j.ctv7r40w6 http://www.jstor.org/stable/j.ctv7r40w6},
year = {1993}
}
Если для таких материалов придерживаться библиографическх стандартов их описания
Как быть, если мы 16 лет не придерживались?Или Вы что-то другое имеете в виду? Поясните, пожалуйста, на примере какого-нибудь конкретного файла нашего сайта, как (в техническом отношении) Вы предлагаете его имеющееся описание подогнать под изложенное Вами.
Да, это всё верно, что значительная часть контента здесь не есть книги и вообще трудно каталогизируется. Нет, я не предлагаю переиначивать все уже созданное, я лишь предложил опциональное дополнение интерфеса. Эдакую магическую кнопочку "заполнить всю информацию про этот pdf" для тех немногих случаев, когда такая информация у заливающего контент уже имеется в виде этого самого библиографического файла.
Комментарии
Можете привести примеры сайтов, где это уже реализовано?
Мы на данный момент применяем такие шаблоны строго вручную и примерно в 1 случае из нескольких десятков сталкиваемся с такими не вписывающимися материалами.
Нет, я не предлагаю переиначивать все уже созданное, я лишь предложил опциональное дополнение интерфеса. Эдакую магическую кнопочку "заполнить всю информацию про этот pdf" для тех немногих случаев, когда такая информация у заливающего контент уже имеется в виде этого самого библиографического файла.