Есть время, желание и необходимые профессиональные умения для создания программного обеспечения, облегчающего стиховедческий анализ текстов.
Я пока не нахожу ничего подобного в Гугле.Это не заработок, это реализация мечты. Денег - не нужно.
Нужен бесплатный профессиональный консультант в предметной области.Работа строится "итерационно", с дальнейшим масштабированием и развитием функционала.Ограничение:
* язык только русскийЦели первого этапа:
* определиться с алгоритмами морфологической и грамматической квалификации лексических единиц. Определиться с базовыми используемыми электронными словарями и порядком приведения их к удобному для дальнейшего использования виду;
* обеспечить минимально необходимый функционал для разбития произвольного "загруженного в программу" текста на простейшие лексические и графические единицы (слова, части речи, строки, строфы);
* получить ясную постановку задачи по определению стоп и предполагаемого метра.Цели второго этапа:
* реализация адекватного (пусть и вероятностного) определения используемого в тексте/текстах метра, отступлений от метра;
* формулирование грамматических, морфологических, стиховедческих, издательских разрезов анализа, предоставление инструментария для дальнейшего расширения перечня этих разрезов;
* организация получения, хранения и предоставления в общий доступ результатов анализа в различных разрезах.Буду рад любой помощи.
Комментарии
Первый этап --- вам нужна AOL.
Второй этап, п.1 --- по-моему не реалистично.
Уже эта задача не формализуется. Но - опять же - полагаю, что, если провести предварительную работу с исходным словарем, просклонять, проспрягать по статистически наиболее употребительным правилам записи исходного словаря, можно будет двинуться дальше. Промежуточные результаты могут быть временами комичны, но - и ладно.
Очень полезные библиотеки.> Расстановка ударений в русском языке неформализуема.
Мне кажется, как раз нет. И хотя бы вероятностную модель можно будет найти, но автор имеет право перенести ударение. Это уже неформализуемо.С грамматикой --- нужна модель языка. По суффиксам можно определить часть речи, в большинстве случаев, по-крайней мере многим это удавалось.Я думаю, стоит покопать в сторону опенсорсных систем перевода. Они решают сходные задачи. Большая часть неинтересной работы (грамматика, морфология) уже всего скорее решены.
Конечно, %50 работы приходится делать руками, но - это лучше, чем ничего. Гораздо лучше.Здесь - метрический анализ всех стихотворений первого тома О.Э.Мандельштама (четырехтомник 1993г, источник текстов в интернете - Мандельштамовское общество).(Не знаю, как ссылка будет выглядеть).Копирайт исполнителя расчетов - мой.Второй том на подходе.
Будет и третий.
Т.е. практический результат - полный метрический анализ всех стихотворений Мандельштама.
Анализируемый текст разбивается на строки (стихи).
(Вопросы строфики пока остаются за пределами рассмотрения в задаче.)
Стихи разбиваются на слова.
Если слово находится в собственной базе данных, то задача интерпретации слова в качестве числовой последовательности ударных и безударных слогов (""0"" и ""1"") решена.Если слово отсутствует во встроенном словаре, то с помощью внешних компонент АОТ (http://www.aot.ru/index.html) находится основная грамматическая форма слова (см. ""Благодарности"").Эта основная грамматическая форма слова, в свою очередь, разыскивается в словарях ru.wiktionary.org или Яндекса. Там и ищутся ударения для конкретной формы (склонения, спряжения) слова.Сплошь и рядом могут возникать варианты расстановки ударений. Простейший пример - односложные слова в стихотворной строке могут оказаться как в ударной, так и в безударной позиции. В таких случаях система приводит оба варианта (второй, третий и т.п. вариант - в скобках. 1(0), например, для односложного слова.)"
Поиск ближайшего идеального размера
"Под ""расстоянием"" между стихом и любым стихотворным размером понимается количество послоговых различий в ударениях между стихом и "идеальным" размером.
Под размером стиха понимается ближайший по ""расстоянию"" размер из классического списка размеров.
Ближайший идеальный размер предлагается пользователю ""для утверждения"".
Пользователь может изменить эти машинные размеры для любых строк стихотворение на выбранные им, а также переопределить представление строки, если - на взгляд пользователя - система ошиблась в расстановке ударений или вообще не нашла слова в словарях."=================
Вообще же - возникают очень интересные вопросы уже на имеющемся материале.См. тут.Из технических перспектив: полагаю, что где-то к концу октября я полностью "залью" в базу весь словарь АОТ (но уже с ударениями). Работа идет и сейчас, но это не быстро (система онлайн крутит только 100 000-ую словоформу. Это третий месяц позади. Всего 175 000 словоформ.)
Вот тогда можно будет и ПО в "тонком клиенте" продемонстрировать.На сайт залью, когда весь Мандельштам будет сделан. (Написал в Мандельштамовское общество - заинтересовались). Спасибо за приглашение.
Хороший совет!