Программное обеспечение для стиховедческого анализа текстов

Добавлена пользователем Миропольский Геннадий 30.01.2011 13:34

Есть время, желание и необходимые профессиональные умения для создания программного обеспечения, облегчающего стиховедческий анализ текстов.
Я пока не нахожу ничего подобного в Гугле.

Это не заработок, это реализация мечты. Денег - не нужно.
Нужен бесплатный профессиональный консультант в предметной области.

Работа строится "итерационно", с дальнейшим масштабированием и развитием функционала.

Ограничение:
* язык только русский

Цели первого этапа:
* определиться с алгоритмами морфологической и грамматической квалификации лексических единиц. Определиться с базовыми используемыми электронными словарями и порядком приведения их к удобному для дальнейшего использования виду;
* обеспечить минимально необходимый функционал для разбития произвольного "загруженного в программу" текста на простейшие лексические и графические единицы (слова, части речи, строки, строфы);
* получить ясную постановку задачи по определению стоп и предполагаемого метра.

Цели второго этапа:
* реализация адекватного (пусть и вероятностного) определения используемого в тексте/текстах метра, отступлений от метра;
* формулирование грамматических, морфологических, стиховедческих, издательских разрезов анализа, предоставление инструментария для дальнейшего расширения перечня этих разрезов;
* организация получения, хранения и предоставления в общий доступ результатов анализа в различных разрезах.

Буду рад любой помощи.

Цели - "гуманитарные". В каком-то смысле - форма благодарности. Образец - стиховедческие работы Андрея Белого, М.Л.Гаспарова. Если профессионалы такие объемы работ проводят вручную, то я бы хотел отдать их последователям дань.

Что имеется в виду под AOL? Форма организации проекта (on-line)? Если да, то в этом направлении я и думаю.

"Второй этап, п.1 - по-моему нереалистично". - Я это вижу. Расстановка ударений в русском языке неформализуема. Пока я думаю, что если удастся удачно опереться на какой-либо базовый и существующий электронный словарь (с определенными ударениями в основных формах: инфинитив для глагола, именительный падеж существительного единственного лица), то могут быть шансы для дальнейшего развития.

Между прочим, и с первым этапом - весьма проблематично. Определение принадлежности слова к той или иной части речи уже предполагает какую-то формализацию грамматики.
Уже эта задача не формализуется. Но - опять же - полагаю, что, если провести предварительную работу с исходным словарем, просклонять, проспрягать по статистически наиболее употребительным правилам записи исходного словаря, можно будет двинуться дальше. Промежуточные результаты могут быть временами комичны, но - и ладно.

Миропольский Геннадий

2 апреля 2011 в 10:45 в теме Программное обеспечение для стиховедческого анализа текстов #

Про AOL --- моя ошибка. Оно AOT http://www.aot.ru/.
Очень полезные библиотеки.

> Расстановка ударений в русском языке неформализуема.
Мне кажется, как раз нет. И хотя бы вероятностную модель можно будет найти, но автор имеет право перенести ударение. Это уже неформализуемо.

С грамматикой --- нужна модель языка. По суффиксам можно определить часть речи, в большинстве случаев, по-крайней мере многим это удавалось.

Я думаю, стоит покопать в сторону опенсорсных систем перевода. Они решают сходные задачи. Большая часть неинтересной работы (грамматика, морфология) уже всего скорее решены.

Илья w495 Никитин

25 августа 2011 в 00:04 в теме Программное обеспечение для стиховедческого анализа текстов #

Еще раз спасибо за наводку.
Конечно, %50 работы приходится делать руками, но - это лучше, чем ничего. Гораздо лучше.

Здесь - метрический анализ всех стихотворений первого тома О.Э.Мандельштама (четырехтомник 1993г, источник текстов в интернете - Мандельштамовское общество).

(Не знаю, как ссылка будет выглядеть).

Копирайт исполнителя расчетов - мой.

Второй том на подходе.
Будет и третий.
Т.е. практический результат - полный метрический анализ всех стихотворений Мандельштама.

Миропольский Геннадий

25 августа 2011 в 14:36 в теме Программное обеспечение для стиховедческого анализа текстов #

Еще, я думаю вы могли бы выложить результаты на этом сайте. Ну + добавив к ним некоторое описание, для тех кто не прочитал наш разговор.

Илья w495 Никитин

25 августа 2011 в 14:34 в теме Программное обеспечение для стиховедческого анализа текстов #

Однако, большую Вы работу проделали. А где можно прочитать про то как делались расчеты? Заранее спасибо.

Илья w495 Никитин

25 августа 2011 в 15:07 в теме Программное обеспечение для стиховедческого анализа текстов #

Алгоритмы и общие решения определения ударений в слове таковы.
Анализируемый текст разбивается на строки (стихи).
(Вопросы строфики пока остаются за пределами рассмотрения в задаче.)
Стихи разбиваются на слова.
Если слово находится в собственной базе данных, то задача интерпретации слова в качестве числовой последовательности ударных и безударных слогов (""0"" и ""1"") решена.

Если слово отсутствует во встроенном словаре, то с помощью внешних компонент АОТ (http://www.aot.ru/index.html) находится основная грамматическая форма слова (см. ""Благодарности"").

Эта основная грамматическая форма слова, в свою очередь, разыскивается в словарях ru.wiktionary.org или Яндекса. Там и ищутся ударения для конкретной формы (склонения, спряжения) слова.

Сплошь и рядом могут возникать варианты расстановки ударений. Простейший пример - односложные слова в стихотворной строке могут оказаться как в ударной, так и в безударной позиции. В таких случаях система приводит оба варианта (второй, третий и т.п. вариант - в скобках. 1(0), например, для односложного слова.)"

Поиск ближайшего идеального размера

"Под ""расстоянием"" между стихом и любым стихотворным размером понимается количество послоговых различий в ударениях между стихом и "идеальным" размером.
Под размером стиха понимается ближайший по ""расстоянию"" размер из классического списка размеров.
Ближайший идеальный размер предлагается пользователю ""для утверждения"".
Пользователь может изменить эти машинные размеры для любых строк стихотворение на выбранные им, а также переопределить представление строки, если - на взгляд пользователя - система ошиблась в расстановке ударений или вообще не нашла слова в словарях."

=================
Вообще же - возникают очень интересные вопросы уже на имеющемся материале.

См. тут.

Из технических перспектив: полагаю, что где-то к концу октября я полностью "залью" в базу весь словарь АОТ (но уже с ударениями). Работа идет и сейчас, но это не быстро (система онлайн крутит только 100 000-ую словоформу. Это третий месяц позади. Всего 175 000 словоформ.)
Вот тогда можно будет и ПО в "тонком клиенте" продемонстрировать.

На сайт залью, когда весь Мандельштам будет сделан. (Написал в Мандельштамовское общество - заинтересовались). Спасибо за приглашение.

Миропольский Геннадий

2 апреля 2011 в 12:39 в теме Программное обеспечение для стиховедческого анализа текстов #

AOT http://www.aot.ru/
Хороший совет!

Миропольский Геннадий

2 апреля 2011 в 12:22 в теме Программное обеспечение для стиховедческого анализа текстов #

AOT http://www.aot.ru/.

- Спасибо. Смотрю

Миропольский Геннадий

1 февраля 2011 в 02:33 в теме Программное обеспечение для стиховедческого анализа текстов #

Могу предложить простой алгоритм для стиховедческого анализа текстов на http://www.proza.ru/2010/09/30/54

4ujestranec

1 февраля 2011 в 10:19 в теме Программное обеспечение для стиховедческого анализа текстов #

Спасибо. В подходах я сориентирован работами М.Л.Гаспарова. Количество гласных подсчитывается легко, это верно, но задача, к сожалению, не так проста, как Вам представляется.

Миропольский Геннадий

В этом разделе нет комментариев.

Программное обеспечение для стиховедческого анализа текстов

Комментарии