Зарегистрироваться
Восстановить пароль
FAQ по входу

Ассоциации к словам и выражениям русского языка (Rus - Rus)

  • Файл формата rar
  • размером 26,37 МБ
  • содержит документ формата dict
  • Добавлен пользователем
  • Описание отредактировано
Скомпилирован под версию Lingvo x5. Исходные файлы есть.
Заголовков/карточек:: 57131 / 57125.
Версия 1.0 от 04.11.2017.
Источник: GitHub
Ассоциации к словам и выражениям русского языка, придуманные реальными людьми. Кроме общего набора публикуются данные срезов по гендеру, т.е. включающие частоты ассоциаций, подсчитанные отдельно для мужчин и для женщин.
Формат словаря
Головное слово — слово или выражение, к которому придумываются ассоциации
Ассоциация — слово или выражение
Частеречная разметка — для однословных ассоциаций: NOUN, ADJ, VERB, ADVERB или NO_TAG. Для фраз всегда PHRASE.
Направление ассоциации
⇔ зеркальная или, иначе, двунаправленная ассоциация
⇒ прямая
⇐ обратная
В скобках указан вес ассоциации - прямой и обратной - в промежутке от 0 до 1. Для прямых ассоциаций вес обратной ассоциации равен нулю, для обратных обнуляется прямой вес.
О направлении ассоциаций
Ассоциации не симметричны. Так, например, к слову ЛАЙМ будет сильная ассоциация ФРУКТ. Но обратное не верно — ЛАЙМ если и ассоциируется со словом ФРУКТ, то не в первую очередь.
Это связано как с обобщающей ролью слова ФРУКТ в языке, так и с актуальным культурным контекстом жителей России.
Соответственно зеркальность и её количественное выражение являются интересными атрибутами ассоциаций, выгодно отличающих их от чисто статистических инструментов, таких как контекстные связи.
флаг семейного фильтра — ✔ для безопасных слов и ассоциаций; ✘ в противном случае
В срезе по гендерному признаку
Головное слово — слово или выражение, к которому придумываются ассоциации
Ассоциация — слово или выражение
♂ — вес ассоциации, срез мужчины — нормировка идёт только в подгруппе ассоциаций, названных мужчинами
♀ — по аналогии для женщин
☯ — значение от -1 до 1, где -1 соответствует чисто мужским ассоциациям, 1 — чисто женским, 0 — гендерно-нейтральным
Основные особенности и типы обработок
Орфография: в сырых данных есть большое количество слов, написанных с ошибками. Ошибочные написания удалены из датасета, а их веса добавлены к весам корректных написаний, если есть такая возможность.
Формы слов: жёлтый, жёлтая, жёлтое, цветы, цветок и т.д. В обработанном датасете все слова приводятся к начальной форме. В случае единственного/множественного числа существительного выбирается наиболее частотный вариант (в рамках головного слова), прилагательные согласуются с существительными по числу и по роду. Если согласование прилагательного невозможно, выбирается наиболее частотная из базовых форм (по роду).
Глаголы, составляющие видовые пары (видеть — увидеть), считаются разными словами.
Все слова в датасете проходят фильтрацию через словарь. Последний имеет достаточно мощный объём и включает современную, в т.ч. сленговую лексику, а также имена собственные.
Фразовые ассоциации пропускаются через н-граммный фильтр. Словосочетания не приводятся к начальной форме; они могут содержать головное слово; части фраз могут встречаться как отдельные ассоциации.
Датасет по возможности ёфицирован.
Первая буква имён собственных по возможности капитализируется.
Все пробелы приведены к 0x20. Цепочки пробелов заменены на один.
Нормировка частот
Частота ошибочных написаний и неосновных словоформ приплюсовывается к частоте варианта, включённого в итоговый набор данных.
Относительная частота наиболее употребительной ассоциации принимается за единицу. Частоты остальных ассоциаций представляют собой долю по отношению к самой употребительной (в рамках каждого головного слова).
Для срезов по гендеру нормировка осуществляется независимо для ассоциаций, названых мужчинами и женщинами. Т.е. в общем случае в рамках каждого головного слова будет две ассоциации, условно мужская и женская, которые имеют вес 1.
Известные допущения и планы по развитию датасета
Более точно сводить ошибочно-раздельные написания слов (чудо-юдо, бизнес-центр) к нормативному.
Исследовать возможность использования семантики при обработке данных (например, чтобы разводить словоформы типа копать/капать, которые могут быть как ошибочными написаниями друг друга, так и достоверными ассоциациями).
Подумать над альтернативными возможностями расчёта частот фразовых ассоциаций. (Сейчас можно доверять лишь соотношению частот между фразовыми ассоциациями в рамках одного головного слова.)
Промаркировать контекстные и неконтекстные ассоциации, указать тип контекста и сам контекст.
  • Чтобы скачать этот файл зарегистрируйтесь и/или войдите на сайт используя форму сверху.
  • Регистрация