24
Поступила в редакцию 19.11.2019
Подписана в печать 26.12.2019
19 с.
PDF |
Н. А. Власова, И. В. Трофимов, Ю. П.
Сердюк, Е. А. Сулейманова, И. Н. Воздвиженский
PaRuS — синтаксически аннотированный корпус русского языка
В статье представлен новый аннотированный корпус
русского языка PaRuS (Parsed Russian
Sentences). Корпус имеет объем свыше 2,5 миллиардов токенов и
предназначен для решения задач компьютерной лингвистики
методами машинного обучения. PaRuS состоит из предложений
русского литературного языка. Каждое
предложение снабжено лингвистической
разметкой: морфологической в формате MULTEXT-East и синтаксической
в нотации СинТагРус. В статье рассмотрена методология
создания корпуса, описан гибридный
лингвистический конвейер PaRuS_pipe, разработанный для
порождения разметки. Обсуждаются вопросы качества
аннотирования языкового материала в корпусе
PaRuS, выполнена оценка морфологического анализатора конвейера
PaRuS_pipe по методологии соревнования
MorphoRuEval-2017.
Ключевые слова:компьютерная
лингвистика, корпусная лингвистика, русский язык, языковой корпус,
разметка, морфология, синтаксис. |