Том 14 (2023) .– Выпуск 1 (56) .– Статья № 4 (425)

Медицинская информатика

Научная статья

Система извлечения упоминаний симптомов из текстов на естественном языке с помощью нейронных сетей

Юрий Петрович Сердюк1, Наталья Александровна Власова2Переписывавшийся автор, Седа Рубеновна Момот3

Институт программных систем им. А. К. Айламазяна РАН, Веськово, Россия
2 Наталья Александровна Власова — Переписывавшийся автор nathalie.vlassova@gmail.com

Аннотация. В статье представлена система для извлечения упоминаний симптомов из медицинских текстов на естественном (русском) языке. Система осуществляет нахождение симптомов в тексте, их нормализацию (приведение к стандартной форме) и отождествление — отнесение найденного симптома к группе однотипных симптомов. Каждый этап обработки реализуется с помощью отдельной нейронной сети. Состав извлекаемых симптомов ограничен тремя видами заболеваний — аллергические и пульмонологические заболевания, а также коронавирусная инфекция (COVID-19). Представлен и описан аннотированный корпус предложений, использованный для обучения нейросети нахождению упоминаний симптомов, относящихся к этим трем заболеваниям. При разметке корпуса был использован простой XML-подобный язык. Для представления предложений, непосредственно поступающих на вход нейросети, предложен расширенный BIO-формат разметки. Для каждого этапа приведены оценки точности (для первого этапа точность оценивалась при строгом и гибком тестировании). Описаны подходы и реализация приведения к стандартной форме и отождествления упоминаний симптомов. Даны сравнения с аналогичными работами по извлечению симптомов из медицинских текстов на разных языках, а также показано место данной системы в системах поддержки принятия клинических решений.

Ключевые слова: автоматическая обработка языка, нейронные сети, автоматическое извлечение информации, аннотированный корпус, упоминания симптомов, BERT-модели, Covid-19

Для цитирования: Сердюк Ю. П., Власова Н. А., Момот С. Р. Система извлечения упоминаний симптомов из текстов на естественном языке с помощью нейронных сетей // Программные системы: теория и приложения. 2023. Т. 14. № 1. С. 95–123. https://psta.psiras.ru/2023/1_95-123.

Полный текст статьи (PDF): https://psta.psiras.ru/read/psta2023_1_95-123.pdf.

Статья поступила в редакцию 26.12.2022; одобрена после рецензирования 29.01.2023; принята к публикации 29.01.2023; опубликована онлайн 17.02.2023.

© Сердюк Ю. П., Власова Н. А., Момот С. Р.
2023
Адрес редакции: 152021, Ярославская обл., Переславский район, село Веськово, ул. Петра Первого, д. 4а, Институт программных систем имени А. К. Айламазяна РАН; Тел: +7(4852) 695-228 E-mail: ; Сетевой адрес издания:  http://psta.psiras.ru
© Федеральное государственное бюджетное учреждение науки Институт программных систем имени А. К. Айламазяна Российской академии наук (дизайн сайта) 2010–2024 The text of CC-BY-4.0 license