Исследование методов обработки естественного языка для классификации медицинских текстов разной длины : магистерская диссертация / Study of methods of natural language processing for classification of medical texts of different lengths

The object of the study is the classification of medical text sequences of different lengths. The subject of the study is methods for creating a vector representation of text data, as well as algorithms capable of processing data without restrictions on the length of the sequence. The goal of the final qualification work of the master is to study methods of natural language processing for classification of medical texts of different lengths. Research methods: analysis, mathematical modeling, synthesis, comparison, experiment. The result of the work is: a review of existing methods for processing long texts; a collected dataset including more than 18,000 medical texts; a developed approach for processing long texts and accelerating the transformer model when encoding texts of different lengths. Based on the analysis results, the developed approach achieved the best classification results and inference time compared to the methods considered in the work. / Объект исследования – классификация медицинских текстовых последовательностей разной длины. Предметом исследования являются методы по созданию векторного представления текстовых данных, а также алгоритмы способные обрабатывать данные без ограничения на длину последовательности. Цель выпускной квалификационной работы магистра – исследование методов обработки естественного языка для классификации медицинских текстов разной длины. Методы исследования: анализ, математическое моделирование, синтез, сравнение, эксперимент. Результатом работы является: обзор существующих методов, позволяющих обрабатывать длинные тексты; собранный набор данных, включающий более 18 000 медицинских текстов; разработанный подход, позволяющий обрабатывать длинные тексты и ускоряющий модель трансформера при кодировке текстов разной длины. По итогам анализа разработанный подход достиг наилучший результатов классификации и времени инференса по сравнению с рассматриваемыми в работе методами.

Identiferoai:union.ndltd.org:urfu.ru/oai:elar.urfu.ru:10995/140346
Date January 2024
CreatorsМаяцкая, Е. A., Mayatskaya, E. A.
ContributorsРонкин, М. В., Ronkin, M. V., УрФУ. Институт радиоэлектроники и информационных технологий-РТФ, Кафедра информационных технологий и систем управления
Publisherб. и.
Source SetsUral Federal University
LanguageRussian
Detected LanguageRussian
TypeMaster's thesis, info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
RightsПредоставлено автором на условиях простой неисключительной лицензии, http://elar.urfu.ru/handle/10995/31613

Page generated in 0.0022 seconds