The object of the study is the classification of medical text sequences of different lengths. The subject of the study is methods for creating a vector representation of text data, as well as algorithms capable of processing data without restrictions on the length of the sequence. The goal of the final qualification work of the master is to study methods of natural language processing for classification of medical texts of different lengths. Research methods: analysis, mathematical modeling, synthesis, comparison, experiment. The result of the work is: a review of existing methods for processing long texts; a collected dataset including more than 18,000 medical texts; a developed approach for processing long texts and accelerating the transformer model when encoding texts of different lengths. Based on the analysis results, the developed approach achieved the best classification results and inference time compared to the methods considered in the work. / Объект исследования – классификация медицинских текстовых последовательностей разной длины. Предметом исследования являются методы по созданию векторного представления текстовых данных, а также алгоритмы способные обрабатывать данные без ограничения на длину последовательности. Цель выпускной квалификационной работы магистра – исследование методов обработки естественного языка для классификации медицинских текстов разной длины. Методы исследования: анализ, математическое моделирование, синтез, сравнение, эксперимент. Результатом работы является: обзор существующих методов, позволяющих обрабатывать длинные тексты; собранный набор данных, включающий более 18 000 медицинских текстов; разработанный подход, позволяющий обрабатывать длинные тексты и ускоряющий модель трансформера при кодировке текстов разной длины. По итогам анализа разработанный подход достиг наилучший результатов классификации и времени инференса по сравнению с рассматриваемыми в работе методами.
Identifer | oai:union.ndltd.org:urfu.ru/oai:elar.urfu.ru:10995/140346 |
Date | January 2024 |
Creators | Маяцкая, Е. A., Mayatskaya, E. A. |
Contributors | Ронкин, М. В., Ronkin, M. V., УрФУ. Институт радиоэлектроники и информационных технологий-РТФ, Кафедра информационных технологий и систем управления |
Publisher | б. и. |
Source Sets | Ural Federal University |
Language | Russian |
Detected Language | Russian |
Type | Master's thesis, info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Rights | Предоставлено автором на условиях простой неисключительной лицензии, http://elar.urfu.ru/handle/10995/31613 |
Page generated in 0.0022 seconds