Объектом исследования являются методы машинного обучения, позволяющие фильтровать данные, и методы разработки информационных платформ. Фильтрация данных подобного типа применяется в такой области, как поисковые системы, чтобы на основе запроса выдать пользователю релевантные результаты. Предмет исследования – разработка модели машинного обучения, фильтрующей текстовые данные, и информационной платформы для отображения отфильтрованных данных. Особенностями исследования являются открытая реализация полного проекта, то есть она доступна каждому, и возможность его модификации. Для обучения модели был использован самостоятельно составленный набор научных работ, информационная платформа была разработана с нуля. Итоговая модель LSTM, выбранная методом сравнения метрик, показала результат предсказания соответствия целевой тематике в 90%, что позволяет говорить о ее возможном внедрении в соответствующие Интернет-ресурсы, так как они гарантированно уменьшат объем научных работ, проверяемых вручную. / The object of the research is machine learning methods that allow filtering text data obtained from the information platform. Filtering of this type of data is used in such an area as search engines to give relevant results to the user based on a query. Within the framework of this dissertation, it was proposed to apply machine learning methods to filter a set of scientific papers based on their title and target label in the form of the subject of the work. The features of the study are the open implementation of the full project, that is, it is available to everyone, and the possibility of its modification. A self-compiled set of scientific papers was used to train the model, the information platform was developed from scratch. The final LSTM model, chosen by the method of comparing metrics, showed the result of predicting compliance with the target topic in 95%, which allows us to talk about its possible implementation in the relevant Internet resources, since they are guaranteed to reduce the volume of scientific papers checked manually.
Identifer | oai:union.ndltd.org:urfu.ru/oai:elar.urfu.ru:10995/129223 |
Date | January 2023 |
Creators | Кочетов, Р. В., Kochetov, R. V. |
Contributors | Медведев, М. А., Берг, Д. Б., Medvedev, M. A., Berg, D. B., УрФУ. Институт радиоэлектроники и информационных технологий-РтФ, Базовая кафедра «Аналитика больших данных и методы видеоанализа» |
Source Sets | Ural Federal University |
Language | Russian |
Detected Language | Russian |
Type | Master's thesis, info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Rights | Предоставлено автором на условиях простой неисключительной лицензии, http://elar.urfu.ru/handle/10995/31613 |
Page generated in 0.0025 seconds