В рамках исследования были проанализированы данные о кредитных операциях, предоставленные коммерческими банками. Была проведена подробная предобработка и нормализация данных для подготовки их к дальнейшему анализу и использованию в моделях машинного обучения. Основной фокус работы был сосредоточен на применении двух моделей: логистической регрессии и случайного леса. Логистическая регрессия была выбрана из-за своей простоты и интерпретируемости, а случайный лес – из-за своей способности обрабатывать большие объемы данных и выявлять сложные зависимости. В ходе экспериментов было показано, что обе модели успешно справляются с задачей оценки кредитного риска. Логистическая регрессия показала хорошую производительность, быстроту и точность, что делает ее подходящей для применения в реальном времени, например, при личной подаче заявки в банке или при онлайн-заявках. Случайный лес, в свою очередь, достиг высокой точности, хотя требует больше вычислительных ресурсов. Дополнительно, в работе был использован метод генетического программирования для создания новых признаков на основе исходных данных. Этот подход позволил значительно улучшить производительность модели и повысить ее точность. Хотя не все созданные признаки вошли в топ-5 наиболее важных, генетическое программирование оказалось эффективным способом генерации признаков, что имеет важное значение в области оценки кредитного риска. / The study analyzed data on credit transactions provided by commercial banks. Detailed pre-processing and normalization of the data was carried out to prepare it for further analysis and use in machine learning models. The main focus of the work was on the use of two models: logistic regression and random forest. Logistic regression was chosen for its simplicity and interpretability, and random forest for its ability to handle large amounts of data and identify complex relationships. During the experiments, it was shown that both models successfully cope with the task of assessing credit risk. Logistic regression has demonstrated good performance, speed, and accuracy, making it suitable for real-time applications such as in-person applications at a bank or online applications. Random forest, in turn, has achieved high accuracy, although it requires more computing resources. Additionally, the work used the genetic programming method to create new traits based on the original data. This approach significantly improved the model's performance and accuracy. Although not all of the features generated were in the top 5 most important, genetic programming has proven to be an effective way to generate features, which has important implications in the field of credit risk assessment.
Identifer | oai:union.ndltd.org:urfu.ru/oai:elar.urfu.ru:10995/129163 |
Date | January 2023 |
Creators | Спирова, А. С., Spirova, A. S. |
Contributors | Долганов, А. Ю., Dolganov, A. Y., УрФУ. Институт радиоэлектроники и информационных технологий-РТФ, Кафедра информационных технологий и систем управления |
Source Sets | Ural Federal University |
Language | Russian |
Detected Language | Russian |
Type | Master's thesis, info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Rights | Предоставлено автором на условиях простой неисключительной лицензии, http://elar.urfu.ru/handle/10995/31613 |
Page generated in 0.0028 seconds