Global ETD Search

1	Оценка кредитных рисков с применением методов машинного обучения : магистерская диссертация / Credit risk assessment using machine learning methods Спирова, А. С., Spirova, A. S. January 2023 (has links) В рамках исследования были проанализированы данные о кредитных операциях, предоставленные коммерческими банками. Была проведена подробная предобработка и нормализация данных для подготовки их к дальнейшему анализу и использованию в моделях машинного обучения. Основной фокус работы был сосредоточен на применении двух моделей: логистической регрессии и случайного леса. Логистическая регрессия была выбрана из-за своей простоты и интерпретируемости, а случайный лес – из-за своей способности обрабатывать большие объемы данных и выявлять сложные зависимости. В ходе экспериментов было показано, что обе модели успешно справляются с задачей оценки кредитного риска. Логистическая регрессия показала хорошую производительность, быстроту и точность, что делает ее подходящей для применения в реальном времени, например, при личной подаче заявки в банке или при онлайн-заявках. Случайный лес, в свою очередь, достиг высокой точности, хотя требует больше вычислительных ресурсов. Дополнительно, в работе был использован метод генетического программирования для создания новых признаков на основе исходных данных. Этот подход позволил значительно улучшить производительность модели и повысить ее точность. Хотя не все созданные признаки вошли в топ-5 наиболее важных, генетическое программирование оказалось эффективным способом генерации признаков, что имеет важное значение в области оценки кредитного риска. / The study analyzed data on credit transactions provided by commercial banks. Detailed pre-processing and normalization of the data was carried out to prepare it for further analysis and use in machine learning models. The main focus of the work was on the use of two models: logistic regression and random forest. Logistic regression was chosen for its simplicity and interpretability, and random forest for its ability to handle large amounts of data and identify complex relationships. During the experiments, it was shown that both models successfully cope with the task of assessing credit risk. Logistic regression has demonstrated good performance, speed, and accuracy, making it suitable for real-time applications such as in-person applications at a bank or online applications. Random forest, in turn, has achieved high accuracy, although it requires more computing resources. Additionally, the work used the genetic programming method to create new traits based on the original data. This approach significantly improved the model's performance and accuracy. Although not all of the features generated were in the top 5 most important, genetic programming has proven to be an effective way to generate features, which has important implications in the field of credit risk assessment. МАШИННОЕ ОБУЧЕНИЕ СЛУЧАЙНЫЙ ЛЕС MASTER'S THESIS MACHINE LEARNING LOGISTIC REGRESSION RANDOM FOREST GENETIC PROGRAMMING
2	Исследование методов машинного обучения для классификации сигналов радиоэфира : магистерская диссертация / Study of machine learning methods for classification of radio broadcast signals Фарафонов, Д. А., Farafonov, D. A. January 2024 (has links) This work presents a study of machine learning methods for classification of radio broadcast signals. The first chapter provides a brief overview of the subject area, as well as an analysis of current solutions on this topic in the field of machine learning, during which such models as LResNet and CCNN-Atten were considered. The second chapter described in detail the selected RadioML dataset and developed a structure of the experiments with the TimeSeriesForestClassifier, TimeForestClassifier, SVC, KNN models, taking into account various approaches to processing the original data. The third chapter of this work presents the results of the experiments: analysis of approaches to data processing, where the best solution was the calculation of the amplitude spectrum of the signal; results of selecting hyperparameters and testing models on an extended training set. The best identified model is TimeSeriesForestClassifier with an accuracy of 0.91 at an SNR of at least 10 dB. / В данной работе представлено исследование методов машинного обучения для классификации сигналов радиоэфира. В первой главе представлен краткий обзор предметной области, а также анализ актуальных решений на данную тематику в области машинного обучения, в ходе которого были рассмотрены такие модели как LResNet и CCNN-Atten. Во второй главе был подробно описан выбранный датасет RadioML и разработана структура проводимых экспериментов с моделями TimeSeriesForestClassifier, TimeForestClassifier, SVC, KNN с учетом различных подходов к обработке исходных данных. В третьей главе настоящей работы представлены результаты проводимых экспериментов: анализ подходов к обработке данных, где наилучшим решением оказалось вычисление амплитудного спектра сигнала; результаты подбора гиперпараметров и тестирования моделей на расширенной обучающей выборке. Наилучшей выявленной моделью является TimeSeriesForestClassifier с accuracy 0.91 при SNR не менее 10 dB. MASTER'S THESIS SIGNAL MODULATION MODULATION CLASSIFICATION MACHINE LEARNING RANDOM FOREST RADIOML МОДУЛЯЦИЯ СИГНАЛА МАШИННОЕ ОБУЧЕНИЕ СЛУЧАЙНЫЙ ЛЕС RADIOML
3	Валидация модели машинного обучения для прогнозирования магнитных свойств нанокристаллических сплавов типа FINEMET : магистерская диссертация / Validation of machine learning model to predict magnetic properties of nanocrystalline FINEMET type alloys Степанова, К. А., Stepanova, K. A. January 2022 (has links) В работе была произведена разработка модели машинного обучения на языке программирования Python, а также проведена ее валидация на этапах жизненного цикла. Целью создания модели машинного обучения является прогнозирование магнитных свойств нанокристаллических сплавов на основе железа по химическому составу и условиям обработки. Процесс валидации модели машинного обучения позволяет не только произвести контроль за соблюдением требований, предъявляемых при разработке и эксплуатации модели, к результатам, полученных с помощью моделирования, но и способствует внедрению модели в процесс производства. Процесс валидации включал в себя валидацию данных, в ходе которой были оценены типы, пропуски данных, соответствие цели исследования, распределения признаков и целевых характеристик, изучены корреляции признаков и целевых характеристик; валидацию алгоритмов, применяемых в модели: были проанализированы параметры алгоритмов с целью соблюдения требования о корректной обобщающей способности модели (отсутствие недо- и переобучения); оценку работы модели, благодаря которой был произведен анализ полученных результатов с помощью тестовых данных; верификацию результатов с помощью актуальных данных, полученных из статей, опубликованных с 2010 по 2022 год. В результате валидации модели было показано высокое качество разработанной модели, позволяющее получить оценки качества R2 0,65 и выше. / In this work machine learning model was developed by Python programming language, and also was validated at stages of model’s life cycle. The purpose of creating the machine learning model is to predict the magnetic properties of Fe-based nanocrystalline alloys by chemical composition and processing conditions. The validation of machine learning models allows not only to control the requirements for development and operation of the models, for the results obtained by modeling, but also contrib¬utes to the introduction of the model into production process. The validation process included: data validation: data types and omissions, compliance with the purpose of the study, dis¬tribution of features and target characteristics were evaluated, correlations of features and target characteristics were studied; flgorithms validation: the parameters of the algorithms were analyzed in order to comply with the requirement for the correct generalizing ability of the model (without under- and overfit¬ting); evaluation of the model work: the analysis of the obtained results was carried out using test data; verification of results using actual data obtained from articles published since 2010 to 2022. As a result of the model validation, the high quality of the developed model was shown, which makes it possible to obtain quality metric R2 0.65 and higher. МАШИННОЕ ОБУЧЕНИЕ СЛУЧАЙНЫЙ ЛЕС К – БЛИЖАЙШИЕ СОСЕДИ MASTER'S THESIS MACHINE LEARNING MACHINE LEARNING MODEL VALIDATION RANDOM FOREST K – NEAREST NEIGHBORS SUPPORT VECTOR REGRESSOR
4	Выбор моделей машинного обучения для внедрения системы оценки кредитоспособности клиентов банка : магистерская диссертация / Selection of machine learning models for the implementation of the bank's customer creditworthiness assessment system Зайцев, А. В., Zaitsev, A. V. January 2024 (has links) В работе сравниваются алгоритмы машинного обучения для задачи оценки вероятности дефолта заёмщика и применяются методы интерпретации локальных предсказаний. / The paper compares machine learning algorithms for the problem of estimating the probability of borrower default, and applies methods for interpreting local predictions. MASTER'S THESIS CREDIT SCORING CREDIT RISK BORROWER DEFAULT MACHINE LEARNING BINARY CLASSIFICATION LOGISTIC REGRESSION RANDOM FOREST GRADIENT BOUSTING LIME SHAP КРЕДИТНЫЙ СКОРИНГ КРЕДИТНЫЕ РИСКИ ДЕФОЛТ ЗАЁМЩИКА МАШИННОЕ ОБУЧЕНИЕ СЛУЧАЙНЫЙ ЛЕС ГРАДИЕНТНЫЙ БУСТИНГ LIME SHAP
5	Использование машинного обучения для автоматической интерпретации данных из систем веб-аналитики : магистерская диссертация / Using machine learning to automatically interpret data from web analytics systems Цинцов, Н. В., Tsintsov, N. V. January 2023 (has links) В данной работе был разработан и реализован комплексный подход к анализу и интерпретации пользовательских данных, собранных в рамках системы веб-аналитики. Применяя методы машинного обучения и аналитики данных, были исследованы и выявлены ключевые события пользователей, влияющие на определенные бизнес-метрики. Начальные этапы проекта включали сбор и предварительную обработку данных, с последующей кластеризацией для выявления скрытых взаимосвязей и структур. Использовались или тестировались различные библиотеки для объяснимости работы моделей машинного обучении, такие как Eli5 и SHAP. Для решения задачи тестировались кластеризации, включая K-средних, DBSCAN, спектральную кластеризацию и OPTICS. В качестве алгоритмов применялась логистическая регрессия, случайны лес и CatBoost. Применялась нейронная сеть. Для определения значимости признаков использовались методы Permutation Importance, с применением моделей логистической регрессии, случайного леса и нейронной сети. Основным результатом стала разработка скрипта, осуществляющего автоматический сбор, обработку данных и определение наиболее значимых событий. Полученный инструментарий значительно облегчает задачу аналитиков, помогая определять ключевые аспекты поведения пользователей и строить более эффективные стратегии взаимодействия. Применение полученных результатов имеет высокий потенциал для улучшения бизнес–решений и оптимизации работы с пользовательской аудиторией. / In this work, an integrated approach to the analysis and interpretation of user data collected within the framework of a web analytics system was developed and implemented. Using machine learning and data analytics methods, key user events that impact certain business metrics were investigated and identified. The initial stages of the project included data collection and pre-processing, followed by clustering to identify hidden relationships and structures. Various libraries have been used or tested to make machine learning models explainable, such as Eli5 and SHAP. Clusterings including K-means, DBSCAN, spectral clustering, and OPTICS were tested to solve the problem. The algorithms used were logistic regression, random forest and CatBoost. A neural network was used. To determine the significance of features, Permutation Importance methods were used using logistic regression, random forest and neural network models. The main result was the development of a script that automatically collects, processes data and determines the most significant events. The resulting tools greatly facilitate the task of analysts, helping to identify key aspects of user behavior and build more effective interaction strategies. The application of the results obtained has high potential for improving business decisions and optimizing work with the user audience. СИСТЕМЫ ВЕБ-АНАЛИТИКИ БИЗНЕС-МЕТРИКИ ELI5 SHAP K-СРЕДНИХ DBSCAN OPTICS CATBOOST PERMUTATION IMPORTANCE СЛУЧАЙНЫЙ ЛЕС MASTER'S THESIS WEB ANALYTICS SYSTEMS BUSINESS METRICS ELI5 SHAP K-MEANS DBSCAN SPECTRAL CLUSTERING OPTICS CATBOOST PERMUTATION IMPORTANCE LOGISTIC REGRESSION RANDOM FOREST

Search results

Оценка кредитных рисков с применением методов машинного обучения : магистерская диссертация / Credit risk assessment using machine learning methods

Исследование методов машинного обучения для классификации сигналов радиоэфира : магистерская диссертация / Study of machine learning methods for classification of radio broadcast signals