Global ETD Search

Использование машинного обучения для автоматической интерпретации данных из систем веб-аналитики : магистерская диссертация / Using machine learning to automatically interpret data from web analytics systems

В данной работе был разработан и реализован комплексный подход к анализу и интерпретации пользовательских данных, собранных в рамках системы веб-аналитики. Применяя методы машинного обучения и аналитики данных, были исследованы и выявлены ключевые события пользователей, влияющие на определенные бизнес-метрики. Начальные этапы проекта включали сбор и предварительную обработку данных, с последующей кластеризацией для выявления скрытых взаимосвязей и структур. Использовались или тестировались различные библиотеки для объяснимости работы моделей машинного обучении, такие как Eli5 и SHAP. Для решения задачи тестировались кластеризации, включая K-средних, DBSCAN, спектральную кластеризацию и OPTICS. В качестве алгоритмов применялась логистическая регрессия, случайны лес и CatBoost. Применялась нейронная сеть. Для определения значимости признаков использовались методы Permutation Importance, с применением моделей логистической регрессии, случайного леса и нейронной сети. Основным результатом стала разработка скрипта, осуществляющего автоматический сбор, обработку данных и определение наиболее значимых событий. Полученный инструментарий значительно облегчает задачу аналитиков, помогая определять ключевые аспекты поведения пользователей и строить более эффективные стратегии взаимодействия. Применение полученных результатов имеет высокий потенциал для улучшения бизнес–решений и оптимизации работы с пользовательской аудиторией. / In this work, an integrated approach to the analysis and interpretation of user data collected within the framework of a web analytics system was developed and implemented. Using machine learning and data analytics methods, key user events that impact certain business metrics were investigated and identified. The initial stages of the project included data collection and pre-processing, followed by clustering to identify hidden relationships and structures. Various libraries have been used or tested to make machine learning models explainable, such as Eli5 and SHAP. Clusterings including K-means, DBSCAN, spectral clustering, and OPTICS were tested to solve the problem. The algorithms used were logistic regression, random forest and CatBoost. A neural network was used. To determine the significance of features, Permutation Importance methods were used using logistic regression, random forest and neural network models. The main result was the development of a script that automatically collects, processes data and determines the most significant events. The resulting tools greatly facilitate the task of analysts, helping to identify key aspects of user behavior and build more effective interaction strategies. The application of the results obtained has high potential for improving business decisions and optimizing work with the user audience.

СИСТЕМЫ ВЕБ-АНАЛИТИКИ

PERMUTATION IMPORTANCE

СЛУЧАЙНЫЙ ЛЕС

MASTER'S THESIS

WEB ANALYTICS SYSTEMS

PERMUTATION IMPORTANCE

LOGISTIC REGRESSION

RANDOM FOREST

Identifer	oai:union.ndltd.org:urfu.ru/oai:elar.urfu.ru:10995/129164
Date	January 2023
Creators	Цинцов, Н. В., Tsintsov, N. V.
Contributors	Долганов, А. Ю., Dolganov, A. Y., УрФУ. Институт радиоэлектроники и информационных технологий-РТФ, Кафедра информационных технологий и систем управления
Source Sets	Ural Federal University
Language	Russian
Detected Language	Russian
Type	Master's thesis, info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Format	application/pdf
Rights	Предоставлено автором на условиях простой неисключительной лицензии, http://elar.urfu.ru/handle/10995/31613

Page generated in 0.0821 seconds

Description

Links & Downloads

Tags

Additional Fields