Return to search

Сбор и анализ данных из открытых источников для разработки рекомендательной системы в сфере туризма : магистерская диссертация / Collection and analysis of data from open sources to develop a recommendation system in the field of tourism

В данной дипломной работе была поставлена цель разработки эффективной рекомендательной системы для туристических достопримечательностей на основе графов и алгоритмов машинного обучения. Основная задача состояла в создании системы, которая может анализировать обширный набор данных о туристических достопримечательностях, извлекаемых из Википедии. Используя дампы Википедии, содержащие информацию о миллионах статей, был выполнен обзор существующих рекомендательных систем и методов машинного обучения, применяемых для предоставления рекомендаций в области туризма. Затем были выбраны определенные категории туристических достопримечательностей, которые были использованы для построения моделей рекомендаций. Для обработки и анализа данных из Википедии был использован современный технический стек инструментов, включающий Python, библиотеки networkx и pandas для работы с графами и данными, а также библиотеку scikit-learn для применения алгоритмов машинного обучения. Кроме того, для разработки интерактивного веб-интерфейса был использован фреймворк Streamlit. Процесс работы включал сбор и предварительную обработку данных из Википедии, включая информацию о достопримечательностях, связях между ними и характеристиках. Для создания графа данных на основе загруженных и обработанных данных были применены выбранные алгоритмы машинного обучения. Алгоритм PageRank был использован для определения важности каждой достопримечательности в графе и формирования персонализированных рекомендаций. Демонстрационный пользовательский интерфейс, разработанный на основе фреймворка Streamlit, позволяет пользователям взаимодействовать с системой, вводить запросы о местах и получать персонализированные рекомендации. С помощью выпадающего списка можно выбрать конкретную достопримечательность, к которой требуется получить рекомендации, а с помощью ползунка можно настроить количество рекомендаций. / This thesis aimed to develop an effective recommendation system for tourist attractions based on graphs and machine learning algorithms. The main challenge was to create a system that can analyze a large set of tourist attraction data extracted from Wikipedia. Using Wikipedia dumps containing information on millions of articles, a review of existing recommender systems and machine learning methods used to provide recommendations in the field of tourism was performed. Specific categories of tourist attractions were then selected and used to build recommendation models. To process and analyze data from Wikipedia, a modern technical stack of tools was used, including Python, the networkx and pandas libraries for working with graphs and data, as well as the scikit-learn library for applying machine learning algorithms. In addition, the Streamlit framework was used to develop an interactive web interface. The work process included the collection and preliminary processing of data from Wikipedia, including information about attractions, connections between them and characteristics. Selected machine learning algorithms were applied to create a data graph based on the downloaded and processed data. The PageRank algorithm was used to determine the importance of each point of interest in the graph and generate personalized recommendations. The demo user interface, developed using the Streamlit framework, allows users to interact with the system, enter queries about places and receive personalized recommendations. Using the drop-down list, you can select a specific attraction for which you want to receive recommendations, and using the slider, you can adjust the number of recommendations.

Identiferoai:union.ndltd.org:urfu.ru/oai:elar.urfu.ru:10995/129157
Date January 2023
CreatorsКрайнов, А. И., Krainov, A. I.
ContributorsДолганов, А. Ю., Dolganov, A. Y., УрФУ. Институт радиоэлектроники и информационных технологий-РТФ, Кафедра информационных технологий и систем управления
Source SetsUral Federal University
LanguageRussian
Detected LanguageRussian
TypeMaster's thesis, info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
RightsПредоставлено автором на условиях простой неисключительной лицензии, http://elar.urfu.ru/handle/10995/31613

Page generated in 0.0036 seconds