1 |
Анализ тональности текстов в СМИ методами машинного обучения : магистерская диссертация / Sentiment analysis of texts in the media using machine learning methodsМаньков, А. С., Mankov, A. S. January 2023 (has links)
Цель исследования – на основе теоретического описания и практической реализации в других исследованиях, провести сравнительную оценку методов машинного обучения для выявления оптимального решения при анализе тональности текстов. Объектом исследования выступают тексты, публикуемые в средствах массовой информации. Научная новизна исследования состоит в совершенствовании существующих методов для выявления наиболее универсального решения. Практическая значимость исследования заключается в том, что полученные результаты исследования могут быть полезными для других ученых, занимающихся анализом тональности текстов в средствах массовой информации. В результате сравнительного исследования был найден наиболее эффективный и точный метод для решения задачи. Полученные результаты и выводы исследования могут служить основой для последующих исследований в этой области и применяться в практических разработках и приложениях, требующих анализа тональности текстов. / The purpose of the study is, based on the theoretical description and practical implementation in other studies, to conduct a comparative assessment of machine learning methods to identify the optimal solution when analyzing the sentiment of texts. The object of the study is texts published in the media. The scientific novelty of the research lies in the improvement of existing methods to identify the most universal solution. The practical significance of the study lies in the fact that the results obtained may be useful for other scientists involved in the analysis of the sentiment of texts in the media. As a result of a comparative study, the most effective and accurate method for solving the problem was found. The obtained results and conclusions of the study can serve as the basis for subsequent research in this area and be used in practical developments and applications that require sentiment analysis of texts.
|
2 |
The Impact of the Retrieval Text Set for Text Sentiment Classification With the Retrieval-Augmented Language Model REALM / Effekten av hämtningstextsetet för sentimenttextklassificering med den hämtningsförstärkta språkmodellen REALMBlommegård, Oscar January 2023 (has links)
Large Language Models (LLMs) have demonstrated impressive results across various language technology tasks. By training on large corpora of diverse text collections from the internet, these models learn to process text effectively, allowing them to acquire comprehensive world knowledge. However, this knowledge is stored implicitly in the parameters of the model, and it is necessary to train ever-larger networks to capture more information. Retrieval-augmented language models have been proposed as a way of improving the interpretability and adaptability of normal language models by utilizing a separate retrieval text set during application time. These models have demonstrated state-of-the-art results on knowledge-intensive tasks such as question-answering and fact-checking. However, their effectiveness in text classification remains unexplored. This study investigates the impact of the retrieval text set on the performance of the retrieval-augmented language model REALM model for sentiment text classification tasks. The results indicate that the addition of retrieval text data fails to improve the prediction capabilities of REALM for sentiment text classification tasks. This outcome is mainly due to the difference in functionality of the retrieval mechanisms during pre-training and fine-tuning. During pre-training, the neural knowledge retriever focuses on retrieving factual knowledge such as dates, cities and names to enhance the prediction of the model. During fine-tuning, the retriever aims to retrieve texts that can strengthen the prediction of the text sentiment classification task. The findings suggest that retrieval models may hold limited potential to enhance performance for text sentiment classification tasks. / Stora språkmodeller har visat imponerande resultat inom många olika språkteknologiska uppgifter. Genom att träna på stora textmängder från internet lär sig dessa modeller att effektivt processa text, vilket gör att de kan förvärva omfattande världskunskap. Denna kunskap lagras emellertid implicit i modellernas parametrar, och det är nödvändigt att träna allt större nätverk för att fånga mer information. Hämtningsförstärkta språkmodeller (retrieval-augmented language models) har föreslagits som ett sätt att förbättra tolknings- och anpassningsförmågan hos språkmodeller genom att använda en separat hämtningstextmängd (retrieval text set) vid prediktion. Dessa modeller har visat imponerande resultat på kunskapsintensiva uppgifter som frågebesvarande (question-answering) och faktakontroll. Deras effektivitet för textklassificering är dock outforskad. Denna studie undersöker effekten av hämtningstextmängden på prestandan för den hämtningsförstärkta språkmodellen REALM för sentimenttextklassificeringsuppgifter. Resultaten indikerar att användning av hämtningstextmängd vid predicering inte lyckas förbättra REALM prediktionsförmåga för sentimenttextklassificeringsuppgifter. Detta beror främst på skillnaden i funktionalitet hos hämtningsmekanismen under förträning och finjustering. Under förträningen fokuserar hämtningsmekanismen på att hämta fakta som datum, städer och namn för att förbättra modellens predicering. Under finjusteringen syftar hätmningsmekanismen till att hämta texter som kan stärka förutsägelsen av sentimenttextklassificeringsuppgiften. Resultaten tyder på att hämtningsförstärkta modeller kan ha begränsad potential att förbättra prestandan för sentimenttextklassificeringsuppgifter.
|
Page generated in 0.0171 seconds