Global ETD Search

Decoding Emotions in Speech: A Deep Learning Approach Using Convolutional Neural Networks : master's thesis

Работа предложила систему идентификации эмоций с использованием глубокого обучения. Исследование продвигает взаимодействие человека и компьютера, мониторинг психического здоровья, маркетинговые исследования, анализ настроений и подчеркивает необходимость нейронных сетей. Оно стремится построить модель, которая учится на основе сырой речи. Оно разработано с использованием модели CNN и LSTM, блок классификации использует блоки LSTM для захвата долгосрочных временных корреляций. Это происходит после того, как блок извлечения признаков использует одновременные CNN и MFCC. Эти методы гарантируют, что блок категоризации может точно отображать данные. Подготовка данных для обучения и тестирования модели прогнозирования эмоций на основе набора данных CREMA-D является значительной. Для оптимизации производительности нейронной сети метод включает разделение признаков и меток, кодирование, разделение набора данных, стандартизацию и изменение формы данных. Для упрощения и снижения сложности он исключает подходы к дополнению данных. Модель обучается и оценивается с использованием CREMA-D, набор данных содержит 7442 голосовых записи, представляющих различные эмоции. В исследовании принимают участие 84 мужчины и 43 женщины в возрасте от 20 до 74 лет. Средняя точность модели составляет 86,92% по результатам проверки. В будущем исследования могут быть сосредоточены на разработке приложений для идентификации эмоций в реальном времени и интеграции мультимодальных данных для повышения точности и надежности систем обнаружения эмоций. / The work proposed emotion identification system using deep learning. The research advances human-computer interaction, mental health monitoring, market research, sentiment analysis and emphasizes the necessity of neural networks. It’s seeking to construct a model that learns from raw speech audio. It’s developed using CNNs and LSTMs model, a classification block uses LSTM units to capture long-term temporal correlations. This happens after a feature extraction block uses imultaneous CNNs and MFCCs. These methods ensure the categorization block can accurately display data. Data preparation for training and testing a CREMA-D dataset-based emotion prediction model is considerable. To optimize neural network performance, the method includes feature-label separation, encoding, dataset splitting, standardization, and data reshaping. To simplify and reduce complexity, it excludes data augmentation approaches. The model is trained and evaluated using CREMA-D, dataset contains 7,442 voice recordings representing different emotions. There are 84 male and 43 female performers, with ages ranging from 20 to 74 years old. The model has an average accuracy of 86.92% across validation. In the future, research may focus on developing real-time emotion identification applications and integrating multimodal data to enhance the accuracy and robustness of emotion detection systems.

MASTER'S THESIS

AUTOMATION

SPEECH EMOTION RECOGNITION

CONVOLUTIONAL NEURAL NETWORKS

LONG SHORT-TERM MEMORY NETWORKS

АВТОМАТИЗАЦИЯ

Identifer	oai:union.ndltd.org:urfu.ru/oai:elar.urfu.ru:10995/140561
Date	January 2024
Creators	Ризу, М. Р. У. И., Rizu, M. R. U. I.
Contributors	Борисов, В. И., Borisov, V. I., УрФУ. Институт радиоэлектроники и информационных технологий-РТФ, Кафедра информационных технологий и систем управления
Publisher	б. и.
Source Sets	Ural Federal University
Language	English
Detected Language	Russian
Type	Master's thesis, info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Format	application/pdf
Rights	Предоставлено автором на условиях простой неисключительной лицензии, http://elar.urfu.ru/handle/10995/31613

Page generated in 0.0023 seconds

Decoding Emotions in Speech: A Deep Learning Approach Using Convolutional Neural Networks : master's thesis

Description

Links & Downloads

Tags

Additional Fields