• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

The Effectiveness of Recurrent Neural Networks in East Slavic Speech Recognition : master's thesis

Дей, С., Dey, S. January 2024 (has links)
Это исследование представляет собой комплексное исследование по разработке надежной модели классификации языка с использованием передовых методов обработки естественного языка (NLP). Основной мотивацией этого исследования является повышение безопасности и эффективности связи в критически важных областях, таких как управление воздушным движением (УВД), путем интеграции технологии автоматического распознавания речи (ASR). Это исследование предлагает многослойную сверточную нейронную модель (CNN) для классификации русского и белорусского языков. Гипотеза, сформулированная в этом исследовании, направлена на повышение точности распознавания речи с помощью эффективных коэффициентов Mel-Frequency Cepstral (MFCC) для извлечения признаков. Трехслойная архитектура CNN, используемая в этом исследовании, демонстрирует эффективное извлечение признаков и высокие возможности классификации, достигая заметной точности в различении образцов русской и белорусской речи. Для поддержки разработки модели был подготовлен комплексный набор данных восточнославянских языков, охватывающий различные диалекты и нюансы произношения. Эта подготовка набора данных включала тщательный сбор, очистку и маркировку аудиообразцов для обеспечения высококачественных входных данных для модели CNN, что имеет решающее значение для эффективного обучения и оценки. Включение разнообразных лингвистических характеристик в набор данных повышает надежность и обобщаемость модели. Исследование также включает строгие методы перекрестной проверки для проверки производительности модели, обеспечивая ее надежность и устойчивость в реальных приложениях. Эти методы включают разделение набора данных на несколько подмножеств, обучение модели на различных комбинациях этих подмножеств и ее тестирование на оставшихся данных. Этот процесс помогает оценить согласованность модели и ее способность обобщать новые, неизвестные данные. Важным аспектом этого исследования является адаптивность фреймворка для включения языков меньшинств, таких как русинский. Эта гибкость подчеркивает потенциал модели для сохранения языкового разнообразия и улучшения многоязычной поддержки в различных приложениях. Способность распознавать и классифицировать языки меньшинств открывает новые возможности для улучшения инструментов перевода, образовательных ресурсов и платформ обслуживания клиентов. Значение этого исследования выходит за рамки ATC, предлагая ценный вклад в технологии, здравоохранение и межкультурную коммуникацию. В технологии разработанные системы ASR могут быть интегрированы в голосовых помощников и другие интерактивные приложения, улучшая пользовательский опыт за счет более точного распознавания языка. В здравоохранении системы ASR могут способствовать лучшему общению между пациентами и поставщиками медицинских услуг, говорящими на разных языках, обеспечивая точный обмен информацией и улучшая уход за пациентами. Будущая работа будет сосредоточена на нескольких ключевых областях для дальнейшего улучшения возможностей разработанной модели. Во-первых, расширение набора данных для включения большего количества восточнославянских и других языков меньшинств будет приоритетным. Это расширение будет включать сбор и аннотирование дополнительных аудиообразцов из различных языковых фонов для улучшения данных обучения модели. Во-вторых, будет продолжено совершенствование архитектуры модели и процедур обучения для повышения ее точности и обобщаемости. Это может включать эксперименты с различными конфигурациями нейронных сетей, оптимизацию гиперпараметров и внедрение передовых методов извлечения признаков. Кроме того, важным шагом станет интеграция разработанной структуры в системы ASR в реальном времени. Эта интеграция направлена на обеспечение возможности развертывания модели в практических приложениях, таких как живые коммуникации ATC, услуги перевода в реальном времени и интерактивные образовательные инструменты. Системы ASR в реальном времени пройдут обширное тестирование для обеспечения их производительности и надежности в динамических средах. В заключение следует отметить, что это исследование делает значительные шаги в области классификации языков и технологии ASR, разрабатывая надежную модель на основе CNN для русского и белорусского языков. Комплексная подготовка набора данных, строгая перекрестная проверка и адаптируемость к языкам меньшинств подчеркивают потенциал модели для различных практических приложений. Будущие усилия будут продолжать расширять и совершенствовать модель, в конечном итоге направленную на улучшение многоязычной коммуникации и сохранение языкового разнообразия во все более взаимосвязанном мире. / This research presents a comprehensive study on the development of a robust language classification model using advanced natural language processing (NLP) techniques. The primary motivation behind this research is to enhance communication safety and efficiency in mission-critical domains such as air traffic control (ATC) by integrating automatic speech recognition (ASR) technology. This study proposes a multilayer convolutional neural network (CNN) model for the classification of Russian and Belarusian languages. The hypothesis formulated in this research aims to improve speech recognition accuracy by utilizing Mel-Frequency Cepstral Coefficients (MFCCs) for feature extraction. The three-layer CNN architecture employed in this study demonstrates efficient feature extraction and high classification capabilities, achieving notable accuracy in distinguishing between Russian and Belarusian speech samples. To support the model development, a comprehensive dataset of East Slavic languages was prepared, encompassing various dialects and pronunciation nuances. This dataset preparation involved meticulous collection, cleaning, and labeling of audio samples to ensure high-quality input data for the CNN model, which is crucial for effective training and evaluation. The inclusion of diverse linguistic features in the dataset enhances the model's robustness and generalizability. The research also incorporates rigorous cross-validation techniques to validate the model's performance, ensuring its reliability and robustness in real-world applications. These techniques involve dividing the dataset into multiple subsets, training the model on different combinations of these subsets, and testing it on the remaining data. This process helps in assessing the model's consistency and its ability to generalize to new, unseen data. A significant aspect of this study is the framework's adaptability to include minority languages such as Rusyn. This flexibility highlights the model's potential to preserve linguistic diversity and improve multilingual support in various applications. The ability to recognize and classify minority languages opens new avenues for enhancing translation tools, educational resources, and customer service platforms. The implications of this research extend beyond ATC, offering valuable contributions to technology, healthcare, and cross-cultural communication. In technology, the developed ASR systems can be integrated into voice-activated assistants and other interactive applications, enhancing user experience through more accurate language recognition. In healthcare, ASR systems can facilitate better communication between patients and healthcare providers who speak different languages, ensuring accurate information exchange and improving patient care. Future work will focus on several key areas to further advance the capabilities of the developed model. Firstly, expanding the dataset to include more East Slavic and other minority languages will be prioritized. This expansion will involve collecting and annotating additional audio samples from diverse linguistic backgrounds to enhance the model's training data. Secondly, refining the model's architecture and training procedures will be pursued to improve its accuracy and generalizability. This may include experimenting with different neural network configurations, optimizing hyperparameters, and incorporating advanced feature extraction techniques. Additionally, integrating the developed framework into real-time ASR systems will be a crucial step. This integration aims to enable the deployment of the model in practical applications, such as live ATC communications, real-time translation services, and interactive educational tools. The real-time ASR systems will undergo extensive testing to ensure their performance and reliability in dynamic environments. In conclusion, this research makes significant strides in the field of language classification and ASR technology by developing a robust CNN-based model for Russian and Belarusian languages. The comprehensive dataset preparation, rigorous cross-validation, and adaptability to minority languages underscore the model's potential for various practical applications. Future efforts will continue to expand and refine the model, ultimately aiming to enhance multilingual communication and preserve linguistic diversity in an increasingly interconnected world.

Page generated in 0.1806 seconds