Global ETD Search

Return to search

Speech Classification using Acoustic embedding and Large Language Models Applied on Alzheimer’s Disease Prediction Task

Alzheimer’s sjukdom är en neurodegenerativ sjukdom som leder till demens. Den kan börja tyst i de tidiga stadierna och fortsätta under åren till en allvarlig och obotlig fas. Språkstörningar uppstår ofta som ett av de tidiga symptomen och kan till slut leda till fullständig mutism i de avancerade stadierna av sjukdomen. Därför är tal- och språkbaserad analys en lovande och icke-invasiv metod för att upptäcka Alzheimer’s sjukdom i dess tidiga stadier. Vårt mål är att använda maskininlärning för att jämföra informationmängden hos språkliga representationer i stora språkmodeller och förtränade akustiska representationer. Såvitt vi vet är detta första gången som GPT-3 och wav2vec2.0 har använts tillsammans för klassificering av Alzheimer’s sjukdom. Dessutom utnyttjade vi för första gången en kombination av två stora språkmodeller, GPT-3 och BERT, för denna specifika uppgift. Genom att utvärdera vår metod på två datamängder på engelska och svenska kan vi också belysa språkskillnaderna mellan dessa två språk. / Alzheimer’s disease is a neurodegenerative disease that leads to dementia. It can begin silently in the early stages and progresses over the years to a severe and incurable stage. Language impairment often emerges as one of the early symptoms and can eventually progress to complete mutism in advanced stages of the disease. As a result, speech processing is a promising and non-invasive approach for detecting Alzheimer’s disease in its early stages. Our objective is to compare the informativeness levels of linguistic embedding derived from large language models and pre-trained acoustic embedding extracted using wav2vec2.0, in a machine learning-based approach. To the best of our knowledge, this is the first time that fusing GPT-3 text embedding and wav2vec2.0 acoustic embedding has been explored for Alzheimer’s disease classification. In addition, we utilized a combination of two large language models, GPT-3 and BERT, for the first time on this specific task. By evaluating our method on two datasets in English and Swedish, we can also highlight the language differences between these two languages.

http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-332408

Speech classification

Alzheimer’s disease detection

Klassificering av tal

detektion av Alzheimer’s sjukdom

Computer and Information Sciences

Data- och informationsvetenskap

Identifer	oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-332408
Date	January 2023
Creators	Kheirkhahzadeh, Maryam
Publisher	KTH, Skolan för elektroteknik och datavetenskap (EECS)
Source Sets	DiVA Archive at Upsalla University
Language	English
Detected Language	Swedish
Type	Student thesis, info:eu-repo/semantics/bachelorThesis, text
Format	application/pdf
Rights	info:eu-repo/semantics/openAccess
Relation	TRITA-EECS-EX ; 2023:522

Page generated in 0.0026 seconds

Speech Classification using Acoustic embedding and Large Language Models Applied on Alzheimer’s Disease Prediction Task

Description

Links & Downloads

Tags

Additional Fields