21 |
Langage et maladie d'Alzheimer : analyse multidimensionnelle d'un discours pathologique / Language and Alzheimer’s disease : multidimensional analysis of pathological discourseLee, Hyeran 12 December 2012 (has links)
Nous proposons dans ce travail une analyse multidimensionnelle du vieillissement langagier normal et du vieillissement pathologique de type Alzheimer. Une analyse comparative du discours oral spontané a été réalisée à travers trois niveaux linguistiques : 1) le niveau phonético-phonologique ; 2) le niveau lexico-sémantique ; 3) le niveau syntaxique. Nos résultats révèlent que le discours produit par les patients atteints de la maladie d’Alzheimer se distingue de celui des personnes âgées saines par une parole disfluente, une réduction significative de la diversité du vocabulaire et de l’informativité du discours, et enfin, par une réduction remarquable de la complexité syntaxique. L’ensemble de nos résultats entend contribuer à améliorer notre connaissance de la sémiologie linguistique de la maladie d’Alzheimer. Nous montrons ainsi qu’une meilleure connaissance des troubles du langage associés à cette pathologie pourrait contribuer de façon pertinente à améliorer le diagnostic précoce et/ou différentiel de la maladie d’Alzheimer. Du point de vue applicatif, l’enjeu de cette recherche translationnelle vise l’élaboration d’un outil d’évaluation du langage adapté à la personne âgée démente. A travers ce travail de thèse, nous espérons avoir contribué au développement futur d’une prise en charge non médicamenteuse de type orthophonique visant le maintien, voire l’amélioration, de la capacité communicative des patients souffrant de la maladie d’Alzheimer. / This study deals with a multidimensional analysis of language attrition in normal aging and in Alzheimer’s disease. A comparative analysis of spontaneous speech was conducted through three linguistic levels : 1) the phonetic-phonological level ; 2) the lexical-semantic level ; 3) the syntactic level. Our results show that the discourse produced by Alzheimer patients differs significantly from that produced by healthy elderly by a more disfluent speech, a significant reduction of the vocabulary diversity and discourse informativeness, and finally, by a remarkable reduction in syntactic complexity. Our results contribute to understand better the linguistic profile of Alzheimer’s patients. We show that a better understanding of language disorders associated with this pathology may contribute in a meaningful way to improve early and / or differential diagnosis of Alzheimer’s disease. In term of application, the goal of this research is to develop a language assessment tool adapted to the demented elderly. Through this work we hope to have contributed to the further development of speech therapy (i.e. non-pharmacological treatment) useful for the maintenance or improvement of the communicative capacity of patients suffering from Alzheimer’ disease.
|
22 |
Aspectos dinâmicos da fala e da entoação do português brasileiro = Dynamic aspects of speech and intonation in Brazilian Portuguese / Dynamic aspects of speech and intonation in Brazilian PortugueseLucente, Luciana, 1978- 13 August 2012 (has links)
Orientador: Plinio Almeida Barbosa / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem / Made available in DSpace on 2018-08-21T08:19:48Z (GMT). No. of bitstreams: 1
Lucente_Luciana_D.pdf: 6663527 bytes, checksum: 1365c841142241927f330547bbf1f8ff (MD5)
Previous issue date: 2012 / Resumo: Esta tese explora a relação entre padrões entoacionais ritmo e discurso de acordo com o programa de investigação dos sistemas dinâmicos. O estudo dessas relações foram feitas tendo como base o Modelo Dinâmico do Ritmo da Fala, proposto por Barbosa (2006), o Sistema DaTo de notação entoacional, proposto por Lucente (2008) e o Modelo Computacional da Estrutura do Discurso, proposto por Grosz & Sidner (1986). O Modelo de Dinâmico do Ritmo sugere que o ritmo da fala seja resultado da ação de dois osciladores - um acentual e outro silábico - que ao receberem na entrada do sistema informações de níveis lingüísticos superiores e de uma pauta gestual, geram a duração gestual na saída. A hipótese desta tese é que, paralelamente a esses osciladores, um oscilador glotal possa agir controlando os padrões entoacionais da fala. Os padrões, ou ciclos entoacionais, em que se organiza a entoação do PB emergem quando relacionados à segmentação de trechos de discurso em modalidade espontânea. Para cada trecho de fala classificado como espontâneo de acordo com um critério proposto nesta tese, o discurso é segmentado no sistema DaTo em unidades linguisticamente estruturadas, que contém os propósitos de comunicar e atrair atenção. Cada um destes segmentos do discurso se alinham a um padrão entoacional iniciado por um contorno entoacional ascendente (LH ou >LH) e finalizado por um contorno descendente (LHL) ou por um nível de fronteira baixo (L). Alinhado a este padrão formado entre entoação e discurso está também o ritmo. Com o acréscimo de uma camada no sistema DaTo para a segmentação dos enunciados em grupos acentuais pôde-se observar o alinhamento entre a segmentação dos grupos acentuais e a notação dos contornos entoacionais coincidindo com fronteiras das unidades discursivas. A observação do alinhamento entre entoação, ritmo e discurso tendo como atratores os grupos acentuais possibilitou a proposta de inserção de um oscilador glotal ao Modelo Dinâmico do Ritmo / Abstract: This thesis explores the relationship between intonational patterns and its relationship with speech rhythm and discourse, according to the dynamic systems research program. The study of these relationships were based on Barbosa's (2006) Dynamic Model of Speech Rhythm; on DaTo intonational annotation system proposed by Lucente (2008); and on the Computational Model of the Structure of Discourse, proposed by Grosz & Sidner (1986). The Dynamic Model of Rhythm suggests that speech rhythm is the result of two oscillators action - accentual and syllabic - which receive linguistic and gestural information as input, and give the gestural duration as output. This thesis hypothesis is that in addition to these oscillators, a glottal oscillator can act controlling the intonation patterns of speech. These patterns, or intonational cycles, which organize the BP intonation, emerge when related to the spontaneous discourse segmentation. For each discourse segment classified as spontaneous, according to a criteria proposed in this thesis, the speech is segmented into the DaTo system framework in linguistically structured units, which contains the purposes of communication and attention. Each of these segments is aligned to the speech intonation pattern delimitated by a rising contour (LH or> HL) at the beginning and by a falling contour (LHL), or a boundary level (L), at the end. The speech rhythm is also aligned to the pattern formed between intonation and discourse. By the inclusion of a new layer for the stress groups segmentation into DaTo system was possible to observe the alignment between stress group segmentation and intonational annotation coinciding with discourse segments boundaries. The alignment between intonation, rhythm and discourse, having the stress groups as attractors, allowed us to propose the insertion of a glottal oscillator into the Dynamic Model of Rhythm / Doutorado / Doutora em Linguística
|
23 |
Testning av högläsning och spontantal vid neurokirurgi i vaket tillstånd : En litteraturgenomgång för att vidareutveckla de intraoperativa testmetodernaBirck, Maria, Lindblom, Sofia January 2015 (has links)
Vaken hjärnkirurgi med testning av tal- och språkfunktioner ger viktiga fördelar vid operation av lågmaligna gliom. Denna metod ökar möjligheten för radikal resektion av tumören samtidigt som viktiga funktioner som till exempel språk bevaras. Optimering av det intraoperativa språktestningsförfarandet ökar möjligheten för mer sensitiv språktestning. Det finns idag ingen konsensus, varken internationellt eller nationellt, kring hur man bör testa språkliga funktioner intraoperativt. Syftet med föreliggande arbete är att undersöka om det är möjligt att vidareutveckla de metoder som idag används för elicitering av spontantal och testning av läsning under vakenkirurgi av lågmaligna gliom på Akademiska sjukhuset i Uppsala. För att undersöka detta genomfördes en litteraturgenomgång vilken tillsammans med auskultationer vid operation och intervjuer med yrkesverksamma logopeder och neurokirurger har utmynnat i ett förslag på ett intraoperativt högläsningstest innehållande meningar med nonord, meningar utan nonord samt enskilda ord. Nivåindelningen av testmaterialet möjliggör för testledaren att individuellt anpassa språktestning utifrån patientens förmåga. I samband med färdigställandet av testet genomfördes en pilottestning av materialet. Det föreslagna lästestet förväntas vara mer heltäckande än det som används idag då det möjliggör testning av flera läsfunktioner så som de beskrivs i ”dual route-modellen”, en psykolingvistisk teori om läsning. Dessutom har ett förslag på riktlinjer kring intraoperativt elicitering av spontantal formulerats. / Awake surgery is the gold standard for treatment of low-grade gliomas nearby eloquent language areas in the brain. This method increases the possibility of radical resection while cognitive functions such as language are preserved, as the method allows for online testing of cognitive functions. Improvement of the intraoperative language tests could increase the possibility of more sensitive testing and thereby decrease the risk of postoperative language impairments. There is no international or national agreement on how intraoperative language testing should be performed. The aim of this study is to explore the possibility of developing the methods of language testing which are used today at Akademiska sjukhuset in Uppsala, focusing on reading and spontaneous speech. Therefore the authors have conducted a review of current literature. The literature review, observations of surgery and interviews with speech pathologists and neurosurgeons resulted in the development of an intraoperative reading aloud test with three tasks consisting of sentences with nonwords, sentences without nonwords and single words. The classification of the test material into different levels will allow clinicians to adapt the reading test based on each individual case. A pilot trial of the reading test was preformed. The proposed test is expected to be more comprehensive in comparison to the tests that are currently used, as it enables testing of the different reading routes described in the dual route model, a psycholinguistic reading model. Additionally, guidelines for eliciting spontaneous speech have been defined.
|
24 |
O português falado no Suriname (PFS): um estudo inicial sobre a fala espontânea de brasileiros em Paramaribo / The Português spoken in Surinam (PFS): an initial study about spontaneous speech of Brazilians in ParamariboDormal Calleja, Antonio Lorenzo 23 May 2019 (has links)
Este trabalho centra-se em um banco de dados de fala espontânea organizado a partir de trabalho de campo realizado com brasileiros residentes em Paramaribo, capital do Suriname. Objetiva-se, portanto, apresentar um estudo inicial sobre a variedade de português chamada de PFS: português falado no Suriname. O Suriname é um país plurilíngue com presença de línguas nativas (indígenas), línguas crioulas (originadas no país), línguas europeias (em que se destacam o holandês, língua oficial do país, o inglês e o português) e línguas asiáticas. Desde o início da pesquisa, buscou-se corroborar a proposta, embasada nas transcrições dos áudios das entrevistas realizadas no Suriname, de que o PFS representaria, mesmo em face a grande contato linguístico com as línguas do Suriname, parte do grupo de subvariedades de português falado no Brasil. Assim são descritos e analisados um conjunto de fenômenos linguísticos da variedade sob estudo com base em trabalhos centrados em variedades vernaculares brasileiras de português. Os fenômenos linguísticos do PFS apresentados no trabalho, embora longe de serem conclusivos, permitem que se apresente a proposta de analisar o PFS dentro de uma taxonomia dos estudos do contato linguístico centrada em Winford (2013). Logo, advoga-se que essa variedade de português encontra-se em situação moderada de manutenção de língua e em início de convergência linguística. Logo, características comuns do português vernacular brasileiro são mantidas no PFS, mas, devido à forte situação de contato do PFS com línguas do Suriname, são atestadas situações de empréstimo lexical e estrutural nessa língua e ainda pequenas adaptações estruturais das línguas: holandês, sranantongo e saramaccan. / This work focuses on a spontaneous speech database organized from field work conducted with Brazilians living in Paramaribo, capital of Suriname. The aim is to present an initial study on the variety of Portuguese called PFS: Portuguese spoken in Suriname. Suriname is a plurilingual country with native (indigenous) languages, Creole languages (originating in the country), European languages (in which the Dutch, the official language of the country, English and Portuguese stand out) and Asian languages. From the beginning of the research, we sought to corroborate the proposal, based on transcripts of interviews conducted in Suriname, that the PFS would represent, even in the face of great linguistic contact with the languages of Suriname, part of the group of subvarieties of Portuguese spoken in Brazil. Thus, a set of linguistic phenomena of the variety under study are described and analyzed based on works focusing on vernacular varieties of Portuguese spoken in Brazil. The PFS linguistic phenomena presented in the paper, although far from conclusive, allow us to present the proposal to analyze the PFS within a taxonomy of the language contact studies centered in Winford (2013). Therefore, it is argued that this variety of Portuguese is in a moderate situation of \"language maintenance\" and in the beginning of linguistic convergence. Therefore, common characteristics of Brazilian vernacular Portuguese are maintained in the PFS, but due to the strong contact situation of the PFS with Suriname languages, lexical and structural \"loan situations\" in this language are verified, as well as small structural adaptations of the Dutch, Sranantongo and Saramaccan.
|
25 |
Analyse et détection automatique de disfluences dans la parole spontanée conversationnelle / Disfluency analysis and automatic detection in conversational spontaneous speechDutrey, Camille 16 December 2014 (has links)
Extraire de l'information de données langagières est un sujet de plus en plus d'actualité compte tenude la quantité toujours croissante d'information qui doit être régulièrement traitée et analysée, etnous assistons depuis les années 90 à l'essor des recherches sur des données de parole également. Laparole pose des problèmes supplémentaires par rapport à l'écrit, notamment du fait de la présence dephénomènes propres à l'oral (hésitations, reprises, corrections) mais aussi parce que les donnéesorales sont traitées par un système de reconnaissance automatique de la parole qui génèrepotentiellement des erreurs. Ainsi, extraire de l'information de données audio implique d'extraire del'information tout en tenant compte du « bruit » intrinsèque à l'oral ou généré par le système dereconnaissance de la parole. Il ne peut donc s'agir d'une simple application de méthodes qui ont faitleurs preuves sur de l'écrit. L'utilisation de techniques adaptées au traitement des données issues del'oral et prenant en compte à la fois leurs spécificités liées au signal de parole et à la transcription –manuelle comme automatique – de ce dernier représente un thème de recherche en pleindéveloppement et qui soulève de nouveaux défis scientifiques. Ces défis sont liés à la gestion de lavariabilité dans la parole et des modes d'expressions spontanés. Par ailleurs, l'analyse robuste deconversations téléphoniques a également fait l'objet d'un certain nombre de travaux dans lacontinuité desquels s'inscrivent ces travaux de thèse.Cette thèse porte plus spécifiquement sur l'analyse des disfluences et de leur réalisation dans desdonnées conversationnelles issues des centres d'appels EDF, à partir du signal de parole et destranscriptions manuelle et automatique de ce dernier. Ce travail convoque différents domaines, del'analyse robuste de données issues de la parole à l'analyse et la gestion des aspects liés àl'expression orale. L'objectif de la thèse est de proposer des méthodes adaptées à ces données, quipermettent d'améliorer les analyses de fouille de texte réalisées sur les transcriptions (traitement desdisfluences). Pour répondre à ces problématiques, nous avons analysé finement le comportement dephénomènes caractéristiques de l'oral spontané (disfluences) dans des données oralesconversationnelles issues de centres d'appels EDF, et nous avons mis au point une méthodeautomatique pour leur détection, en utilisant des indices linguistiques, acoustico-prosodiques,discursifs et para-linguistiques.Les apports de cette thèse s'articulent donc selon trois axes de recherche. Premièrement, nousproposons une caractérisation des conversations en centres d'appels du point de vue de l'oralspontané et des phénomènes qui le caractérisent. Deuxièmement, nous avons mis au point (i) unechaîne d'enrichissement et de traitement des données orales effective sur plusieurs plans d'analyse(linguistique, prosodique, discursif, para-linguistique) ; (ii) un système de détection automatique desdisfluences d'édition adapté aux données orales conversationnelles, utilisant le signal et lestranscriptions (manuelles ou automatiques). Troisièmement, d'un point de vue « ressource », nousavons produit un corpus de transcriptions automatiques de conversations issues de centres d'appelsannoté en disfluences d'édition (méthode semi-automatique). / Extracting information from linguistic data has gain more and more attention in the last decades inrelation with the increasing amount of information that has to be processed on a daily basis in the world. Since the 90’s, this interest for information extraction has converged to the development of researches on speech data. In fact, speech data involves extra problems to those encountered on written data. In particular, due to many phenomena specific to human speech (e.g. hesitations, corrections, etc.). But also, because automatic speech recognition systems applied on speech signal potentially generates errors. Thus, extracting information from audio data requires to extract information by taking into account the "noise" inherent to audio data and output of automatic systems. Thus, extracting information from speech data cannot be as simple as a combination of methods that have proven themselves to solve the extraction information task on written data. It comes that, the use of technics dedicated for speech/audio data processing is mandatory, and epsecially technics which take into account the specificites of such data in relation with the corresponding signal and transcriptions (manual and automatic). This problem has given birth to a new area of research and raised new scientific challenges related to the management of the variability of speech and its spontaneous modes of expressions. Furthermore, robust analysis of phone conversations is subject to a large number of works this thesis is in the continuity.More specifically, this thesis focuses on edit disfluencies analysis and their realisation in conversational data from EDF call centres, using speech signal and both manual and automatic transcriptions. This work is linked to numerous domains, from robust analysis of speech data to analysis and management of aspects related to speech expression. The aim of the thesis is to propose appropriate methods to deal with speech data to improve text mining analyses of speech transcriptions (treatment of disfluencies). To address these issues, we have finely analysed the characteristic phenomena and behavior of spontaneous speech (disfluencies) in conversational data from EDF call centres and developed an automatic method for their detection using linguistic, prosodic, discursive and para-linguistic features.The contributions of this thesis are structured in three areas of research. First, we proposed a specification of call centre conversations from the prespective of the spontaneous speech and from the phenomena that specify it. Second, we developed (i) an enrichment chain and effective processings of speech data on several levels of analysis (linguistic, acoustic-prosodic, discursive and para-linguistic) ; (ii) an system which detect automaticcaly the edit disfluencies suitable for conversational data and based on the speech signal and transcriptions (manual or automatic). Third, from a "resource" point of view, we produced a corpus of automatic transcriptions of conversations taken from call centres which has been annotated in edition disfluencies (using a semi-automatic method).
|
26 |
Étude de la réduction segmentale en français parlé à travers différents styles : apports des grands corpus et du traitement automatique de la parole à l’étude du schwa, du /ʁ/ et des réductions à segments multiples / Segmental reduction in spoken French through different speech styles : contributions of large speech corpora and automatic speech processing on schwa, /ʁ/ and reduction of multiple segmentsWu, Yaru 14 September 2018 (has links)
Ce travail sur la réduction segmentale (i.e. délétion ou réduction temporelle) en français spontané nous a permis non seulement de proposer deux méthodes de recherche pour les études en linguistique, mais également de nous interroger sur l'influence de différents facteurs de variation sur divers phénomènes de réduction et d'apporter des connaissances sur la propension à la réduction des segments. Nous avons appliqué la méthode descendante qui utilise l'alignement forcé avec variantes lorsqu’il s’agissait de phénomènes de réduction spécifiques. Lorsque ce n'était pas le cas, nous avons utilisé la méthode ascendante qui examine des segments absents et courts. Trois phénomènes de réduction ont été choisis : l'élision du schwa, la chute du /ʁ/ et la propension à la réduction des segments. La méthode descendante a été utilisée pour les deux premiers. Les facteurs en commun étudiés sont le contexte post-lexical, le style, le sexe et la profession. L’élision du schwa en syllabe initiale de mots polysyllabiques et la chute du /ʁ/ post-consonantique en finale de mots ne sont pas toujours influencées par les mêmes facteurs. De même, l’élision du schwa lexical et celle du schwa épenthétique ne sont pas conditionnées par les mêmes facteurs. L’étude sur la propension à la réduction des segments nous a permis d'appliquer la méthode ascendante et d’étudier la réduction des segments de manière générale. Les résultats suggèrent que les liquides et les glides résistent moins à la réduction que les autres consonnes et que les voyelles nasales résistent mieux à la réduction que les voyelles orales. Parmi les voyelles orales, les voyelles hautes arrondies ont tendance à être plus souvent réduites que les autres voyelles orales. / This study on segmental reduction (i.e. deletion or temporal reduction) in spontaneous French allows us to propose two research methods for linguistic studies on large corpora, to investigate different factors of variation and to bring new insights on the propensity of segmental reduction. We applied the descendant method using forced alignment with variants when it concerns a specific reduction phenomena. Otherwise, we used the ascendant method using absent and short segments as indicators. Three reduction phenomena are studied: schwa elision, /ʁ/ deletion and the propensity of segmental reduction. The descendant method was used for analyzing schwa elision and /ʁ/ deletion. Common factors used for the two studies are post-lexical context, speech style, sex and profession. Schwas elision at initial syllable position in polysyllabic words and post-consonantal /ʁ/ deletion at word final position are not always conditioned by the same variation factors. Similarly, lexical schwa and epenthetic schwa are not under the influence of the same variation factors. The study on the propensity of segmental reduction allows us to apply the ascendant method and to investigate segmental reduction in general. Results suggest that liquids and glides resist less the reduction procedure than other consonants and nasal vowels resist better reduction procedure than oral vowels. Among oral vowels, high rounded vowels tend to be reduced more often than other oral vowels.
|
27 |
Évaluation de la parole dysarthrique : Apport du traitement automatique de la parole face à l’expertise humaine / Evaluation of deviant zones in pathological speech : contribution of the automatic speech processing against the Human expertiseLaaridh, Imed 17 February 2017 (has links)
La dysarthrie est un trouble de la parole affectant la réalisation motrice de la parole causée par des lésions du système nerveux central ou périphérique. Elle peut être liée à différentes pathologies : la maladie de Parkinson, la Sclérose Latérale Amyotrophique(SLA), un Accident Vasculaire Cérébral (AVC), etc. Plusieurs travaux de recherche ont porté sur la caractérisation des altérations liées à chaque pathologie afin de les regrouper dans des classes de dysarthrie. La classification la plus répandue est celle établie parF. L. Darley comportant 6 classes en 1969, (complétée par deux classes supplémentaires en 2005)Actuellement, l’évaluation perceptive (à l’oreille) reste le standard utilisé dans lapratique clinique pour le diagnostique et le suivi thérapeutique des patients. Cette approcheest néanmoins reconnue comme étant subjective, non reproductible et coûteuseen temps. Ces limites la rendent inadaptée à l’évaluation de larges corpus (dans le cadred’études phonétiques par exemple) ou pour le suivi longitudinal de l’évolution des patientsdysarthriques.Face à ces limites, les professionnels expriment constamment leur besoin de méthodesobjectives d’évaluation de la parole dysarthrique. Les outils de Traitement Automatiquede la Parole (TAP) ont été rapidement considérés comme des solutions potentiellespour répondre à cette demande.Le travail présenté dans ce rapport s’inscrit dans ce cadre et étudie l’apport quepeuvent avoir ces outils dans l’évaluation de la parole dysarthrique, et plus généralementpathologique.Dans ce travail, une approche pour la détection automatique des phonèmes anormauxdans la parole dysarthrique est proposée et son comportement est analysé surdifférents corpus comportant différentes pathologies, classes dysarthriques, niveaux desévérité de la maladie et styles de parole. Contrairement à la majorité des approchesproposées dans la littérature permettant des évaluations de la qualité globale de la parole(évaluation de la sévérité, intelligibilité, etc.), l’approche proposée se focalise surle niveau phonème dans le but d’atteindre une meilleure caractérisation de la dysarthrieet de permettre un feed-back plus précis et utile pour l’utilisateur (clinicien, phonéticien,patient). L’approche s’articule autours de deux phases essentielles : (1) unepremière phase d’alignement automatique de la parole au niveau phonème (2) uneclassification de ces phonèmes en deux classes : phonèmes normaux et anormaux. L’évaluation de l’annotation réalisée par le système par rapport à une évaluationperceptive d’un expert humain considérée comme ”référence“ montre des résultats trèsencourageants et confirme la capacité de l’approche à detecter les anomalies au niveauphonème. L’approche s’est aussi révélée capable de capter l’évolution de la sévéritéde la dysarthrie suggérant une potentielle application lors du suivi longitudinal despatients ou pour la prédiction automatique de la sévérité de leur dysarthrie.Aussi, l’analyse du comportement de l’outil d’alignement automatique de la paroleface à la parole dysarthrique a révélé des comportements dépendants des pathologieset des classes dysarthriques ainsi que des différences entre les catégories phonétiques.De plus, un effet important du style de parole (parole lue et spontanée) a été constatésur les comportements de l’outil d’alignement de la parole et de l’approche de détectionautomatique d’anomalies.Finalement, les résultats d’une campagne d’évaluation de l’approche de détectiond’anomalies par un jury d’experts sont présentés et discutés permettant une mise enavant des points forts et des limites du système. / Dysarthria is a speech disorder resulting from neurological impairments of the speechmotor control. It can be caused by different pathologies (Parkinson’s disease, AmyotrophicLateral Sclerosis - ALS, etc.) and affects different levels of speech production (respiratory,laryngeal and supra-laryngeal). The majority of research work dedicated tothe study of dysarthric speech relies on perceptual analyses. The most known study, byF. L. Darley in 1969, led to the organization and the classification of dysarthria within 6classes (completed with 2 additional classes in 2005).Nowadays, perceptual evaluation is still the most used method in clinical practicefor the diagnosis and the therapeutic monitoring of patients. However, this method isknown to be subjective, non reproductive and time-consuming. These limitations makeit inadequate for the evaluation of large corpora (in case of phonetic studies) or forthe follow-up of the progression of the condition of dysarthric patients. In order toovercome these limitations, professionals have been expressing their need of objectivemethods for the evaluation of disordered speech and automatic speech processing hasbeen early seen as a potential solution.The work presented in this document falls within this framework and studies thecontributions that these tools can have in the evaluation of dysarthric, and more generallypathological speech.In this work, an automatic approach for the detection of abnormal phones in dysarthricspeech is proposed and its behavior is analyzed on different speech corpora containingdifferent pathologies, dysarthric classes, dysarthria severity levels and speechstyles (read and spontaneous speech). Unlike the majority of the automatic methodsproposed in the literature that provide a global evaluation of the speech on generalitems such as dysarthria severity, intelligibility, etc., our proposed method focuses onthe phone level aiming to achieve a better characterization of dysarthria effects and toprovide a precise and useful feedback to the potential users (clinicians, phoneticians,patients). This method consists on two essential phases : (1) an automatic phone alignmentof the speech (2) an automatic classification of the resulting phones in two classes :normal and abnormal phones.When compared to an annotation of phone anomalies provided by a human expertconsidered to be the ”gold standard“, the approach showed encouraging results andproved to be able to detect anomalies on the phone level. The approach was also able to capture the evolution of the severity of the dysarthria suggesting a potential relevanceand use in the longitudinal follow-up of dysarthric patients or for the automatic predictionof their intelligibility or the severity of their dysarthria.Also, the automatic phone alignment precision was found to be dependent on the severity,the pathology, the class of the dysarthria and the phonetic category of each phone.Furthermore, the speech style was found to have an interesting effect on the behaviorsof both automatic phone alignment and anomaly detection.Finally, the results of an evaluation campaign conducted by a jury of experts on theannotations provided by the proposed approach are presented and discussed in orderto draw a panel of the strengths and limitations of the system.
|
28 |
Convergence en conversation : La similarité linguistique comme indice d'alignement et d'affiliation / Convergence in conversation : linguistic similarity as a cue of alignment and affiliationGuardiola, Mathilde 01 December 2014 (has links)
Cette thèse questionne les manifestations de la convergence (i.e. le rapprochement entre les productions des participants) au niveau interactionnel. Pour cela, les termes d'alignement (défini en rapport avec l'activité en cours) et d'affiliation (l'expression d'un même stance par les participants) sont empruntés à l'Analyse Conversationnelle. Le corpus utilisé est le CID-Corpus of Interational Data, corpus de conversation (interaction non-contrainte, hautement coopérative et globalement symétrique).Nous interrogeons le lien entre la convergence et la similarité lexicale, grâce à l'analyse d'une collection de 300 hétéro-répétitions (recueillie grâce à un outil d'aide au repérage des répétitions). Nous proposons ensuite une analyse quantitative de l'évolution des réponses des auditeurs, puis une analyse qualitative de discours rapportés directs, phénomènes susceptibles de faire émerger de l'affiliation. Nous montrons que les hétéro-répétitions lexicales et les discours rapportés « en écho » (discours rapportés produits par l'auditeur de la narration) peuvent être utilisés (entre autres) pour exprimer l'alignement et l'affiliation, ce qui, en cas de ratification, crée les conditions propices à l'émergence d'un moment de convergence interactionnelle. Nous montrons également que ces mêmes phénomènes peuvent servir à créer le désalignement temporaire nécessaire à l'engagement dans une séquence oblique convergente. Ainsi, ce travail décrit l'établissement et le fonctionnement de séquences convergentes, à travers l'étude de phénomènes interactionnels méconnus. / This thesis investigates the manifestations of convergence (i.e. the rapprochement between the participants' productions) at the level of interaction. With this aim, the terms of alignment (defined in relation to the current activity) and affiliation (display of the same stance by both participants) are borrowed from Conversation Analysis. The conversational corpus (non-constrained, highly cooperative and globally symmetrical interaction) used is the CID-Corpus of Interactional Data. Firstly, the link between convergence and lexical similarity is investigated thanks to the analysis of a collection of 300 other-repetitions (collected using a tool to assist in the detection of OR). Secondly, storytelling is studied and a quantitative analysis of the evolution of listeners' responses is proposed together with a qualitative analysis of direct reported speech phenomena, which are likely to make affiliation emerge. These analyses show that lexical other-repetitions and "echo" reported speech (reported speech which is produced by the listener of the narrative) can be used by participants to, inter alia, express alignment and affiliation, which, in case of ratification, creates the adequate conditions for the emergence of interactional convergence. The same phenomena can be used to create the temporary disalignment necessary to engage in an oblique (and potentially convergent) sequence. This work then describes the establishment and the conduct of convergent sequences through the analysis of interactional phenomena.
|
29 |
Structuration de contenus audio-visuel pour le résumé automatique / Audio-visual content structuring for automatic summarizationRouvier, Mickaël 05 December 2011 (has links)
Ces dernières années, avec l’apparition des sites tels que Youtube, Dailymotion ou encore Blip TV, le nombre de vidéos disponibles sur Internet aconsidérablement augmenté. Le volume des collections et leur absence de structure limite l’accès par le contenu à ces données. Le résumé automatique est un moyen de produire des synthèses qui extraient l’essentiel des contenus et les présentent de façon aussi concise que possible. Dans ce travail, nous nous intéressons aux méthodes de résumé vidéo par extraction, basées sur l’analyse du canal audio. Nous traitons les différents verrous scientifiques liés à cet objectif : l’extraction des contenus, la structuration des documents, la définition et l’estimation des fonctions d’intérêts et des algorithmes de composition des résumés. Sur chacun de ces aspects, nous faisons des propositions concrètes qui sont évaluées. Sur l’extraction des contenus, nous présentons une méthode rapide de détection de termes. La principale originalité de cette méthode est qu’elle repose sur la construction d’un détecteur en fonction des termes cherchés. Nous montrons que cette stratégie d’auto-organisation du détecteur améliore la robustesse du système, qui dépasse sensiblement celle de l’approche classique basée sur la transcription automatique de la parole.Nous présentons ensuite une méthode de filtrage qui repose sur les modèles à mixtures de Gaussiennes et l’analyse factorielle telle qu’elle a été utilisée récemment en identification du locuteur. L’originalité de notre contribution tient à l’utilisation des décompositions par analyse factorielle pour l’estimation supervisée de filtres opérants dans le domaine cepstral.Nous abordons ensuite les questions de structuration de collections de vidéos. Nous montrons que l’utilisation de différents niveaux de représentation et de différentes sources d’informations permet de caractériser le style éditorial d’une vidéo en se basant principalement sur l’analyse de la source audio, alors que la plupart des travaux précédents suggéraient que l’essentiel de l’information relative au genre était contenue dans l’image. Une autre contribution concerne l’identification du type de discours ; nous proposons des modèles bas niveaux pour la détection de la parole spontanée qui améliorent sensiblement l’état de l’art sur ce type d’approches.Le troisième axe de ce travail concerne le résumé lui-même. Dans le cadre du résumé automatique vidéo, nous essayons, dans un premier temps, de définir ce qu’est une vue synthétique. S’agit-il de ce qui le caractérise globalement ou de ce qu’un utilisateur en retiendra (par exemple un moment émouvant, drôle....) ? Cette question est discutée et nous faisons des propositions concrètes pour la définition de fonctions d’intérêts correspondants à 3 différents critères : la saillance, l’expressivité et la significativité. Nous proposons ensuite un algorithme de recherche du résumé d’intérêt maximal qui dérive de celui introduit dans des travaux précédents, basé sur la programmation linéaire en nombres entiers. / These last years, with the advent of sites such as Youtube, Dailymotion or Blip TV, the number of videos available on the Internet has increased considerably. The size and their lack of structure of these collections limit access to the contents. Sum- marization is one way to produce snippets that extract the essential content and present it as concisely as possible.In this work, we focus on extraction methods for video summary, based on au- dio analysis. We treat various scientific problems related to this objective : content extraction, document structuring, definition and estimation of objective function and algorithm extraction.On each of these aspects, we make concrete proposals that are evaluated.On content extraction, we present a fast spoken-term detection. The main no- velty of this approach is that it relies on the construction of a detector based on search terms. We show that this strategy of self-organization of the detector im- proves system robustness, which significantly exceeds the classical approach based on automatic speech recogntion.We then present an acoustic filtering method for automatic speech recognition based on Gaussian mixture models and factor analysis as it was used recently in speaker identification. The originality of our contribution is the use of decomposi- tion by factor analysis for estimating supervised filters in the cepstral domain.We then discuss the issues of structuring video collections. We show that the use of different levels of representation and different sources of information in or- der to characterize the editorial style of a video is principaly based on audio analy- sis, whereas most previous works suggested that the bulk of information on gender was contained in the image. Another contribution concerns the type of discourse identification ; we propose low-level models for detecting spontaneous speech that significantly improve the state of the art for this kind of approaches.The third focus of this work concerns the summary itself. As part of video summarization, we first try, to define what a synthetic view is. Is that what cha- racterizes the whole document, or what a user would remember (by example an emotional or funny moment) ? This issue is discussed and we make some concrete proposals for the definition of objective functions corresponding to three different criteria : salience, expressiveness and significance. We then propose an algorithm for finding the sum of the maximum interest that derives from the one introduced in previous works, based on integer linear programming.
|
30 |
Respiratory patterns and turn-taking in spontaneous Estonian : Inhalation amplitude in multiparty conversationsAare, Kätlin January 2015 (has links)
This thesis explores the relationship between inhalation amplitude and turn-taking in spontaneous multiparty conversations held in Estonian. Respiratory activity is recorded with Respiratory Inductance Plethysmography. The main focus is on how inhalation amplitude varies between the inhalations produced directly before turn onset compared to the following inhalations within the same speaking turn. The results indicate a significant difference in amplitude, realised mainly by an increase in inhalation end lung volume values. One of the possible functions of this pattern is to signal an intention of taking the conversational turn. Another could be a phrasing or grouping function connected to lower inhalation amplitudes within turns. / 2014-1072 Andning i samtal (Vetenskapsrådet)
|
Page generated in 0.0591 seconds