Le but de cette thèse est d'étudier de façon détaillée l'impact des disfluences en français parlé (répétitions, auto-corrections, amorces, etc.) sur l'analyse syntaxique automatique de l'oral et de propose un modèle théorique permettant de les intégrer dans cette analyse. Notre axe de recherche se fonde sur l'hypothèse selon laquelle une analyse détaillée des énoncés oraux (principalement en termes morphosyntaxiques) peut permettre un traitement efficace pour ce type de données, et s'avère incontournable dans une optique de développement d'applications génériques dans le domaine des technologies de la parole. Dans le cadre de ce travail, nous proposons à la fois une étude linguistique détaillée et une stratégie d'analyse syntaxique automatique partielle des disfluences (en syntagmes minimaux non récursifs ou "chunks"). Le corpus final obtenu est ainsi segmenté en chunks non-disfluents d'une part, à côté des chunks disfluents d'autre part après prise en compte des régularités observées dans notre corpus. Les résultats de l'analyse automatique sont finalement évalués de façon quantitative sur le corpus permettant ainsi de valider le modèle théorique de façon empirique.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00647900 |
Date | 25 November 2008 |
Creators | Bove, Rémi |
Publisher | Université de Provence - Aix-Marseille I |
Source Sets | CCSD theses-EN-ligne, France |
Language | fra |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0034 seconds