Spelling suggestions: "subject:"text aprocessing"" "subject:"text eprocessing""
121 |
Acquisition de grammaire catégorielle de dépendances de grande envergureAlfared, Ramadan 18 December 2012 (has links) (PDF)
Ce travail est une étude qui s'inscrit dans le cadre de la création d'un lexique complet d'une grammaire catégorielle de dépendance du français (CDG) et s'inscrit aussi dans le cadre de l'analyse mixte stochastique-déterministe des grammaires de dépendances de grande envergure. En particulier, nous élaborons des algorithmes pour améliorer le lexique de base de la CDG du français. Nous résolvons plusieurs problèmes pour l'analyse avec cette grammaire à savoir l'absence de solution proposée par l'analyseur pour certaines phrases. Nous présentons un algorithme proto-déverb qui permet de compléter le lexique de la CDG du français en plaçant les déverbaux dans les classes lexicales qui correspondent à leurs cadres de sous-catégorisation déduits de ceux des verbes correspondants. Le second problème auquel nous nous intéressons provient du fait que l'analyseur de CDG donne actuellement toutes les solutions compatibles avec une CDG. Nous proposons une approche de filtrage qui consiste à utiliser un étiqueteur morphosyntaxique pour choisir les classes grammaticales les plus probables des unités lexicales. Notre approche permet de réduire de manière significative le taux d'ambiguïtés fallacieuses de la CDG. Notre étude conclue que la qualité de cette solution est basée principalement sur la compatibilité entre les unités lexicales qui sont définies par les étiqueteurs morpho-syntaxiques et la grammaire de dépendance.
|
122 |
Approche hybride pour le résumé automatique de textes. Application à la langue arabe.Maaloul, Mohamed Hedi 18 December 2012 (has links) (PDF)
Cette thèse s'intègre dans le cadre du traitement automatique du langage naturel. La problématique du résumé automatique de documents arabes qui a été abordée, dans cette thèse, s'est cristallisée autour de deux points. Le premier point concerne les critères utilisés pour décider du contenu essentiel à extraire. Le deuxième point se focalise sur les moyens qui permettent d'exprimer le contenu essentiel extrait sous la forme d'un texte ciblant les besoins potentiels d'un utilisateur. Afin de montrer la faisabilité de notre approche, nous avons développé le système "L.A.E", basé sur une approche hybride qui combine une analyse symbolique avec un traitement numérique. Les résultats d'évaluation de ce système sont encourageants et prouvent la performance de l'approche hybride proposée. Ces résultats, ont montré, en premier lieu, l'applicabilité de l'approche dans le contexte de documents sans restriction quant à leur thème (Éducation, Sport, Science, Politique, Reportage, etc.), leur contenu et leur volume. Ils ont aussi montré l'importance de l'apprentissage dans la phase de classement et sélection des phrases forment l'extrait final.
|
123 |
Étude des phénomènes itératifs en langue : Inscription discursive et Calcul aspectuo-temporel, vers un traitement automatiséLebranchu, Julien 15 December 2011 (has links) (PDF)
Cette thèse s'inscrit dans le domaine du traitement automatique des langues, et concerne l'étude des phénomènes itératifs en langue. Il s'agit notamment de rendre compte de la sémantique de procès exprimant une répétition (d'événements ou d'états) au sein d'un même texte, tant du point de vue de l'aspect que du temps. Nous avons mené nos travaux dans le cadre d'un travail d'équipe pluridisciplinaire couvrant des orientations linguistiques, logiques et informatiques. Ces travaux reposent sur une double appréhension commune d'un énoncé itératif : une entité événementielle en quelque sorte générique qui est présentée comme répétée dans le temps, d'une part ; l'itération proprement dite, conçue comme ensemble des occurrences du modèle, d'autre part. Nous nous focalisons pour notre part sur deux facettes : l'inscription discursive, en nous reposant sur une modélisation objet de la construction du sens des itérations (Mathet, 2007) ; et le calcul aspectuo-temporel au travers de la Sémantique de la temporalité (SdT) (Gosselin, 2011). Nous menons en premier lieu une étude de corpus, sur des articles de journaux et des œuvres littéraires, qui vise à caractériser l'inscription discursive des phénomènes itératifs. Nous exposons sur cette base leurs propriétés discursives dans la perspective de circonscrire automatiquement les itérations, c'est-à-dire repérer la borne initiale et finale du segment textuel correspondant. Nous établissons également un modèle d'annotation pour cette automatisation permettant in fine d'instancier les itérations au sein du modèle objet. Dans un second temps, nous abordons les phénomènes itératifs sous l'angle du calcul aspectuo-temporel. Fondé sur les travaux de Laurent Gosselin sur le calcul aspectuel des procès semelfactifs, nous étudions les ajustements nécessaires pour l'appliquer aux procès itératifs, en intégrant la notion de double visée aspectuelle issue de la SdT, dans la perspective de l'automatisation du calcul. Enfin, nous complétons ces deux aspects de notre travail par l'intégration de nos résultats au sein de TimeML, un formalisme XML de structuration des connaissances temporelles.
|
124 |
Extraction, Exploitation and Evaluation of Document-based KnowledgeDoucet, Antoine 30 April 2012 (has links) (PDF)
Les travaux présentés dans ce mémoire gravitent autour du document numérique : Extraction de connaissances, utilisation de connaissances et évaluation des connaissances extraites, d'un point de vue théorique aussi bien qu'expérimental. Le fil directeur de mes travaux de recherche est la généricité des méthodes produites, avec une attention particulière apportée à la question du passage à l'échelle. Ceci implique que les algorithmes, principalement appliqués au texte dans ce mémoire, fonctionnent en réalité pour tout type de donnée séquentielle. Sur le matériau textuel, la généricité et la robustesse algorithmique des méthodes permettent d'obtenir des approches endogènes, fonctionnant pour toute langue, pour tout genre et pour tout type de document (et de collection de documents). Le matériau expérimental couvre ainsi des langues utilisant différents alphabets, et des langues appartenant à différentes familles linguistiques. Les traitements peuvent d'ailleurs être appliqués de la même manière au grain phrase, mot, ou même caractère. Les collections traitées vont des dépêches d'agence de presse aux ouvrages numérisés, en passant par les articles scientifiques. Ce mémoire présente mes travaux en fonction des différentes étapes du pipeline de traitement des documents, de leur appréhension à l'évaluation applicative. Le document est ainsi organisé en trois parties décrivant des contributions en : extraction de connaissances (fouille de données séquentielle et veille multilingue) ; exploitation des connaissances acquises, par des applications en recherche d'information, classification et détection de synonymes via un algorithme efficace d'alignement de paraphrases ; méthodologie d'évaluation des systèmes d'information dans un contexte de données massives, notamment l'évaluation des performances des systèmes de recherche d'information sur des bibliothèques numérisées.
|
125 |
Lexique et analyse sémantique de textes - structures, acquisitions, calculs, et jeux de motsLafourcade, Mathieu 07 December 2011 (has links) (PDF)
L'analyse sémantique de textes nécessite en préalable la construction d'objets relevant de la sémantique lexicale. Les vecteurs d'idées et les réseaux lexicaux semblent de bons candidats et constituent ensemble des structures complémentaires. Toutefois, faut-il encore être capable dans la pratique de les construire. Les vecteurs d'idées peuvent être calculés à partir de corpus de définitions de dictionnaires, de thésaurus ou encore de textes. Ils peuvent se décliner en des vecteurs conceptuels, des vecteurs anonymes ou des vecteurs lexicaux - chaque type présentant un équilibre différent entre précision, couverture et praticité. Quant aux réseaux lexicaux, ils peuvent être acquis efficacement via des jeux, et c'est précisément l'objet du projet JeuxDeMots. L'analyse sémantique peut être abordée par l'analyse thématique, et ainsi servir de moyen de calcul à des vecteurs d'idées (bouclage). Nous pouvons modéliser l'analyse comme un problème d'activation et de propagation. La multiplicité des critères pouvant intervenir dans une analyse sémantique, et la difficulté inhérente à définir une fonction de contrôle satisfaisante, nous amène à explorer l'usage de métaheuristiques bio-inspirées. Plus précisément, nous introduisons un modèle d'analyse par colonies de fourmis artificielles. A partir d'un texte, l'analyse vise a construire un graphe contenant les objets du texte (les mots), des objets identifiés comme pertinents (des syntagmes, des concepts) ainsi que des relations pondérées et typées entre ces objets.
|
126 |
Sydonie : modèle de document et ingénierie du WebLecarpentier, Jean-Marc 05 December 2011 (has links) (PDF)
Cette thèse de doctorat est articulée autour des ré flexions sur les évolutions du web et de l'approche des documents numériques. Elle se concrétise dans la mise au point d'un framework reprenant nos propositions de modèle de document, d'interactions et d'ingénierie du web. Nous appelons ce framework Sydonie pour SYstème de gestion de DOcuments Numériques pour l'Internet et l'édition. Il est distribué en logiciel libre. Nous proposons un modèle de document inspiré des spécifications fonctionnelles des notices bibliographiques, consignées dans le rapport sur les FRBR (Functional Requirements for Bibliographic Records). Notre modèle propose de regrouper, sous la forme d'un arbre, les différentes versions linguistiques et divers formats de fichier d'un même document. Ce modèle règle élégamment la sélection de la vue du document la plus appropriée à un utilisateur grâce à la négociation de contenu. Pour un document composite, il permet, de plus, d'inclure les composants sous la forme la plus appropriée. Notre réflexion sur les processus mis en oeuvre pour le développement d'applications web, complétée par les études réalisées dans le domaine de l'ingénierie du web, nous permettent de proposer, au sein du framework Sydonie, une architecture logicielle qui apporte des solutions souples et extensibles pour le développement d'applications web. Enfin, nous avons étudié les mécanismes à proposer pour rendre la gestion des métadonnées plus accessible aux développeurs web. Nous utilisons le modèle de document sous forme d'arbre pour proposer un modèle de gestion des métadonnées au sein des applications web.
|
127 |
Mesures de comparabilité pour la construction assistée de corpus comparables bilingues thématiquesKe, Guiyao 26 February 2014 (has links) (PDF)
Les corpus comparables thématiques regroupent des textes issus d¡¯un même thème et rédigés dans plusieurs langues, fortement similaires mais ne comprenant pas de traductions mutuelles. Par rapport aux corpus parallèles qui regroupent des paires de traductions, les corpus comparables présentent trois avantages: premièrement, ce sont des ressources riches et larges : en volume et en période couverte; deuxièmement, les corpus comparables fournissent des ressources linguistiques originales et thématiques. Enfin, ils sont moins coûteux à développer que les corpus parallèles. Avec le développement considérable du WEB, une matière première très abondante est exploitable pour la construction de corpus comparables. En contre-partie, la qualité des corpus comparables est essentielle pour leur utilisation dans différents domaines tels que la traduction automatique ou assistée, l¡¯extraction de terminologies bilingues, la recherche d¡¯information multilingue, etc. L¡¯objectif de ce travail de thèse est de développer une approche méthodologique et un outillage informatique pour fournir une assistance à la construction des corpus comparables bilingues et thématiques de ? bonne qualité ?, à partir du WEB et à la demande. Nous présentons tout d¡¯abord la notion de mesure de comparabilité qui associe deux espaces linguistiques et, à partir d¡¯une mesure quantitative de comparabilité de référence, nous proposons deux variantes, qualifiées de comparabilité thématique, que nous évaluons suivant un protocole basé sur la dégradation progressive d¡¯un corpus parallèle. Nous proposons ensuite une nouvelle méthode pour améliorer le co-clustering et la co-classification de documents bilingues, ainsi que l¡¯alignement des clusters comparables. Celle-ci fusionne des similarités natives définies dans chacun des espaces linguistiques avec des similarités induites par la mesure de comparabilité utilisée. Enfin, nous proposons une démarche intégrée basée sur les contributions précédemment évoquées afin d¡¯assister la construction, à partir du WEB, de corpus comparables bilingues thématiques de qualité. Cette démarche comprend une étape de validation manuelle pour garantir la qualité de l¡¯alignement des clusters comparables. En jouant sur le seuil de comparabilité d¡¯alignement, différents corpus comparables associés à des niveaux de comparabilité variables peuvent être fournis en fonction des besoins spécifiés. Les expérimentations que nous avons menées sur des Flux RSS issus de grands quotidiens internationaux apparaissent pertinentes et prometteuses.
|
128 |
Alignement lexical en corpus comparables : le cas des composés savants et des adjectifs relationnelsHarastani, Rima 10 February 2014 (has links) (PDF)
Notre travail concerne l'extraction automatique d'une liste de termes alignés avec leurs traductions (c'est-à-dire un lexique bilingue spécialisé) à partir d'un corpus comparable dans un domaine de spécialité. Un corpus comparable comprend des textes écrits dans deux langues différentes sans aucune relation de traduction entre eux mais dont les textes appartiennent à un même domaine. Les contributions de cette thèse portent sur l'amélioration de la qualité d'un lexique bilingue spécialisé extrait à partir d'un corpus comparable. Nous proposons des méthodes consacrées à la traduction de deux types de termes, qui ont des caractéristiques en commun entre plusieurs langues ou qui posent par leur nature des problèmes pour la traduction : les composés savants (termes contenant au moins une racine gréco-latine) et les termes composés d'un nom et un adjectif relationnel. Nous développons également une méthode, qui exploite des contextes riches en termes spécifiques au domaine du corpus, pour réordonner dans un lexique bilingue spécialisé des traductions candidates fournies pour un terme. Les expériences sont réalisées en utilisant deux corpus comparables spécialisés (dans les domaines du cancer du sein et des énergies renouvelables), sur les langues français, anglais, allemand et espagnol.
|
129 |
Extracting Clinical Findings from Swedish Health Record TextSkeppstedt, Maria January 2014 (has links)
Information contained in the free text of health records is useful for the immediate care of patients as well as for medical knowledge creation. Advances in clinical language processing have made it possible to automatically extract this information, but most research has, until recently, been conducted on clinical text written in English. In this thesis, however, information extraction from Swedish clinical corpora is explored, particularly focusing on the extraction of clinical findings. Unlike most previous studies, Clinical Finding was divided into the two more granular sub-categories Finding (symptom/result of a medical examination) and Disorder (condition with an underlying pathological process). For detecting clinical findings mentioned in Swedish health record text, a machine learning model, trained on a corpus of manually annotated text, achieved results in line with the obtained inter-annotator agreement figures. The machine learning approach clearly outperformed an approach based on vocabulary mapping, showing that Swedish medical vocabularies are not extensive enough for the purpose of high-quality information extraction from clinical text. A rule and cue vocabulary-based approach was, however, successful for negation and uncertainty classification of detected clinical findings. Methods for facilitating expansion of medical vocabulary resources are particularly important for Swedish and other languages with less extensive vocabulary resources. The possibility of using distributional semantics, in the form of Random indexing, for semi-automatic vocabulary expansion of medical vocabularies was, therefore, evaluated. Distributional semantics does not require that terms or abbreviations are explicitly defined in the text, and it is, thereby, a method suitable for clinical corpora. Random indexing was shown useful for extending vocabularies with medical terms, as well as for extracting medical synonyms and abbreviation dictionaries.
|
130 |
Intention-driven textual semantic analysisLi, Jie. January 2008 (has links)
Thesis (M.Comp.Sc.-Res.)--University of Wollongong, 2008. / Typescript. Includes bibliographical references: leaf 84-95.
|
Page generated in 0.3896 seconds