1 |
Influence des facteurs non syntaxiques sur l'accord en nombre : approche développementale / Influence of non syntactic factors in number agreement : developmental approachLusson, Charlotte 14 October 2013 (has links)
Cette thèse examine l'influence qu'exercent certaines caractéristiques de l'élément à accorder sur les performances de rédacteurs francophones, novices et experts, dans différentes tâches de traitement de l'accord en nombre. Une première série d'expériences teste l'impact de la présence d'informations morpho-phonologiques et conceptuelles portées par le verbe. Les résultats montrent qu'à partir du CM2, une terminaison verbale phonologiquement distincte entre le singulier et le pluriel améliore le traitement de l'accord La présence d'une information conceptuelle au niveau du verbe conduit en revanche les participants, dès le CMl, à commettre davantage d'erreurs d'accord. Le traitement d'un verbe dont l'action est nécessairement accomplie par plusieurs agents semble engendrer des perturbations au moment de l'accord. Les informations morpho-phonologiques et conceptuelles influencent également les durées de la production de phrases dictées et le nombre d'erreurs d'accord correctement détectées dans une tâche de révision. Une seconde série d'expériences analyse I'impact du coût attentionnel engendré par la complexité de la gestion de l'orthographe lexicale sur le traitement de l'accord, en manipulant la fréquence lexicale et la consistance orthographique. L'effet de ces variables sur les eneurs commises par les enfants suggère que la probabilité d'accorder en nombre varie en fonction de la fréquence (facteur lexical) et de la consistance (facteur ous-lexical) des mots et ce, du CEI au CM2. Dans l'ensemble, les résultats de cette thèse suggèrent que I'accord n'est pas traité indépendamment de certaines caractéristiques propres à l'élément à accorder. / This thesis examines the influence of some characteristics of the agreement target on the performances of novice and expert writers in number agreement via different tasks. A first series of experiments studies the impact of the presence of morpho-phonological and conceptual information carried by the verb. Results show that from the 5th grade, aphonologically distinct verbal ending between singular and plural improves agreement processing. The presence of a conceptual information on the verb leads however participants from the 4th grade to commit more agreement errors. The processing of a verb whose action is necessarily accomplished by several agents seems to create disturbances during theagreement. Morpho- phonological and conceptual information also influence the duration of production of dictated sentences and the number of agreement errors correctly detected in revision tasks. A second series of experiments analyzes the impact of cognitive cost incurred by the complexity of the management of lexical spelling on the treatment of agreement, by manipulating lexical frequency and orthographic consistency. The effect of these variables on the errors committed by children suggests that the probability of agreement in number varies with frequency (lexical factor) and consistency (sub- lexical factor) and this, from 2nd to 5th grade. Overall, the results of this thesis suggest that agreement is not processed independently from some specific characteristics of the agreement's target
|
2 |
Identifying Expression Fingerprints using Linguistic InformationUzuner, Ozlem 18 November 2005 (has links)
This thesis presents a technology to complement taxation-based policy proposals aimed at addressing the digital copyright problem. Theapproach presented facilitates identification of intellectual propertyusing expression fingerprints. Copyright law protects expression of content. Recognizing literaryworks for copyright protection requires identification of theexpression of their content. The expression fingerprints described inthis thesis use a novel set of linguistic features that capture boththe content presented in documents and the manner of expression usedin conveying this content. These fingerprints consist of bothsyntactic and semantic elements of language. Examples of thesyntactic elements of expression include structures of embedding andembedded verb phrases. The semantic elements of expression consist ofhigh-level, broad semantic categories. Syntactic and semantic elements of expression enable generation ofmodels that correctly identify books and their paraphrases 82% of thetime, providing a significant (approximately 18%) improvement over modelsthat use tfidf-weighted keywords. The performance of models builtwith these features is also better than models created with standardfeatures used in stylometry (e.g., function words), which yield anaccuracy of 62%.In the non-digital world, copyright holders collect revenues bycontrolling distribution of their works. Current approaches to thedigital copyright problem attempt to provide copyright holders withthe same kind of control over distribution by employing Digital RightsManagement (DRM) systems. However, DRM systems also enable copyrightholders to control and limit fair use, to inhibit others' speech, andto collect private information about individual users of digitalworks.Digital tracking technologies enable alternate solutions to thedigital copyright problem; some of these solutions can protectcreative incentives of copyright holders in the absence of controlover distribution of works. Expression fingerprints facilitatedigital tracking even when literary works are DRM- and watermark-free,and even when they are paraphrased. As such, they enable meteringpopularity of works and make practicable solutions that encouragelarge-scale dissemination and unrestricted use of digital works andthat protect the revenues of copyright holders, for example throughtaxation-based revenue collection and distribution systems, withoutimposing limits on distribution.
|
3 |
Extraction de relations en domaine de spécialité / Relation extraction in specialized domainsMinard, Anne-Lyse 07 December 2012 (has links)
La quantité d'information disponible dans le domaine biomédical ne cesse d'augmenter. Pour que cette information soit facilement utilisable par les experts d'un domaine, il est nécessaire de l'extraire et de la structurer. Pour avoir des données structurées, il convient de détecter les relations existantes entre les entités dans les textes. Nos recherches se sont focalisées sur la question de l'extraction de relations complexes représentant des résultats expérimentaux, et sur la détection et la catégorisation de relations binaires entre des entités biomédicales. Nous nous sommes intéressée aux résultats expérimentaux présentés dans les articles scientifiques. Nous appelons résultat expérimental, un résultat quantitatif obtenu suite à une expérience et mis en relation avec les informations permettant de décrire cette expérience. Ces résultats sont importants pour les experts en biologie, par exemple pour faire de la modélisation. Dans le domaine de la physiologie rénale, une base de données a été créée pour centraliser ces résultats d'expérimentation, mais l'alimentation de la base est manuelle et de ce fait longue. Nous proposons une solution pour extraire automatiquement des articles scientifiques les connaissances pertinentes pour la base de données, c'est-à-dire des résultats expérimentaux que nous représentons par une relation n-aire. La méthode procède en deux étapes : extraction automatique des documents et proposition de celles-ci pour validation ou modification par l'expert via une interface. Nous avons également proposé une méthode à base d'apprentissage automatique pour l'extraction et la classification de relations binaires en domaine de spécialité. Nous nous sommes intéressée aux caractéristiques et variétés d'expressions des relations, et à la prise en compte de ces caractéristiques dans un système à base d'apprentissage. Nous avons étudié la prise en compte de la structure syntaxique de la phrase et la simplification de phrases dirigée pour la tâche d'extraction de relations. Nous avons en particulier développé une méthode de simplification à base d'apprentissage automatique, qui utilise en cascade plusieurs classifieurs. / The amount of available scientific literature is constantly growing. If the experts of a domain want to easily access this information, it must be extracted and structured. To obtain structured data, both entities and relations of the texts must be detected. Our research is about the problem of complex relation extraction which represent experimental results, and detection and classification of binary relations between biomedical entities. We are interested in experimental results presented in scientific papers. An experimental result is a quantitative result obtained by an experimentation and linked with information that describes this experimentation. These results are important for biology experts, for example for doing modelization. In the domain of renal physiology, a database was created to centralize these experimental results, but the base is manually populated, therefore the population takes a long time. We propose a solution to automatically extract relevant knowledge for the database from the scientific papers, that is experimental results which are represented by a n-ary relation. The method proceeds in two steps: automatic extraction from documents and proposal of information extracted for approval or modification by the experts via an interface. We also proposed a method based on machine learning for extraction and classification of binary relations in specialized domains. We focused on the variations of the expression of relations, and how to represent them in a machine learning system. We studied the way to take into account syntactic structure of the sentence and the sentence simplification guided by the task of relation extraction. In particular, we developed a simplification method based on machine learning, which uses a series of classifiers.
|
Page generated in 0.2464 seconds