Spelling suggestions: "subject:"linguistique dde corpus"" "subject:"linguistique dee corpus""
61 |
Du lexique à la phraséologie : analyse des discours d'Álvaro Uribe Vélez lors des Conseils Communaux (2002-2010) / From lexicon to phraseology : analysis of speeches of Álvaro Uribe Vélez during Communal Councils (2002-2010)Hernandez-Bayter, Henry 24 June 2014 (has links)
Le travail de recherche mené dans cette thèse porte sur les discours et l’emploi de formules discursives d’ordre phraséologique prononcés par le président colombien Álvaro Uribe Vélez lors des Conseils Communaux de Gouvernance pendant ses deux mandats de présidence (du mois d’août 2002 jusqu’au mois de juillet 2010). L’objectif est d’étudier le rôle de ces Unités Discursives à Caractère Phraséologique dans les discours. Ces unités ont été extraites, décrites, analysées et caractérisées à l’aide du logiciel Lexico 3 et des différentes méthodes lexicométriques proposées par celui-ci: index, concordances, inventaire distributionnel, analyse factorielle des correspondances et spécificités. Le premier chapitre présente le contexte historique, politique et la présidence d’Á. Uribe Vélez. Nous proposons une présentation de la situation socio-politique de l’Amérique latine et de la Colombie et du locuteur politique avant et pendant sa présidence. Le deuxième chapitre est consacré à l’exploration de l’analyse du discours politique et des caractéristiques particulières qui le définissent. Nous proposons une analyse de deux types de discours politiques différents en fonction du destinataire. Cette analyse permet de mettre en évidence plusieurs stratégies mises en place dans ce type de discours : la construction d’une image de chaque intervenant et l’emploi d’un système de croyances communes utilisé comme moyen de persuasion. Le troisième chapitre a comme objectif de présenter l’état de l’art de la recherche menée en phraséologie tant en français qu’en espagnol. Ce panorama nous permet de mettre en avance une description et délimitation des unités qui nous intéressent. Le quatrième chapitre se focalise sur le processus de constitution du corpus et la présentation des différentes caractéristiques lexicométriques du corpus d’étude. Le cinquième chapitre explore les chronologies thématiques du corpus d’étude, mises en évidence grâce à des méthodes lexicométriques complémentaires. Enfin, le sixième chapitre aborde la phraséologie des discours du président colombien à partir des stratégies discursives mises en place par le locuteur politique. / This thesis focuses on the speeches and the use of speech formulae considered phraseological delivered by Colombian President Álvaro Uribe Vélez in the Communal Councils of Governance during his two presidential terms in office (from August 2002 until July 2010). The objective is to study the role of these phraseological units in the speeches. The units were extracted, described, analyzed and characterized using the software Lexico 3 and the different lexicometrical methods proposed by this software: index, table of matches, distributionnal inventory, factor analysis of correspondences and calculation of specificities. The first chapter presents the historical and political context and the presidency of Á. Uribe Vélez. We offer an overview of the socio-political situation in Latin America and especially in Colombia and the political speaker before and during his presidency. The second chapter is devoted to the exploration of the analysis of political discourse and special features that define it. We propose an analysis of two different types of political discourse depending on the recipient. This analysis allows us to highlight several strategies implemented in this type of discourse: building an image of each participant and the use of a common system of beliefs used as a means of persuasion. The objective of the third chapter is to provide an overview of the state of the art of research in phraseology in both French and Spanish. This view allows us to advance a description and definition of units of our interest. The fourth chapter focuses on the process of constitution of the corpus and the presentation of different lexicometrical characteristics of the corpus of study. The fifth chapter explores the thematic chronologies of our corpus, highlighted by complementary lexicometrical methods. Finally, the sixth chapter discusses the phraseology of the discourse of Colombian president taking into account the discursive strategies implemented by the political speaker.
|
62 |
Caractérisation différentielle de forums de discussion sur le VIH en vietnamien et en français : Éléments pour la fouille comportementale du web social / Differential characterization of discussion forums on HIV in Vietnamese and French : Elements for behaviour mining on the social webHô Dinh, Océane 22 December 2017 (has links)
Les discours normés que produisent les institutions sont concurrencés par les discours informels ou faiblement formalisés issus du web social. La démocratisation de la prise de parole redistribue l’autorité en matière de connaissance et modifie les processus de construction des savoirs. Ces discours spontanés sont accessibles par tous et dans des volumes exponentiels, ce qui offre aux sciences humaines et sociales de nouvelles possibilités d’exploration. Pourtant elles manquent encore de méthodologies pour appréhender ces données complexes et encore peu décrites. L’objectif de la thèse est de montrer dans quelle mesure les discours du web social peuvent compléter les discours institutionnels. Nous y développons une méthodologie de collecte et d’analyse adaptée aux spécificités des discours natifs du numérique (massivité, anonymat, volatilité, caractéristiques structurelles, etc.). Nous portons notre attention sur les forums de discussion comme environnements d’élaboration de ces discours et appliquons la méthodologie développée à une problématique sociale définie : celle de l’épidémie du VIH/SIDA au Viêt Nam. Ce terrain applicatif recouvre plusieurs enjeux de société : sanitaire et social, évolutions des moeurs, concurrence des discours. L’étude est complétée par l’analyse d’un corpus comparable de langue française, relevant des mêmes thématique, genre et discours que le corpus vietnamien, de manière à mettre en évidence les spécificités de contextes socioculturels distincts. / The standard discourse produced by official organisations is confronted with the unofficial or informal discourse of the social web. Empowering people to express themselves results in a new balance of authority, when it comes to knowledge and changes the way people learn. Social web discourse is available to each and everyone and its size is growing fast, which opens up new fields for both humanities and social sciences to investigate. The latter, however, are not equipped to engage with such complex and little-analysed data. The aim of this dissertation is to investigate how far social web discourse can help supplement official discourse. In it we set out a method to collect and analyse data that is in line with the characteristics of a digital environment, namely data size, anonymity, transience, structure. We focus on forums, where such discourse is built, and test our method on a specific social issue, ie the HIV/AIDS epidemic in Vietnam. This field of investigation encompasses several related questions that have to do with health, society, the evolution of morals, the mismatch between different kinds of discourse. Our study is also grounded in the analysis of a comparable French corpus dealing with the same topic, whose genre and discourse characteristics are equivalent to those of the Vietnamese one: this two-pronged research highlights the specific features of different socio-cultural environments.
|
63 |
Formalisation de connaissances à partir de corpus : modélisation linguistique du contexte pour l'extraction automatique de relations sémantiquesEl Maarouf, Ismaïl 06 December 2011 (has links) (PDF)
Les corpus, collections de textes sélectionnés dans un objectif spécifique, occupent une place de plus en plus déterminante en Linguistique comme en Traitement Automatique des Langues (TAL). Considérés à la fois comme source de connaissances sur l'usage authentique des langues, ou sur les entités que désignent des expressions linguistiques, ils sont notamment employés pour évaluer la performance d'applications de TAL. Les critères qui prévalent à leur constitution ont un impact évident, mais encore délicat à caractériser, sur (i) les structures linguistiques majeures qu'ils renferment, (ii) les connaissances qui y sont véhiculées, et, (iii) la capacité de systèmes informatiques à accomplir une tâche donnée. Ce mémoire étudie des méthodologies d'extraction automatique de relations sémantiques dans des corpus de textes écrits. Un tel sujet invite à examiner en détail le contexte dans lequel une expression linguistique s'applique, à identifier les informations qui déterminent son sens, afin d'espérer relier des unités sémantiques. Généralement, la modélisation du contexte est établie à partir de l'analyse de co-occurrence d'informations linguistiques issues de ressources ou obtenues par des systèmes de TAL. Les intérêts et limites de ces informations sont évalués dans le cadre de la tâche d'extraction de relations sur des corpus de genre différent (article de presse, conte, biographie). Les résultats obtenus permettent d'observer que pour atteindre une représentation sémantique satisfaisante ainsi que pour concevoir des systèmes robustes, ces informations ne suffisent pas. Deux problèmes sont particulièrement étudiés. D'une part, il semble indispensable d'ajouter des informations qui concernent le genre du texte. Pour caractériser l'impact du genre sur les relations sémantiques, une méthode de classification automatique, reposant sur les restrictions sémantiques qui s'exercent dans le cadre de relations verbo-nominales, est proposée. La méthode est expérimentée sur un corpus de conte et un corpus de presse. D'autre part, la modélisation du contexte pose des problèmes qui relèvent de la variation discursive de surface. Un texte ne met pas toujours bout à bout des expressions linguistiques en relation et il est parfois nécessaire de recourir à des algorithmes complexes pour détecter des relations à longue portée. Pour répondre à ce problème de façon cohérente, une méthode de segmentation discursive, qui s'appuie sur des indices de structuration de surface apparaissant dans des corpus écrits, est proposée. Elle ouvre le champ à la conception de grammaires qui permettent de raisonner sur des catégories d'ordre macro-syntaxique afin de structurer la représentation discursive d'une phrase. Cette méthode est appliquée en amont d'une analyse syntaxique et l'amélioration des performances est évaluée. Les solutions proposées à ces deux problèmes nous permettent d'aborder l'extraction d'information sous un angle particulier : le système implémenté est évalué sur une tâche de correction d'Entités Nommées dans le contexte d'application des Systèmes de Question-Réponse. Ce besoin spécifique entraîne l'alignement de la définition d'une catégorie sur le type de réponse attendue par une question.
|
64 |
Vers des moteurs de recherche "intelligents" : un outil de détection automatique de thèmes. Méthode basée sur l'identification automatique des chaînes de référenceLongo, Laurence 12 December 2013 (has links) (PDF)
Cette thèse se situe dans le domaine du Traitement Automatique des Langues et vise à optimiser la classification des documents dans les moteurs de recherche. Les travaux se concentrent sur le développement d'un outil de détection automatique des thèmes des documents (ATDS-fr). Utilisant peu de connaissances, la méthode hybride adoptée allie des techniques statistiques de segmentation thématique à des méthodes linguistiques identifiant des marqueurs de cohésion. Parmi eux, les chaînes de référence - séquence d'expressions référentielles se rapportant à la même entité du discours (e.g. Paul...il...cet homme) - ont fait l'objet d'une attention particulière, car elles constituent un indice textuel important dans la détection des thèmes (i.e. ce sont des marqueurs d'introduction, de maintien et de changement thématique). Ainsi, à partir d'une étude des chaînes de référence menée dans un corpus issu de genres textuels variés (analyses politiques, rapports publics, lois européennes, éditoriaux, roman), nous avons développé un module d'identification automatique des chaînes de référence RefGen qui a été évalué suivant les métriques actuelles de la coréférence.
|
65 |
Vers des moteurs de recherche "intelligents" : un outil de détection automatique de thèmes : méthode basée sur l'identification automatique des chaînes de référence / Toward "intelligent" search engines : an automatic topic detection tool : method based on automatic reference chains identificationLongo, Laurence 12 December 2013 (has links)
Cette thèse se situe dans le domaine du Traitement Automatique des Langues et vise à optimiser la classification des documents dans les moteurs de recherche. Les travaux se concentrent sur le développement d’un outil de détection automatique des thèmes des documents (ATDS-fr). Utilisant peu de connaissances, la méthode hybride adoptée allie des techniques statistiques de segmentation thématique à des méthodes linguistiques identifiant des marqueurs de cohésion. Parmi eux, les chaînes de référence – séquence d’expressions référentielles se rapportant à la même entité du discours (e.g. Paul…il…cet homme) – ont fait l’objet d’une attention particulière, car elles constituent un indice textuel important dans la détection des thèmes (i.e. ce sont des marqueurs d’introduction, de maintien et de changement thématique). Ainsi, à partir d’une étude des chaînes de référence menée dans un corpus issu de genres textuels variés (analyses politiques, rapports publics, lois européennes,éditoriaux, roman), nous avons développé un module d’identification automatique des chaînes de référence RefGen qui a été évalué suivant les métriques actuelles de la coréférence. / This thesis in the field of Natural Language Processing aims at optimizing documents classification in search engines. This work focuses on the development of a tool that automatically detects documents topics (ATDS-fr). Using poor knowledge, the hybrid method combines statistical techniques for topic segmentation and linguistic methods that identify cohesive markers. Among them, reference chains - sequences of referential expressions referring to the same entity (e.g. Paul ... he ... this man) - have been given special attention as they are important topic markers (i.e. they are markers of topic introduction, maintenance and change). Thus, from a study of reference chains extracted from a corpus composed of various textual genres (newspapers, public reports, European laws, editorials and novel) we developed RefGen, an automatic reference chains identification module, which was evaluated according to current coreference metrics.
|
66 |
Sémantique de corpus et didactique des langues : application à des discours journalistiques et politiques de langue arabe / Corpus Semantics and language learning : application to journalistic discourses and political speeches in Arabic languageMakouar, Nadia 01 December 2014 (has links)
L’objectif de cette recherche en linguistique de corpus est d’appliquer, suivant les concepts et principes de la sémantique interprétative, une méthode d’analyse contrastive de textes pour l’apprentissage de la langue arabe, en utilisant l’outil de textométrie Lexico 3. Cette étude se base sur deux corpus : l’un de discours journalistiques (thème des révolutions arabes de 2011), et l’autre de discours politiques (de Gamal Abdel Nasser et Anouar Sadate). Nous posons l’hypothèse que, d’une part, la sémantique outillée permet de caractériser les orientations idéologiques et politiques des différents énonciateurs. D’autre part, nous supposons que les analyses permettront de proposer des pistes didactiques applicables dans le cadre d’un apprentissage de la langue arabe, et en particulier pour la compréhension et la production écrites.La première partie de cette étude présente la linguistique de corpus, situe et décrit la sémantique des textes dans les sciences du langage et expose quelques caractéristiques de la langue arabe. La deuxième partie présente nos analyses de textes journalistiques et politiques et met en évidence, les positions des journaux vis-à-vis des révolutions en Égypte et au Bahreïn et expose, les différences d’énonciation des deux présidents égyptiens sur les politiques conduites en Égypte et dans le monde arabe.La troisième et dernière partie présente le volet théorique et pratique de nos pistes didactiques. Elle ancre notre positionnement sur l’interdisciplinarité, en faisant appel au paradigme des "connaissances" (qui se distingue de la notion de "compétence") en didactique des langues. Cette partie décrit, enfin, l’expérimentation avec sept étudiants de langue arabe. Elle montre les difficultés et les apports de cette expérimentation et montre qu’il est possible de penser un processus de conscientisation vis-à-vis des données langagières, qui doit, en outre, marquer une rupture avec la simple transmission d’informations à l’apprenant. / The purpose of this research in corpus linguistics is to apply, in accordance with the concepts and principals of interpretive semantics, a method of contrastive analysis of texts for learning Arabic using the Textometry tool Lexico 3. It is based on two corpora: a journalistic discourse (from Arab revolutions of 2011), and political speeches (from Gamal Abdel Nasser and Anwar Sadat). We postulate that the Corpus Semantics allows us to characterize the ideological and political orientation of the different enunciators. Furthermore we assume that the study will provide practical didactic approaches in the context of learning the Arabic language, in particular for the understanding and writing learning.The first part of this study presents the Corpus Linguistics, situates and describes the Interpretive Semantics theory in the linguistics field and shows some characteristics of the Arabic language. The second part presents our analyses of journalistic and political texts, highlighting the stance of newspapers on the revolutions in Egypt and Bahrain and exposes the differences in articulation between two Egyptian presidents regarding their policies in Egypt and in the Arab world.The third and last part presents the theoretical and practical component of our educational tracks. It anchors our work on the interdisciplinarity by drawing on the paradigm of "knowledge" in language teaching (which is distinct from the notion of "competence"). This section describes the experiment with seven students of Arabic. It shows the difficulties and the benefits of this experiment and demonstrates that it is possible to think of a process of awareness in regards to the language data, which must, amongst other points, mark a break from the simple transmission of information to the learner.
|
Page generated in 0.1113 seconds