Spelling suggestions: "subject:"linguistique dde corpus"" "subject:"linguistique dee corpus""
11 |
Do internetês ao léxico da escrita dos jovens no OrkutBisognin, Tadeu Rossato January 2008 (has links)
Ce travail décrit des caractéristiques de l’écrit employées dans des textes de messages et des dépositions au site de rapports Orkut. Cette écrite c’est une des varietés de l’internetês et le point de départ pour la description c’est la fréquence du vocabulaire. Le support théorique de la recherche est doné par la Linguistique du Corpus, qui analyse avec l’aide de l’ordinateur l’usage de la langue dans des textes réels a fin d’observer de façon empirique les formes gramaticales possibles utilisées par les parleurs. Les corpora analysés ont été: 1) corpus de l’étude formés par des dépositions et messages avec 553.875 mots, 2) corpora de référence formés par échantillons de langue écrite et orale avec 1.289.949 mots, et 3) corpora de contraste composés par des textes scolaires, journalistiques et didactiques, au total de 571.090 mots. Les corpora ont été analysés l’instrument WordSmith Tools, employé par des études en Linguistique du Corpus. Parmi les regularités et les spécifites des donnés examinés, on a remarqué la richesse du vocabulaire dans des textes des internautes aux mots les plus fréquents, aux variations orthographiques y inclus par des régions du Brésil representées dans neuf subcorpora, aux indices d’oralisation sur l’écrite et à la variété de forme et contennue. La recherche a conclu que l’internetês est une expression graphique avec des modifications ortographiques de environ 20% de son lexique, avec des variations touchant à la richesse du vocabulaire dans des différentes régions du pays. Cette variation a été plus grande dans des textes de messages. On a remarqué que les diferences de richesse vocabulaire entre les textes de Orkut, les rédactions scolaires et les textes journalistiques primés ne sont pas significatives. Ce qui signifie afirmer que le vocabulaire des internautes n’est pas pauvre à propos de la richesse lexical. À l’égard de la fréquence, les mots de l’écrite d’Orkut sont semblables aux mots d’un continuum oú l’oralité et l’écrite se fondent. Le travail postule que l’internetês, comme il est representé au Orkut, est un dialecte diastratique, un sociolecte des jeunes internautes avec un peu des traits qui repercutent sur l’écrite scolaire. À la fin, la recherche suggère comme l’écrite examinée peut être explorée en classe. / Este trabalho descreve características da escrita empregada em textos de recados (scraps) e de depoimentos (testimonials) do site de relacionamentos Orkut. Essa escrita é tomada como uma das variedades do internetês e o ponto de partida para a descrição é a freqüência dos itens de vocabulário. O suporte teórico para a pesquisa é dado pela Lingüística de Corpus, área que analisa com auxílio do computador os padrões de uso da língua em grandes conjuntos de textos reais, para observar de modo empírico as formas gramaticais possíveis e prováveis utilizadas pelos falantes. Os corpora analisados foram 1) corpus de estudo formado por depoimentos e recados com 553.875 palavras, 2) corpora de referência formados por amostras de língua escrita e falada compostos de 1.289.949 palavras e 3) corpora de contraste compostos de textos escolares, jornalísticos e didáticos, totalizando 571.090 palavras. Analisaram-se os corpora com a ferramenta WordSmith Tools, empregada pelos estudos em Lingüística de Corpus. Entre as regularidades e especificidades dos dados sob exame, deu-se maior atenção à riqueza vocabular presente nos textos dos internautas, às palavras mais freqüentes, às variações ortográficas - inclusive por regiões do Brasil demonstradas em nove subcorpora -, aos indícios de oralização sobre a escrita e à variedade de forma e conteúdo. A pesquisa permitiu concluir que o internetês é basicamente uma expressão gráfica com alterações ortográficas presentes em torno de 20% de seu léxico, com variações quanto à riqueza vocabular em diferentes regiões do país, variação essa maior nos scraps do que nos depoimentos. Percebeu-se que não são significativas as diferenças de riqueza vocabular entre textos do Orkut e os de redações escolares e de textos jornalísticos premiados, não podendo ser o vocabulário dos internautas considerado pobre no quesito riqueza lexical. Quanto à freqüência, as palavras da escrita do Orkut mostraram-se bastante similares às do português falado, de modo que o internetês se apresenta num continuum em que a oralidade e escrita se fundem. O trabalho postula que o internetês, tal como representado no Orkut, é um dialeto diastrático, um socioleto dos internautas jovens, com alguns poucos traços repercutindo sobre a escrita escolar. Na sua parte final, a pesquisa traz sugestões sobre como a escrita sob exame pode ser explorada em atividades em sala de aula.
|
12 |
Do internetês ao léxico da escrita dos jovens no OrkutBisognin, Tadeu Rossato January 2008 (has links)
Ce travail décrit des caractéristiques de l’écrit employées dans des textes de messages et des dépositions au site de rapports Orkut. Cette écrite c’est une des varietés de l’internetês et le point de départ pour la description c’est la fréquence du vocabulaire. Le support théorique de la recherche est doné par la Linguistique du Corpus, qui analyse avec l’aide de l’ordinateur l’usage de la langue dans des textes réels a fin d’observer de façon empirique les formes gramaticales possibles utilisées par les parleurs. Les corpora analysés ont été: 1) corpus de l’étude formés par des dépositions et messages avec 553.875 mots, 2) corpora de référence formés par échantillons de langue écrite et orale avec 1.289.949 mots, et 3) corpora de contraste composés par des textes scolaires, journalistiques et didactiques, au total de 571.090 mots. Les corpora ont été analysés l’instrument WordSmith Tools, employé par des études en Linguistique du Corpus. Parmi les regularités et les spécifites des donnés examinés, on a remarqué la richesse du vocabulaire dans des textes des internautes aux mots les plus fréquents, aux variations orthographiques y inclus par des régions du Brésil representées dans neuf subcorpora, aux indices d’oralisation sur l’écrite et à la variété de forme et contennue. La recherche a conclu que l’internetês est une expression graphique avec des modifications ortographiques de environ 20% de son lexique, avec des variations touchant à la richesse du vocabulaire dans des différentes régions du pays. Cette variation a été plus grande dans des textes de messages. On a remarqué que les diferences de richesse vocabulaire entre les textes de Orkut, les rédactions scolaires et les textes journalistiques primés ne sont pas significatives. Ce qui signifie afirmer que le vocabulaire des internautes n’est pas pauvre à propos de la richesse lexical. À l’égard de la fréquence, les mots de l’écrite d’Orkut sont semblables aux mots d’un continuum oú l’oralité et l’écrite se fondent. Le travail postule que l’internetês, comme il est representé au Orkut, est un dialecte diastratique, un sociolecte des jeunes internautes avec un peu des traits qui repercutent sur l’écrite scolaire. À la fin, la recherche suggère comme l’écrite examinée peut être explorée en classe. / Este trabalho descreve características da escrita empregada em textos de recados (scraps) e de depoimentos (testimonials) do site de relacionamentos Orkut. Essa escrita é tomada como uma das variedades do internetês e o ponto de partida para a descrição é a freqüência dos itens de vocabulário. O suporte teórico para a pesquisa é dado pela Lingüística de Corpus, área que analisa com auxílio do computador os padrões de uso da língua em grandes conjuntos de textos reais, para observar de modo empírico as formas gramaticais possíveis e prováveis utilizadas pelos falantes. Os corpora analisados foram 1) corpus de estudo formado por depoimentos e recados com 553.875 palavras, 2) corpora de referência formados por amostras de língua escrita e falada compostos de 1.289.949 palavras e 3) corpora de contraste compostos de textos escolares, jornalísticos e didáticos, totalizando 571.090 palavras. Analisaram-se os corpora com a ferramenta WordSmith Tools, empregada pelos estudos em Lingüística de Corpus. Entre as regularidades e especificidades dos dados sob exame, deu-se maior atenção à riqueza vocabular presente nos textos dos internautas, às palavras mais freqüentes, às variações ortográficas - inclusive por regiões do Brasil demonstradas em nove subcorpora -, aos indícios de oralização sobre a escrita e à variedade de forma e conteúdo. A pesquisa permitiu concluir que o internetês é basicamente uma expressão gráfica com alterações ortográficas presentes em torno de 20% de seu léxico, com variações quanto à riqueza vocabular em diferentes regiões do país, variação essa maior nos scraps do que nos depoimentos. Percebeu-se que não são significativas as diferenças de riqueza vocabular entre textos do Orkut e os de redações escolares e de textos jornalísticos premiados, não podendo ser o vocabulário dos internautas considerado pobre no quesito riqueza lexical. Quanto à freqüência, as palavras da escrita do Orkut mostraram-se bastante similares às do português falado, de modo que o internetês se apresenta num continuum em que a oralidade e escrita se fundem. O trabalho postula que o internetês, tal como representado no Orkut, é um dialeto diastrático, um socioleto dos internautas jovens, com alguns poucos traços repercutindo sobre a escrita escolar. Na sua parte final, a pesquisa traz sugestões sobre como a escrita sob exame pode ser explorada em atividades em sala de aula.
|
13 |
Enjeux de la transcription du matériel paraverbal dans les corpus de langue orale en contexte naturelPinard-Prévost, Geneviève January 2011 (has links)
Un des principaux obstacles à l'analyse complète des conversations naturelles demeure la présence de plusieurs chevauchements de parole. Lorsque trois locuteurs ou plus s'y trouvent impliqués, des conversations parallèles accroissent encore le défi. En effet, les signaux de parole mixtes qui en résultent ne peuvent être soumis à une analyse acoustique informatisée. La décision de n'étudier que les extraits conversationnels en signal de parole pur, pour permettre des analyses appuyées par l'informatique, nous prive, selon nos résultats, de la moitié des manifestations prosodiques réalisées en contexte naturel (hauteur et intensité de la voix, allongement des syllabes et pauses), puisqu'elles foisonnent dans les chevauchements de parole. Pour la conduite de recherches lexico-sémantiques et interactionnelles, nous préférons ne pas sacrifier l'aspect naturel des conversations. C'est pourquoi nous nous en remettons à une analyse complètement humaine, quoiqu'elle puisse être appuyée par la technologie dans la mesure où celle-ci ne prend pas le pas sur le jugement du transcripteur (par exemple pour mesurer des pauses ou des syllabes allongées). Au terme de ce mémoire, nous proposons un mode de transcription perceptuel amélioré par rapport à ce qui se fait déjà, susceptible de favoriser le marquage pertinent de la prosodie pour des analyses lexico-sémantiques et interactionnelles, ainsi qu'une haute fidélité aux données primaires. Par le fait même, aussi bien les extraits de conversation où un seul locuteur s'exprime que les moments de chevauchement ou de conversations parallèles peuvent être pris en considération par les chercheurs. Nous proposons également certaines innovations graphiques pour augmenter la lisibilité des transcriptions qui prévoient un tel marquage précis des proéminences prosodiques.
|
14 |
Une pragmatique à fleur de texte : approche en corpus de l'organisation textuellePéry-Woodley, Marie-Paule 16 June 2000 (has links) (PDF)
La première partie de cette synthèse est consacrée à l'élaboration et à l'illustration d'un cadre d'analyse pour des textes entiers, principalement produits dans le contexte de l'apprentissage de l'écrit. Dans la deuxième partie, les questionnements sur les niveaux de structuration des textes et le jeu des marques formelles se poursuivent avec la mise en relation de nouveaux modèles et la focalisation sur un objet textuel – la définition – dans des corpus de textes scientifiques ou techniques. La troisième partie prend la forme d'une réflexion sur trois thèmes doublement significatifs. Ce sont ceux qui à la fois parcourent l'ensemble des travaux présentés et motivent mes chantiers actuels et mes projets : d'abord, les niveaux d'organisation textuelle et leur articulation, ensuite la notion de marqueur, et pour finir, en relation avec la méthodologie d'analyse de corpus, les notions de variation et de genre discursif.
|
15 |
Approches catégoriques et non catégoriques en linguistique des corpus spécialisés, application à un système de filtrage d'informationBalvet, Antonio 11 December 2002 (has links) (PDF)
Cette thèse s'inscrit dans le cadre des études linguistiques sur corpus, centrées sur les productions effectives, dans des domaines de spécialité. La thèse reprend les présupposés théoriques et les méthodes des approches guidées par les observables linguistiques, afin d'extraire des corpus étudiés des unités lexicales complexes fortement corrélées à des sous-thèmes clairement identifiés. Ainsi, la thèse aboutit à une description et à un recensement de ces unités lexicales complexes, appelées signatures thématiques, pour un sous-thème du domaine financier : les cessions et acquisitions de sociétés. Le travail d'analyse des corpus, faisant principalement appel à une approche distributionnelle classique, tente également d'évaluer l'apport d'approches non catégoriques et non logiques (essentiellement des approches statistiques) dans la détection de signatures thématiques. Les signatures identifiées servent de base à un système de filtrage d'information, déployé en milieu industriel : le système CORAIL, issu d'un projet de recherches financé par le Ministère de la Recherche et de l'Industrie.
|
16 |
Discours d'entreprise et organisation de l'information - Apports de la textométrie dans la construction de référentiels terminologiques adaptables au contexteErlos, Frédéric 16 January 2009 (has links) (PDF)
L'organisation de l'information sur un intranet (réseau informatique interne d'une organisation fonctionnant avec les technologies d'Internet) nécessite de nouvelles approches pour traiter la question de l'adéquation entre l'arborescence des sites et les usages linguistiques de leurs publics. Une façon de prendre en compte ces usages consiste à explorer les données textuelles représentatives d'une situation de communication spécifique. Une telle exploration est effectuée à l'aide de techniques textométriques, comme l'index hiérarchique des formes, les concordances, les segments répétés, la carte des sections d'un texte, le calcul des co-occurrences et l'analyse factorielle des correspondances. On extrait alors d'un corpus de textes de communication d'entreprise (rapports d'activité) les unités lexicales destinées à la construction d'un référentiel terminologique d'un type particulier. Afin de prendre en compte le contexte de communication on propose d'utiliser trois sortes de repères : - le référentiel d'objets propre à une organisation, - les propriétés pragmatiques des noms propres, - la collecte d'une partie du vocabulaire caractéristique du corpus utilisé comme source du référentiel terminologique, réalisée à partir d'une sélection de noms propres. Ainsi, cette collecte ne se limite pas aux seules unités terminologiques : elle comprend également des mots relevant de la langue commune et des noms propres. Les unités appartenant au vocabulaire du corpus sont choisies en fonction du type de relations sémantiques établies avec les noms propres dans les discours. Enfin, les résultats obtenus sont évalués en termes de productivité, de fiabilité et de représentativité.
|
17 |
Analyse discursive pour le repérage automatique de segments obsolescents dans des documents encyclopédiques.Laignelet, Marion 25 September 2009 (has links) (PDF)
La question de la mise à jour des documents se pose dans de nombreux do- maines. Elle est centrale dans le domaine de l'édition encyclopédique : les ouvrages publiés doivent être continuellement vérifiés afin de ne pas mettre en avant des informations fausses ou altérées par le temps. Dans ce travail, nous proposons la mise en œuvre d'un prototype d'aide à la mise à jour : l'objectif visé est le repérage automatique de zones textuelles dans lesquelles l'information est potentiellement obsolescente. Pour y répondre, nous proposons la prise en compte d'indices linguistiques et discursifs variés et faisant appel à des niveaux d'analyses différents. L'obsolescence étant un phénomène non linguistique pour lequel il n'existe pas d'outil rhétorique dédié, notre hypothèse est qu'il faut considérer les indices linguistiques et discursifs en termes de complémentarité, de combinaisons. Sur un corpus annoté manuellement par des experts, nous projetons un repérage automatique d'un grand nombre d'indices linguistiques, discursifs et structurels. Un système d'apprentissage automatique est ensuite mis en place afin de faire émerger les configurations d'indices pertinentes dans les segments obsolescents caractérisés par les experts. Notre double finalité est remplie : nous proposons une description fine de l'ob- solescence dans notre corpus de textes encyclopédiques ainsi qu'un prototype logi- ciel d'aide à la mise à jour des textes. Une double évaluation a été menée : par validation croisée sur le corpus d'apprentissage et par les experts sur un corpus de test. Les résultats sont encourageants. Ils nous amènent à faire évoluer la définition du segment d'obsolescence, sur la base des « découvertes » émergeant des corpus et dans l'interaction avec les besoins des experts concernant l'aide à la mise à jour. Ils montrent également les limites des annotations automatiques des indices linguistiques et discursifs. Enfin, la reproductibilité de notre système doit être évaluée ainsi que la pertinence et la réutilisabilité du modèle de représentation des données présenté.
|
18 |
Ponctuation et syntaxe dans la langue française médiévale. Étude d'un corpus de chartes originales écrites à Liège entre 1236 et 1291Mazziotta, Nicolas 21 December 2007 (has links)
%%%Un résumé mis en forme disponible dans les fichiers joints%%%
Nous avons commencé par faire le pari que la syntaxe pouvait expliquer la majorité des signes de ponctuation. Cette optique nous a guidé durant toute notre étude, dont le but était de répondre à la question:
«Comment, d'après ce qu'on peut observer dans les chartes écrites en français à Liège avant 1292, la ponctuation originale interagit-elle avec la syntaxe dans la langue française médiévale?»
Nous avons d'emblée positionné notre étude par rapport à la réflexion sur la ponctuation médiévale, osant le pari que la syntaxe peut servir de point de référence pour expliquer la plus grande partie de la ponctuation des chartes. Nous avons ensuite décrit la constitution du corpus.
Face à une pareille question, il n'était pas envisageable de commencer
immédiatement à dépouiller les documents: il nous fallait définir avec exactitude les différents concepts dont nous allions avoir besoin.
*** Première partie: modélisation ***
La première partie du travail a ainsi été consacrée à la définition, sur des bases empiriques, des concepts mobilisés. Partant du sens commun et des principes fondamentaux de l'analyse linguistique classique (tenant du structuralisme et du
fonctionnalisme), nous avons exploité les matériaux à notre disposition pour en dégager des notions, dans une approche inductive par son rapport aux faits, mais déductive par sa progression.
Ainsi, au chapitre 2, l'observation du tracé des unités graphiques sur le parchemin nous a amené à abstraire les catégories nécessaires à une modélisation de l'ensemble des unités de la langue écrite, pour lesquelles
nous proposons une terminologie neuve reflétant notre analyse. Nous avons
progressivement défini _langue écrite_, puis _scriptèmes_,
_grammèmes_, etc., progressant des unités les plus générales aux unités les
plus particulières. Ce n'est qu'à ce prix que nous avons pu enfin délimiter
exactement, le moins intuitivement possible, notre propre acception du mot _ponctuation_: «ensemble des
ponctogrammes d'une langue écrite spécifique}. Dans cette définition, le terme _ponctogramme_ désigne une
unité minimale de la langue écrite (_scriptème_) n'organisant pas l'espace (_grammème_), exprimant un contenu (_plérégramme_), ne dépendant pas matériellement d'une autre
unité (_autogramme_), construit à l'aide de traits qui ne se combinent
pas obligatoirement sur un même axe (_nébulogramme_) et non paraphrasable par d'autres unités significatives... Employer ce terme ne pouvait se faire qu'à la fin d'un exposé détaillé, passant en revue tous les hyperonymes impliqués.
De manière moins audacieuse du point de vue de la terminologie employée, nous avons également tenté d'exposer notre conception de la syntaxe (chapitre 3). À nouveau, c'est le corpus qui nous a servi de guide: une fois les phrases délimitées de manière empirique, toutes les structures syntaxiques ont été passées en revue, nommées et intégrées dans un système théorique fondé sur la notion, héritée d'Alain Lemaréchal, de _relation minimale_. Nous sommes parti de l'existence d'un lien sémantique entre les unités en présence et nous
avons caractérisé la manière dont ce lien était _spécifié_.
Nous croyons, au delà de l'intérêt pratique de cette première partie, que les concepts dégagés peuvent être jugés suffisamment généraux sinon pour
servir à la comparaison d'autres systèmes graphiques ou syntaxiques, du moins afin de constituer une base à leur description.
*** Deuxième partie: analyse des données***
Une fois les concepts définis et l'ensemble du corpus annoté, il a été envisageable de répondre à la question posée. Néanmoins, l'ensemble des données disponibles, de par sa nature
et son abondance, rendait l'approche traditionnelle -- ou plutôt _manuelle_
-- difficilement applicable. C'est pourquoi nous avons ouvert la seconde partie du travail en annonçant le recours à des méthodes plus outillées: les statistiques (introduites au chapitre 4).
Ces méthodes présentées, nous avons sélectionné six caractéristiques
morphosyntaxiques et positionnelles que nous avons jugées fondamentales pour décrire tous les constituants. Ces variables répondaient à six
questions: 1/ du point de vue de l'ordre linéaire des mots, le constituant est-il le premier de la structure qu'il sert à construire? 2/ le constituant est-il le dernier de la structure qu'il sert à construire? 3/ quelle est la nature et le niveau d'intégration syntaxique de la structure qui le contient? 4/ quelle
est la fonction du constituant? 5/ est-il de nature propositionnelle (mode personnel ou non)? 6/ est-il relaté? Nous avons ensuite pu mettre en relation les réponses à ces questions et la simple présence de ponctuation de part et d'autre
des constituants, sans tenir compte, dans un premier temps, de la forme des
ponctogrammes.
Pour ce faire, nous avons essentiellement employé les techniques statistiques les plus classiques en sciences humaines: l'analyse des tableaux de contingence à l'aide
du test du chi². Après avoir évalué la relation entre chacune des six variables et la ponctuation, nous avons constaté l'inefficacité de la
méthode, ce qui nous a conduit à en rechercher une autre, permettant d'envisager simultanément toutes les variables morphosyntaxiques et positionnelles, en particulier. Ces nouveaux dépouillements nous ont permis de repérer, au milieu de la masse de constituants inégalement marqués par la présence d'un ponctogramme, ceux dont le marquage ou le rejet du marquage avait la plus faible probabilité d'être dû au hasard. Ce qui est ressorti de cette première étape, où les données étaient réduites à une représentation très abstraite, c'est une liste de points forts concernant:
- la différence de fréquence entre le marquage de la phrase et celui des autres propositions;
- la spécificité du marquage d'un certain nombre de types d'arguments;
- le rejet manifeste du marquage du prédicat;
- la faible fréquence de marquage à la suite des relateurs;
- la forte présence de marquage devant les coordonnants.
Nous avons ainsi pu observer que la ponctuation n'était pas obligatoire, mais que sa présence était certainement liée à un contexte syntaxique spécifique.
Ensuite, ces grandes lignes ont pu être inspectées de manière plus concrète: pour chaque tendance qui le justifiait, nous avons évalué la probabilité que l'attraction ou la répulsion observée soit généralisée. Nous avons adopté la position
pragmatique selon laquelle toute tendance suffisamment fréquente pouvait être considérée comme générale si le fait de retirer les chartes qui la manifestaient de manière significative de l'échantillon ne changeait pas significativement la
probabilité d'attraction.
Il en est ressorti que la plupart des tendances observées étaient générales ou trop faiblement illustrées pour être évaluées de ce point de vue.
Par ailleurs, nous avons essayé de mettre en relation la ponctuation avec le contexte immédiat, ce qui nous a laissé observer que beaucoup de constituants étaient davantage, voire exclusivement marqués au contact d'autres constituants attirant également le marquage ou dans un contexte de coordination.
Cet examen détaillé des tendances mises en évidence au chapitre 5 permet en fin de compte de faire le tri parmi les tendances et de repérer celles
qui sont manifestement dues à l'entourage du constituant ou au document dans lequel il est attesté. En observant plus intuitivement les attestations, nous avons également pu repérer, comme nous nous y attendions, un certain nombre de tendances liées à des facteurs étrangers à la morphosyntaxe: la ponctuation de formules spécifiques au type discursif, celle des chiffres ou encore la présence d'un ponctogramme
devant les noms de personnes.
En outre, l'examen du détail des attestations nous a amené à proposer des révisions concernant le modèle d'analyse morphosyntaxique présenté au chapitre 3: 1/ il conviendrait que soient pris en compte les lexèmes
employés; 2/ la notion de la coordination pourrait être étendue à des groupements de constituants que nous n'avons pas considérés comme coordonnés; 3/ il serait peut-être profitable de considérer les coordonnants de la même manière que les autres relateurs. D'autre part, nous avons insisté sur le fait que l'analyse des structures en syntaxe immédiate gagnerait à être moins abstraite.
De cette étude de la fréquence du marquage est ressorti un ensemble
d'environnements propices à la présence de ponctuation.
À ce moment, il nous a été possible de réintroduire les considérations portant sur la _forme_ des ponctogrammes et d'employer l'_Analyse Factorielle des Correspondances_ (AFC) pour décrire les données. Nous avons effectué un tri croisé pour mesurer les associations entre la forme des ponctogrammes et la tendance au
marquage spécifique à la position où se trouvait ce ponctogramme (ce qui
incluait l'absence d'environnement attirant le marquage). Après une analyse exploratoire, nous avons complété notre étude par une série de
tests évaluant la probabilité que les regroupements entre la forme des
ponctogrammes et l'environnement dans lequel on les rencontre soit due au
hasard. Dans la majorité des cas observés, les contrastes mis en évidence par l'AFC correspondaient à des oppositions significatives.
L'étude détaillée de la forme a mené à la conclusion suivante: les ponctogrammes autres que <·> sont plus rares, et leur emploi paraît plus spécifique à un environnement donné. En d'autres termes: non seulement les scribes ne ponctuaient pas n'importe où, mais, en plus, ils n'employaient pas indifféremment les signes.
Les méthodes ne permettant pas de traiter de manière efficace les ponctogrammes peu attestés, nous les avons simplement commentés, laissant de côté les statistiques pour une étude plus philologique. Ces observations ont mené, d'une part, à la critique de la validité de la transcription: 1/ certaines distinctions entre les formes sont
peut-être superflues; 2/ certaines unités peuvent être confondues avec d'autres. D'autre part, la forme des ponctogrammes pose la question de la relation entre les ponctogrammes et le reste du système graphique.
|
19 |
Discrimination prosodique et représentation du lexique : application aux emplois des connecteurs discursifsPetit, Mélanie 28 November 2009 (has links) (PDF)
Dans le cadre d'une sémantique linguistique reposant sur la distinction signification/sens et partant du principe que le sens se construit en discours, nos recherches ont pour objectif de rendre compte de la diversité des emplois d'un signe dans une perspective intégrant la prosodie, afin de définir un processus de discrimination prosodique des différents sens d'une même unité tels qu'ils peuvent être décrits sur la base de corpus oraux authentiques. Elles portent sur un ensemble d'objets empiriques, de enfin à quelques ou oui en passant par disons, mais principalement sur des connecteurs discursifs. Après avoir mis au jour des corrélations forme prosodique/sens au niveau du lexique, et en prenant en compte le caractère gradable de la langue ainsi que la notion d'argumentation dans la langue, nous proposons un nouveau format de représentation sémantique distinguant, sur la base de nos résultats, deux niveaux de sens que sont l'interprétation-type et l'emploi-type, ce dernier présentant la particularité de comporter un commentaire exprimé par la prosodie, commentaire qui porte sur le rapport à la situation et/ou à l'énonciation. L'intégration d'un niveau de sens supplémentaire constitue l'originalité de ce nouveau format et présente l'avantage de réduire les phénomènes de surgénéralisations observables dans les caractérisations sémantiques des emplois. Nous présentons ensuite la façon dont nos résultats pourraient être intégrés à une perspective lexicographique, et dont ils pourraient permettre d'obtenir à la fois une plus grande cohérence et une plus grande exhaustivité des articles d'une entrée de dictionnaire, et une prise en compte systématique de la prosodie des emplois.
|
20 |
Construction de corpus généraux et spécialisés à partir du Web (Ad hoc and general-purpose corpus construction from web sources) / Ad hoc and general-purpose corpus construction from web sourcesBarbaresi, Adrien 19 June 2015 (has links)
Le premier chapitre s'ouvre par un description du contexte interdisciplinaire. Ensuite, le concept de corpus est présenté en tenant compte de l'état de l'art. Le besoin de disposer de preuves certes de nature linguistique mais embrassant différentes disciplines est illustré par plusieurs scénarios de recherche. Plusieurs étapes clés de la construction de corpus sont retracées, des corpus précédant l'ère digitale à la fin des années 1950 aux corpus web des années 2000 et 2010. Les continuités et changements entre la tradition en linguistique et les corpus tirés du web sont exposés. Le second chapitre rassemble des considérations méthodologiques. L'état de l'art concernant l'estimation de la qualité de textes est décrit. Ensuite, les méthodes utilisées par les études de lisibilité ainsi que par la classification automatique de textes sont résumées. Des dénominateurs communs sont isolés. Enfin, la visualisation de textes démontre l'intérêt de l'analyse de corpus pour les humanités numériques. Les raisons de trouver un équilibre entre analyse quantitative et linguistique de corpus sont abordées.Le troisième chapitre résume l'apport de la thèse en ce qui concerne la recherche sur les corpus tirés d'internet. La question de la collection des données est examinée avec une attention particulière, tout spécialement le cas des URLs sources. La notion de prétraitement des corpus web est introduite, ses étapes majeures sont brossées. L'impact des prétraitements sur le résultat est évalué. La question de la simplicité et de la reproducibilité de la construction de corpus est mise en avant.La quatrième partie décrit l'apport de la thèse du point de vue de la construction de corpus proprement dite, à travers la question des sources et le problèmes des documents invalides ou indésirables. Une approche utilisant un éclaireur léger pour préparer le parcours du web est présentée. Ensuite, les travaux concernant la sélection de documents juste avant l'inclusion dans un corpus sont résumés : il est possible d'utiliser les apports des études de lisibilité ainsi que des techniques d'apprentissage artificiel au cours de la construction du corpus. Un ensemble de caractéristiques textuelles testées sur des échantillons annotés évalue l'efficacité du procédé. Enfin, les travaux sur la visualisation de corpus sont abordés : extraction de caractéristiques à l'échelle d'un corpus afin de donner des indications sur sa composition et sa qualité. / At the beginning of the first chapter the interdisciplinary setting between linguistics, corpus linguistics, and computational linguistics is introduced. Then, the notion of corpus is put into focus. Existing corpus and text definitions are discussed. Several milestones of corpus design are presented, from pre-digital corpora at the end of the 1950s to web corpora in the 2000s and 2010s. The continuities and changes between the linguistic tradition and web native corpora are exposed.In the second chapter, methodological insights on automated text scrutiny in computer science, computational linguistics and natural language processing are presented. The state of the art on text quality assessment and web text filtering exemplifies current interdisciplinary research trends on web texts. Readability studies and automated text classification are used as a paragon of methods to find salient features in order to grasp text characteristics. Text visualization exemplifies corpus processing in the digital humanities framework. As a conclusion, guiding principles for research practice are listed, and reasons are given to find a balance between quantitative analysis and corpus linguistics, in an environment which is spanned by technological innovation and artificial intelligence techniques.Third, current research on web corpora is summarized. I distinguish two main approaches to web document retrieval: restricted retrieval and web crawling. The notion of web corpus preprocessing is introduced and salient steps are discussed. The impact of the preprocessing phase on research results is assessed. I explain why the importance of preprocessing should not be underestimated and why it is an important task for linguists to learn new skills in order to confront the whole data gathering and preprocessing phase.I present my work on web corpus construction in the fourth chapter. My analyses concern two main aspects, first the question of corpus sources (or prequalification), and secondly the problem of including valid, desirable documents in a corpus (or document qualification). Last, I present work on corpus visualization consisting of extracting certain corpus characteristics in order to give indications on corpus contents and quality.
|
Page generated in 0.0786 seconds