• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • 1
  • Tagged with
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Nivelación y frecuencia de las palabras de Plan Curricular del Instituto Cervantes : Una comparación entre el nivel de las palabras de Plan Curricular del Instituto Cervantes y su frecuencia en Corpus del Español del Siglo XXI (CORPES) / PCIC words and their order of frequency according to CORPES XXI

Haraldson, Jakob January 2021 (has links)
Plan Curricular del Instituto Cervantes (PCIC) es la versión española del Marco Común Europeo de Referencia para las lenguas (MCER). La meta con el estudio es investigar como son los niveles A1-C2 del PCIC desde una vista de la frecuencia de las palabras. Seleccionamos de distintos campos semánticos 318 palabras de 53 subgrupos y de los seis niveles A1-C2, para tener una amplia y fiable selección de datos. A continuación, para encontrar la frecuencia de las palabras se usa CORPES XXI, la versión 0.93 de 2021. En los resultados existe una grande superposición y desviación, y no hay límites claros que difieren los niveles A1-C2 entre sí. A pesar de esto, se puede concluir en general que una palabra del nivel A1 tiene una frecuencia más alta que una palabra de A2, que en su turno tiene más alta frecuencia que la de B1, y así sucesivamente, un descenso de frecuencia. Hemos visto un patrón general, de las medidas de tendencia central, que sirve como idea básica para calcular y concluir lo siguiente sobre las 318 palabras de este estudio: 74% de las palabras A1-A2 caben dentro de las 3 mil más frecuentes palabras. 81% de las palabras B1-B2 caben dentro de las 10 mil más frecuentes palabras, mientras 75% de las palabras C1-C2 caben dentro de las 17 mil más frecuentes palabras. En total, más de 90% de todas las palabras en el estudio caben dentro de las 20 mil palabras más frecuentes. Esta cantidad, 20 mil, sería a su vez una aproximación al vocabulario que pertenece al aprendiente de segunda lengua. / Plan Curricular del Instituto Cervantes (PCIC) is the Spanish version of the Common European Framework of Reference for Languages ​​(CEFR). The purpose of this study is to observe the A1-C2 levels of PCIC regarding the frequency of words. In PCIC, 318 words were selected from different semantic fields in 53 subgroups and the six levels A1-C2 to give a wide and reliable selection of data. Then, to find the frequency of the words, they were compared with CORPES XXI, version 0.93 from 2021.  The results show that there are no clear boundaries that separate the different levels A1-C2 from each other, they overlap, and there are large deviations and variations. Nevertheless, one can generally conclude that a word at A1 level has a higher frequency than a word in A2, which in turn has a higher frequency than in B1, and so on, a decrease in frequency. Using measures of central tendency, it was possible to distinguish a general pattern and calculate the following about the 318 words in this study: 74% of the A1-A2 words fit within the 3,000 most frequent words. 81% of the B1-B2 words fit within the 10,000 most frequent words, while 75% of the C1-C2 words fit within the 17,000 most frequent words. In total, over 90% of all words in the study fit within the 20,000 most frequent words. This number, 20,000, is possibly something close to the vocabulary that could be attributed to the second language learner.
2

Confidence Measures for Alignment and for Machine Translation / Mesures de Confiance pour l’Alignement et pour la Traduction Automatique

Xu, Yong 26 September 2016 (has links)
En linguistique informatique, la relation entre langues différentes est souventétudiée via des techniques d'alignement automatique. De tels alignements peuvent êtreétablis à plusieurs niveaux structurels. En particulier, les alignements debi-textes aux niveaux phrastiques et sous-phrastiques constituent des sources importantesd'information dans pour diverses applications du Traitement Automatique du Language Naturel (TALN)moderne, la Traduction Automatique étant un exemple proéminent.Cependant, le calcul effectif des alignements de bi-textes peut êtreune tâche compliquée. Les divergences entre les langues sont multiples,de la structure de discours aux constructions morphologiques.Les alignements automatiques contiennent, majoritairement, des erreurs nuisantaux performances des applications.Dans cette situation, deux pistes de recherche émergent. La première est de continuerà améliorer les techniques d'alignement.La deuxième vise à développer des mesures de confiance fiables qui permettent aux applicationsde sélectionner les alignements selon leurs besoins.Les techniques d'alignement et l'estimation de confiance peuvent tous les deuxbénéficier d'alignements manuels.Des alignements manuels peuventjouer un rôle de supervision pour entraîner des modèles, et celuides données d'évaluation. Pourtant, la création des telles données est elle-mêmeune question importante, en particulier au niveau sous-phrastique, où les correspondancesmultilingues peuvent être implicites et difficiles à capturer.Cette thèse étudie des moyens pour acquérir des alignements de bi-textes utiles, aux niveauxphrastiques et sous-phrastiques. Le chapitre 1 fournit une description de nos motivations,la portée et l'organisation du travail, et introduit quelques repères terminologiques et lesprincipales notations.L'état-de-l'art des techniques d'alignement est revu dans la Partie I. Les chapitres 2 et3 décriventles méthodes respectivement pour l'alignement des phrases et des mots.Le chapitre 4 présente les bases de données d'alignement manuel,et discute de la création d'alignements de référence. Le reste de la thèse, la Partie II,présente nos contributions à l'alignement de bi-textes, en étudiant trois aspects.Le chapitre 5 présente notre contribution à la collection d'alignements de référence. Pourl'alignement des phrases, nous collectons les annotations d'un genre spécifiquede textes: les bi-textes littéraires. Nous proposons aussi un schéma d'annotation deconfiance. Pour l'alignement sous-phrastique,nous annotons les liens entre mots isolés avec une nouvelle catégorisation, et concevonsune approche innovante de segmentation itérative pour faciliter l'annotation des liens entre groupes de mots.Toutes les données collectées sont disponibles en ligne.L'amélioration des méthodes d'alignement reste un sujet important de la recherche. Nousprêtons une attention particulière à l'alignement phrastique, qui est souvent le point dedépart de l'alignement de bi-textes. Le chapitre 6 présente notre contribution. En commençantpar évaluer les outils d'alignement d'état-de-l'art et par analyser leurs modèles et résultats,nous proposons deux nouvelles méthodes pour l'alignement phrastique, qui obtiennent desperformances d'état-de-l'art sur un jeu de données difficile.L'autre sujet important d'étude est l'estimation de confiance. Dans le chapitre 7, nousproposons des mesures de confiance pour les alignements phrastique et sous-phrastique.Les expériences montrent que l'estimation de confiance des liens d'alignement reste undéfi remarquable. Il sera très utile de poursuivre cette étude pour renforcer les mesuresde confiance pour l'alignement de bi-textes.Enfin, notons que les contributions apportées dans cette thèse sont employées dans uneapplication réelle: le développement d'une liseuse qui vise à faciliter la lecturedes livres électroniques multilingues. / In computational linguistics, the relation between different languages is often studied through automatic alignment techniques. Such alignments can be established at various structural levels. In particular, sentential and sub-sentential bitext alignments constitute an important source of information in various modern Natural Language Processing (NLP) applications, a prominent one being Machine Translation (MT).Effectively computing bitext alignments, however, can be a challenging task. Discrepancies between languages appear in various ways, from discourse structures to morphological constructions. Automatic alignments would, at least in most cases, contain noise harmful for the performance of application systems which use the alignments. To deal with this situation, two research directions emerge: the first is to keep improving alignment techniques; the second is to develop reliable confidence measures which enable application systems to selectively employ the alignments according to their needs.Both alignment techniques and confidence estimation can benefit from manual alignments. Manual alignments can be used as both supervision examples to train scoring models and as evaluation materials. The creation of such data is, however, an important question in itself, particularly at sub-sentential levels, where cross-lingual correspondences can be only implicit and difficult to capture.This thesis focuses on means to acquire useful sentential and sub-sentential bitext alignments. Chapter 1 provides a non-technical description of the research motivation, scope, organization, and introduces terminologies and notation. State-of-the-art alignment techniques are reviewed in Part I. Chapter 2 and 3 describe state-of-the-art methods for respectively sentence and word alignment. Chapter 4 summarizes existing manual alignments, and discusses issues related to the creation of gold alignment data. The remainder of this thesis, Part II, presents our contributions to bitext alignment, which are concentrated on three sub-tasks.Chapter 5 presents our contribution to gold alignment data collection. For sentence- level alignment, we collect manual annotations for an interesting text genre: literary bitexts, which are very useful for evaluating sentence aligners. We also propose a scheme for sentence alignment confidence annotation. For sub-sentential alignment, we annotate one-to-one word links with a novel 4-way labelling scheme, and design a new approachfor facilitating the collection of many-to-many links. All the collected data is released on-line.Improving alignment methods remains an important research subject. We pay special attention to sentence alignment, which often lies at the beginning of the bitext alignment pipeline. Chapter 6 presents our contributions to this task. Starting by evaluating state-of-the-art aligners and analyzing their models and results, we propose two new sentence alignment methods, which achieve state-of-the-art performance on a difficult dataset.The other important subject that we study is confidence estimation. In Chapter 7, we propose confidence measures for sentential and sub-sentential alignments. Experiments show that confidence estimation of alignment links is a challenging problem, and more works on enhancing the confidence measures will be useful.Finally, note that these contributions have been employed in a real world application: the development of a bilingual reading tool aimed at facilitating the reading in a foreign language.

Page generated in 0.0645 seconds