• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 87
  • 84
  • 72
  • 4
  • 2
  • 1
  • 1
  • 1
  • Tagged with
  • 251
  • 235
  • 232
  • 222
  • 106
  • 85
  • 76
  • 27
  • 24
  • 16
  • 16
  • 15
  • 15
  • 14
  • 12
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
51

Translating under time constraints in an undergraduate context: a study of students' products, processes and learning styles

Kourouni, Kyriaki 10 July 2012 (has links)
El presente estudio analiza de forma empírica si los estilos de aprendizaje se correlacionan significativamente con la calidad de traducción, cuando la tarea de traducción se desarrolla bajo restricciones de tiempo cada vez mayores. Además, el estudio vincula la práctica pedagógica con la realidad profesional, a la vez que potencia las sinergias entre dicha práctica pedagógica y la investigación empírica en el campo de la traducción. El estudio se construye gradualmente sobre el análisis de los patrones de rendimiento basado en el producto y los patrones de rendimiento basado en el proceso resultantes y luego destaca los vínculos pertinentes de la variable personal de estilos de aprendizaje. Todo ello sobre la base de los datos obtenidos sobre un total de 84 estudiantes universitarios de traducción de la Facultad de filología inglesa de la Universidad Aristóteles de Tesalónica en Grecia. Los resultados apuntan a un estilo de aprendizaje que se correlaciona significativamente con la calidad de la traducción cuando se trabaja con plazos de entrega relativamente más amplios y otro distinto cuando se aumentan las restricciones de tiempo. La evidencia empírica sugiere que los participantes experimentan un estado cognitivo de "shock" cuando sufren restricciones de tiempo cada vez mayores. Las conclusiones parecen indicar que es aconsejable favorecer un ambiente de aprendizaje que tenga en cuenta los diferentes estilos de aprendizaje de los estudiantes. / The present study examines empirically whether learning styles significantly correlate with translation quality when the translation task takes place under increasing time constraints. It strives to link pedagogical practice with professional reality, while promoting synergies between pedagogical practice and empirical translation research. The study gradually builds on the analysis of emerging product- and process-based performance patterns and then highlights pertinent links with the personal variable of learning styles, on the basis of data collected from a total of 84 undergraduates studying translation at the School of English, Aristotle University of Thessaloniki, Greece. Results point to a learning style that correlates significantly with translation quality when working under a relatively relaxed deadline, and to a different one when time constraints increase. Empirical evidence also suggests that participants undergo a state of cognitive “shock” when under increasing time constraints. The conclusions seem to indicate it is worthwhile favoring a learning environment which will take into account students’ different learning styles.
52

Towards a model for terminology planning

Zarnikhi, Abolfazl 29 July 2014 (has links)
This research is based on the hypothesis that all terminological activities are founded upon some fundamental principles which, at the same time, are manifested in sociolinguistic context-bound variations or parameters. Answering the research questions, the thesis gains an advantage of employing both field research and literature. The former deals with carrying out a comparative study and using a maximum variation sampling technique for gathering data from Termcat, TNC, DGLFLF and the Academy of Persian Language and Literature (APLL). To control the study in a systematic way, a questionnaire concentrating on macro- and micro-structures of the target organizations has been prepared as a route map. The research also derives benefit of literature from more than thirty linguistic situations. The data were first coded and then thematically categorized according to their major similarities. The results came within three components: planning theory, linguistics of science and implementation layers. In the next step, the thesis found the second level of similarities or universal principles. The data processing continued to arrive at minor (universal or restricted) principles. The final form of a terminology planning work is determined by parameters arising out of “values”, put under nodes of principles. The values are, in fact, sociolinguistic potentialities developed and limitations imposed by a specific ecolinguistic environment. / Esta investigación se basa en la hipótesis de que todas las actividades terminológicas se fundamentan en algunos principios fundamentales, principios que, al mismo tiempo, se manifiestan en variaciones o parámetros relaciona con el contexto sociolingüístico. Para responder a las preguntas de investigación, la tesis utiliza tanto el trabajo de campo como la bibliografíala. En relación al trabajo de campo, se ha realizado un estudio comparativo de cuatro centros de Terminología (Termcat, TNC, DGLFLF y la Academia de la lengua persa y Literatura (APLL), usando una técnica de muestreo de máxima variación para la recopilación de datos, Para controlar la sistematicidad del estudio, hemos elaborado un cuestionario centrándonos en la microestructura y la macroestructura de las cuatro organizaciones, presentado en forma de hoja de ruta. La investigación presenta además los datos de una treintena de otros casos, a partir de los datos aportados por la bibliografía. Los datos recopilados han sido codificados y luego categorizados temáticamente sobre la base de sus similitudes principales. Los resultados se han organizado en tres componentes: la teoría de la planificación, la lingüística de la ciencia y las fases de aplicación. A continuación hemos analizado el segundo nivel de similitudes o principios universales. A través del procesamiento de los datos hemos establecido a principios de importancia menor (principios restringidos). En definitiva, un proyecto de planificación teinológica se concreta a partir de los parámetros derivados de "valores" o principios. Los valores son, de hecho, potencialidades sociolingüísticas limitadas por el entorno ecolingüístico específico.
53

Els Connectors Reformulatius Catalans: Anàlisi i Proposta d'Aplicació Lexicogràfica

Bach, Carme, 1971- 21 May 2001 (has links)
Material addicional: http://hdl.handle.net/10230/6335 / Aquesta tesi doctoral analitza el funcionament dels connectors reformulatius del català més utilitzats i estudia la representació d'aquest tipus d'unitats lèxiques a les obres lexicogràfiques, amb l'objectiu d'aprofundir i refinar la descripció dels connectors reformulatius i de fer una proposta d'aplicació lexicogràfica que en faciliti la representació en els diccionaris.L'anàlisi se centra en catorze connectors reformulatius: cinc de parafràstics i nou de no parafràstics. L'estudi demostra que cada unitat reformulativa té un nucli estable d'informació i uns altres trets parametritzables en funció del context en què cada unitat apareix. Cada connector pren un valor determinat per la instrucció bàsica que vehicula, el tipus de moviment que permet realitzar i l'abast de la reformulació que efectua.El treball es complementa amb una proposta de representació lexicogràfica dels connectors reformulatius (ALCOR) implementada en html, hipertextual i dinàmica. Aquesta eina pretén ser una ajuda per als lexicògrafs en la realització de diccionaris i més concretament en la inclusió dels connectors. / Esta tesis doctoral analiza el funcionamiento de los conectores reformulativos del catalán más usados y estudia la representación de este tipo de unidades léxicas en las obras lexicográficas, con el objetivo de profundizar y refinar la descripción de los conectores reformulativos y de hacer una propuesta de aplicación lexicográfica que facilite su representación en los diccionarios.El análisis se circunscribe a catorce conectores reformulativos: cinco parafrásticos y nueve no parafrásticos. El estudio demuestra que cada unidad reformulativa se compone de un núcleo estable de información y de unos rasgos parametrizables en función del contexto en que cada unidad aparece. Cada conector adquiere un valor determinado por la instrucción básica que vehicula, el tipo de movimiento que permite realizar y el alcance de la reformulación que lleva a cabo.El trabajo se complementa con una propuesta de representación lexicográfica de los conectores reformulativos (ALCOR) implementada en html, hipertextual y dinámica. Esta herramienta pretende servir de ayuda a los lexicógrafos en la realización de los diccionarios y más concretamente en la representación de los conectores en ellos.
54

Los sintagmas nominales extensos especializados en inglés y en español: descripción y clasificación en un corpus de genoma

Quiroz Herrera, Gabriel 15 May 2008 (has links)
En esta tesis doctoral se describen y clasifican los sintagmas nominales extensos especializados (SNEE) de más de tres tokens en inglés y en español en textos especializados del nivel experto-experto en el área del genoma.En resumen, los fenómenos que se analizarán en esta tesis pueden resumirse básicamente en: a) el estudio de la premodificación compleja de los sintagmas nominales en inglés; b) el estudio de la posmodificación en español; c) el análisis de la correlación entre las estructuras y las categorías semánticas; d) las tendencias semánticas de estos sintagmas en cuantos a clases y patrones; e) el comportamiento de los sintagmas nominales extensos en diccionarios especializados y corpus de referencia; f) y, finalmente las tendencias de traducción de este tipo de sintagmas en un corpus paralelo.El comportamiento y las regularidades obtenidas permiten a profesionales de las lenguas inglesa y española tener una herramienta que les permita solucionar adecuadamente los sintagmas nominales con premodificación extensa.
55

Annotation of regular polysemy: an empirical assessment of the underspecified sense

Martínez Alonso, Héctor 19 December 2013 (has links)
Words that belong to a semantic type, like location, can metonymically behave as a member of another semantic type, like organization. This phenomenon is known as regular polysemy. In Pustejovsky's (1995) Generative Lexicon, some cases of regular polysemy are grouped in a complex semantic class called a dot type. For instance, the sense alternation mentioned above is the location organization dot type. Other dot types are for instance animal meat or container content. We refer to the usages of dot-type words that are potentially both metonymic and literal as underspeci ed. Regular polysemy has received a lot of attention from the theory of lexical semantics and from computational linguistics. However, there is no consensus on how to represent the sense of underspeci ed examples at the token level, namely when annotating or disambiguating senses of dot types. This leads us to the main research question of the dissertation: Does sense underspeci cation justify incorporating a third sense into our sense inventories when dealing with dot types at the token level, thereby treating the underspeci ed sense as independent from the literal and metonymic? We have conducted an analysis in English, Danish and Spanish on the possibility to annotate underspeci ed senses by humans. If humans cannot consistently annotate the underspeci ed sense, its applicability to NLP tasks is to be called into question. Later on, we have tried to replicate the human judgments by means of unsupervised and semisupervised sense prediction. Achieving an NLP method that can reproduce the human judgments for the underspeci ed sense would be suf- cient to postulate the inclusion of the underspeci ed in our sense inventories. The human annotation task has yielded results that indicate that the kind of annotator (volunteer vs. crowdsourced from Amazon Mechanical Turk) is a decisive factor in the recognizability of the underspeci ed sense. This sense distinction is too nuanced to be recognized using crowdsourced annotations. The automatic sense-prediction systems have been unable to nd empiric evidence for the underspeci ed sense, even though the semisupervised system recognizes the literal and metonymic senses with good performance. In this light, we propose an alternative representation for the sense alternation of dot-type words where literal and metonymic are poles in a continuum, instead of discrete categories. / Las palabras de una clase sem antica como lugar pueden comportarse meton - micamente como miembros de otra clase sem antica, como organizaci on. Este fen omeno se denomina polisemia regular. En el Generative Lexicon de Pustejovsky (1995), algunos casos de polisemia regular se encuentran agrupados en una clase sem antica compleja llamada dot type. Por ejemplo, la alternaci on de sentidos anterior es el dot type lugar orga- nizaci on. Otros ejemplos de dot type son animal carne or contenedor con- tenido. Llamamos subespeci cados a los usos de palabras pertenecientes a un dot type que son potentialmente literales y met onimicos. La polisemia regular ha recibido mucha atenci on desde la teor a en sem antica l exica y desde la ling u stica computacional. Sin embargo, no existe un consenso sobre c omo representar el sentido de los ejemplos subespeci cados al nivel de token, es decir, cuando se anotan o disambiguan sentidos de palabras de dot types. Esto nos lleva a la principal pregunta de esta tesis: >Justi ca la subespeci- caci on la incorporaci on de un tercer sentido a nuestros inventarios de sentidos cuando tratamos con dot types a nivel de token, tratando de este modo el el sentido subespeci cado como independiente de los sentidos met onimico y literal? Hemos realizado un an alisi en ingl es, dan es y espa~nol sobre la posibilidad de anotar sentidos subespeci cados usando informantes. Si los humanos no pueden annotar el sentido subespeci cado de forma consistente, la aplicabilidad del mismo en tareas computacionales ha de ser puesta en tela de juicio. Posteriormente hemos tratado de replicar los juicios humanos usando aprendizaje autom atico. Obtener un m etodo computacional que reproduzca los juicios humanos para el sentido subespeci cado ser a su ciente para incluirlo en los inventarios de sentidos para las tareas de anotaci on. La anotaci on humana ha producido resultados que indican que el tipo de anotador (voluntario o crowdsourced mediante Amazon Mechanical Turk) es un factor decisivo a la hora de reconocer el sentido subespeci cado. Esta diferenciaci on de sentidos requiere demasiados matices de interpretaci on como para poder ser anotada usando Mechanical Turk. Los sistemas de predicci on autom atica de sentidos han sido incapaces de identi car evidencia emp rica su ciente para el sentido subespeci cado, a pesar de que la tarea de reconocimiento semisupervisado reconoce los sentidos literal y meton mico de forma satisfactoria. Finalmente, propones una representaci on alternativa para la representaci on de sentidos de las palabras de dot types en la que literal y met onimico son polos en un cont nuo en lugar de categor as discretas.
56

Index of idiolectal similitude for the phonological module of English applied to forensic speech comparison

Gavaldà Ferré, Núria 12 September 2013 (has links)
The framework of the present PhD dissertation is the area that results from the overlap between the field of variationist sociolinguistics and forensic linguistics, which mainly concerns the study of variation between different individuals –inter-speaker variation– and variation within a single individual –intra-speaker variation– for forensic purposes. The primary objective of the present dissertation is twofold. On the one hand, it proposes a protocol for the creation of an Index of Idiolectal Similitude (IIS) for the phonological module of English that can effectively determine whether two oral samples show inter-speaker variation –which would indicate that the samples have been produced by two different individuals– or intra-speaker variation –which would allow to conclude that the samples have been produced by the same individual. On the other hand, the analysis of the fourteen variables proposed in a corpus that contains data on sixteen speakers and that is stratified according to measurement time –as a result of a real time study–, language contact and gender, provides an important contribution to the Base Rate knowledge, which constitutes one of the main challenges of current forensic linguistics. Results show that inter-speaker variation is generally higher than intra-speaker variation, and that a speaker’s idiolectal style remains relatively stable over time. Therefore, the IIS is presented as an innovative quantitative tool which, together with other quantitative and qualitative techniques that the linguist acting as expert witness may have at their disposition, can help reach a conclusion regarding the probability of two samples having been produced or not by the same speaker. / Aquesta tesi doctoral s’emmarca dins l’àrea comú on es troben els camps de la sociolingüística de la variació i la lingüística forense, en la qual es troba l’estudi de la variació entre diferents individus –variació inter-parlant– i la variació en del mateix individu –variació intra-parlant– amb finalitats forenses. La investigació té dos objectius principals. D’una banda, es proposa el protocol per a la creació d’un Índex de Similitud Idiolectal (ISI) per al mòdul fonològic de l’anglès que pot determinar de manera efectiva si dues mostres orals mostren variació inter-parlant –que indicaria que les mostres haurien estat produïdes per dos individus diferents– o variació intra-parlant –la qual cosa portaria a concloure que les mostres haurien estat produïdes pel mateix individu. D’altra banda, l’anàlisi de les catorze variables proposades en un corpus que conté setze parlants i que està estratificat per temps de mesura –com a resultat d’un estudi en temps real–, contacte de llengües i gènere biològic, comporta una contribució important a la referència de distribució poblacional (Base Rate Knowledge) que constitueix un dels grans reptes de la lingüística forense actual. Els resultats mostren que la variació inter-parlant és generalment més alta que la intra-parlant, i que l’estil idiolectal d’un individu es manté relativament estable malgrat el pas del temps. Per tant, l’ISI es presenta com una eina quantitativa innovadora que, juntament amb altres tècniques quantitatives i qualitatives que el lingüista forense pot tenir a la seva disposició, pot ajudar a prendre una decisió sobre la probabilitat que dues mostres hagin estat produïdes o no pel mateix parlant.
57

Les Subentrades en els diccionaris generals

Mestres i Serra, Josep M., 1956- 02 May 2006 (has links)
In the macrostructure of general monolingual dictionaries, hitherto subentries have been dealt with in an asystematic and poor fashion with regard to the entries. This point of departure has led us to the demonstration of this asystematic nature in six modern dictionaries from six different Romance languages and to formulate useful proposals to make better and more comprehensive general dictionaries, particularly in Catalan language. The thesis consists of two volumes and a CD-ROM containing the whole text, as well as the four unprinted annexes of the corpus’ extraction grids. Volume I establishes the initial hypotheses, and provides a detailed review of the characteristics of the general monolingual dictionary and of the dictionary article; it studies the concept of subentry, both from the theoretical point of view and from that of the practical use that lexicographers make of it; it addresses the selection, layout, graphic representation, linguistic information and the illustration of the use of subentries, and describes, sets and classifies the units which are subentries: phraseological units. Volume II describes the study corpus and the methodology used; it presents the quantitative and qualitative analyses of data and the discussion of results; it formulates proposals for improvement in the treatment of subentries, and closes with some general conclusions that answer the initial hypotheses. Finally, there is the bibliography, the annexes of the most important data and a detailed general index of the whole work. / En la macroestructura dels diccionaris generals monolingües, les subentrades han estat tractades, fins ara, d’una manera asistemàtica i pobra respecte al tractament que reben les entrades. Aquest punt de partida ha menat a demostrar aquesta asistematicitat en sis diccionaris actuals de cinc llengües romàniques diferents i a formular propostes útils per a la compleció i la millora dels diccionaris generals, especialment els de llengua catalana. La tesi consta de dos volums i d’un CD-ROM que en recull tot el text, incloent-hi els quatre annexos no impresos de les graelles de buidatge del corpus. El volum I planteja uns supòsits de partida i fa un repàs detallat de les característiques del diccionari general monolingüe i de l’article de diccionari; estudia el concepte de subentrada, tant des del punt de vista teòric com quant a l’ús pràctic que en fan els lexicògrafs; aborda la selecció, la disposició, la representació gràfica, la informació lingüística i la il•lustració sobre l’ús de les subentrades, i descriu, fixa i classifica les unitats que són subentrades: les unitats fraseològiques. El volum II descriu el corpus d’estudi i la metodologia seguida; presenta les anàlisis quantitativa i qualitativa de les dades i la discussió dels resultats; formula propostes de millora per al tractament de les subentrades i clou l’estudi amb unes conclusions generals que donen resposta als supòsits de partida. Finalment, hi ha la bibliografia, els annexos de dades més importants i un detallat índex general de tota l’obra. / En la macroestructura de los diccionarios generales monolingües, las subentradas han sido tratadas, hasta ahora, de manera asistemática y pobre respecto al tratamiento que reciben las entradas. Este punto de partida ha llevado a demostrar dicha asistematicidad en seis diccionarios actuales de cinco lenguas románicas distintas y a formular propuestas útiles para la compleción y la mejora de los diccionarios generales, especialmente los de lengua catalana. La tesis consta de dos volúmenes y de un CD-ROM que recoge la totalidad del texto, incluyendo los cuatro anexos no impresos de las tablas de vaciado del corpus. El volumen I plantea unos supuestos de partida y realiza un repaso detallado de las características del diccionario general monolingüe y del artículo de diccionario; estudia el concepto de subentrada, tanto desde el punto de vista teórico como en cuanto al uso práctico llevado a cabo por los lexicógrafos; aborda la selección, la disposición, la representación grafica, la información lingüística i la ilustración sobre el uso de las subentradas, y describe, fija y clasifica las unidades que son subentradas: las unidades fraseológicas. El volumen II describe el corpus de estudio y la metodología seguida; presenta los análisis cuantitativo y cualitativo de los datos y la discusión de los resultados; formula propuestas de mejora para el tratamiento de las subentradas y termina el estudio con unas conclusiones generales que dan respuesta a los supuestos de partida. Finalmente, constan la bibliografía, los anexos de datos más importantes y un detallado índice general de toda la obra.
58

El anglicismo terminológico integral en los textos especializados: pautas para su tratamiento automatizado

Márquez Rojas, Melva Josefina 10 February 2005 (has links)
Se realiza un estudio descriptivo con orientación aplicada del anglicismo que aparece sin modificaciones formales en los textos especializados y divulgativos dentro del ámbito de la informática. Se proponen dos objetivos: Por un lado, describir modularmente el entorno textual de esta unidad léxica, denominada en el estudio Anglicismo Terminológico Integral (ATI); por el otro lado, proponer pautas en pseudocódigos para el procesamiento automatizado de este tipo de unidades sobre la base de patrones sistemáticos hallados en los análisis lingüísticos. Para el estudio, cuyo núcleo metodológico lo constituye un corpus de textos especializados y divulgativos representativos de las variedades venezolana y peninsular del español, se consideran cinco hipótesis: (1) Se considera el ATI como una unidad lingüística, funcional y cognitiva que, siguiendo indicadores como frecuencia de aparición, nivel de pertinencia y grado de estabilidad lingüística, puede ser incorporada progresivamente en calidad de neologismo; (2) el ATI no cumple con los criterios de univocidad, monosemia y monorreferencialidad propuestos por la Teoría General de la Terminología; por lo tanto, es susceptible de variación conceptual y denominativa; (3) el género y número gramaticales de los ATIs en contexto pueden ser explicados a partir de ciertos criterios regulares; (4) tanto los elementos deícticos como los marcadores reformulativos parafrásticos pueden contribuir en la acogida del ATI dentro del discurso escrito; (5) y (6) el reconocimiento de características formales de los ATIs permiten proponer pautas para etiquetaje morfosintáctico y pautas para el reconocimiento de estas unidades como candidatos a términos. Para la realización de los análisis lingüísticos se diseña una base de datos relacional. Los resultados obtenidos dan cuenta de una tendencia hacia la lexicalización de ATIs que son nombres propios, la sistematización en el uso de elementos morfológicos como los pseudoprefijos y algunas unidades léxicas utilizadas en la composición, la variación denominativa y conceptual de los ATIs en contexto, la posibilidad de presentar diferentes explicaciones sistemáticas a la asignación del género y número gramaticales y la contribución de elementos formales contextuales al anclaje del ATI en textos especializados y divulgativos en el español de la informática. Se comprueban, entonces, las hipótesis del estudio. Posteriormente, se proponen pautas para el procesamiento automatizado de ATIs en textos escritos en español dentro del ámbito de la informática.
59

L'aprenentatge automàtic incremental i la seva aplicació al PLN inter-actiu

Benavent i Portabella, Francesc 29 November 2013 (has links)
En aquest treball es proposa utilitzar tècniques d’Aprenentatge Automàtic Incremental, també conegut com Aprenentatge On-line, per resoldre tasques de Processament de Llenguatge Natural de manera més eficient. També s’estudia la viabilitat tècnica de la seva aplicació en el desenvolupament d’entorns Inter-Actius d’anotació lingüística. El document està estructurat en tres parts: la justificació conceptual de la proposta, la viabilitat tècnica a partir de l’estat de la qüestió i les proves experimentals per obtenir dades quantitatives sobre l’eficiència assolida. La primera part descriu la situació actual, basada en el paradigma d’aprenentatge batch, en qüestiona el consens existent i exposa les seves limitacions: econòmiques, tècniques i metodològiques. A continuació, presenta el paradigma incremental i planteja la manera en què una arquitectura Inter-Activa, basada en l’aprenentatge actiu i els algorismes incrementals, podria minimitzar el coll d’ampolla associat a l’anotació manual del corpus. La segona part presenta l’estat de la qüestió de l’Aprenentatge Automàtic Incremental: els algorismes d’inducció de models, les arquitectures de combinació de classificadors i les tècniques auxiliars d’optimització i avaluació. La tercera part del treball descriu la metodologia utilitzada en una sèrie de proves experimentals, amb quatre tasques de PLN, amb l’objectiu de quantificar la qualitat dels models induïts i l’eficiència dels entrenaments. Presenta els resultats de més d’un centenar d’experiments, analitza i justifica les corbes d’avaluació obtingudes i compara els entrenaments en termes de precisió i eficiència assolida. Els resultats dels experiments validen la hipòtesi principal del treball, que defensa que mitjançant l’entrenament Inter-Actiu és possible obtenir models classificadors tant o més precisos que amb l’entrenament estàndard, però utilitzant tan sols una fracció del corpus existent; concretament, i segons les proves realitzades, requerint entre 5 i 100 vegades menys exemples. Així mateix, també s’aprofundeix en l’anàlisi de les dades obtingudes durant els entrenaments basats en l’aprenentatge actiu, especialment en l’evolució dels graus de certesa de les seves classificacions i de la precisió d’aquestes estimacions. A partir d’aquestes dades es conclou que la selecció d’exemples basada en un llindar de certesa constant és massa sensible al valor triat, i es suggereix investigar algorismes d’entrenament actiu basats en llindars de certesa dinàmics. / In this work we propose the use of Incremental Machine Learning, also known as On-Line Learning, to solve Natural Language Processing tasks in a more efficient way. We also study the technical feasibility of its application to the development of inter-active environments of linguistic annotation. The document is structured in three parts: the conceptual justification of the proposal, the technical feasibility by grounding it on state of the art techniques, and the experimental tests performed to obtain quantitative data about the efficiency achieved. The first part describes the current trends in NLP based on the batch learning paradigm, it questions the existent consensus and it exposes its limitations: economical, technical and methodological. Right after, it presents the incremental paradigm and it outlines how an Inter-Active architecture, based on active learning and incremental algorithms, could minimize the bottleneck related to the manual corpus annotation. The second part presents state of the art Incremental Machine Learning: the algorithms of model induction, the classifier combination architectures and the auxiliary techniques for optimization and evaluation. The third part of this work describes the methodology used in a set of experimental tests, on four NLP tasks, with the goal of quantifying the quality of the induced models and the training efficiency. It presents the results of more than a hundred experiments, and it analyzes and justifies its evaluation curves and compares the different trainings on the achieved precision and efficiency. The results of the experiments validate the main hypothesis of this work, which is that Inter-Active training makes it possible to obtain classifier models with as much or higher precision than with standard training, but using just a fraction of the existent corpus; in particular, and according to the results, reducing the number of training examples needed between 5 and 100 times. Additionally, it also goes into detail in the analysis of the data obtained during the training based on active learning, especially on the evolution of the confidence levels of its classifications and the precision of these estimations. From this data we conclude that the example selection based on a constant confidence threshold is too sensitive to the given value, and we propose to research active training algorithms based on dynamic confidence thresholds. / En este trabajo se propone utilizar técnicas de Aprendizaje Automático Incremental, también conocido como Aprendizaje On-Line, para resolver tareas de Procesamiento de Lenguaje Natural de manera más eficiente. También estudia la viabilidad técnica de su aplicación en el desarrollo de entornos Inter-Activos de anotación lingüística. El documento está estructurado en tres partes: la justificación conceptual de la propuesta, la viabilidad técnica a partir del estado de la cuestión y las pruebas experimentales para obtener datos cuantitativos sobre la eficiencia conseguida. La primera parte describe la situación actual, basada en el paradigma de aprendizaje batch, cuestiona el consenso existente y expone sus limitaciones: económicas, técnicas y metodológicas. A continuación, presenta el paradigma incremental y plantea la forma en que una arquitectura Inter-Activa, basada en el aprendizaje activo y los algoritmos incrementales, podría minimizar el cuello de botella asociado a la anotación manual de corpus. La segunda parte presenta el estado de la cuestión del Aprendizaje Automático Incremental: los algoritmos de inducción de modelos, las arquitecturas de combinación de clasificadores y las técnicas auxiliares de optimización y evaluación. La tercera parte del trabajo describe la metodología utilizada en una serie de pruebas experimentales, con cuatro tareas de PLN, con el objetivo de cuantificar la calidad de los modelos inducidos y la eficiencia de los entrenamientos. Presenta los resultados de más de un centenar de experimentos, analiza y justifica las curvas de evaluación obtenidas y compara los entrenamientos en términos de precisión y eficiencia alcanzada. Los resultados validan la hipótesis principal del trabajo, que defiende que mediante el entrenamiento Inter-Activo es posible obtener modelos clasificadores tan o más precisos que con el entrenamiento estándar, pero utilizando únicamente una fracción del corpus existente; concretamente, y según las pruebas realizadas, requiriendo entre 5 y 100 veces menos ejemplos. Así mismo, también profundiza en el análisis de los datos obtenidos durante los entrenamientos basados en el aprendizaje activo, especialmente en la evolución de los grados de certeza de sus clasificaciones y de la precisión de estas estimaciones. A partir de estos datos se concluye que la selección de ejemplos basada en un umbral de certeza es demasiado sensible al valor elegido, y se sugiere investigar algoritmos de entrenamiento basados en umbrales de certeza dinámicos.
60

Perceived foreign accent and comprehensibility in the oral production of adolescent learners of English : study abroad vs. at home learning contexts

Río San Román, Carmen del 17 December 2013 (has links)
The aim of the present research study is to examine the contrasting effects of two learning contexts, study abroad (SA) vs. at home (AH), on the language development of Spanish adolescent learners of English. It focuses on the dimensions of foreign accent (FA) and comprehensibility in the target language. First, we explore learners’ linguistic progress in these speech dimensions by assessing the impact of a 3-month SA programme on the extemporaneous speech of a group of 25 learners, and compare their results with those obtained by a control group of 31 learners receiving classroom instruction at home. For that purpose, speech samples were collected for each group longitudinally at two different points in time, before (Pre-test) and after (Post-test) the SA and the formal instruction (FI) context, respectively. A group of non-native listeners (n=12) were asked firstly to assign ratings to the samples by means of Likert scales, and then they were asked to report on the aspects that had affected their ratings most for each of the two speech dimensions analysed. Secondly, on the basis of this data, we explore the relationship between FA and comprehensibility by analysing the correlations between FA and comprehensibility scores at Pre-test and Post-test for the SA and AH participants and the information reported from the group of listeners. Results indicate that SA participants obtained significantly greater gains in FA than the AH group. The findings also suggest that the SA context was more beneficial than the AH context in terms of comprehensibility development, since the percentage of learners improving their comprehensibility scores during SA was significantly larger than the percentage of learners improving their scores in the AH context, and SA learners obtained larger comprehensibility gains than AH learners, although such improvement was not significant. In addition, results indicate that SA participants with initial lower levels of native-like accent and/or comprehensibility obtained significantly greater gains than their peers at home in both dimensions. Further analyses show significant large positive correlations between the two speech dimensions at the two testing times in the case of both groups of participants, suggesting that the more native-like accent, the greater the comprehensibility. Regarding the aspects that listeners heeded when rating speech samples, pronunciation is the main aspect taken into account when assessing L2 learners’ FA and comprehensibility. Listeners in our study did not leave aside reference to accent or native-likeness in their comprehensibility ratings. / El objetivo de este estudio es examinar el efecto de dos contextos de aprendizaje distintos, estancia en el extranjero (ES) y de instrucción formal en el aula, en el desarrollo lingüístico de adolescentes españoles aprendices del inglés. El estudio se centra en las dimensiones de acento extranjero y comprensibilidad del inglés como segunda lengua. En primer lugar, analizamos el progreso que los aprendices hacen en el grado de acento extranjero y de comprensibilidad examinando el impacto que tiene una estancia de tres meses en el extranjero sobre la producción oral de 25 aprendices, y comparando estos resultados con los obtenidos por parte de un grupo de control formado por 31 aprendices que reciben instrucción formal en el aula. Para ello, se recogieron muestras de habla de cada uno de los grupos en dos tiempos, antes y después de la estancia en el extranjero y del período de instrucción formal, respectivamente. Un grupo de 12 jueces no-nativos del inglés evaluaron el grado de acento extranjero y de comprensibilidad de las muestras de habla utilizando escalas de Likert, e indicaron los aspectos que más habían influido en las valoraciones realizadas para cada dimensión. En segundo lugar, a partir de estos datos, examinamos la relación entre acento extranjero y comprensibilidad. Por una parte analizamos las correlaciones entre las puntuaciones en ambas dimensiones de los dos grupos de participantes en los dos tiempos de recogida. Por otro lado, examinamos la información proporcionada por el grupo de jueces en cuanto a sus evaluaciones. Los resultados indican que el grupo ES obtuvo ganancias significativas mayores en cuanto al grado de acento extranjero, y que dicha estancia proporcionó también mayores beneficios en cuanto a comprensibilidad, dado que el porcentaje de aprendices que mejoraron sus puntuaciones en esta dimensión fue significativamente mayor que el porcentaje de alumnos que mejoraron en el contexto de instrucción formal, y dado que los resultados también señalaron mayores ganancias para el grupo ES, si bien esta mejora no resultó ser significativa. Asimismo, los resultados revelan que los participantes del grupo ES con un nivel inicial menor de acento nativo y de comprensibilidad obtuvieron ganancias significativas mayores en ambas dimensiones que los participantes en el contexto de instrucción formal. Asimismo, se hallaron correlaciones altas significativas entre el grado de acento y de comprensibilidad en los dos tiempos y para ambos grupos de participantes, sugiriendo que a mayor acento nativo, mayor comprensibilidad. En cuanto a los aspectos que más influyeron en las evaluaciones del acento y de la comprensibilidad de las muestras, los jueces señalaron que la pronunciación fue el factor más influyente en ambos aspectos. En sus valoraciones, los jueces relacionaron el grado de acento extranjero con la comprensibilidad de la producción oral en inglés de los aprendices.

Page generated in 0.1123 seconds