• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 11
  • 10
  • Tagged with
  • 21
  • 21
  • 14
  • 13
  • 13
  • 9
  • 6
  • 6
  • 5
  • 5
  • 4
  • 4
  • 4
  • 4
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

A crowd-powered conversational assistant for the improvement of a neural machine translation system in native peruvian language

Gómez Montoya, Héctor Erasmo 13 September 2019 (has links)
Para las comunidades más pequeñas y nativas en un país, es muy difícil encontrar información que se encuentre en su idioma original, esto debido a que su lengua no tiene el alcance ni la cantidad suficiente de hablantes, para poder seguir siendo transmitida. A este tipo de lengua se le denomina minoritaria o de pocos recursos. Una de las principales formas en las que el gobierno incentiva el proceso de multilingüismo es proporcionando educación en el idioma nativo a su población, tal es el caso de los hablantes de Shipibo-Konibo que se encuentran dispersos a lo largo de la amazonía del Perú. Ellos cuentan con colegios donde se les imparten clases en su lengua nativa para los niveles de primaria y secundaria. Sin embargo, una necesidad con la que cuentan los pobladores es que la cantidad de material educativo completamente traducido a Shipibo-Konibo es reducida. Esto debido a que el proceso de traducción es muy costoso y poco confiable. El Grupo de investigación en Inteligencia Artificial de la PUCP (IA-PUCP, ex GRPIAA) ha desarrollado una plataforma que utiliza corpus paralelos la creación de un modelo estadístico de traducción automática para las lenguas Shipibo-Konibo y español. Este modelo sufre de ciertas limitantes, entre las cuales tenemos: la cantidad de recursos bibliográficos y material completamente traducido, esto debido a que al ser una lengua minoritaria o de pocos recursos carecen de facilidades para la generación de nuevos corpus. Por otro lado, se desea mejorar el modelo actual en parámetros de eficiencia y obtener mejores resultados en las traducciones. En este contexto nace la pregunta que motiva el presente trabajo: ¿de qué manera podemos incrementar el corpus paralelo de forma eficiente y confiable para la mejora del modelo actual de traducción automática? Por consiguiente, en el presente trabajo se propone desarrollar un agente conversacional que permita la generación de nuevos corpus paralelos entre Shipibo-Konibo y español que permitan mejorar un modelo de traducción automática neuronal en las lenguas ya mencionadas. / Tesis
2

Desambiguación de morfemas polifuncionales en la traducción automática de lenguas minoritarias: el caso del enclítico =n en el shipibo-konibo

Ego Aguirre Santa Cruz, Renzo Alberto 12 November 2018 (has links)
La presente tesis ofrece una solución para las dificultades que constituyen los morfemas polisémicos en el marco de la traducción automática de lenguas minoritarias. El caso concreto en el que se enfoca este trabajo de investigación es la polisemia de una entidad lingüística bastante relevante y muy recurrente en el shipibo-konibo y en las demás lenguas que conforman la familia pano: el enclítico =n. Este morfema posee un mínimo de seis significados diferentes. Para abordar la complejidad que supone esta forma lingüística, la presente tesis se centra principalmente en la creación de un algoritmo que desambigüe los distintos valores del morfema en cuestión. Esta alternativa se consideró conveniente dado que la creación de un software de traducción automática basado en estadística requiere el uso de amplia cantidad de material lingüístico digitalizado, lo que en el caso de la mayoría de lenguas minoritarias es virtualmente inexistente. De ahí la necesidad del uso de métodos de traducción automática basados en reglas. En esta misma línea, puesto que el algoritmo toma como base reglas, nuestra propuesta prioriza, en una primera instancia, la desambiguación de las funciones más morfosintácticas por encima de las funciones más semánticas, debido a que, tal como se argumenta en este trabajo de investigación, son más fáciles de procesar por un software de este tipo. Para ello, primero, se realizó un análisis y catalogación de los rasgos de tales funciones a nivel morfosintáctico y, posteriormente, sobre la base de dicho análisis, se fijó una jerarquía de desambiguación funcional. La posterior codificación del algoritmo resultante en lenguaje de programación comprobó la efectividad de este enfoque, por lo que es sostenible postular que esta constituye una estrategia potencialmente repicable para la desambiguación de morfemas polifuncionales en el marco de proyectos de traducción automática que trabajen con otras lenguas minoritarias. / Tesis
3

Lenguaje controlado aplicado a la traducción automática de prospectos farmacéuticos

Seoane Vicente, Ángel Luis 30 November 2015 (has links)
Esta tesis doctoral surge del interés por establecer un método pautado de creación de lenguajes controlados para su aplicación en la traducción automática de géneros textuales específicos. Nuestro método parte del estudio de las dificultades que el sistema Google Translator Toolkit encuentra al traducir prospectos farmacéuticos del inglés al español peninsular. Una vez halladas las dificultades y definidas las reglas del lenguaje controlado, traducimos, en idénticas condiciones, los textos controlados a fin de contrastar los resultados con los obtenidos en la traducción inicial no controlada. El objetivo general se basa en la hipótesis de trabajo siguiente: «Los lenguajes controlados contribuyen a incrementar la calidad de los textos traducidos mediante sistemas de traducción automática». En este sentido, el trabajo cubre una laguna presente en abundante bibliografía sobre la cuestión, puesto que apenas se han descrito estudios empíricos con el nivel de detalle que planteamos, tanto en la descripción rigurosa de la metodología empleada como en la evaluación cuantitativa y estadística de la posible mejora de la calidad de los textos obtenidos en lengua meta. Parece conveniente acotar el experimento a un género textual a fin de incrementar las posibilidades de éxito, dada la reducción de las opciones lingüísticas y de las interpretaciones semánticas del léxico que éstos aportan. Los prospectos de medicamentos se presentan como un primer candidato idóneo para nuestro estudio, gracias al volumen importante de léxico y de macroestructuras textuales que se repiten. Además, la elección del género de los prospectos se muestra especialmente interesante, dado que éstos viven en la actualidad un proceso de simplificación del registro hasta un nivel de habla informal, tras muchos años de sujeción a un registro culto. Dicho proceso se inscribe en una tendencia general de simplificación de la prosa y del mensaje. Después de aplicar las distintas fases de nuestro método, los resultados son concluyentes en apoyar la hipótesis de partida. Además, nos revelan, por una parte, cómo influyen las normas del lenguaje controlado sobre los textos meta y, por otra, qué tipos de normas son más eficaces en una primera aproximación, si bien observamos que no es posible determinar la eficacia de una norma concreta cuando se aplica en conjunto con otras normas. Entre las áreas que ofrecen un mejor rendimiento, encontramos aquellas relacionadas con la restitución de elementos gramaticales omitidos, la modificación del léxico y de la puntuación, la simplificación de sintagmas nominales complejos y la explicitación de la anáfora. En general, podemos concluir que el uso de lenguajes controlados es positivo si se cumplen los requisitos operativos de partida que hemos empleado en nuestro estudio: de un lado, un sistema de traducción automática estadístico muy potente; del otro, un género textual donde abundan las estructuras sintácticas y las frases prefijadas.
4

Diccionario monolingüe coordinado para enseñanza/aprendizaje del griego moderno por parte de hispanohablantes y para traducción automática griego - español

Papadopoulou, Eleni 06 July 2010 (has links)
Esta tesis doctoral presenta el diccionario monolingüe coordinado de griego moderno y sus aplicaciones a la enseñanza/aprendizaje del griego como lengua extranjera por parte de hispanohablantes y a la traducción automática griego-español. El trabajo en sí se divide en seis partes. En la introducción, presentamos los vínculos de este proyecto con el ámbito del procesamiento del lenguaje natural (PLN). El primer capítulo está dedicado al marco teórico de nuestro estudio. El segundo capítulo describe la integración de nuestro trabajo lexicográfico a la plataforma NooJ. En el tercer capítulo, se hace una revisión de la lexicografía bilingüe y de los sistemas de traducción automática griego-español existentes en la actualidad. El cuarto capítulo aborda la construcción y las aplicaciones de nuestros diccionarios pedagógicos: del pasivo DicoGLEesp y del activo DicoGLEesa. El quinto capítulo presenta un inventario de pragmatemas griegos. El capítulo sexto y último presenta una guía de redacción del griego como lengua controlada y la traducción automàtica griego-español basada en reglas de mensajes de alerta. En el epílogo, resumimos las conclusiones y las posibles perspectivas de nuestro trabajo. / The present doctoral dissertation studies the applications of the monolingual coordinated dictionary of Modern Greek to teaching/learning Greek as a foreign language by Spanish speakers and to Greek-Spanish automatic translation. More particularly, this study is divided in six parts. In the introduction, this project is associated with the framework of natural language processing. The subject of the first chapter consists of the presentation of the theoretical framework of our study. In the second chapter, the integration of our lexicographical work to the NooJ program is described. In the third chapter, we present a review of the Greek-Spanish bilingual lexicography and of the Greek- Spanish automatic translation systems. In the fourth chapter, we describe the construction and the applications of our pedagogical dictionaries: of the passive DicoGLEesp and the active DicoGLEesa. In the fifth chapter, an inventory of Greek pragmatemes is presented. In the sixth chapter, we present the redaction guide of Greek as controlled language and the rule based automatic translation of alert messages. Finally, in the epilogue, the drawn conclusions and the perspectives of this work are outlined.
5

Representaciones de vocabularios en tareas de traducción automática mediante modelos conexionistas

Casañ Núñez, Gustavo Adolfo 06 May 2011 (has links)
Trabajos anteriores de traducción automática con modelos conexionistas han obtenido resultados interesantes pero han resultado muy problemáticos de adaptar a tareas reales. En este trabajo se parte del modelo RECONTRA (una red de Elman con ventana de entrada) y se abordan tareas de traducción más complejas, se explora cómo crear codificaciones automáticamente, se desarrollan nuevos modelos de traducción y se combinan distintas redes en un único sistema. Se han desarrollado varios modelos conexionista basados en Perceptrones Multicapa con ventanas de salida, por lo que tiene en cuenta el contexto de aparición de las palabras a representar. Además de diversos métodos de entrenamiento, se aplica poda para determinar el tamaño de las codificaciones. Se han creado variantes del modelo RECONTRA: con dos capas, en el que la primera capa oculta desarrolla representaciones de las palabras de la entrada; y con ventana de salida, en las que el traductor debe traducir un fragmento de la frase, no una única palabra. También se han explorado formas de combinar redes en único sistema de traducción, basándose en votación y la distancia entre la palabra producida por la red (o frase) y la palabra (o frase) más cercana.
6

Some Contributions to Interactive Machine Translation and to the Applications of Machine Translation for Historical Documents

Domingo Ballester, Miguel 28 February 2022 (has links)
[ES] Los documentos históricos son una parte importante de nuestra herencia cultural. Sin embargo, debido a la barrera idiomática inherente en el lenguaje humano y a las propiedades lingüísticas de estos documentos, su accesibilidad está principalmente restringida a los académicos. Por un lado, el lenguaje humano evoluciona con el paso del tiempo. Por otro lado, las convenciones ortográficas no se crearon hasta hace poco y, por tanto, la ortografía cambia según el período temporal y el autor. Por estas razones, el trabajo de los académicos es necesario para que los no expertos puedan obtener una comprensión básica de un documento determinado. En esta tesis abordamos dos tareas relacionadas con el procesamiento de documentos históricos. La primera tarea es la modernización del lenguaje que, a fin de hacer que los documentos históricos estén más accesibles para los no expertos, tiene como objetivo reescribir un documento utilizando la versión moderna del idioma original del documento. La segunda tarea es la normalización ortográfica. Las propiedades lingüísticas de los documentos históricos mencionadas con anterioridad suponen un desafío adicional para la aplicación efectiva del procesado del lenguaje natural en estos documentos. Por lo tanto, esta tarea tiene como objetivo adaptar la ortografía de un documento a los estándares modernos a fin de lograr una consistencia ortográfica. Ambas tareas las afrontamos desde una perspectiva de traducción automática, considerando el idioma original de un documento como el idioma fuente, y su homólogo moderno/normalizado como el idioma objetivo. Proponemos varios enfoques basados en la traducción automática estadística y neuronal, y llevamos a cabo una amplia experimentación que ratifica el potencial de nuestras contribuciones -en donde los enfoques estadísticos arrojan resultados iguales o mejores que los enfoques neuronales para la mayoría de los casos-. En el caso de la tarea de modernización del lenguaje, esta experimentación incluye una evaluación humana realizada con la ayuda de académicos y un estudio con usuarios que verifica que nuestras propuestas pueden ayudar a los no expertos a obtener una comprensión básica de un documento histórico sin la intervención de un académico. Como ocurre con cualquier problema de traducción automática, nuestras aplicaciones no están libres de errores. Por lo tanto, para obtener modernizaciones/normalizaciones perfectas, un académico debe supervisar y corregir los errores. Este es un procedimiento común en la industria de la traducción. La metodología de traducción automática interactiva tiene como objetivo reducir el esfuerzo necesario para obtener traducciones de alta calidad uniendo al agente humano y al sistema de traducción en un proceso de corrección cooperativo. Sin embargo,la mayoría de los protocolos interactivos siguen una estrategia de izquierda a derecha. En esta tesis desarrollamos un nuevo protocolo interactivo que rompe con esta barrera de izquierda a derecha. Hemos evaluado este nuevo protocolo en un entorno de traducción automática, obteniendo grandes reducciones del esfuerzo humano. Finalmente, dado que este marco interactivo es de aplicación general a cualquier problema de traducción, lo hemos aplicado -nuestro nuevo protocolo junto con uno de los protocolos clásicos de izquierda a derecha- a la modernización del lenguaje y a la normalización ortográfica. Al igual que en traducción automática, el marco interactivo logra disminuir el esfuerzo requerido para corregir los resultados de un sistema automático. / [CA] Els documents històrics són una part important de la nostra herència cultural. No obstant això, degut a la barrera idiomàtica inherent en el llenguatge humà i a les propietats lingüístiques d'aquests documents, la seua accessibilitat està principalment restringida als acadèmics. D'una banda, el llenguatge humà evoluciona amb el pas del temps. D'altra banda, les convencions ortogràfiques no es van crear fins fa poc i, per tant, l'ortografia canvia segons el període temporal i l'autor. Per aquestes raons, el treball dels acadèmics és necessari perquè els no experts puguen obtindre una comprensió bàsica d'un document determinat. En aquesta tesi abordem dues tasques relacionades amb el processament de documents històrics. La primera tasca és la modernització del llenguatge que, a fi de fer que els documents històrics estiguen més accessibles per als no experts, té per objectiu reescriure un document utilitzant la versió moderna de l'idioma original del document. La segona tasca és la normalització ortogràfica. Les propietats lingüístiques dels documents històrics mencionades amb anterioritat suposen un desafiament addicional per a l'aplicació efectiva del processat del llenguatge natural en aquests documents. Per tant, aquesta tasca té per objectiu adaptar l'ortografia d'un document als estàndards moderns a fi d'aconseguir una consistència ortogràfica. Dues tasques les afrontem des d'una perspectiva de traducció automàtica, considerant l'idioma original d'un document com a l'idioma font, i el seu homòleg modern/normalitzat com a l'idioma objectiu. Proposem diversos enfocaments basats en la traducció automàtica estadística i neuronal, i portem a terme una àmplia experimentació que ratifica el potencial de les nostres contribucions -on els enfocaments estadístics obtenen resultats iguals o millors que els enfocaments neuronals per a la majoria dels casos-. En el cas de la tasca de modernització del llenguatge, aquesta experimentació inclou una avaluació humana realitzada amb l'ajuda d'acadèmics i un estudi amb usuaris que verifica que les nostres propostes poden ajudar als no experts a obtindre una comprensió bàsica d'un document històric sense la intervenció d'un acadèmic. Com ocurreix amb qualsevol problema de traducció automàtica, les nostres aplicacions no estan lliures d'errades. Per tant, per obtindre modernitzacions/normalitzacions perfectes, un acadèmic ha de supervisar i corregir les errades. Aquest és un procediment comú en la indústria de la traducció. La metodologia de traducció automàtica interactiva té per objectiu reduir l'esforç necessari per obtindre traduccions d'alta qualitat unint a l'agent humà i al sistema de traducció en un procés de correcció cooperatiu. Tot i això, la majoria dels protocols interactius segueixen una estratègia d'esquerra a dreta. En aquesta tesi desenvolupem un nou protocol interactiu que trenca amb aquesta barrera d'esquerra a dreta. Hem avaluat aquest nou protocol en un entorn de traducció automàtica, obtenint grans reduccions de l'esforç humà. Finalment, atès que aquest marc interactiu és d'aplicació general a qualsevol problema de traducció, l'hem aplicat -el nostre nou protocol junt amb un dels protocols clàssics d'esquerra a dreta- a la modernització del llenguatge i a la normalitzaciò ortogràfica. De la mateixa manera que en traducció automàtica, el marc interactiu aconsegueix disminuir l'esforç requerit per corregir els resultats d'un sistema automàtic. / [EN] Historical documents are an important part of our cultural heritage. However,due to the language barrier inherent in human language and the linguistic properties of these documents, their accessibility is mostly limited to scholars. On the one hand, human language evolves with the passage of time. On the other hand, spelling conventions were not created until recently and, thus, orthography changes depending on the time period and author. For these reasons, the work of scholars is needed for non-experts to gain a basic understanding of a given document. In this thesis, we tackle two tasks related with the processing of historical documents. The first task is language modernization which, in order to make historical documents more accessible to non-experts, aims to rewrite a document using the modern version of the document's original language. The second task is spelling normalization. The aforementioned linguistic properties of historical documents suppose an additional challenge for the effective natural language processing of these documents. Thus, this task aims to adapt a document's spelling to modern standards in order to achieve an orthography consistency. We affront both task from a machine translation perspective, considering a document's original language as the source language, and its modern/normalized counterpart as the target language. We propose several approaches based on statistical and neural machine translation, and carry out a wide experimentation that shows the potential of our contributions¿with the statistical approaches yielding equal or better results than the neural approaches in most of the cases. For the language modernization task, this experimentation includes a human evaluation conducted with the help of scholars and a user study that verifies that our proposals are able to help non-experts to gain a basic understanding of a historical document without the intervention of a scholar. As with any machine translation problem, our applications are not error-free. Thus, to obtain perfect modernizations/normalizations, a scholar needs to supervise and correct the errors. This is a common procedure in the translation industry. The interactive machine translation framework aims to reduce the effort needed for obtaining high quality translations by embedding the human agent and the translation system into a cooperative correction process. However, most interactive protocols follow a left-to-right strategy. In this thesis, we developed a new interactive protocol that breaks this left-to-right barrier. We evaluated this new protocol in a machine translation environment, obtaining large reductions of the human effort. Finally, since this interactive framework is of general application to any translation problem, we applied it¿our new protocol together with one of the classic left-to-right protocols¿to language modernization and spelling normalization. As with machine translation, the interactive framework diminished the effort required for correcting the outputs of an automatic system. / The research leading to this thesis has been partially funded by Ministerio de Economía y Competitividad (MINECO) under projects SmartWays (grant agreement RTC-2014-1466-4), CoMUN-HaT (grant agreement TIN2015-70924-C2-1-R) and MISMISFAKEnHATE (grant agreement PGC2018-096212-B-C31); Generalitat Valenciana under projects ALMAMATER (grant agreement PROMETEOII/2014/030) and DeepPattern (grant agreement PROMETEO/2019/121); the European Union through Programa Operativo del Fondo Europeo de Desarrollo Regional (FEDER) from Comunitat Valenciana (2014–2020) under project Sistemas de frabricación inteligentes para la indústria 4.0 (grant agreement ID-IFEDER/2018/025); and the PRHLT research center under the research line Machine Learning Applications. / Domingo Ballester, M. (2022). Some Contributions to Interactive Machine Translation and to the Applications of Machine Translation for Historical Documents [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/181231 / TESIS
7

Compiladores de datos lingüísticos para la generación de módulos de estados finitos para la traducción automática

Garrido Alenda, Alicia January 2002 (has links)
No description available.
8

Building machine translation systems for language pairs with scarce resources

Sánchez-Cartagena, Víctor M. 02 July 2015 (has links)
No description available.
9

Técnicas de agrupamiento bilingüe aplicadas a la inferencia de traductores

Barrachina Mir, Sergio 20 June 2003 (has links)
La tesis presenta un método de agrupamiento bilingüe que puede utilizarse para la mejora de sistemas de traducción automática basados en ejemplos. Este método de agrupamiento es una extensión del caso monolingüe y es mejorado mediante la detección automática de colocaciones -secuencias de palabras que se traducen como una unidad-. Asimismo, presentamos una técnica para la integración de este agrupamiento con un sistema de traducción basado en ejemplos, el modelo de transductores subsecuenciales, y los resultados de traducción obtenidos.Los asuntos que trata la tesis son:- Agrupamiento monolingüe.- Agrupamiento bilingüe.- Integración del agrupamiento bilingüe en transductores subsecuenciales.- Detección automática de colocaciones.- Mejora del agrupamiento bilingüe mediante colocaciones.- Experimentación con las tareas de traducción EuTrans I y EuTrans II.
10

Advances in Fully-Automatic and Interactive Phrase-Based Statistical Machine Translation

Ortiz Martínez, Daniel 14 October 2011 (has links)
This thesis presents different contributions in the fields of fully-automatic statistical machine translation and interactive statistical machine translation. In the field of statistical machine translation there are three problems that are to be addressed, namely, the modelling problem, the training problem and the search problem. In this thesis we present contributions regarding these three problems. Regarding the modelling problem, an alternative derivation of phrase-based statistical translation models is proposed. Such derivation introduces a set of statistical submodels governing different aspects of the translation process. In addition to this, the resulting submodels can be introduced as components of a log-linear model. Regarding the training problem, an alternative estimation technique for phrase-based models that tries to reduce the strong heuristic component of the standard estimation technique is proposed. The proposed estimation technique considers the phrase pairs that compose the phrase model as part of complete bisegmentations of the source and target sentences. We theoretically and empirically demonstrate that the proposed estimation technique can be efficiently executed. Experimental results obtained with the open-source THOT toolkit also presented in this thesis, show that the alternative estimation technique obtains phrase models with lower perplexity than those obtained by means of the standard estimation technique. However, the reduction in the perplexity of the model did not allow us to obtain improvements in the translation quality. To deal with the search problem, we propose a search algorithm which is based on the branch-and-bound search paradigm. The proposed algorithm generalises different search strategies that can be accessed bymodifying the input parameters. We carried out experiments to evaluate the performance of the proposed search algorithm. / Ortiz Martínez, D. (2011). Advances in Fully-Automatic and Interactive Phrase-Based Statistical Machine Translation [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/12127 / Palancia

Page generated in 0.1038 seconds