11 |
Implementación de algoritmos para la identificación automática de lenguas originarias peruanas en un repositorio digitalEspichán Linares, Alexandra Mercedes 12 February 2019 (has links)
Debido a la revitalización lingüística en el Perú a lo largo de los últimos años, existe un
creciente interés por reforzar la educación bilingüe en el país y aumentar la investigación
enfocada en sus lenguas nativas. Asimismo, hay que considerar que en el Perú actualmente
alrededor de 4 millones de personas hablan alguna de las 47 lenguas nativas conservadas. Por
tanto, hay una gran variedad de lenguas con las cuales trabajar, por lo que sería de utilidad
contar con herramientas automáticas que permitan agilizar algunas tareas en el estudio e
investigación de dichas lenguas.
De este modo, y desde el punto de vista de la informática, una de las primeras y
principales tareas lingüísticas que incorporan métodos computacionales es la identificación
automática de lenguaje, la cual se refiere a determinar el lenguaje en el que está escrito un
texto dado, el cual puede ser un documento, un párrafo o incluso una oración. Este además es
un paso esencial en el procesamiento automático de los datos del mundo real, donde una
multitud de lenguajes pueden estar presentes, ya que las técnicas de procesamiento del
lenguaje natural típicamente presuponen que todos los documentos a ser procesados están
escritos en un lenguaje dado.
Por lo tanto, este trabajo se enfoca en tres pasos: (1) en construir desde cero un corpus
anotado digital para 49 lenguas y dialectos indígenas peruanos, (2) en adaptarse a los
enfoques de aprendizaje de máquina estándar y profundo para la identificación de lenguas, y
(3) en comparar estadísticamente los resultados obtenidos.
Los resultados obtenidos fueron prometedores, el modelo estándar superó al modelo de
aprendizaje profundo tal como se esperaba, con una precisión promedio de 95.9%. En el
futuro, se espera que se aproveche el corpus y el modelo para tareas más complejas. / Tesis
|
12 |
Comprensión y generación de lenguaje natural en un sistema de diálogo usando inteligencia artificial para servicios telefónicos de información de cinesMesones Barrón, Carlos Enrique 09 May 2011 (has links)
El presente documento es resultado de la investigación sobre automatización inteligente - comprensión y generación de lenguaje natural- en un Sistema de Diálogo, para optimar el servicio de atención al cliente actualmente brindado por un operador vía telefónica. / Tesis
|
13 |
On distributing the analysis process of a broad-coverage unification-based grammar of spanishMarimon Felipe, Montserrat 28 March 2003 (has links)
This thesis describes research into the development and deployment of engineered large-scale unification-based grammar to provide more robust and efficient deep grammatical analysis of linguistic expressions in real-world applications, while maintaining the accuracy of the grammar (i.e. percentage of input sentences that receive the correct analysis) and keeping its precision up to a reasonable level (i.e. percentage of input sentences that received no superfluous analysis).In tacking the efficiency problem, our approach has been to prune the search space of the parser by integrating shallow and deep processing. We propose and implement a NLP system which integrates a Part-of-Speech (PoS) tagger and chunker as a pre-processing module of broad-coverage nification-based grammar of Spanish. This allows us to release the arser from certain tasks that may be efficiently and reliably dealt with by these computationally less expensive processing techniques. On the one hand, by integrating the morpho-syntactic information delivered by the PoS tagger, we reduce the number of morpho-syntactic ambiguities of the linguistic expression to be analyzed. On the other hand, by integrating chunk mark-ups delivered by the partial parser, we do notonly avoid generating irrelevant constituents which are not to contribute to the final parse tree, but we also provide part of the structure that the analysis component has to compute, thus, avoiding a duplication of efforts.In addition, we want our system to be able to maintain the accuracy of the high-level grammar. In the integrated architecture we propose, we keep the ambiguities which can not be reliably solved by the PoS tagger to be dealt with by the linguistic components of the grammar performing deep analysis.Besides improving the efficiency of the overall analysis process and maintaining the accuracy of the grammar, our system provides both structural and lexical robustness to the high-level processing. Structural robustness is obtained by integrating into the linguistic components of the high-level grammar the structures which have already been parsed by the chunker such that they do not need to be re-built by phrase structure rules. This allows us to extend the coverage of the grammar to deal with very low frequent constructions whose treatment would increase drastically the parsing search space and would create spurious ambiguity. To provide lexical robustness to the system, we have implemented default lexical entries. Default lexical entries are lexical entry templates that are activated when the system can not find a particular lexical entry to apply. Here, the integration of the tagger, which supplies the PoS information to the linguistic processing modules of our system, allows us to increase robustness while avoiding increase in morphological ambiguity. Better precision is achieved by extending the PoS tags of our external lexicon so that they include syntactic information, for instance subcategorization information.
|
14 |
Representación de las entradas verbales en una base de conocimiento léxico: diátesis y semántica léxica.Taulé Delor, Mariona 04 December 1995 (has links)
El creciente interés en el contenido y en la organización de las entradas léxicas desde una perspectiva teórica, unido a la necesidad desde un punto de vista computacional (o del Procesamiento del Lenguaje Natural) de disponer de léxicos de tamaño "real" ha situado el componente léxico en el centro de atención de muchas investigaciones en lingüística.En las teorías lingüísticas actuales existe una tendencia generalizada a asignar un papel central dentro de la teoría al componente léxico, ya que muchas de las generalizaciones lingüísticas que antes se expresaban en el componente sintáctico, en la actualidad se consideran que tienen una dimensión léxica. El componente léxico contiene en general especificaciones sobre el conocimiento fonológico, morfológico, sintáctico y semántico de las unidades léxicas, convirtiéndose de este modo en un componente básico a partir del cual se proyecta la mayoría de información lingüística. En este sentido, el léxico ya no se concibe como una mera lista de entrada con información asociada, sino como un componente complejo y estructurado.Este nuevo enfoque permite la reducción de las reglas sintagmáticas y consecuentemente la simplificación de la gramática, pero, por otro lado, la cantidad y complejidad de información especificada en este nivel puede comportar también la aparición de información redundante así como crear además problemas de control. Se hace necesario, por lo tanto, no sólo decidir qué tipo de información deben contener las entradas léxicas, sino también cómo estructurar toda esta información con el fin de evitar redundancia y captar las similitudes entre clases de palabras que se comportan de igual forma.La presente investigación se centra, por lo tanto, en la definición y posterior representación de las entradas verbales en una Base de Conocimiento Léxico y, en concreto, en la organización y formalización de la información sintáctica y semántica y la manera en que dicha información interactúa.Se examina de forma específica el nivel de Semántica Compositiva o "VRQS" (Pustejovsky 1991), en el que se indican los componentes semánticos básicos para la descripci6n del significado léxico verbal y la manera en que dichos componentes se saturan o realizan léxicamente (de manera argumental. Morfológica o sobreentendida). La "VRQS" es, en definitiva, una propuesta de organización léxica, en la que los verbos se clasifican en distintas clases semánticas en función del tipo de componentes de significado y la saturación léxica que éstos presentan.El tipo de información incluida en la "VRQS", y especialmente aquélla que hace referencia a la saturación de los componentes semánticos, se encuentra en clara correspondencia con las alternancias de diátesis del verbo. De esta manera, se observa que ciertos componentes semánticos se relacionan estrechamente con alternancias de diátesis concretas y que cada tipo de saturación léxica tiene consecuencias distintas a nivel sintáctico y de la Estructura Argumental.La "VRQS" (acrónimo de la expresión inglesa "Verbal Relativized Quality Structure") permite explicar, por lo tanto, cómo un mismo predicado verbal puede expresar de diferentes maneras sus argumentos; es decir, puede aparecer en Estructuras Argumentales alternativas. En este sentido, se argumenta que cada clase o subclase semántica verbal participa en un conjunto determinado de alternancias de diátesis y, en consecuencia, dichas alternancias pueden ser útiles también como criterio metodológico para clasificar los verbos semánticamente (Levin 1991).Se propone una clasificación de las alternancias de diátesis basada en los distintos cambios producidos, es decir, según las modificaciones que puedan efectuarse en la forma del verbo, en la realización de sus argumentos o bien en la interpretación semántica de éstos. Básicamente se establecen cuatro grandes clases de alternancias: transitivas, intransitivas, oblicuas y pronominales.Dichas alternancias de diátesis se representan en la Base de Conocimiento mediante reglas léxicas.El resultado final es una propuesta de clasificación verbal en términos de los componentes semánticos más destacados del tipo de saturación léxica que éstos presentan y de las alternancias de diátesis que exhiben.El trabajo se ha centrado básicamente en el estudio de tres clases semánticas concretas: verbos de cocción, ingestión y movimiento. La selección de estas clases verbales se ha realizado teniendo en cuenta que se trata de una muestra suficientemente representativa y amplia para poder ilustrar tanto la descomposición del significado en componentes semánticos como el tratamiento de las alternancias de diátesis.La presente investigación trata de ser una contribución al desarrollo de léxicos computacionales para sistemas de Procesamiento del Lenguaje Natural, pero también contiene un componente fundamental de investigación lingüística básica al tratar ampliamente y en profundidad cuestiones tan críticas como la interrelación entre la sintaxis y la semántica, el papel de cada una de ellas en el estudio del lenguaje y una propuesta clara de esta última como el componente determinante de la gramática de una lengua.En consecuencia, gran parte del interés en lingüística (computacional) se ha centrado, por un lado, en la definición y estructuración del contenido de las entradas léxicas y, por el otro, en el desarrollo de lenguajes para la representación del conocimiento léxico que eviten la redundancia de la información y que resuelvan problemas de control y consistencia de los datos especificados a este nivel (bases de conocimiento, representación mediante estructuras tipificadas de rasgos, lenguajes de unificación, mecanismos de herencia, reglas léxicas, etc.)Desde una perspectiva computacional, la necesidad de disponer de léxicos de tamaño "real" para aplicaciones de Procesamiento del Lenguaje Natural ha convenido la adquisición automática o semiautomática de conocimiento léxico y su posterior representación en uno de los intereses fundamentales de la lingüística y en especial de la lexicografía computacional.El presente trabajo se enmarca en esta línea de investigación, el objetivo fundamental del cual es la representación de las entradas léxicas verbales en una Base de Conocimiento Léxico. El proyecto ACQUILEX ha proporcionado el marco adecuado para la realización de esta investigación, facilitando la metodología y herramientas necesarias para la consecución de los objetivos trazados.Dentro del componente léxico, las entradas verbales adquieren un protagonismo extraordinario por considerar el verbo como el núcleo léxico, ya sea de manera explícita o implícita, de la oración. Es decir, el verbo es el que proporciona o proyecta las propiedades, fundamentalmente sintácticas pero también semánticas, de las oraciones en las que aparece. En nuestra metodología, la especificación de la información sintáctica y semántica está estrechamente relacionada y no se puede concebir de manera aislada. / The main aim of this work is to represent verbal lexical entries in a Lexical Knowledge Base. We focus on the definition and organization of the syntactic and semantic information and, mainly, the way these two kinds of information are related. We start from the hypothesis that verbal lexical meaning is the sum of different levels of semantic description: Argumental Structure, Event Structure, Selectional Restrictions and Compositional Semantics. We develop the Compositional Semantic level or "VRQS" (Verbal Relativized Qualia Structure). This level includes the decomposition of the meaning into semantic components and also the way they are saturated in Spanish. We present three different types of saturation -argumental, morphological and "understood¬" - and we show how these sorts of saturation have different syntactic consequences. The sort of information specified in "VRQS" and especially that referring to the lexical saturation of the semantic components is closely related to the diatheses alternations of verbs. In this sense, we find that some semantic components are related to specific diatheses alternations and each sort of lexical saturations has different consequences at the syntactic level and also in the Argument Structures. Thus, it is claimed that every verbal semantic class takes part in a specific set of diatheses and consequently they are also very useful as a method to classify verbs semantically.
|
15 |
Coreferència: Teoria, anotació, resolució i avaluacióRecasens Potau, Marta 03 December 2010 (has links)
Les relacions de coreferència s'estableixen entre expressions lingüístiques que es refereixen a una mateixa persona, objecte o esdeveniment. Resoldre-les és una part integral de la comprensió del discurs ja que permet als usuaris de la llengua connectar les parts del discurs que contenen informació sobre una mateixa entitat. En conseqüència, la resolució de la coreferència ha estat un focus d'atenció destacat del processament del llenguatge natural, on té una tasca pròpia. Tanmateix, malgrat la gran quantitat de recerca existent, els resultats dels sistemes actuals de resolució de la coreferència no han assolit un nivell satisfactori.La tesi es divideix en dos grans blocs. En el primer, examino tres aspectes diferents però estretament relacionats de la tasca de resolució de la coreferència: (i) l'anotació de relacions de coreferència en grans corpus electrònics, (ii) el desenvolupament de sistemes de resolució de la coreferència basats en aprenentatge automàtic i (iii) la qualificació i avaluació dels sistemes de coreferència. En el transcurs d'aquesta investigació, es fa evident que la tasca de coreferència presenta una sèrie de problemes de base que constitueixen veritables obstacles per a la seva correcta resolució. Per això, la meva aportació principal és una anàlisi crítica i alhora constructiva de diferents aspectes de la tasca de coreferència que finalment condueix, en el segon bloc de la tesi, al replantejament del concepte mateix de "coreferència". En primer lloc, l'anotació amb coreferència dels corpus AnCora del castellà i el català posa al descobert que el concepte de "referencialitat" no està clarament delimitat i que algunes relacions observades en dades d'ús real no encaixen dins la visió de la coreferència entesa en termes dicotòmics. Això dificulta assolir un alt grau d'acord entre els anotadors d'aquesta tasca.En segon lloc, els experiments realitzats sobre la contribució de més de quaranta-cinc trets d'aprenentage automàtic a la resolució de la coreferència mostren que és més petita que l'esperada. La interacció complexa que es dóna entre els diversos factors així com el fet que el coneixement pragmàtic i del món no es deixa representar sistemàticament en forma de trets d'aprenentatge de parells de mencions són indicadors que la manera en què actualment s'aplica l'aprenentatge automàtic pot no ser especialment idònia per a la tasca. Per això, considero que el millor model per adreçar el problema de la coreferència correspon als sistemes basats en entitats com CISTELL, que permet no només emmagatzemar informació de "dins" del text sinó també recollir coneixement general i del món de "fora" del text.En tercer lloc, es demostra l'existència de diversos factors que qüestionen la manera en què actualment s'avaluen els sistemes de resolució de la coreferència. Es tracta de variacions en la definició de la tasca, l'extracció de mencions a partir de l'estàndard de referència o predites automàticament, i el desacord entre els rànquings de sistemes donats per les mètriques d'avaluació més utilitzades (MUC, B3, CEAF). La desigualtat entre el nombre d'entitats unàries i el nombre d'entitats de múltiples mencions explica el biaix de les mesures o bé cap a un dèficit o bé cap a un excés de "clusters". La mesura BLANC que proposo, una implementació modificada de l'índex de Rand, corregeix aquest desequilibri.Finalment, la segona part de la tesi arriba a la conclusió que l'abandó de la visió tradicional i dicotòmica de la coreferència és el primer pas per anar més enllà de l'estat de l'art. Amb aquest objectiu s'introdueix la noció de "quasi-identitat" i s'ubica en un model de la coreferència entesa com a contínuum. Es postulen tres operacions de categorització -l'especificació, el reenfocament i la neutralització- que regeixen els canvis de granularitat que les entitats discursives experimenten a mesura que avança el discurs. / Coreference relations, as commonly defined, occur between linguistic expressions that refer to the same person, object or event. Resolving them is an integral part of discourse comprehension by allowing language users to connect the pieces of discourse information concerning the same entity. Consequently, coreference resolution has become a major focus of attention in natural language processing as its own task. Despite the wealth of existing research, current performance of coreference resolution systems has not reached a satisfactory level.The thesis is broadly divided into two parts. In the first part, I examine three separate but closely related aspects of the coreference resolution task, namely (i) the encoding of coreference relations in large electronic corpora, (ii) the development of learning-based coreference resolution systems, and (iii) the scoring and evaluation of coreference systems. Throughout this research, insight is gained into foundational problems in the coreference resolution task that pose obstacles to its feasibility. Hence, my main contribution resides in a critical but constructive analysis of various aspects of the coreference task that, in the second part of the thesis, leads to rethink the concept of 'coreference' itself.
|
16 |
Homonimia y polisemia en la traducción automática del español al sueco / Homonymy and Polysemy in Machine Translation form Spanish to SwedishMarqués Sahlberg, Johan January 2012 (has links)
Esta investigación elabora y defiende la hipótesis de que la traducción automática no es capaz detraducir las palabras que presentan polisemia u homonimia. La homonimia y la polisemia son dosfenómenos lingüísticos que implican, cada uno a su manera, la ramificación de distintossignificados bajo un mismo denominador (palabra). Por regla general estos fenómenos pasandesapercibidos gracias a que el significado de cada palabra se interpreta en un contexto. Por lotanto el contexto activa un significado de cada palabra y cancela los demás. Creemos que latraducción automática no es capaz de decodificar la información necesaria del contexto. Lainvestigación gira alrededor de los resultados obtenidos por un corpus español traducido al suecopor Google Translate.
|
17 |
Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteresSalas Damián, Roberto Carlos 02 December 2011 (has links)
Los sistemas de corrección usan como principio la lingüística computacional. En este contexto, un computador realiza un análisis ortográfico de los caracteres reconocidos por un OCR (Optical Chapter Recognition). Un OCR es un software que extraen de una imagen los caracteres que componen un texto para almacenarlos en un formato con el cual puedan interactuar programas de edición de texto.
El rendimiento de los sistemas de reconocimiento de caracteres es bajo cuando se trata de digitalizar documentos deteriorados debido a las manchas y otros factores que evitan que se reconozcan las palabras del texto original. Antes este problema, lo que se propone en esta tesis es la implementación de un sistema de corrección ortográfica a la salida del OCR, que permitirá mejorar su eficiencia al momento de reconocimiento del caracteres. De esta manera la digitalización de los documentos históricos podrá garantizar una calidad óptima.
El sistema de corrección de ortográfica se basa en la búsqueda de patrones dentro de un texto. Esta búsqueda trata de encontrar todas las coincidencias de un patrón dentro de un texto, teniendo en consideración que la coincidencia de patrón con el texto puede tener un número limitado de diferencias. Este problema tiene aplicaciones en recuperación de información, biología computacional y procesamiento de señales, entre otras.
Como conclusión principal se obtiene que con el modelo de corrección basado en la búsqueda de patrones se alcanza un rendimiento de 80%, además el tiempo de procesamiento requerido para analizar una palabra es de tan solo 0.1seg lo cual refleja un alto rendimiento. Con esto, podemos concluir también que la metodología desarrollada para realizar la corrección de las palabras es una buena opción para este objetivo.
|
18 |
Building task-oriented machine translation systemsSanchis Trilles, Germán 20 September 2012 (has links)
La principal meta de esta tesis es desarrollar sistemas de traduccion interactiva que presenten mayor
sinergia con sus usuarios potenciales. Por ello, el objetivo es hacer los sistemas estado del arte mas
ergonomicos, intuitivos y eficientes, con el fin de que el experto humano se sienta mas comodo al utilizarlos.
Con este fin se presentan diferentes t�ecnicas enfocadas a mejorar la adaptabilidad y el tiempo
de respuesta de los sistemas de traduccion automatica subyacentes, as�ÿ como tambien se presenta una
estrategia cuya finalidad es mejorar la interaccion hombre-m�aquina. Todo ello con el proposito ultimo
de rellenar el hueco existente entre el estado del arte en traduccion automatica y las herramientas que los
traductores humanos tienen a su disposici�on.
En lo que respecta al tiempo de respuesta de los sistemas de traducci�on autom�atica, en esta tesis se
presenta una t�ecnica de poda de los par�ametros de los modelos de traducci�on actuales, cuya intuici�on est�a
basada en el concepto de segmentaci�on biling¤ue, pero que termina por evolucionar hacia una estrategia de
re-estimaci�on de dichos par�ametros. Utilizando esta estrategia se obtienen resultados experimentales que
demuestran que es posible podar la tabla de segmentos hasta en un 97%, sin mermar por ello la calidad
de las traducciones obtenidas. Adem�as, estos resultados son coherentes en diferentes pares de lenguas,
lo cual evidencia que la t�ecnica que se presenta aqu�ÿ es efectiva en un entorno de traducci�on autom�atica
tradicional, y por lo tanto podr�ÿa ser utilizada directamente en un escenario de post-edici�on. Sin embargo,
los experimentos llevados a cabo en traducci�on interactiva son ligeramente menos convincentes, pues
implican la necesidad de llegar a un compromiso entre el tiempo de respuesta y la calidad de los sufijos
producidos.
Por otra parte, se presentan dos t�ecnicas de adaptaci�on, con el prop�osito de mejorar la adaptabilidad
de los sistemas de traducci�on autom�atica. La primera / Sanchis Trilles, G. (2012). Building task-oriented machine translation systems [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/17174
|
19 |
Corrector ortográfico neuronal para errores ortográficos multilingües adversarios para lenguas amazónicas peruanasCardoso Yllanes, Gerardo 09 November 2022 (has links)
Para combatir los ataques de ejemplos adversarios, se propuso implementar un modelo de reconocimiento de palabras y entrenarlo con oraciones creadas a través de diferentes técnicas de generación de data aumentada para cuatro lenguas amazónicas peruanas de pocos recursos: Shipibo-Konibo, Asháninka, Yanesha y Yine. Observamos que, para la gran mayoría de experimentos, el modelo propuesto logró corregir oraciones con palabras con errores ortográficos. Los modelos que fueron entrenados mediante oraciones creadas a través de los canales de errores de ambigüedad fonema-grafema y desnormalización; y, el modelo de ensamble, se desempeñaron mejor al momento de evaluarlos con los corpus creados por profesores de las lenguas. Finalmente, se implementó un prototipo del corrector ortográfico neuronal, en donde se encuentran todos los modelos entrenados en la presente investigación.
|
20 |
Metaphor identification for Spanish sentences using recurrent neural networksAlvarez Mouravskaia, Kevin 26 June 2020 (has links)
Metaphors are an important literary figure that is
found in books or and daily use. Nowadays it is an essential task
for Natural Language Processing (NLP), but the dependence of
the context and the lack corpus in other languages make it a
bottleneck for some tasks such as translation or interpretation of
texts. We present a classification model using recurrent neural
networks for metaphor identification in Spanish sentences. We
tested our model and his variants on a new corpus in Spanish and
compared it with the current baseline using an English corpus.
Our best model reports an F-score of 52.5% for Spanish and
60.4% for English. / Trabajo académico
|
Page generated in 0.111 seconds