21 |
Data augmentation and subword segmentation for spell-checking in amazonian languagesAlva Cohello, Carlo André 24 September 2021 (has links)
En el Perú se han identificado 48 lenguas originarias, según la información extraída
de la Base de Datos oficial de Pueblos Indígenas u originarios (BDPI). Estas son de
tradición oral [BDPI, 2020]. Por lo que no había una forma oficial de enseñanza. El
Instituto Linguistico de Verano (ILV) recopiló y documentó diversas lenguas nativas
[Faust, 1973], como un primer intento para tener un documento formal para la
enseñanza de una lengua originaria. Fue después que el Gobierno Peruano con su
estrategia de inclusión social “Incluir para crecer” creó una guía oficial para la
enseñanza de las lenguas originarias en su intento de normalizar el uso de estas
lenguas [Jara Males, Gonzales Acer, 2015].
Como se menciona en [Forcada, 2016], el uso de tecnologías del lenguaje permite
obtener una normalidad, incremento de literatura, estandarización y mayor
visibilidad. En el caso de Perú, ha habido iniciativas, como analizadores morfológicos
[Pereira-Noriega, et al., 2017] o correctores ortográficos [Alva, Oncevay, 2017],
enfocados en las lenguas originarias de escasos recursos computacionales que
pretenden apoyar el esfuerzo de revitalización, la educación indígena y la
documentación de las lenguas [Zariquiey et al., 2019].
Enfocándose en lenguas amazónicas se realizó un proyecto utilizando redes
neuronales para desarrollar un corrector ortográfico enfocado en las lenguas
originarias con buenos resultados a nivel de precisión [Lara, 2020]. En ese trabajo, al
disponer de poca cantidad de datos se generaron datos sintéticos con un método
aleatorio los cuales al ser evaluados con las métricas CharacTER [Wang, et al., 2016]
y BLEU [Papineni, et al., 2002] obtuvieron resultados bastante bajos. Además, las
lenguas amazónicas al ser ricas a nivel morfológico y tener un vocabulario extenso es
difícil representar palabras fuera del vocabulario, por lo que es recomendable usar
sub-palabras como término medio [Wu, Zhao, 2018].
El presente proyecto desarrolla distintos métodos de generación de datos, diferentes
al aleatorio, que son más robustos al considerar errores que son más cercanos a la
realidad. A su vez, para reducir el costo computacional y mantener la capacidad de
generar un vocabulario abierto, adicionalmente se entrena redes neuronales que
reciban como entrada sub-palabras tales como sílabas y segmentos divididos por byte
pair encoding (BPE). Finalmente, de los experimentos concluimos que hubo mejoras
con los métodos y la segmentación propuesta y se tienen más recursos
computacionales para nuestras lenguas amazónicas.
|
22 |
Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuenciaLara Avila, César Jesús 26 May 2020 (has links)
De acuerdo a la Base de Datos Oficial de Pueblos Indígenas u Originarios (BDPI), el Perú cuenta con 55 pueblos indígenas, identificados hasta la fecha; que hablan al menos 47 lenguas originarias y que según el Documento Nacional de Lenguas Originarias del Perú están divididos en 19 familias lingüísticas, siendo las familias Pano y Arawak las que presentan una mayor cantidad de lenguas, ambas con 10 lenguas. En este trabajo, se plantea un modelo de corrección ortográfica utilizando modelos de redes neuronales profundas, a nivel de caracteres, en lenguas de las dos familias antes mencionadas: Shipibo-Konibo de la familia Pano y Yanesha, Yine y Ashaninka para la familia Arawak. Para ello se han realizamos experimentos en conjuntos de datos obtenidos de páginas como PerúEduca, incorporando errores ortográficas cometidos a nivel de caracteres, en modelos secuencia a secuencia (seq2seq) que han demostrado recientemente ser un marco exitoso para varias tareas de procesamiento de lenguaje natural, incluyendo el proceso de corrección ortográfica. / Tesis
|
23 |
Herramienta de análisis y clasificación de complejidad de textos en españolPérez Urcia, Walter, Quispesaravia Ildefonso, André Raúl 04 June 2015 (has links)
La selección de textos es una de las responsabilidades principales de los profesores
dentro del planeamiento del orden de exposición a textos para sus alumnos. Debido a
la gran cantidad de textos disponibles y la diversidad de géneros y temas, esta tarea
demanda mucho tiempo y está ligada a aspectos subjetivos del evaluador. Esto es un
problema, sobre el cual proponemos una alternativa de automatización.
Se toma como proyecto la implementación de una herramienta de análisis y
clasificación de complejidad de tetos en español. Con ello se busca brindar una
alternativa automatizada al problema de escalabilidad en complejidad de textos. Esto
se refiere a la necesidad de tener un orden de textos evaluados por complejidad.
Para ello evaluamos la complejidad utilizando las métricas de Coh-Metrix adaptadas al
español. Este conjunto de métricas evalúa textos en inglés de acuerdo a los estudios
de coherencia y cohesión que los autores de Coh-Metrix desarrollaron.
En base a esta adatapación de Coh-Metrix se desarrolló un clasificador basado en
técnicas de aprenizaje de máquina y un conjunto de textos en español conformado por
fábulas y cuentos previamente clasificados. Finalmente estos componentes fueron
unidos en una herraamienta web para la accesibilidad pública de la herramienta
desarrollada.
|
24 |
Automatic acquisition of semantic classes for adjectivesBoleda Torrent, Gemma 18 April 2007 (has links)
Aquesta tesi tracta l'adquisició automàtica de classes semàntiques per a adjectius. La tesi es basa en dues hipòtesis. La primera, que alguns aspectes de la semàntica dels adjectius no són totalment impredictibles, sinó que corresponen a un conjunt de tipus denotacionals, o classes semàntiques. En conseqüència, els adjectius es poden agrupar en funció de la seva classe semàntica. La segona hipòtesi de treball és que la classe semàntica es reflecteix en més d'un nivell de descripció lingüística. Les interfícies entre morfologia i semàntica i entre sintaxi i semàntica són les que s'exploren en detall a la tesi. Com que no ens podíem basar en una classificació establerta prèviament, bona part dels esforços van dirigits precisament a definir una classificació adequada. La proposta de classificació s'assoleix mitjançant una metodologia iterativa. Es combinen aproximacions deductives i inductives, cosa que permet evolucionar d'una classificació inicial basada en la bibliografia teòrica a una classificació final que té en compte els resultats empírics dels diversos experiments. / Esta tesis versa sobre la adquisición automática de clases semánticas para adjetivos. La tesis se basa en dos hipótesis. La primera, que algunos aspectos de la semántica de los adjetivos no son totalmente impredecibles, sino que corresponden a un conjunto de tipos denotacionales, o clases semánticas. En consecuencia, los adjetivos se pueden agrupar en función de su clase semántica. La segunda hipótesis de trabajo es que la clase semántica se refleja en más de un nivel de descripción lingüística. Las interfaces entre morfología y semántica y entre sintaxis y semántica son las que se exploran en detalle en la tesis. Dado que no nos podíamos basar en una clasificación establecida previamente, buena parte de los esfuerzos van dirigidos precisamente a definir una clasificación adecuada. La propuesta de clasificación se logra mediante una metodología iterativa. Se combinan aproximaciones deductivas e inductivas, cosa que permite evolucionar de una clasificación inicial basada en la bibliografía teórica a una clasificación final que tiene en cuenta los resultados empíricos de los diversos experimentos. / This thesis concerns the automatic acquisition of semantic classes for adjectives. Our work builds on two hypotheses: first, that some aspects of the semantics of adjectives are not totally unpredictable, but correspond to a set of denotational types (semantic classes). Therefore, adjectives can be grouped together according to their semantic class. Second, that the semantic class of an adjective can be traced in more than one linguistic level. In particular, the morphology-semantics and syntax-semantics interfaces are explored for clues that lead to the acquisition of the targeted semantic classes.Since we could not rely on a previously established classification, a major effort is devoted to defining an adequate classification. The classification proposal is reached through an iterative methodology. By combining deductive and inductive approaches, we evolve from an initial classification based on literature review to a final classification proposal that takes advantage of the insight gained through a set of experiments.
|
25 |
"Métodos para análise discursiva automática" / Methods for Automatic Discourse AnalysisPardo, Thiago Alexandre Salgueiro 04 August 2005 (has links)
Pesquisas em Lingüística e Lingüística Computacional têm comprovado há tempos que um texto é mais do que uma simples seqüência de sentenças justapostas. Um texto possui uma estrutura subjacente altamente elaborada que relaciona todo o seu conteúdo, atribuindo-lhe coerência. A essa estrutura dá-se o nome de estrutura discursiva, sendo ela objeto de estudo da área de pesquisa conhecida como Análise de Discurso. Diante da grande utilidade desse conhecimento para diversas aplicações de Processamento de Línguas Naturais, por exemplo, sumarização automática de textos e resolução de anáforas, a análise discursiva automática tem recebido muita atenção. Para o português do Brasil, em particular, há poucos recursos e pesquisas nessa área de pesquisa. Neste cenário, esta tese de doutorado visa a investigar, desenvolver e implementar métodos para análise discursiva automática, adotando como principal teoria discursiva a Rhetorical Structure Theory, uma das teorias mais difundidas atualmente. A partir da anotação retórica e da análise de um corpus de textos científicos da Computação, produziu-se o primeiro analisador retórico automático para a língua portuguesa do Brasil, chamado DiZer (DIscourse analyZER), além de uma grande quantidade de conhecimento discursivo. Apresentam-se modelos estatísticos inéditos para o reconhecimento de relações discursivas baseados em unidades de conteúdo de crescente complexidade, abordando palavras, conceitos e estruturas argumentais. Em relação a este último item, é apresentado um modelo para o aprendizado não supervisionado das estruturas argumentais dos verbos, o qual foi aplicado para os 1.500 verbos mais freqüentes do inglês, resultando em um repositório chamado ArgBank. O DiZer e os modelos propostos são avaliados, produzindo resultados satisfatórios. / Researches in Linguistics and Computational Linguistics have shown that a text is more than a simple sequence of juxtaposed sentences. Every text contains a highly elaborated underlying structure that relates its content, attributing coherence to the text. This structure is called discourse structure and is the object of study in the research area known as Discourse Analysis. Given the usefulness of this kind of knowledge for several Natural Language Processing tasks, e.g., automatic text summarization and anaphora resolution, automatic discourse analysis became a very important research topic. For Brazilian Portuguese, in particular, there are few resources and researches about it. In this scenario, this thesis aims at investigating, developing and implementing methods for automatic discourse analysis, following the Rhetorical Structure Theory mainly, one of the most used discourse theories nowadays. Based on the rhetorical annotation and analysis of a corpus of scientific texts from Computers domain, the first rhetorical analyzer for Brazilian Portuguese, called DiZer (DIscourse analyZER), was produced, together with a big amount of discourse knowledge. Novel statistical models for detecting discourse relations are presented, based on content units of increasing complexity, namely, words, concepts and argument structures. About the latter, a model for unsupervised learning of verb argument structures is presented, being applied to the 1.500 most frequent English verbs, resulting in a repository called ArgBank. DiZer and the proposed models are evaluated, producing satisfactory results.
|
26 |
"Métodos para análise discursiva automática" / Methods for Automatic Discourse AnalysisThiago Alexandre Salgueiro Pardo 04 August 2005 (has links)
Pesquisas em Lingüística e Lingüística Computacional têm comprovado há tempos que um texto é mais do que uma simples seqüência de sentenças justapostas. Um texto possui uma estrutura subjacente altamente elaborada que relaciona todo o seu conteúdo, atribuindo-lhe coerência. A essa estrutura dá-se o nome de estrutura discursiva, sendo ela objeto de estudo da área de pesquisa conhecida como Análise de Discurso. Diante da grande utilidade desse conhecimento para diversas aplicações de Processamento de Línguas Naturais, por exemplo, sumarização automática de textos e resolução de anáforas, a análise discursiva automática tem recebido muita atenção. Para o português do Brasil, em particular, há poucos recursos e pesquisas nessa área de pesquisa. Neste cenário, esta tese de doutorado visa a investigar, desenvolver e implementar métodos para análise discursiva automática, adotando como principal teoria discursiva a Rhetorical Structure Theory, uma das teorias mais difundidas atualmente. A partir da anotação retórica e da análise de um corpus de textos científicos da Computação, produziu-se o primeiro analisador retórico automático para a língua portuguesa do Brasil, chamado DiZer (DIscourse analyZER), além de uma grande quantidade de conhecimento discursivo. Apresentam-se modelos estatísticos inéditos para o reconhecimento de relações discursivas baseados em unidades de conteúdo de crescente complexidade, abordando palavras, conceitos e estruturas argumentais. Em relação a este último item, é apresentado um modelo para o aprendizado não supervisionado das estruturas argumentais dos verbos, o qual foi aplicado para os 1.500 verbos mais freqüentes do inglês, resultando em um repositório chamado ArgBank. O DiZer e os modelos propostos são avaliados, produzindo resultados satisfatórios. / Researches in Linguistics and Computational Linguistics have shown that a text is more than a simple sequence of juxtaposed sentences. Every text contains a highly elaborated underlying structure that relates its content, attributing coherence to the text. This structure is called discourse structure and is the object of study in the research area known as Discourse Analysis. Given the usefulness of this kind of knowledge for several Natural Language Processing tasks, e.g., automatic text summarization and anaphora resolution, automatic discourse analysis became a very important research topic. For Brazilian Portuguese, in particular, there are few resources and researches about it. In this scenario, this thesis aims at investigating, developing and implementing methods for automatic discourse analysis, following the Rhetorical Structure Theory mainly, one of the most used discourse theories nowadays. Based on the rhetorical annotation and analysis of a corpus of scientific texts from Computers domain, the first rhetorical analyzer for Brazilian Portuguese, called DiZer (DIscourse analyZER), was produced, together with a big amount of discourse knowledge. Novel statistical models for detecting discourse relations are presented, based on content units of increasing complexity, namely, words, concepts and argument structures. About the latter, a model for unsupervised learning of verb argument structures is presented, being applied to the 1.500 most frequent English verbs, resulting in a repository called ArgBank. DiZer and the proposed models are evaluated, producing satisfactory results.
|
27 |
EMOTIBLOG: a model to learn subjetive information detection in the new textual genres of the web 2.0 -a multilingual and multi-genre approachBoldrini, Ester 23 January 2012 (has links)
No description available.
|
28 |
Implementación de algoritmos para la identificación automática de lenguas originarias peruanas en un repositorio digitalEspichán Linares, Alexandra Mercedes 12 February 2019 (has links)
Debido a la revitalización lingüística en el Perú a lo largo de los últimos años, existe un
creciente interés por reforzar la educación bilingüe en el país y aumentar la investigación
enfocada en sus lenguas nativas. Asimismo, hay que considerar que en el Perú actualmente
alrededor de 4 millones de personas hablan alguna de las 47 lenguas nativas conservadas. Por
tanto, hay una gran variedad de lenguas con las cuales trabajar, por lo que sería de utilidad
contar con herramientas automáticas que permitan agilizar algunas tareas en el estudio e
investigación de dichas lenguas.
De este modo, y desde el punto de vista de la informática, una de las primeras y
principales tareas lingüísticas que incorporan métodos computacionales es la identificación
automática de lenguaje, la cual se refiere a determinar el lenguaje en el que está escrito un
texto dado, el cual puede ser un documento, un párrafo o incluso una oración. Este además es
un paso esencial en el procesamiento automático de los datos del mundo real, donde una
multitud de lenguajes pueden estar presentes, ya que las técnicas de procesamiento del
lenguaje natural típicamente presuponen que todos los documentos a ser procesados están
escritos en un lenguaje dado.
Por lo tanto, este trabajo se enfoca en tres pasos: (1) en construir desde cero un corpus
anotado digital para 49 lenguas y dialectos indígenas peruanos, (2) en adaptarse a los
enfoques de aprendizaje de máquina estándar y profundo para la identificación de lenguas, y
(3) en comparar estadísticamente los resultados obtenidos.
Los resultados obtenidos fueron prometedores, el modelo estándar superó al modelo de
aprendizaje profundo tal como se esperaba, con una precisión promedio de 95.9%. En el
futuro, se espera que se aproveche el corpus y el modelo para tareas más complejas.
|
29 |
Implementación de un corrector ortográfico para lenguas originarias del Perú. Caso de estudio: shipibo-koniboAlva Cohello, Carlo André 12 February 2019 (has links)
En el Perú existen diversas lenguas originarias como el shipibo-konibo, asháninka, el kakataibo, entre otras [Rivera, 2001]. Estas lenguas se caracterizan porque son transmitidas a través de cuentos, poesía y otros medios orales de generación en generación por lo que la forma de aprender la lengua es variada. Esto provoca que haya diferencia en la forma de escribir entre las comunidades, incluso entre personas de una misma comunidad [Aikman, 1999]. Por esta razón, los textos que se escribieron en estas lenguas, como el shipibo-konibo, no dispusieron de un estándar ortográfico del cual guiarse, además que no tenían una necesidad de seguirlo. Sin embargo, gracias al apoyo del gobierno para impulsar la inclusión social, se implementó el programa “Incluir para crecer” [Jara Males, Gonzales Acer, 2015] que establece que la enseñanza en los niveles de primaria y secundaria de zonas rurales debe ser enseñada en la lengua originaria del lugar además del español. Por lo que se genera una necesidad de recursos para la enseñanza ya que se presenta una deficiencia en la ortografía por la variedad de enseñanza de manera oral. Además se realizó una encuesta a nivel nacional [Ministerio de educación del Perú, 2013] que indica que en el país se ha incrementado el uso de las tecnologías en la educación. De manera que los alumnos podrían mejorar su rendimiento con ayuda de la tecnología, si es que esta contase con recursos computacionales adecuados, logrando así tener un impacto positivo. Por lo descrito previamente, en este proyecto se afronta el problema de la carencia de apoyo y escases de recursos en la corrección ortográfica entre los hablantes de lenguas originarias en el Perú mediante la implementación un corrector ortográfico, utilizable desde una aplicación web. Para tener acceso al corrector y conseguir mayor difusión, se desarrollan servicios que son consumidos en la aplicación web, en la cual se integra el corrector ortográfico y un módulo de sugerencias al usuario.
|
30 |
Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-koniboPereira Noriega, José Humberto 15 February 2019 (has links)
Desde que el Ministerio de Educación oficializó el alfabeto shipibo-konibo, existe la necesidad de generar una gran cantidad de documentos educativos y oficiales para los hablantes de esta lengua, los cuales solo se realizan actualmente mediante el apoyo de traductores o personas bilingües. Sin embargo, en el campo de la lingüística computacional existen herramientas que permiten facilitar estas labores, como es el caso de un lematizador, el cual se encarga de obtener el lema o forma base de una palabra a partir de su forma flexionada. Su realización se da comúnmente mediante dos métodos: el uso de reglas morfológicas y el uso de diccionarios. Debido a esto, este proyecto tiene como objetivo principal desarrollar una herramienta de lematización para el shipibo-konibo usando un corpus de palabras, la cual se base en los estándares de anotación utilizados en otras lenguas, y que sea fácil de utilizar mediante una librería de funciones y un servicio web. Esta herramienta final se realizó utilizando principalmente el método de clasificación de los k-vecinos más cercanos, el cual permite estimar la clase de un nuevo caso mediante la comparación de sus características con las de casos previamente clasificados y dando como resultado la clase más frecuente para valores similares. Finalmente, la herramienta de lematización desarrollada logró alcanzar una precisión de 0.736 y de esta manera superar a herramientas utilizadas en otros idiomas.
|
Page generated in 0.1216 seconds