Spelling suggestions: "subject:"métododos estadístico"" "subject:"métododos estadísticas""
141 |
A crowd-powered conversational assistant for the improvement of a neural machine translation system in native peruvian languageGómez Montoya, Héctor Erasmo 13 September 2019 (has links)
Para las comunidades más pequeñas y nativas en un país, es muy difícil encontrar información que se encuentre en su idioma original, esto debido a que su lengua no tiene el alcance ni la cantidad suficiente de hablantes, para poder seguir siendo transmitida. A este tipo de lengua se le denomina minoritaria o de pocos recursos.
Una de las principales formas en las que el gobierno incentiva el proceso de multilingüismo es proporcionando educación en el idioma nativo a su población, tal es el caso de los hablantes de Shipibo-Konibo que se encuentran dispersos a lo largo de la amazonía del Perú. Ellos cuentan con colegios donde se les imparten clases en su lengua nativa para los niveles de primaria y secundaria. Sin embargo, una necesidad con la que cuentan los pobladores es que la cantidad de material educativo completamente traducido a Shipibo-Konibo es reducida. Esto debido a que el proceso de traducción es muy costoso y poco confiable.
El Grupo de investigación en Inteligencia Artificial de la PUCP (IA-PUCP, ex GRPIAA) ha desarrollado una plataforma que utiliza corpus paralelos la creación de un modelo estadístico de traducción automática para las lenguas Shipibo-Konibo y español. Este modelo sufre de ciertas limitantes, entre las cuales tenemos: la cantidad de recursos bibliográficos y material completamente traducido, esto debido a que al ser una lengua minoritaria o de pocos recursos carecen de facilidades para la generación de nuevos corpus. Por otro lado, se desea mejorar el modelo actual en parámetros de eficiencia y obtener mejores resultados en las traducciones.
En este contexto nace la pregunta que motiva el presente trabajo: ¿de qué manera podemos incrementar el corpus paralelo de forma eficiente y confiable para la mejora del modelo actual de traducción automática? Por consiguiente, en el presente trabajo se propone desarrollar un agente conversacional que permita la generación de nuevos corpus paralelos entre Shipibo-Konibo y español que permitan mejorar un modelo de traducción automática neuronal en las lenguas ya mencionadas. / Tesis
|
142 |
Desarrollo y evaluación de diferentes metodologías para la gestión automática del diálogoGriol Barres, David 07 May 2008 (has links)
El objetivo principal de la tesis que se presenta es el estudio y
desarrollo de diferentes metodologías para la gestión del diálogo
en sistemas de diálogo hablado. El principal reto planteado en la
tesis reside en el desarrollo de metodologías puramente
estadísticas para la gestión del diálogo, basadas en el
aprendizaje de un modelo a partir de un corpus de diálogos
etiquetados. En este campo, se presentan diferentes aproximaciones
para realizar la gestión, la mejora del modelo estadístico y la
evaluación del sistema del diálogo.
Para la implementación práctica de estas metodologías, en el
ámbito de una tarea específica, ha sido necesaria la adquisición y
etiquetado de un corpus de diálogos. El hecho de disponer de un
gran corpus de diálogos ha facilitado el aprendizaje y evaluación
del modelo de gestión desarrollado. Así mismo, se ha implementado
un sistema de diálogo completo, que permite evaluar el
funcionamiento práctico de las metodologías de gestión en
condiciones reales de uso.
Para evaluar las técnicas de gestión del diálogo se proponen
diferentes aproximaciones: la evaluación mediante usuarios reales;
la evaluación con el corpus adquirido, en el cual se han definido
unas particiones de entrenamiento y prueba; y la utilización de
técnicas de simulación de
usuarios. El simulador de usuario desarrollado
permite modelizar de forma estadística el proceso completo del
diálogo. En la aproximación que se presenta, tanto la obtención de
la respuesta del sistema como la generación del turno de usuario
se modelizan como un problema de clasificación, para el que se
codifica como entrada un conjunto de variables que representan el
estado actual del diálogo y como resultado de la clasificación se
obtienen las probabilidades de seleccionar cada una de las
respuestas (secuencia de actos de diálogo) definidas
respectivamente para el usuario y el sistema. / Griol Barres, D. (2007). Desarrollo y evaluación de diferentes metodologías para la gestión automática del diálogo [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1956
|
143 |
Ampliación y perfeccionamiento de los métodos cuantitativos y leyes clásicas en recuperación de la información: desarrollo de un sistema de indización y segmentación automática para textos en españolRodríguez Luna, Manuela 29 July 2013 (has links)
Se desarrolla e implementa un Sistema de Indización y Segmentación Automática para textos largos en español, contribuyendo a su categorización textual e indización automática.
Para su desarrollo, se estudian y perfeccionan los métodos cuantitativos y leyes clásicas en Recuperación de Información, como son los modelos relativos al proceso de repetición de palabras (Zipf, 1949), (Mandelbrot, 1953) y al proceso de creación de vocabulario (Heaps, 1978). Se realiza una crítica de las circunstancias de aplicación de los modelos y se estudia la estabilidad de los parámetros de manera experimental mediante recuentos en textos y sus fragmentos. Se establecen recomendaciones a priori para los valores de sus parámetros, dependiendo de las circunstancias de aplicación y del tipo de texto analizado. Se observa el comportamiento de los parámetros de las fórmulas para vislumbrar una relación directa con la tipología de texto analizado. Se propone un nuevo modelo (Log-%) para la visualización de la distribución de frecuencias de las palabras de un texto.
El objetivo final es detectar los cambios temáticos que se producen en un documento, para establecer su estructura temática y obtener la indización automática de cada una de sus partes. De este modo, se obtiene la categorización del texto o documento utilizando la enumeración de sus partes temáticas a modo de niveles o estructura arbórea.
Una vez constituidas las partes temáticas del texto en sus niveles correspondientes con los términos indizados, estos se agrupan en bloques distribuidos jerárquicamente según se desglose el documento en cuestión. El bloque inicial describe el contenido global de todo el documento con una cantidad inicial de palabras o descriptores. Seguidamente este bloque inicial se subdivide en varios bloques, los cuales corresponden a distintas partes del documento total, cada uno de estos también contiene una serie de palabras que describe el contenido y así sucesivamente hasta poder formar las div.... / Rodríguez Luna, M. (2013). Ampliación y perfeccionamiento de los métodos cuantitativos y leyes clásicas en recuperación de la información: desarrollo de un sistema de indización y segmentación automática para textos en español [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/31517
|
Page generated in 0.0717 seconds