Global ETD Search

1	Solución para determinar la relevancia de un texto por medio del nivel de subjetividad en textos digitales Pajuelo Huayta, Luis Enrique, Gómez Mandujano, Juan Carlos 27 September 2019 (has links) En la actualidad el internet es el medio más utilizado, el cual alberga una gran cantidad de información textual sobre diversos temas; sin embargo, dicha información, en la gran mayoría de casos no es regulada por criterios de calidad de información, ya que cualquier usuario puede publicar y editar el contenido, lo cual se genera la necesidad de encontrar procedimientos automatizados que puedan filtrar los contenidos de los textos en la web. El objetivo principal del proyecto es implementar una solución que permita identificar el grado la subjetividad de un texto en base a un diccionario de datos, esto se podrá debido a la implementación de procesos que ayuden a determinar la subjetividad de textos. El software desarrollado en el proyecto es basado en software de licencia abierta que permite analizar y almacenar un conjunto de palabras según la ponderación de frecuencia de la subjetividad estimada por cada distribución creando así un diccionario. Para esto, todas las palabras son transformadas a su forma base sin importar su variación morfológica a través del uso de técnicas de procesamiento de lenguaje natural. Como resultado del proyecto se realizó la implementación de una solución software el cual realiza la obtención del grado de subjetividad. Dicho software procesa la información y es almacenado para luego ser mostrado por medio de reportes. El resultado de la solución software fue validado para verificar la efectividad de este. El resultado mostró un porcentaje de efectividad satisfactoria. / In the present time, the internet is one of the most used media worldwide, and it has a lot of textual information about different topics; But that information, in many cases is not regulated by any information quality criteria. This is caused because any person can publish or edit the content of its. This generates the necessity of find automated procedures to filter the contents of the texts on the web. The main objective of the project is to implement a solution that allows identifying the degree of subjectivity of a text based on a data dictionary, this may be due to the implementation of processes that help define the subjectivity of texts. The developed software in the project is based on open source software that allows to analyze and store a set of words according to the frequency weighting of the subjectivity estimated by each distribution thus creating a dictionary. For this, all words are transformed to their base form regardless of their morphological variation through the use of natural language processing techniques. As a result of the project, the implementation of a software solution gives a result, which obtains the degree of subjectivity. This software processes the information. After that is stored and then be shown through reports. The result of the software solution was validated to verify its effectiveness. The result showed a satisfactory effectiveness percentage. / Tesis Sistemas de información Textos digitales Lematización Information systems Digital texts Lemmatization
2	Ampliación y perfeccionamiento de los métodos cuantitativos y leyes clásicas en recuperación de la información: desarrollo de un sistema de indización y segmentación automática para textos en español Rodríguez Luna, Manuela 29 July 2013 (has links) Se desarrolla e implementa un Sistema de Indización y Segmentación Automática para textos largos en español, contribuyendo a su categorización textual e indización automática. Para su desarrollo, se estudian y perfeccionan los métodos cuantitativos y leyes clásicas en Recuperación de Información, como son los modelos relativos al proceso de repetición de palabras (Zipf, 1949), (Mandelbrot, 1953) y al proceso de creación de vocabulario (Heaps, 1978). Se realiza una crítica de las circunstancias de aplicación de los modelos y se estudia la estabilidad de los parámetros de manera experimental mediante recuentos en textos y sus fragmentos. Se establecen recomendaciones a priori para los valores de sus parámetros, dependiendo de las circunstancias de aplicación y del tipo de texto analizado. Se observa el comportamiento de los parámetros de las fórmulas para vislumbrar una relación directa con la tipología de texto analizado. Se propone un nuevo modelo (Log-%) para la visualización de la distribución de frecuencias de las palabras de un texto. El objetivo final es detectar los cambios temáticos que se producen en un documento, para establecer su estructura temática y obtener la indización automática de cada una de sus partes. De este modo, se obtiene la categorización del texto o documento utilizando la enumeración de sus partes temáticas a modo de niveles o estructura arbórea. Una vez constituidas las partes temáticas del texto en sus niveles correspondientes con los términos indizados, estos se agrupan en bloques distribuidos jerárquicamente según se desglose el documento en cuestión. El bloque inicial describe el contenido global de todo el documento con una cantidad inicial de palabras o descriptores. Seguidamente este bloque inicial se subdivide en varios bloques, los cuales corresponden a distintas partes del documento total, cada uno de estos también contiene una serie de palabras que describe el contenido y así sucesivamente hasta poder formar las div.... / Rodríguez Luna, M. (2013). Ampliación y perfeccionamiento de los métodos cuantitativos y leyes clásicas en recuperación de la información: desarrollo de un sistema de indización y segmentación automática para textos en español [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/31517 Métodos cuantitativos Indización Automática Segmentación Automática Métodos estadísticos Métodos probabilísticos Similitud entre palabras Lematización Ley de Zipf Ley de Heaps

Search results

Solución para determinar la relevancia de un texto por medio del nivel de subjetividad en textos digitales

Ampliación y perfeccionamiento de los métodos cuantitativos y leyes clásicas en recuperación de la información: desarrollo de un sistema de indización y segmentación automática para textos en español