Spelling suggestions: "subject:"procesamiento dde lenguaje batural"" "subject:"procesamiento dde lenguaje datural""
31 |
EMOTIBLOG: a model to learn subjetive information detection in the new textual genres of the web 2.0 -a multilingual and multi-genre approachBoldrini, Ester 23 January 2012 (has links)
No description available.
|
32 |
Generación automática de un corpus de comprensión lectora para el español a partir de un conjunto de datos en lengua inglesaMonsalve Escudero, Fabricio Andrés 02 September 2019 (has links)
Desde la aparición del computador, la comprensión lectora automática ha sido un tema de interés científico, resultando en diversas investigaciones y técnicas que le permitan a una máquina “comprender” diversos textos. La introducción del aprendizaje de máquina originó un gran cambio en este ámbito de estudio. Esto debido a que mientras los algoritmos de aprendizaje de máquina y procesamiento de lenguaje natural iban evolucionando, se necesitaba mayores cantidades de datos o ejemplos para poder aprender correctamente. Este problema fue abordado por varios estudios científicos, dando origen a un grupo significativo de conjuntos de datos enfocados a distintos tipos de comprensión lectora. Sin embargo, estos conjuntos de datos fueron creados solo para el idioma inglés ya que, hasta la actualidad, los trabajos relacionados a este ámbito se desarrollan en ese idioma. Por ello, hay pocas investigaciones enfocadas en comprensión lectora para otros idiomas como el español, ya que la creación de los conjuntos de datos necesarios demanda una gran cantidad de recursos (horas-hombre de expertos) para lograr un resultado de calidad, lo que hace muy costoso este objetivo.
Por lo tanto, se propone una solución de menor costo, apoyándonos en la traducción y validación automática de un conjunto de datos de inglés a español. Específicamente, el conjunto de datos Stanford Question Answering Dataset (SQuAD), desarrollado por la Universidad de Stanford para la tarea de comprensión de lectura en inglés, cuenta con más de 100,000 pares de preguntas-respuestas planteadas sobre múltiples artículos de Wikipedia, y donde la respuesta a cada pregunta es un segmento de texto contenido explícitamente en los párrafos del artículo. Para lograr este objetivo, se usarán modelos de traducción automática y métricas de validación automática para traducción, para consecuentemente poder entrenar un modelo algorítmico de comprensión lectora en español, el cual podría permitir alcanzar los resultados del estado del arte para el inglés. Posteriormente, se desarrollará una interfaz de programación de aplicaciones (API), la cual servirá para la presentación de los resultados obtenidos.
Esta solución representa un desafío computacional e informático debido al gran volumen de datos a tratar, para lo cual se deben realizar procesos eficientes y una correcta utilización de recursos, manteniendo así la viabilidad del proyecto. Asimismo, el uso y aplicación de los resultados obtenidos en este proyecto es de gran variedad, ya que, a partir del entrenamiento de un modelo algorítmico de comprensión lectora, se puede aplicar en sistemas de extracción de información, sistemas de tutoría inteligente, preguntas frecuentes, entre otros. Además, este proyecto busca dejar un precedente y brindar un punto de partida en futuras investigaciones sobre generación automática de conjuntos de datos para comprensión lectora en español, utilizando un enfoque en aprendizaje de máquina y procesamiento de lenguaje natural.
|
33 |
Identificación de múltiples intenciones y sus dependencias subsumidas en múltiples utterances para el desarrollo de ChatbotsPariasca Trevejo, Emanuel Eduardo Franco 29 March 2023 (has links)
Los chatbots son sistemas de procesamiento de lenguaje natural con los que se puede
interactuar mediante una interfaz de texto o voz, y han sido adoptados en muchas
industrias para responder las preguntas y solicitudes de los usuarios a través de
interfaces de chat. Por ende, los chatbots tienen un valor comercial como asistentes
virtuales.
Tanto es así que se está trabajando en que los chatbots puedan comunicarse con los
usuarios de manera similar a la comunicación que hay entre dos humanos; en otras
palabras, un usuario debe experimentar la sensación de comunicarse con una
persona. A su vez, dado que los chatbots eliminan los factores humanos y están
disponibles las 24 horas del día, hay un incremento en la demanda de las capacidades
de inteligencia artificial para interactuar con los clientes. En este aspecto, la sensación
de comunicarse con una persona puede ser lograda mediante la inclusión de técnicas
de comprensión del lenguaje natural, procesamiento del lenguaje natural, generación
del lenguaje natural y aprendizaje automático.
De este modo, los chatbots son capaces de interpretar una o varias intenciones
comunicativas en cada “utterance” de un usuario, siendo que un “utterance” es todo lo
que el usuario o chatbot mencionan mientras es su turno de hablar o escribir. Así
mismo, los chatbots pueden asociar una o varias intenciones comunicativas a un
identificador de “utterances” que contiene varios “utterances”. Por ende, a partir del
“utterance” de un usuario, un chatbot es capaz de interpretar una o varias intenciones
comunicativas asociadas a un identificador de “utterances”, a través del cual usa los
“utterances” contenidos para escoger o generar un “utterance” como respuesta al
usuario. No obstante, si bien un chatbot puede identificar múltiples intenciones
comunicativas en un enunciado, de un usuario, con un “utterance”, no puede identificar
múltiples intenciones comunicativas en un enunciado, de un usuario, que contenga
múltiples “utterances”. En consecuencia, tampoco se ha investigado como encontrar
los “utterances” de respuesta del chatbot cuando se tiene múltiples “utterances”.
Por lo descrito previamente, en este proyecto se propone la implementación de una
herramienta para: identificar múltiples intenciones comunicativas en múltiples
“utterances”, identificar las dependencias entre intenciones, agrupar las intenciones a
partir de sus dependencias, identificar las dependencias entre los grupos de
intenciones respecto de los identificadores de “utterances” y los identificadores de
“utterances” respecto de los “utterances”. Además, para facilitar el uso de la
herramienta, se elabora una interfaz de programación de aplicaciones que recibe
múltiples “utterances” en forma de texto, y devuelve los “utterances” segmentados, las
intenciones identificadas, los grupos entre intenciones y los “utterances” de respuesta
del chatbot para cada grupo de intenciones.
Los resultados obtenidos evidencian que los enfoques utilizados son exitosos. Por
último, se espera mejorar los resultados con técnicas de inteligencia artificial y
computación lingüística.
|
34 |
Comprensión y generación de lenguaje natural en un sistema de diálogo usando inteligencia artificial para servicios telefónicos de información de cinesMesones Barrón, Carlos Enrique 09 May 2011 (has links)
El presente documento es resultado de la investigación sobre automatización inteligente - comprensión y generación de lenguaje natural- en un Sistema de Diálogo, para optimar el servicio de atención al cliente actualmente brindado por un operador vía telefónica.
|
35 |
ExpertTI : an knowledge system for intelligent service desks using free textBello Ruiz, Alejandro Toribio, Melgar, Andrés, Pizarro, Daniel 17 April 2017 (has links)
When many users consult service desks simultaneously, these
typically saturate. This causes the customer attention is delayed more
than usual. The service is perceived as lousy from the point of view of
the customer. Increase the amount of human agents is a costly process
for organizations. In addition, the amount of sta turnover in this type
of service is very high, which means make frequent training. All this has
motivated the design of a knowledge-based system that automatically
assists both customers and human agents at the service desk. Web technology
was used to enable clients to communicate with a software agent
via chat. Techniques of Natural Language Processing were used in order
the software agent understands the customer requests. The domain
knowledge used by the software agent to understand customer requests
has been codi ed in an ontology. A rule-based expert system was designed
to perform the diagnostic task. This paper presents a knowledge-based
system allowing client to communicate with the service desk through a
chat system using free text. A software agent automatically executes the
customer request. The agent software attempts to reach a conclusion using
expert system and ontology. If achieved success, returns the response
to the customer, otherwise the request is redirected to a human agent.
Evaluations conducted with users have shown an improvement in the
attention of service desks when the software developed is used. On the
other hand, since the most frequent requests are handled automatically,
the workload of human agents decreases considerably. The software has
also been used to train new human agents which facilitates and reduces
the cost of training. / Tesis
|
36 |
Modelo de medición de desempeño de servicios financieros en Perú a través de análisis de sentimiento utilizando métodos de decisiones multicriterioCueva Mendoza, Araceli Yoselín, Cueva Mendoza, César Blademir, Huacac Huañec, Judith Cathy, Junco Navarro, Ananda Adelaida 09 August 2023 (has links)
El presente trabajo de investigación tuvo como objetivo establecer un modelo de medición de
enfoque cuantitativo, puesto que se busca resolver un problema práctico a partir de la teoría;
para luego, brindar desempeño de servicios financieros haciendo uso de una de las técnicas
de procesamiento de lenguaje natural (PLN) como es el análisis de sentimiento que,
complementado con un método de decisiones multicriterio (MCDM), permite realizar una
evaluación de productos o servicios ofrecidos por los cuatro principales bancos de Perú,
analizando opiniones que expresan sentimientos positivos, negativos o neutrales en la red
social Twitter. La investigación permitió identificar un conjunto de aspectos o criterios a
partir de los cuales se evalúa la polaridad del sentimiento expresada en los tuits, generando un
consolidado de tablas de puntuación, para finalmente evaluar el desempeño de cada entidad
bancaria según los aspectos identificados. La investigación se estableció dentro de un marco
de diseño como una investigación aplicada, bajo una fuente de información alternativa que
soporte la toma de decisión de un cliente bancario al momento de contratar un servicio
financiero, de tal manera que se pueda mejorar su satisfacción. Para la construcción del
modelo se evaluaron 15,546 tuits de los que se escogieron 5,276 en los cuales se menciona al
menos un aspecto. Dicho conjunto de datos se evaluó con métodos de polarización de
sentimiento como Stanza, VADER, TextBlob y BETO (BERT) y; posteriormente, se utilizó
el método MCDM-VIKOR para proporcionar información adicional que permita determinar
la mejor opción de servicio a contratar. Los resultados obtenidos arrojan que el mejor método
para determinar la polaridad de los tuits es BETO, logrando un nivel de exactitud de 88%,
además de verificar que tanto BETO como VIKOR cumplen con las condiciones de
aceptabilidad definidas por los métodos, logrando con ello identificar de manera adecuada la
mejor alternativa de servicio. / This study aims to create a model for measuring the performance of financial services using
Natural Language Processing (NLP) techniques like Sentiment Analysis (SA) and a
Multicriteria Decision Method. (MCDM) enables the evaluation of products or services
offered by Peru's four major banks by analyzing positive, negative, or neutral opinions
expressed on the social network Twitter. The study identifies a set of aspects or criteria for
scoring the sentiment expressed in tweets, generates a consolidated score table, and finally
evaluates the performance of each banking entity based on the identified aspects. The
research was established within a design framework as applied research, using a quantitative
approach, since it seeks to solve a practical problem based on the theory and then provide an
alternative source of information that supports a bank client's decision-making when hiring a
financial service to improve satisfaction. For the model's construction, 15,546 tweets were
evaluated, with only 5,276 chosen that mentioned at least one aspect. The data set was
analyzed using sentiment polarization methods such as Stanza, VADER, TextBlob and
BETO (BERT), and then the MCDM VIKOR provides additional information to determine
the best service option to contract. The results obtained show us that the best method to
determine the polarity of the tweets is BETO, achieving an accuracy level of 88%, in addition
to verifying that both BETO and VIKOR meet the acceptability conditions defined by the
methods; achieving this adequately resolve the best service alternative.
|
37 |
Desarrollo de recursos léxicos multi-dialécticos para el quechuaMelgarejo Vergara, Nelsi Belly 13 March 2023 (has links)
Las lenguas de bajos recursos como el quechua no cuentan con recursos léxicos a pesar de
ser importantes para contribuir en las investigaciones y en el desarrollo de muchas herramientas
de Procesamiento de Lenguaje Natural (NLP) que se benefician o requieren de recursos de este
tipo, de esa forma poder contribuir en la preservación de la lengua. El objetivo de esta investigación
es construir una WordNet (base de datos léxica) para las variedades quechua sureño,
central, amazónico y norteño, y un un etiquetado gramatical de secuencias de palabras (POS
tagging) para la variedad del quechua sureño. Para el desarrollo de esta investigación se recopiló
información de los diccionarios y se creó corpus paralelo quechua - español, se implementó
un algoritmo de clasificación para alinear el sentido de las palabras con el synset del significado
en español para cada variedad de la lengua quechua y finalmente se creó un modelo de
etiquetación gramatical basado en el modelo BERT. El score obtenido para el POS tagging de
la variedad quechua sureño fue 0.85% y para el quechua central 0.8 %.
|
38 |
On the Mono- and Cross-Language Detection of Text Re-Use and PlagiarismBarrón Cedeño, Luis Alberto 08 June 2012 (has links)
Barrón Cedeño, LA. (2012). On the Mono- and Cross-Language Detection of Text Re-Use and Plagiarism [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/16012
|
39 |
Las Tecnologías del Lenguaje Humano como herramienta de mitigación de la violencia en redes socialesBotella-Gil, Beatriz 16 February 2024 (has links)
La irrupción de Internet ha transformado radicalmente la forma en que nos relacionamos y comunicamos. Esta revolución ha trascendido las barreras físicas y temporales, permitiéndonos conectar con personas de todo el mundo sin importar la distancia o las diferencias horarias. Las redes sociales, en particular, han forjado un espacio virtual que replica gran parte de nuestras actividades cotidianas, dando forma a un mundo digital que ha impactado incluso en el ámbito laboral. El fenómeno de las redes sociales ha creado un paralelismo entre nuestra vida real y la virtual. La facilidad con la que podemos acceder a este universo virtual ha redefinido la naturaleza misma de nuestras relaciones interpersonales. Estas plataformas de comunicación representan un avance significativo para las relaciones personales; sin embargo, nos enfrentamos a un problema que aún necesitamos gestionar. La publicación de mensajes violentos son manifestaciones perjudiciales que, en muchos casos, encuentran su origen en la relativa impunidad que ofrece el anonimato digital. Este fenómeno plantea desafíos significativos para la sociedad y requiere respuestas efectivas a nivel individual, comunitario y legislativo. El anonimato en línea otorga a los individuos una máscara virtual detrás de la cual pueden ocultarse mientras participan en comportamientos violentos. Esta falta de responsabilidad personal puede exacerbar la agresividad en las interacciones, ya que las consecuencias directas parecen menos tangibles. La ausencia de empatía, a menudo atribuida a la despersonalización facilitada por las pantallas, contribuye al aumento de comportamientos irrespetuosos y violentos. La impunidad de los actos en el entorno virtual presenta un desafío adicional. La dificultad para rastrear y atribuir responsabilidad a los perpetradores de actos violentos en línea puede disuadir la acción disciplinaria. Esto crea un ambiente donde los límites éticos y sociales pueden traspasarse sin consecuencias visibles. El control de la violencia en línea requiere una respuesta colectiva y multidimensional. Educación, concienciación, políticas efectivas y tecnologías avanzadas son herramientas fundamentales para abordar este desafío y construir un entorno digital que fomente la empatía, el respeto y la seguridad. El Procesamiento del Lenguaje Natural (PLN) emerge como un pilar esencial en la lucha contra la violencia en línea. En un entorno digital saturado de información, el PLN permite analizar y comprender el lenguaje humano de manera automatizada, desempeñando un papel fundamental en la detección y prevención de comportamientos violentos. La creación de recursos específicos, como lexicones que contienen términos relacionados con la violencia, se convierte en una herramienta valiosa. Estos recursos actúan como indicadores para los algoritmos, permitiéndoles identificar patrones lingüísticos asociados con mensajes agresivos o dañinos. Además, contar con guías de anotación para la creación de corpus que proporcionen ejemplos específicos, sirve como base para el entrenamiento de los sistemas, mejorando su capacidad para reconocer contextos y matices. La capacidad del PLN para procesar grandes volúmenes de datos de texto de manera rápida y eficiente permite una detección temprana de la violencia en línea. Los algoritmos entrenados pueden analizar conversaciones en tiempo real, identificando posibles amenazas y comportamientos problemáticos antes de que escalen. Además, la adaptabilidad del PLN lo convierte en una herramienta crucial para abordar la evolución constante de las formas de violencia en línea. A medida que las tácticas y los patrones de comportamiento cambian, los sistemas de PLN pueden ajustarse y aprender de nuevas manifestaciones de violencia, manteniéndose relevantes y efectivos. Para contribuir con la detección de mensajes violentos en redes sociales, esta investigación presenta un recurso para la obtención de insultos y expresiones negativas (Fiero) resultando en un lexicón (SHARE), una guía de anotación (VIL) detallada para la elaboración de un corpus y un corpus con 6211 tuits (VILLANOS). Además, se desarrolla la propuesta de una metodología de anotación semiautomática (HITL) que agiliza la tarea del experto anotador reduciendo el tiempo empleado y se expone la evaluación extrínseca de nuestras suposiciones fundamentales. Esta validación se materializó a través de una serie de experimentos que se detallan en este trabajo. El trabajo realizado presenta valiosas aportaciones para enfrentar el desafío de la detección de mensajes violentos en redes sociales, utilizando técnicas de PLN desde una perspectiva multidisciplinaria. Este enfoque implica la integración de conocimientos y metodologías provenientes de diferentes campos, como la psicología, la sociología, la lingüística y la informática. Esta sinergia de perspectivas enriquece la comprensión del fenómeno de la violencia en redes sociales, considerando no sólo los aspectos lingüísticos sino también los sociales, psicológicos y culturales que influyen en su manifestación. / El trabajo de investigación desarrollado en esta tesis forma parte de los proyectos I+D+i COOLANG.TRIVIAL: “Recursos tecnológicos para análisis viral inteligente mediante PLN” (PID2021-122263OB-C22) financiado por MCIN/AEI/10.13039/501100011033/ y “FEDER Una manera de hacer Europa”, así como del proyecto I+D+i SOCIALFAIRNESS.SOCIALTRUST: “Análisis de la confiabilidad en medios digitales” (PDC2022-133146-C22) financiado por MCIN/AEI/10.13039/501100011033/ y por la “Unión Europea NextGenerationEU/PRTR”. Este trabajo también ha sido financiado por la Generalitat Valenciana (Conselleria d’Educació, Investigació, Cultura i Esport) a través del Proyecto: NL4DISMIS: TLHs para una Sociedad Inclusiva Igualitaria y Accesible (CIPROM/2021/021).
|
40 |
Representación vectorial de relación de hiponimia e hiperonimia en españolUtia Deza, Jose Vicente 03 September 2020 (has links)
Actualmente, gracias a Internet y a la Web se dispone de información casi ilimitada, la cual está representada a nivel de textos en su mayoría. Así, dado que acceder a estos textos en su mayoría es de libre acceso, nace el interés por su manipulación de una manera automatizada para poder extraer información que se considere relevante. El presente trabajo de investigación se ubica dentro de la detección automática de relaciones léxicas entre palabras, que son relaciones que se establecen entre los significados de las palabras tal como se consigna en el diccionario. En particular, se centra en la detección de relaciones de hiponimia e hiperonimia, debido a que éstas son relaciones de palabras en las que una de ellas engloba el significado de otra o viceversa, lo cual podría considerarse como categorización de palabras. Básicamente, el método propuesto se basa en la manipulación de una representación vectorial de palabras denominado Word Embeddings, para resaltar especialmente áquellas que tengan relación jerárquica, proceso que se realiza a partir de textos no estructurados. Tradicionalmente, los Word Embeddings son utilizados para tareas de analogía, es decir, para detectar relaciones de sinonimia, por lo que se considera un poco más complejo utilizar estos vectores para la detección de relaciones jerárquicas (hiperonimia e hiponimia), por consecuencia se proponen métodos adicionales para que, en conjunto con los Word Embeddings, se puedan obtener resultados eficientes al momento de detectar las relaciones entre distintos pares de palabras. / Currently, thanks to the Internet and Web, almost unlimited information is available, which is mostly represented at text level. Thus, given that access to these texts is mostly freely available, interest in their manipulation is born in an automated way to extract information that is considered relevant. The present research work is located within the automatic detection of lexical relations between words, which are relations that are established between the meanings of words as it is stated in the dictionary. In particular, it focuses on the detection of hyponymy and hyperonymy relationships, because these are word relationships in which one of them encompasses the meaning of another or vice versa, which could be considered as categorization of words. Basically, the proposed method is based on the manipulation of Word Embeddings to highlight especially words that have a hierarchical relationship, a process that is carried out from unstructured texts. Traditionally, Word Embeddings are used for analogy tasks, that is, to detect synonymy relationships, so it is considered a bit more complex to use these vectors for the hierarchical relationships (hyperonimia and hyponymy) detection, therefore, additional methods are proposed, so in conjunction with the Word Embeddings, efficient results can be obtained when detecting the relationships between different pairs of words. / Tesis
|
Page generated in 0.1043 seconds