Spelling suggestions: "subject:"minería dde datos"" "subject:"minería dde ratos""
161 |
Identificación del sentimiento de entidades en notas periodísticas basado en técnicas de procesamiento de lenguaje natural: una revisión de literaturaLau Li, Julio Ka Jau 15 March 2021 (has links)
El análisis de sentimiento a nivel de entidades sobre notas periodísticas es una tarea de una
complejidad no trivial, lo que genera interés por parte de diferentes sectores, ya que esos tipos
de fuentes de datos causa que los sentimientos identificados no convergen hacia un objetivo
por su longitud extensa y variedad de temas. Sin embargo, no se sabe a ciencia cierta su
dificultad, por lo que el objetivo principal es poder identificar los conocimientos e información
disponible y existente en la actualidad para responder las preguntas formuladas. Por eso, se
define una revisión de literatura tomando en consideración la base de datos Scopus y el empleo
de palabras claves definidas por el método PICOC, donde se obtuvieron en total siete
documentos, cuatro artículos y tres revisiones sistemáticas que evidencian una disponibilidad
de espacio para experimentar y explorar, dado que principalmente se ha trabajado en medios
con mayor cantidad de datos y menor complejidad como las redes sociales o encuestas de
servicios. Esto se reafirmó al revisar los documentos de tesis asociados a este tema, donde
inclusive su demanda ha superado a paradigmas de análisis de sentimientos más clásicos. Es
por ello, que se concluye la necesidad de explotar esta área de conocimientos para poder
satisfacer la demanda de información cada vez más granulada, relevante y compleja,
aprovechando los recursos lingüísticos más óptimos para facilitar las labores que puedan
presentarse.
|
162 |
Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureñoUbaldo Gamarra, Victoria Alejandra 09 November 2022 (has links)
En la actualidad, para los más de 30 millones de peruanos, la información a la que accedemos
se encuentra mayormente en el idioma español. Sin embargo Perú es un país multilingüe,
posee una gran riqueza cultural y lingüística con alrededor de 47 lenguas originarias. Para
esta población encontrar textos, noticias y contenido en internet en su lengua nativa es una
tarea complicada. Existe un limitado acceso a información como lecturas, textos, noticias u
otros contenidos que en modalidad digital es muy escaso. Esto se debe a que los pocos
ciudadanos que se comunican en lenguas nativas son de manera oral y algunos hacen uso del
español sobre sus lenguas nativas.
De ese modo, existen investigaciones en el campo de la inteligencia artificial donde a partir
del poco material digital recolectado de lenguas nativas se construyeron corpus digitales para
tareas de traducción automática y detección del lenguaje. Sin embargo, aún son corpus
pequeños para elaborar traductores de calidad, presentan complicaciones en traducir textos
completos, y además díficil el aprendizaje con algoritmos complejos, como redes neuronales
profundas.
Por este motivo se propone realizar una minería web de textos en la lengua originaria
quechua sureño para incrementar la cantidad de oraciones y diversidad de dominios, evaluar
la calidad de los nuevos textos en un modelo de traducción automática de quechua a español,
y desarrollar una web de libre acceso de consulta al corpus creado.
|
163 |
Analítica de datos en información pública de medios periodísticos y redes sociales para el análisis de sentimiento: una revisión de literaturaZárate Calderón, Gabriel Hélard 02 February 2021 (has links)
El análisis de sentimiento es un área de investigación importante en el procesamiento de lenguaje natural, la cual está en constante crecimiento especialmente por la generación de grandes volúmenes de información textual, y el avance tecnológico en lo que se refiere al almacenamiento y los algoritmos inteligentes para el análisis de esta. Esta tarea cada vez va tomando más fuerza su uso en diferentes aplicaciones computacionales dado el crecimiento exponencial del uso de medios digitales y redes sociales, las cuales, gracias a la información debidamente procesada, pueden ser muy valiosas para los negocios.
Actualmente existen procedimientos ambiguos para la realización de dicha tarea y sobre todo para textos en español y de manera específica para notas periodísticas y publicaciones realizadas en redes sociales, todo ello por el hecho de la escasa cantidad de herramientas existentes para la presente tarea, por ende el proceso de clasificación de las polaridades de los sentimientos expresadas en los textos se realiza de manera manual por expertos en el tema, generándose así resultados ambiguos y sesgados según la experiencia del encargado, lo cual generaba resultados que no eran del todo fiables retándole valor a dicha tarea, además del hecho de que realizarlo de manera totalmente manual resultaba muy pesado y se realizaba en un periodo largo de tiempo.
Para la realización de dicha tarea existen múltiples técnicas de aprendizaje de máquina y de aprendizaje profundo que son adecuadas para este, pero en el último año uno de los modelos que va siendo reconocido cada vez más para ser aplicado a resolver problemas de procesamiento de lenguaje natural son los modelos basados en transformers dadas sus buenas capacidades y los resultados que se obtienen con estos. Ante dicha problemática surge la necesidad de investigar más acerca de cómo se vienen implementando soluciones para la realización de análisis de sentimiento para hacer una comparativa sobre los modelos usados y además dadas las buenas capacidades de los modelos basados en transformers investigar más a fondo la utilidad de estos y las aplicaciones que tiene para así comprobar sus buenas capacidades.
|
164 |
Generación de datos sintéticos usando Redes Generativas Adversariales para la minería de datos respetuosa de la privacidadMontalvo García, Peter Jonathan 28 May 2021 (has links)
La minería de datos permite conocer patrones en grandes volúmenes de datos; pero dentro
de estos datos puede haber información sensible que compromete la privacidad. En tal
sentido, se han desarrollado técnicas para la minería de datos respetuosa de la privacidad,
siendo la más utilizada la privacidad diferencial debido a las propiedades que otorga a los
datos resultantes, de la mano de técnicas de aprendizaje profundo. Estas técnicas se han
utilizado en conjuntos de datos de números escritos e imágenes, pero no en datos de
georreferenciación. El presente trabajo tiene como objetivo medir la eficacia de los datos
sintéticos generados a través redes generativas adversariales y privacidad diferencial en
datos de georreferenciación. La generación de estos datos se hace a través de selección de
datos, sanitización para la obtención de la base de datos sintéticos y evaluación a través de
modelos de movilidad a partir de las trazas que sirven para medir la pérdida de información
y el riesgo de divulgación. En líneas generales, los resultados demuestran que la aplicación
de estas técnicas sobre datos de georreferencia da como producto un conjunto de datos
sintéticos con una pérdida de información y riesgo de divulgación bajos, y se concluye que
estos conjuntos de datos obtenido se puede realizar una minería de datos similar a la que se
haría con los datos originales y sin comprometer información sensible.
|
165 |
Caracterización espacio temporal de la ecofisiología de la "apodanthera biflora" utilizando minería de patrones secuencialesBarturén Larrea, José Luis 28 October 2016 (has links)
En los últimos años, los investigadores del Laboratorio de Ecología Evolutiva de la Universidad Peruana Cayetano Heredia (UPCH) han venido estudiando especies nativas del Bosque Seco Ecuatorial del norte del Perú. Este es el caso de la Apodanthera Biflora, raíz comestible de potencial uso alimentario e industrial. Con la finalidad de desarrollar planes de sostenibilidad y preservación de la especie, los expertos requieren realizar estudios más extensos sobre los factores que afectan las características nutricionales e industriales de la especie. Para determinar estos factores se deben descubrir correlaciones temporales a partir de fuentes de datos heterogéneas. Debido a la dificultad de explotar este tipo de datos no estandarizados ni agrupados, los métodos estadísticos tradicionales no son suficientes, por lo que se requiere herramientas permitan al experto identificar qué correlaciones temporales representan patrones frecuentes relevantes.
El presente trabajo evalúa el uso de las técnicas de minería de patrones secuenciales y visualización espacial, con el objetivo de determinar si su aplicación facilita la obtención de patrones frecuentes relevantes a partir de distintas fuentes de datos heterogéneos relacionados a la Apodanthera Biflora. Para lograr este objetivo, se utiliza una metodología basada en el Descubrimiento de Conocimiento a partir de Bases de Datos (KDD por sus siglas en inglés), el cuál define fases para la selección, pre procesamiento, transformación, minería y evaluación (visualización) de los datos.
Los resultados obtenidos demostraron que la técnica de minería de patrones secuenciales PrefixSpan y la visualización espacial, utilizando librerías de Google Maps API y D3 Js, permitieron a los expertos la obtención de patrones frecuentes relevantes. Así mismo, la técnica de transformación GIS para datos geográficos, y la técnica de discretización por entropía y frecuencia, han permitido el pre procesamiento de datos heterogéneos. A partir de las correlaciones descubiertas, los expertos identificaron patrones frecuentes relevantes, en las localidades de Chulucanas, Cerrato, El Morante, P. Mora y El Porvenir; principalmente relacionados a las características del suelo, precipitaciones y composición química de la raíz. / Tesis
|
166 |
Revisión sistemática sobre la aplicación de ontologías de dominio en el análisis de sentimientoOlivares Poggi, César Augusto 26 November 2016 (has links)
El análisis de sentimiento es un área de creciente investigación en los campos
del procesamiento de lenguaje natural y la recuperación de información. En
los últimos años ha habido un aumento en la aplicación de técnicas semánticas
en el análisis de sentimiento, en particular con el apoyo de la aplicación de
ontologías de dominio. Sin embargo, en la literatura actual no se cuenta con
un estudio que reporte de manera sistemática los beneficios alcanzados con la
aplicación de ontologías de dominio al análisis de sentimiento. Esta revisión
sistemática tiene por objetivos realizar dicha síntesis, reportar el grado de
generalización de las investigaciones realizadas, verificar el aprovechamiento
de la riqueza expresiva de las ontologías de dominio y señalar el estado del
arte actual en la representación de las emociones humanas por medio de
ontologías de dominio en su aplicación al análisis de sentimiento.
Se identificó 9 distintos problemas del análisis del sentimiento a los que se
aplicó ontologías de dominio y un total de 22 beneficios de dicha aplicación.
Los beneficios más reportados son: (1) el soporte para una representación
estructurada de las opiniones y la vinculación de datos; (2) mayor precisión
y exhaustividad en la clasificación de la polaridad; y (3) soporte para la
representación de modelos emocionales.
Como investigación futura se sugiere profundizar en el empleo de ontologías
de dominios para analizar el sentimiento a nivel de conceptos, modelar el
proceso de análisis de sentimiento, estandarizar la elaboración de ontologías
de productos e integrar diversos modelos emocionales, así como aprovechar
mejor la expresividad semántica y capacidad de razonamiento de las ontologías
de dominio. / Tesis
|
167 |
Propuesta de mejora de inventarios de una empresa importadora de maquinaria en el Perú usando herramientas de minería de datosVilela Leon, Gian Carlo 30 May 2024 (has links)
En el escenario competitivo actual, es de suma relevancia que las empresas logren saber qué es lo
que sus clientes desean comprar. Una forma de lograrlo es mediante buenos pronósticos de
demanda, lo cual se traduce en compras de productos asertivas o la toma de decisiones correctivas
en el corto plazo.
La presente tesis manifiesta que existe ventajas económicas y estratégicas en el área de inventario
y abastecimiento de una empresa utilizando herramientas de minería de datos, específicamente,
herramientas de pronóstico de demanda que nos permiten reducir las diferencias entre lo ofertado
y lo realmente demandado, lo cual optimiza los niveles de abastecimiento.
El desarrollo de la investigación involucra diseñar diferentes modelos aplicando distintos métodos
a una base de datos histórica de una organización dedicada a la importación de maquinarias de
uso industrial, realizando previamente una selección de categorías de productos relevantes para
el desarrollo y evaluación de estos modelos.
Posteriormente se realizado la medición de errores de cada modelo propuesto con el fin de poder
identificar aquel que se adecua de mejor manera a los productos y, de esta manera, realizar la
elección del modelo que menor error nos genera al compararlo con la demanda real del mismo.
Finalmente se realizó el análisis de evaluación económica financiera, la cual considera los costos
en los cuales incurriría la empresa para la implementación de la propuesta a través del VAN y
TIR, así como cuantificar los ahorros que se generarían por los mismos. El resultado indicaría que
es recomendable la implementación de dicha propuesta y que su viabilidad generaría grandes
reducciones en los costos de almacenamiento que actualmente se tienen en la compañía.
|
168 |
Análisis de las relaciones entre cursos del Departamento de Ingeniería Industrial en base a técnicas de data miningAraos Moya, Andrés Arturo January 2014 (has links)
Ingeniero Civil Industrial / La mejora continua de los procesos de educación superior es entendida como uno de los objetivos de las instituciones que la imparten. Es bajo este contexto que existen los llamados Modelos Curriculares, que pretenden modelar las interacciones que existen entre los procesos educativos y administrativos, actores del sistema y variables clave, que son finalmente las que determinan qué tan eficiente y bueno será el aprendizaje del alumno.
La Facultad de Ciencias Físicas y Matemáticas de la Universidad de Chile no es la excepción, por lo que ha ido avanzando en lograr una mejora continua de sus programas. Estos utilizan como referente el llamado Modelo Basado en Competencias, que plantea una mirada donde los estudiantes deben ir aprendiendo progresivamente habilidades y conocimientos previamente definidos en el perfil del profesional que se esté formando. En este Trabajo de Título se estudiará el caso particular de la carrera de Ingeniería Civil Industrial.
Es bajo este contexto que se plantea como principal objetivo el análisis de las relaciones que existen entre los distintos cursos del departamento. Esto busca diagnosticar la eficacia con la que fue diseñada la Malla Curricular del departamento, que supone el camino lógico para la obtención de las competencias previamente definidas que debe tener un profesional egresado de ingeniero civil industrial de la Universidad de Chile.
Para esto se propone la utilización de técnicas de Data Mining, específicamente la de Redes Bayesianas. Se espera de este trabajo un análisis de las relaciones observables de los cursos, tanto gráficamente como de las probabilidades condicionales, para así relacionar los cursos y los resultados académicos. Por otro lado, también se espera poder identificar las principales variables que influyen en el rendimiento académico del alumno.
Los resultados muestran que existen relaciones entre varios cursos y que además muchas de ellas coinciden con las propuestas por la Malla Curricular. Por otro lado, se plantea que la distribución del tiempo en el semestre por parte del alumno y la motivación pueden ser variables determinantes, además de las habilidades y conocimientos que entregan los cursos. Por otro lado se plantea que el modelo debe ser mejorado o cambiado a uno que soporte la inclusión de una mayor cantidad de variables, puesto que este se ve limitado por la cantidad de datos y por la complejidad del problema.
|
169 |
Propuesta de un modelo predictivo para efectivizar el proceso de validación de la información de los sistemas de agua y saneamiento de los centros poblados del PerúCueva Sánchez, Jean Marcos, Elguera Meza, Paul Eugenio, Vilela Girón, Guillermo Daniel 25 January 2019 (has links)
El Sistema de Agua y Saneamiento en el Perú es esencial para el desarrollo de la población rural. Para el año 2030, el gobierno peruano tiene proyectado cubrir al 100% de agua potable y saneamiento al ámbito rural. El Ministerio de Vivienda, Construcción y Saneamiento – MCVS, a través del Programa Nacional de Saneamiento Rural – PNSR, promueve la aplicación de las políticas de agua y saneamiento rural, en coordinación con los Gobiernos Regionales. El proceso de Diagnóstico de Agua y Saneamiento del MVCS, recopila la información de los centros poblados y luego esta información debe ser validada. En la validación de la información, se selecciona a los centros poblados a validar de manera aleatoria, debido a que no pueden identificar realmente a los centros poblados que ingresan información inconsistente. Esto afecta negativamente a la toma de decisiones para la priorización de los proyectos de construcción y mejoramiento de los sistemas de agua y saneamiento. En nuestra investigación, con las técnicas de minería de datos hemos identificado los perfiles de los centros poblados que deben ser considerados para la validación de su información, es decir los centros poblados que cuentan con información inconsistente y por tal razón deben ser validados y subsanados. Para probar lo antes mencionado, hemos considerado los 9,937 centros poblados de la región del Cusco, aplicando la metodología CRISP-DM y los algoritmos naive bayes, vecinos cercanos, árbol de decisión (Clasificación) y simple k-means (Agrupamiento) que nos han permitido obtener los modelos (predictivos y descriptivo) mediante el software WEKA. / The Water and Sanitation System in Peru is essential for the development of the rural population. By 2030, the Peruvian government plans to cover 100% of drinking water and sanitation in the rural area. The Ministry of Housing, Construction and Sanitation – MCVS, through the National Rural Sanitation Program - PNSR promotes the application of rural water and sanitation policies, in coordination with the Regional Governments. The Water and Sanitation Diagnosis process of the MVCS collects the information from the population centers and then this information must be validated. In the validation of the information, the population centers are selected to be validated in a random way, because they can not really identify the population centers that enter inconsistent information. This negatively affects decision-making for the prioritization of construction projects and improvement of water and sanitation systems. In our research, with data mining techniques we have identified the profiles of the population centers that should be considered for the validation of their information, that is, the population centers that have inconsistent information and for that reason should be validated and corrected. To prove the aforementioned, we have considered the 9,937 populated centers of the Cusco region, applying the CRISP-DM methodology and the naive bayes algorithms, close neighbors, decision tree (Classification) and simple k-means (Clustering) that have given us allowed to obtain the models (predictive and descriptive) using the WEKA software. / Trabajo de investigación
|
170 |
Desarrollo de software dirigido por modelos para facilitar a usuarios inexpertos la aplicación de técnicas de minería de datosEspinosa, Roberto 12 December 2014 (has links)
No description available.
|
Page generated in 0.0706 seconds