Spelling suggestions: "subject:"aprendizaje automática""
21 |
Implementación de un algoritmo de aprendizaje profundo basado en eventos para el problema de predicción de movimiento bursátilBustamante Arce, Jaime Diego 30 November 2021 (has links)
La predicción de precios bursátiles, acciones e índices siempre ha sido un tema de interés en el mundo
financiero, no solo por su capacidad de originar grandes rentabilidades en poco tiempo, sino también
por su volatilidad y complejidad. Así, desde que los mercados bursátiles fueron concebidos diferentes
investigadores en variadas áreas han tratado de “vencerlo” prediciendo su comportamiento, como el
índice S&P 500 que lista la cotización de las 500 corporaciones más líquidas de la Bolsa de New
York. Uno de los enfoques es el fundamentalista, que busca predecirlo de acuerdo a las noticias en los
medios de las empresas listadas en la Bolsa de Valores. Desde el lado informático, diversas técnicas
han venido siendo aplicadas para realizar esta predicción como estadísticas y las clásicas herramientas
de aprendizaje de máquina. Sin embargo, con el creciente aumento de volumen de información, se
hace necesario aplicar técnicas que consigan lidiar con esta información no estructurada. Técnicas
como redes profundas recurrentes (LSTM), se han mostrado ad-hoc para el manejo de información
temporal, debido a que tienen de capacidad de memorizar hechos pasados, que persisten en el tiempo.
En el presente trabajo se propone una metodología y conjunto de redes neuronales profundas para la
predicción de movimiento bursátil a partir de eventos y noticias corporativas. Para ello no solo se
considera la contextualización de palabras, sino también sus relaciones y composición semántica,
estructura e historia para la predicción del índice S&P 500.
En resumen, el presente proyecto obtiene resultados exitosos puesto que sobrepasan a los del estado
del arte. Así, el conjunto de modelos neuronales propuestos puede ser usados como apoyo en la
decisión de inversión diaria en el índice S&P 500.
|
22 |
Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine LearningMatos Rios, Hans 21 March 2022 (has links)
La generación de diálogo implica diseñar un programa para generar una conversación
natural, esto requiere desarrollar algoritmos que puedan conversar con un ser humano y
otro programa de manera coherente y fluida. Desarrollar una conversación también
depende del contexto y conocimiento del interlocutor, lo cual nos lleva a definir la
existencia de niveles de complejidad conversacional, la cual se refiere a determinar que
tan fácil o difícil de leer es un texto. En este aspecto, especialmente para el idioma
español, no existe una herramienta que tenga un módulo propio que le permita clasificar
textos en español por su complejidad textual.
En el presente trabajo de fin de carrera se realiza el desarrollo de un módulo en el
lenguaje de programación Python, el cual funciona como un Framework para identificar
la complejidad textual de textos en español usando técnicas de Machine Learning. Para
ello, en primer lugar, se implementaron 48 métricas de análisis de complejidad textual
basadas en Coh-Metrix usando el lenguaje de programación Python. Dichas métricas
convierten textos en español en datos numéricos con los cuales se entrenaron distintos
modelos de Machine Learning, con el motivo de obtener el mejor modelo a utilizar con
el Framework desarrollado, siendo este capaz de utilizar un modelo personalizado
provisto por el usuario. Para ello, se necesitó obtener un corpus de 183 textos en español
para realizar dicho entrenamiento, el cual fue obtenido al descargar textos educativos de
nivel primaria y secundaria. Por último, se entrenó un chatbot con los textos obtenidos
para el corpus, cuyas respuestas generadas fueron analizados con el Framework
previamente desarrollado, identificando que el nivel de complejidad de dichas
respuestas correspondía al nivel de los textos con los cuales el chatbot fue entrenado.
En conclusión, en el presente proyecto de investigación se desarrolla un módulo de
Python que funciona como un Framework, el cual es capaz de identificar la complejidad
textual de textos en español, ya sea con el mejor modelo de Machine Learning utilizado
en el presente proyecto o utilizando uno provisto por el usuario de la herramienta.
|
23 |
Modelo computacional basado en imágenes para obtener los índices de habitabilidad de los aspectos psicosociales y psicoespaciales de la ciudad de ChiclayoAsalde Del Rio, Sandra Cecilia January 2021 (has links)
La planificación urbana ha evolucionado a la par con la tecnología, la ciudad se va convirtiendo en una fusión de lo físico y lo digital. Los datos que se generan diariamente y las plataformas de comunicación existentes pueden ser usados como herramienta de diseño, ya no existe una excusa para no considerar la opinión del poblador dentro de dicho proceso. Los problemas de las ciudades pueden iniciar a remediarse conociendo las percepciones subjetivas de sus habitantes. Esta investigación observa un problema urbano fundamental poco atendido, cuya solución aún tiene un largo camino por recorrer. Para delimitar el estudio, se toma a la ciudad de Chiclayo como ejemplo y se propone la recolección de imágenes y datos de ciertas zonas de la urbe para el desarrollo de un modelo computacional que convierta dichas percepciones en objetivas, de manera que se puedan predecir. A través del procesamiento de imágenes para obtener los objetos que contienen, la definición de los índices de habitabilidad para los aspectos subjetivos, y el aprendizaje automático supervisado de un algoritmo de clasificación; se consigue dicho modelo predictivo. Con una precisión mayor al 60%, y validado por expertos en psicología, sociología, arquitectura y urbanismo; este producto puede ser utilizado para crear herramientas de visualización que apoyen la toma de decisiones de los diseñadores de ciudad, generando así un lugar habitable y agradable para todos.
|
24 |
Descubrimiento Automático de Flujos de Aprendizaje de Máquina basado en Gramáticas Probabilı́sticasEstévez-Velarde, Suilan 02 December 2021 (has links)
El aprendizaje de máquinas ha ganado terreno utilizándose en casi todas las áreas de la vida cotidiana, ayudando a tomar decisiones en las finanzas, la medicina, el comercio y el entretenimiento. El desarrollo continuo de nuevos algoritmos y técnicas de aprendizaje automático, y la amplia gama de herramientas y conjuntos de datos disponibles han traído nuevas oportunidades y desafíos para investigadores y profesionales tanto del mundo académico como de la industria. Seleccionar la mejor estrategia posible para resolver un problema de aprendizaje automático es cada vez más difícil, en parte porque requiere largos tiempos de experimentación y profundos conocimientos técnicos. En este escenario, el campo de investigación Automated Machine Learning (AutoML) ha ganado protagonismo, proponiendo estrategias para automatizar progresivamente tareas usuales durante el desarrollo de aplicaciones de aprendizaje de máquina. Las herramientas de AutoML más comunes permiten seleccionar automáticamente dentro de un conjunto restringido de algoritmos y parámetros la mejor estrategia para cierto conjunto de datos. Sin embargo, los problemas prácticos a menudo requieren combinar y comparar algoritmos heterogéneos implementados con diferentes tecnologías subyacentes. Un ejemplo es el procesamiento del lenguaje natural, un escenario donde varía el espacio de posibles técnicas a aplicar ampliamente entre diferentes tareas, desde el preprocesamiento hasta la representación y clasificación de textos. Realizar AutoML en un escenario heterogéneo como este es complejo porque la solución necesaria podría incluir herramientas y bibliotecas no compatibles entre sí. Esto requeriría que todos los algoritmos acuerden un protocolo común que permita la salida de un algoritmo para ser compartida como entradas a cualquier otro. En esta investigación se diseña e implementa un sistema de AutoML que utiliza técnicas heterogéneas. A diferencia de los enfoques de AutoML existentes, nuestra contribución puede combinar técnicas y algoritmos de diferentes bibliotecas y tecnologías, incluidos algoritmos de aprendizaje de máquina clásicos, extracción de características, herramientas de procesamiento de lenguaje natural y diversas arquitecturas de redes neuronales. Definimos el problema heterogéneo de optimización de AutoML como la búsqueda de la mejor secuencia de algoritmos que transforme datos de entrada específicos en la salida deseada. Esto proporciona un enfoque teórico y práctico novedoso para AutoML. Nuestra propuesta se evalúa experimentalmente en diversos problemas de aprendizaje automático y se compara con enfoques alternativos, lo que demuestra que es competitiva con otras alternativas de AutoML en los puntos de referencia estándar. Además, se puede aplicar a escenarios novedosos, como varias tareas de procesamiento de lenguaje natural, donde las alternativas existentes no se pueden implementar directamente. El sistema está disponible de forma gratuita e incluye compatibilidad incorporada con una gran cantidad de marcos de aprendizaje automático populares, lo que hace que nuestro enfoque sea útil para resolver problemas prácticos con relativa facilidad y esfuerzo. El uso de la herramienta propuesta en esta investigación permite a los investigadores y profesionales desarrollar rápidamente algoritmos de referencia optimizados en diversos problemas de aprendizaje automático. En algunos escenarios, la solución proporcionada por nuestro sistema podría ser suficiente. Sin embargo, los sistemas AutoML no deben intentar reemplazar a los expertos humanos, sino servir como herramientas complementarias que permitan a los investigadores obtener rápidamente mejores prototipos y conocimientos sobre las estrategias más prometedoras en un problema concreto. Las técnicas de AutoML abren las puertas a revolucionar la forma en que se realiza la investigación y el desarrollo del aprendizaje automático en la academia y la industria.
|
25 |
Ecosistema para el Descubrimiento de Conocimiento en Lenguaje NaturalPiad-Morffis, Alejandro 16 December 2021 (has links)
La creciente cantidad de información publicada en línea presenta un reto significativo para la comunidad científica. La disponibilidad de estos recursos permite acelerar las investigaciones en múltiples ramas de la ciencia, al conectar resultados de diferentes grupos de investigadores. Sin embargo, el volumen de información producido es imposible de procesar por humanos en su totalidad, por lo que la comunidad científica desperdicia tiempo y recursos en redescubrir los mismos resultados, debido a la falta de comunicación. La aplicación de técnicas de inteligencia artificial permite construir sistemas computacionales que ayuden a los investigadores a buscar, analizar y conectar la información existente en grandes volúmenes de datos. Este proceso se denomina descubrimiento automático de conocimiento y es una rama de investigación con un creciente interés. El dominio de la salud es uno de los escenarios en los que el descubrimiento de conocimiento automático puede producir un mayor impacto en beneficio de la sociedad. La reciente pandemia de COVID-19 es un ejemplo donde la producción de artículos científicos ha superado con creces la capacidad de la comunidad científica para asimilarlos. Para mitigar este fenómeno se han publicado recursos lingüísticos que permitan construir sistemas de descubrimiento automático de conocimiento. Sin embargo, el descubrimiento de conocimiento requiere no solo de recursos lingüísticos, sino que necesita recursos computacionales e infraestructura disponibles para evaluar los resultados sistemáticamente y comparar objetivamente enfoques alternativos. Este trabajo describe un ecosistema que facilita la investigación y el desarrollo en el descubrimiento de conocimiento en el dominio biomédico, específicamente en idioma español, aunque puede ser extendido a otros dominios e idiomas. Con este fin, se desarrollan y comparten varios recursos con la comunidad investigadora, incluido un nuevo modelo de anotación semántica, cuatro corpus con más de 3000 oraciones y 40,000 anotaciones semánticas realizadas manualmente, así como recursos computacionales para construir y evaluar técnicas de descubrimiento automático de conocimiento. Entre estos recursos se ofrecen implementaciones baseline de algoritmos de descubrimiento de conocimiento que sirvan de base para construir soluciones más avanzadas. Además, se define una tarea de investigación con criterios de evaluación objetivos y se configura y mantiene un entorno de evaluación en línea que permite a los investigadores interesados en esta tarea obtener retroalimentación inmediata y comparar sus resultados con el estado del arte. Como caso de estudio, se analizan los resultados de varios equipos de investigadores en cuatro ediciones consecutivas de un desafío competitivo organizado en base a estos recursos. A partir de las experiencias obtenidas durante el proceso de anotación manual se diseña una estrategia de anotación asistida que permite reducir considerablemente el tiempo de anotación humano. El enfoque ayuda a los anotadores humanos seleccionando inteligentemente las oraciones más informativas para anotar y luego pre-anotarlas con algunas entidades y relaciones semánticas altamente precisas. Esta estrategia se evalúa en los corpus desarrollados en esta investigación, y se publica en forma de una herramienta computacional disponible para la comunidad científica. El ecosistema construido proporciona un entorno de aprendizaje y evaluación eficaz para fomentar la investigación en el descubrimiento de conocimientos tanto en documentos de contenido biomédico como en otros dominios. Los corpus anotados pueden ser utilizados para entrenar y evaluar sistemas computacionales de descubrimiento de conocimiento, y compararse con el estado del arte de forma automática. Así mismo, las herramientas computacionales desarrolladas pueden servir para construir nuevos sistemas y para crear nuevos recursos lingüísticos en otros idiomas o dominios. Todos los recursos desarrollados en esta investigación están disponibles públicamente para su uso por la comunidad científica (https://ehealthkd.github.io).
|
26 |
Optimización y Procesamiento Inteligente de Grandes Volúmenes de Datos CategóricosSalvador, Jaime 11 June 2019 (has links)
El algoritmo de clasificación kNN (k-nearest neighbors) es uno de los métodos de clasificación no paramétrico más utilizados, sin embargo, está limitado debido al consumo de memoria relacionado con el tamaño del conjunto de datos, lo que hace poco práctica su aplicación a grandes volúmenes de datos. La investigación descrita en esta tesis fue motivada por la necesidad de una representación óptima de datos categóricos que puedan ser fácilmente incorporados en los algoritmos de aprendizaje automático que permiten un análisis y explotación inteligente de grandes volúmenes de datos. En esta tesis se propone el uso de un esquema de compresión a nivel de bits para comprimir el conjunto de datos de entrenamiento (training dataset) antes de entrenar un modelo de aprendizaje automático. Para utilizar el conjunto de datos, se propuso una descompresión en tiempo real que permite el uso del conjunto de datos sin necesidad de una descompresión completa. Para facilitar la incorporación del método de compresión propuesto en los frameworks de aprendizaje automático existentes, el método propuesto está alineado con el estándar Basic Linear Algebra Subprograms - BLAS de nivel 1 que define los bloques de construcción básicos en forma de funciones algebraicas. En particular, en esta tesis se propone el uso del algoritmo kNN para trabajar con datos categóricos comprimidos. El método propuesto permite mantener los datos comprimidos en memoria, con lo que se reduce drásticamente el consumo de memoria.
|
27 |
Caracterización y clasificación automática de ríos en imágenes satelitalesBrown Manrique, Kevin 16 June 2017 (has links)
En los últimos años, el fenómeno conocido como cambio climático se está
volviendo cada vez más notorio. Como resultado de este fenómeno, uno de
los sectores que se verá más afectado será el de los recursos hídricos debido
al impacto que se tendrá sobre el ciclo hidrológico y en los sistemas de gestión
de agua, y a través de estos, en los sistemas socioeconómicos. Uno de los
impactos conocidos es el conjunto de modificaciones en los patrones de
precipitación y caudal de los ríos que afectarán a todos sus usuarios.
Los caudales de ríos se forman por sedimentos que han sido y están siendo
transportados por agua que fluye y por lo general se pueden clasificar en 4
formas básicas: rectos, meandros, trenzados y anastomosados. Es importante
el tener reconocidos los distintos ríos y para ello no basta con conocer su
localización sino además tener mapeadas las características de estos según
su canal aluvial. Uno de los métodos tradicionales para caracterizar la
morfología de un río (anchura, sinuosidad, características de inundación, etc.)
es a través de trabajo de campo, que es costoso y demanda tiempo. Estos
métodos no sólo consumen tiempo, sino que además, son extremadamente
difíciles de llevar a cabo debido a que están sujetos a factores como
inundaciones, mareas y tormentas que pueden hacer el lugar inaccesible y
peligroso para recolectar información.
El presente proyecto de fin de carrera propone una solución ante el problema
de la dificultad y alto costo que supone la realización del trabajo de campo que
permita caracterizar la morfología de un río. La solución planteada es una
nueva técnica computacional para la caracterización automática de la
morfología de los ríos, Dimensión Fractal Multi-escala, el cual aprovecha las
características fractales de formación de elementos naturales como los ríos.
El proyecto inicia con un proceso de limpieza de ruido a los datos de entrada
que son esqueletos de ríos, para luego, por cada uno, aplicar el método de
Crossing Number para obtener la multiplicidad de canal. Seguidamente, se
elaborará una Curva Fractal aplicando el método de Dimensión Fractal Multiescala
y de la curva obtenida se extraerán puntos de interés para generar un
vector de características necesario para la clasificación. A continuación, se
entrenará un clasificador empleando los vectores de características para
generar un modelo predictivo. Finalmente, el modelo será evaluado mediante
la clasificación de un nuevo esqueleto de río.
|
28 |
Revisión de la literatura del comercio electrónico, el aprendizaje automático y sus aplicaciones en la industria y tiendas por departamento en líneaAgama Espinoza, Aymar Sandro 25 October 2021 (has links)
Este trabajo de investigación reseña los hallazgos más recientes acerca del comercio
electrónico y el aprendizaje automático aplicado a ese ámbito. En los últimos años, el comercio
electrónico se ha expandido, en particular, en el contexto de la pandemia del COVID-19 ha
tenido un importante rol para mitigar las restricciones de las ventas de los negocios que han
tenido que enfrentar en varios periodos de tiempo la suspensión de sus operaciones
presenciales. Al respecto, la United Nations Conference on Trade and Develpment (UNCTAD,
2020) informa que en el año 2020, si bien los resultados de las empresas líderes a nivel mundial
de ventas online B2C ha sido diverso, el resultado global en ese grupo fue un incremento del
20.5%; asimismo, en un grupo de países seleccionados el aumento fue 22% a pesar de la caída
de 1% en el total de ventas del año 2020. En dicho escenario, se observa el crecimiento de esta
nueva industria que ofrece la digitalización de los mercados en toda forma de actividad
económica, facilitando la compraventa de bienes, servicios e información a través de canales
online.
De acuerdo con la literatura, el comercio electrónico brinda diversas ventajas a las empresas
tales como la reducción de costos operativos, el incremento del intercambio de información,
reducción del tiempo de comercialización, aumento de la eficiencia en la cadena de suministro,
mejora de la retención de cliente, creación de canales eficientes de bajo costo, entre otras. Las
ventajas también se observan en el ámbito de los consumidores, como la facilidad de acceso a
bienes y servicios, interacción social para validar sus preferencias y alta disponibilidad para
escoger vendedores, productos e información. Asimismo, la investigación sobre el comercio
electrónico revela que sus ventajas se pueden reforzar con las cualidades tecnológicas de la
industria 4.0 y en particular, con las que ofrece la aplicación del aprendizaje automático.
Uno de los hallazgos de la literatura es la necesidad de que los negocios se enfoquen en el
cliente, y que construyan relaciones sostenibles y de largo plazo. De esta manera, se puede
obtener información relevante sobre sus hábitos de consumo, preferencias y el comportamiento
mediante algoritmos y programas de aprendizaje automático.
Sobre el aprendizaje automático, diversos estudios han revelado un incremento de las
aplicaciones predictivas y prescriptivas que buscan la optimización en la toma de decisiones.
Asimismo, para implementarlas, la industria está invirtiendo vastamente en inteligencia
artificial teniendo como impulsor a la gran cantidad de información que recopilan. Esto es
visible en muchos campos de aplicación de la vida diaria desde el cuidado de la salud, turismo y fabricación hasta el comercio electrónico con el potencial de impactar favorablemente y de
manera significativa en la economía.
Finalmente, en relación con lo expuesto, la revisión de la literatura revela que las ventajas que
ofrece el comercio electrónico pueden generar posibilidades de crear nuevas oportunidades
comerciales y así contribuir a fortalecer la ventaja competitiva del negocio en un entorno
cambiante
|
29 |
Exploración de métodos de clasificación de proteínas repetidas basado en su información estructural utilizando aprendizaje de máquinaTenorio Ku, Luiggi Gianpiere 04 September 2020 (has links)
En la actualidad, existen métodos complejos para la clasificación e identificación de proteínas repetidas a partir de su estructura, los cuales implican un uso intenso y costoso de recursos computacionales. Debido a ello, en el presente trabajo de investigación se busca explorar soluciones alternativas y complementarias a otros sistemas en la etapa de clasificación de proteínas repetidas con técnicas del área de estudio de aprendizaje de máquina. Estas técnicas son conocidas por ser efectivas y rápidas para la sistematización de varios procedimientos de clasificación, segmentación y transformación de datos con la condición de que se disponga de una cantidad considerable de datos. De esa forma, en consecuencia de la cantidad de datos estructurales que se han generado en los últimos años en el ambito de las proteínas y las proteínas repetidas, es posible utilizar técnicas de aprendizaje de máquina para la clasificación de las mismas. Por ello, en este trabajo, a partir de un análisis a los datos que se poseen en la actualidad y una revisión sistemática de la literatura, se proponen posibles soluciones que utilizan aprendizaje de máquina para la clasificación automatizada y rápida de proteínas repetidas a partir de su estructura. De estas posibles soluciones, se concluye que es posible la implementación de un clasificador con múltiples entradas utilizando información de los ángulos de torsión y distancia entre aminoácidos de una proteína, la cual va a ser implementada y evaluada en un trabajo futuro.
|
30 |
Evaluación de modelos de segmentación semántica para el monitoreo de deslizamiento de tierra utilizando imágenes satelitalesYali Samaniego, Roy Marco 03 April 2024 (has links)
En el ámbito del aprendizaje automático, un desafío persistente es la disponibilidad de datos suficientes, especialmente en tareas de visión por computadora. Este desafío se amplifica cuando se trabaja con sensores remotos, donde las bases de datos etiquetadas para abordar problemas son escasas. Este manuscrito examina críticamente el monitoreo de deslizamientos de tierra en el paisaje peruano y presenta tres contribuciones en esta dirección. La primera contribución expande un conjunto de datos de imágenes satelital es sobre deslizamientos de tierra (Landslide4Sense) proveniente de territorios asiáticos, con 3799 imágenes debidamente etiquetadas. Reconociendo la dinámica geoespacial de Perú, se incrementó este conjunto de datos con 838 escenarios locales. Estas adiciones mantienen congruencia con el conjunto de datos original en términos de atributos y configuración, asegurando replicabilidad y escalabilidad para futuras investigaciones. La segunda evalúa varios modelos de segmentación semántica basados en la arquitectura U-net, reforzada por la función de pérdida de Entropía Cruzada Ponderada + Dice Loss, óptima en tareas de segmentación con conjuntos de datos desequilibrados. Los resultados permiten alcanzar un F1-Score del 75.5% con la arquitectura U-net (vanilla) superando el benchmark de referencia del 71.65%. La última contribución muestra un desarrollado integral para la adquisición de datos, procesamiento y entrenamiento/evaluación de modelos. Dado que este marco tiene el potencial de impulsar una aplicabilidad general de sistemas de segmentación a sistemas de monitoreo de deslizamientos de tierra, y detener un alcance más amplio a la comunidad académica y partes interesadas gubernamentales en Latinoamérica y en todo el mundo.
|
Page generated in 0.1056 seconds