Global ETD Search

91	Expansión de la capacidad de los filtros convolucionales en redes neuronales Larregui, Juan Ignacio 10 May 2021 (has links) En los últimos años el campo de la Visión Artificial ha experimentado un crecimiento acelerado con el éxito de las Redes Neuronales Artificiales y el Aprendizaje Profundo. La cantidad de datos etiquetados que se han relevado, las mejoras en hardware especializado y las importantes modificaciones introducidas en los algoritmos tradicionales surgidos en la segunda mitad del siglo pasado han posibilitado el avance en problemas complejos que parecían imposibles de abordar pocos años atrás. En particular, las Redes Neuronales Convolucionales se han convertido en el modelo más popular dentro de este campo de las Ciencias de la Computación. A lo largo de la década del 2010, los trabajos que avanzaron el estado del arte en los diferentes problemas de la Visión Artificial han incluido casi exclusivamente redes de este tipo. Sin embargo, algunos componentes de las Redes Convolucionales han mantenido sus estructuras y definiciones originales. Este es el caso de los filtros convolucionales, los cuales han mantenido su estructura geométrica estática en las últimas décadas. El objetivo general de esta tesis es explorar las limitaciones inherentes a la estructura tradicional de los filtros convolucionales, proponiendo nuevas definiciones y operaciones para superar las mismas. En esta línea, se presenta una generalización de la definición de los filtros convolucionales, extendiendo el concepto de dilatación de los mismos a intervalos continuos sobre las dimensiones espaciales. Adicionalmente, se presenta una nueva definición de la Convolución Dilatada para permitir comportamientos dinámicos durante el proceso de entrenamiento. Basadas en las definiciones introducidas, se proponen las nuevas operaciones de Convolución de Dilatación Adaptativa y Convolución de Dilatación Aleatoria. La primera introduce a las redes convolucionales la capacidad de optimizar la dilatación de los filtros de acuerdo a los datos de entrada, de manera de adaptarse dinámicamente a los cambios semánticos y geométricos presentes en las diferentes escenas. La segunda permite explorar la utilización de filtros de dilataciones aleatorias para simular transformaciones de escala, con el objetivo de aumentar la invariancia a escala de una red convolucional, una de sus limitaciones más conocidas. Finalmente, se definieron casos de estudio para Clasificación de Imágenes y Segmentación Semántica, de manera de obtener métricas cuantitativas que permitan evaluar las propuestas realizadas. Se realizaron múltiples entrenamientos de diferentes arquitecturas y configuraciones para redes conocidas en la literatura, mostrando resultados favorables con la inclusión de las operaciones propuestas. Más aún, el diseño de estas es modular, por lo que pueden ser incluidas en arquitecturas arbitrarias. / In the last years, the field of Computer Vision has seen incredible success through the adoption of Artificial Neural Networks and Deep Learning. The amount of labeled data, the improvements in specialized hardware, and further development in the traditional algorithms, have enabled advances in complex problems that seemed impossible to approach a few years before. In particular, these networks have become the most popular models within this field of Computer Sciences. Throughout the last decade, the state-of-the-art research in the different Computer Vision problems had almost exclusively included this type of model. However, the structure of some components of Convolutional Networks has remained almost unaffected. This is the case with convolutional filters, which have kept their original geometric structure in the last decades. The overall goal of this thesis is to explore the limitations inherent to the traditional structure of the convolutional filters, introducing new definitions and operations to overcome them. In this context, a generalization of the definition of convolutional filters is presented, extending the concept of dilation to continuous intervals in the spatial dimensions. Additionally, a new definition for the Dilated or Atrous Convolution is proposed, which enables dynamic behaviors in the dilation of the filters during the training process. Based on these new definitions, two new operations are presented: the Adaptive Dilation Convolution and the Random Dilation Convolution. The first one introduces the capacity for Convolutional Networks to optimize the dilation of the filters according to the input data, dynamically adapting to the semantic and geometric differences found across scenes. The second, enables the exploration of random dilations to simulate different scale transformations in the data, aiming to increase the scale invariance of these networks, one of their known limitations. Finally, different study cases were defined for Image Classification and Semantic Segmentation, in order to evaluate the introduced operations using quantitative metrics. Several training experiments were performed, using different architectures and configurations for renowned networks, showing positive results during the inclusion of the proposed operations. Moreover, their design is modular, enabling them to be included in arbitrary architectures. Ciencias de la computación Visión artificial Aprendizaje profundo Redes neuronales Filtros convolucionales Convolución dilatada
92	Evaluación de modelos de segmentación semántica para el monitoreo de deslizamiento de tierra utilizando imágenes satelitales Yali Samaniego, Roy Marco 03 April 2024 (has links) En el ámbito del aprendizaje automático, un desafío persistente es la disponibilidad de datos suficientes, especialmente en tareas de visión por computadora. Este desafío se amplifica cuando se trabaja con sensores remotos, donde las bases de datos etiquetadas para abordar problemas son escasas. Este manuscrito examina críticamente el monitoreo de deslizamientos de tierra en el paisaje peruano y presenta tres contribuciones en esta dirección. La primera contribución expande un conjunto de datos de imágenes satelital es sobre deslizamientos de tierra (Landslide4Sense) proveniente de territorios asiáticos, con 3799 imágenes debidamente etiquetadas. Reconociendo la dinámica geoespacial de Perú, se incrementó este conjunto de datos con 838 escenarios locales. Estas adiciones mantienen congruencia con el conjunto de datos original en términos de atributos y configuración, asegurando replicabilidad y escalabilidad para futuras investigaciones. La segunda evalúa varios modelos de segmentación semántica basados en la arquitectura U-net, reforzada por la función de pérdida de Entropía Cruzada Ponderada + Dice Loss, óptima en tareas de segmentación con conjuntos de datos desequilibrados. Los resultados permiten alcanzar un F1-Score del 75.5% con la arquitectura U-net (vanilla) superando el benchmark de referencia del 71.65%. La última contribución muestra un desarrollado integral para la adquisición de datos, procesamiento y entrenamiento/evaluación de modelos. Dado que este marco tiene el potencial de impulsar una aplicabilidad general de sistemas de segmentación a sistemas de monitoreo de deslizamientos de tierra, y detener un alcance más amplio a la comunidad académica y partes interesadas gubernamentales en Latinoamérica y en todo el mundo. Visión por computadoras Sensores inteligentes
93	Estimación del carbono almacenado en paisajes agropecuarios y ganaderos a partir de Imágenes multiespectrales capturadas por drones, y técnicas de aprendizaje profundo Tovar Galarreta, Juan Carlos Alfredo 10 January 2024 (has links) Los paisajes agrícolas y ganaderos están estrechamente relacionados con el flujo de carbono, ya que actúan como reservorios de carbono en forma de biomasa. La evaluación de las reservas de carbono almacenadas en estas zonas es importante para apoyar la toma de decisiones que impidan que estas zonas se conviertan en fuentes de emisión de carbono. Sin embargo, las técnicas tradicionales de estimación de las reservas de carbono requieren un muestreo in situ, lo que supone una tarea extenuante, arriesgada, costosa DE escasa cobertura. En este estudio, proponemos una metodología, basada en imágenes multiespectrales capturadas por drones y modelos de aprendizaje profundo, para automatizar la tarea de estimar mapas de reservas de carbono almacenados en paisajes agrícolas y ganaderos. Aplicamos una arquitectura de red neuronal U-Net para discriminar las zonas arbóreas y pastizales. Luego, se desarrolla un modelo basado en redes neuronales convolucionales para la estimación de la densidad de carbono a partir de imágenes multiespectrales. Resultados experimentales en paisajes agrícolas y ganaderos de la Amazonía peruana mostraron la efectividad de la metodología propuesta, reportando un mIoU de 87%, un RMSE de 2.44 para zonas arbóreas, y un RMSE de 1.84 para zonas de pastura. Concluimos que la estimación de la densidad de carbono es alcanzable con el enfoque propuesto. Esta metodología puede ser útil para la toma de decisiones y puede contribuir a la gestión o al control del cambio climático. / Agricultural and livestock landscapes are closely related to carbon flux, serving as carbon 1 reservoirs in the form of biomass.The assessment of carbon stocks stored in these areas is important to 2 support decision-making that prevents these areas from becoming carbone misión sources. However, 3 traditional carbon stock estimation techniques require on-site sampling, which is a strenuous, risky, 4 expensive and low-coverage task. In this study, we propose a methodology, based on multispectral 5 images captured by drones and Deep learning models, to automate the task of estimating maps of 6 carbon stocks sequestered in agricultural and livestock landscapes. We applied U-Net neural network 7 architecture to discriminate arboreal and grasslands zones. Then, a convolutional neural-network 8 based model is developed for carbon density estimation from multispectral images. Experimental 9 results on agricultural and livestock landscapes in Peruvian Amazon regions showed the effectiveness 10 of the proposed methodology, reporting mIoU of 87%, RMSE of 2.44 for arboreal zones, and RMSE 11 of 1.84 for grassland zones. We conclude that the carbon density estimation is achievable with the 12 proposed approach. This methodology can be helpful for decision-making and may contribute to the 13 management or controlling climate change. Carbono Visión por computadoras Aprendizaje profundo
94	Visión artificial en la gestión y apoyo a la seguridad de los trabajadores Massiris Fernández , Manlio Miguel 06 August 2021 (has links) Las evaluaciones de riesgos y seguridad en el trabajo generalmente se han realizado con observaciones efectuadas in situ por personal especializado. Esta evaluación de riesgos tradicional es costosa e ineficaz, especialmente en los países en desarrollo, donde hay una necesidad de recursos humanos más capacitados. Además, el estado del arte resalta que incluso los especialistas calificados carecen de precisión intra- e inter-observador, pues a menudo se equivocan en juicios de riesgos principalmente debido a sesgos subjetivos o condiciones visuales subóptimas en el lugar de trabajo, como ser iluminación reducida, oclusiones de equipos, auto-oclusiones y ángulos de video inadecuados. En esta tesis presentamos diversas propuestas, basadas en el uso de visión artificial, para facilitar la toma de decisiones, estandarizar el proceso de evaluación y reducir el tiempo requerido para estimar el riesgo ergonómico y cuantificar el uso de equipos de protección individual. En el primer capítulo se presenta la introducción a las tecnologías de la Industria 4.0 como marco básico de requerimiento de soluciones a los problemas antes mencionados. El segundo capítulo detalla las soluciones propuestas desde la visión artificial y las redes neuronales para la estimación del riesgo ergonómico. En el tercer capítulo se presentan dos soluciones basadas en redes neuronales para la inspección y cuantificación del uso de equipos de protección personal. Finalmente, se presentan las conclusiones y el trabajo futuro. Los resultados indicaron que los métodos propuestos facilitan el proceso de evaluación de riesgos y condiciones de trabajo en aplicaciones reales en entornos desafiantes, utilizando entre otras fuentes videos obtenidos por medio de cámaras deportivas egocéntricas, teléfonos inteligentes y drones. / Risk and safety assessment at worksites is generally carried out through on-site observations performed by specialized personnel. This traditional risk assessment procedure is costly and ineffective, especially in underdeveloped countries, where specifically trained human resources are scarce and expensive. Also, the state-of-art points out that even qualified specialists lack intra- and inter-observer precision, and often err on risk judgments, mainly due to subjective biases or workplace sub-optimal visual conditions, such as reduced illumination, equipment occlusions, self-occlusions, and inadequate video angles. In this thesis we present several computer-vision- based solutions aimed to facilitate decision-making, to standardize the evaluation process, and to reduce the amount of time required for estimating ergonomic risk and quantifying the use of personal protective equipment. In the first chapter, the introduction to Industry 4.0 technologies is presented as a basic framework requiring solutions to the problemsmentioned. The second chapter details the proposed solutions based on computer vision and neural networks for the estimation of ergonomic risk. In the third chapter, two solutions based on neural networks for the inspection and quantification of the use of personal protective equipment are presented. Finally, conclusions and future work are presented. The results indicated that the methods facilitated the process of assessing risks and working conditions in real applications in challenging environments, using video recorded with sports egocentric cameras, smartphones, and drones. Ingeniería Automatización Ergonomía Prevención de riesgos laborales Redes neuronales Visión por computador
95	Desarrollo de algoritmos para la exploración submarina mediante vehículos autónomos con visión artificial monocular Trabes, Emanuel 03 May 2018 (has links) La motivación de esta tesis consistió en investigar el empleo de sistemas visuales monoculares en ambientes subacuáticos e implementar soluciones novedosas a los problemas complejos que en tales ambientes se presentan. Algunos de los principales aportes de este trabajo son: el desarrollo de algoritmos para la navegación en ambientes altamente auto-símiles, la implementación de un sistema monocular SLAM (Simultaneous localization and Mapping) denso orientado a su uso en ambientes subacuáticos, el desarrollo de una metodología robusta para la exploración retorno y revisita basada en SLAM, la implementación de un filtro de onda cáustica para ambientes tridimensionales. La validez de los resultados obtenidos teóricamente se verificó experimentalmente en ambientes subacuáticos controlados. / The motivation of this thesis consisted in researching the use of visual-monocular systems in underwater environments and to implement novel solutions to the complex problems that arise in such scenes. Some of the main contributions of this work are: the development of algorithms for navigation in highly self-similar scenes, the implementation of a dense monocular SLAM system (Simultaneous localization and Mapping) developed to be used in underwater scenes, the development of a robust methodology for exploration, return and revisiting based on SLAM, the implementation of a caustic wave filter for tridimentional environments. The validity of the obtained results were verified experimentally in controlled underwater environments. Ingeniería Exploración subacuática Vehículos subacuáticos Visión artificial (Robótica)
96	Advances in artificial intelligence applied to ultrasound imaging Romero Gutierrez, Stefano Enrique 28 May 2024 (has links) Ultrasound imaging in rural areas often faces challenges due to the scarcity of skilled radiologists or sonographers. This research explores enhancing ultrasound imaging focused in resource-scarce settings via external anatomical landmarks for asynchronous ultrasound acquisition using artificial intelligence (AI) and computer vision algorithms based on the nature of the acquisition. First, it addresses lung ultrasound health status by generating one single image by sweeping the transducer in a sagittal position along the chest. The validation was performed using normal and abnormal cases. Second, a multi-camera system for ultrasound probe tracking with AI is proposed. The results were evaluated by quantitative measurements of speeds, angles, and simulation of lung VSI protocol. Third, a 3D segmentation of breast tumors using ultrasound videos acquired by asynchronous protocols was realized. A representative frame of the videos is extracted to analyze the nature and determine if is a benign or malignant case. Fourth, a set of obstetric data acquired by asynchronous protocols for the assessment of fetal head presentation and placenta position was realized. Fetal biometry such as head circumference and biparietal diameter were calculated and compared with physician measurements. Finally, an elastography approach was tested for plantar soft tissue assessment by a test-retest experiment for biomechanical characterization. An automatic calcaneus segmentation was employed in the B-mode as an aid in the visualization and for an immediate region of interest selection. The results were compared with the manual selection of the region of interest and the respective calcaneus segmentation. The findings of this work demonstrate a substantial advancement in the field of ultrasound imaging, especially tailored for resource-limited settings. / Las imágenes ecográficas en zonas rurales enfrentan desafíos debido a la escasez de radiólogos o sonografistas. Esta investigación explora la mejora de las imágenes por ultrasonido enfocadas en indicadores anatómicos externos para realizar adquisiciones asíncronas haciendo uso de inteligencia artificial (IA) y de algoritmos de visión por computadora basados en la naturaleza de la adquisición. En el primer capítulo, se aborda el estado del pulmón haciendo uso de ultrasonido pulmonar generando una sola imagen haciendo un barrido del transdutor en posición sagital con respecto al pecho. La validación fue realizada usando casos normales y anormales. En el segundo capítulo, se propone un sistema de adquisición con múltiples cámaras para hacer un seguimiento del transductor. Los resultados fueron comparados cuantitativamente realizando mediciones de velocidad, ángulos y de simulación del protocolo protocolo VSI pulmonar. En el tercer capítulo, se implementó una segmentación 3D para tumores de mama usando videos de ultrasonido adquiridos de manera asíncrona. Se extrajeron imágenes representativas de cada video para determinar si es benigno o maligno. En el cuarto capítulo, se trabajó con un conjunto de datos obstétricos adquiridos por protocolos asíncronos para la evaluación de la cabeza fetal y posición fetal. La biometría fetal como la circunferencia de la cabeza y diámetro biparietal fueron calculados y comparatods con mediciones de radiólogos. Finalmente, se evaluó un método de elastografía para la evaluación del tejido plantar realizando un experimento repetitivo para su caraterización biomecánica. Posteriormente, se propuso la segmentación automatizada del calcáneo utilizando las imágenes en modo B como apoyo en la visualización y para una inmediata selección de región de interés. Los resultados fueron comparados con la selección manual de la región de interes y su respectiva segmentación del calcáneo. Los hallazgos de este trabajo demostraron los avances sustanciales en el campo de imágenes de ultrasonido, especialmente diseñada para entornos con recursos limitados Visión por computadoras Inteligencia artificial Ultrasonido--Elasticidad
97	Modelo heurístico para la determinación de la motilidad en células espermáticas mediante el análisis automático de tracking en video Gárate Polar, Diego Alonso 05 June 2015 (has links) Hoy en día, con el avance progresivo de la tecnología y la introducción de nuevas tecnicas computacionales ha cambiado la forma de trabajar de los medicos. Este es el caso de los andrólogos quienes tienen a su cargo la importante tarea de ayudar a las parejas a tartar problemas en sus sistemas reproductores con la finalidad de permitirles concebir un hijo, para lo que se require en la mayoria de casos un análisis de fertilidad. Actualmente la forma más usada para realizar este análisis es el método de inspección directa el cual es un procedimiento inexacto, subjetivo, no repetible y difícil de enseñar. El análisis de la motilidad espermática es una parte importante en el análisis de fertilidad y al mismo tiempo es un buen ejemplo del problema de seguimiento a múltiples objetos y video vigilancia desde el punto de vista computacional. El presente proyecto de fin de carrera presenta una solución ante la necesidad de realizar un seguimiento a cada una de las células espermáticas, llamado tracking, la solución planteada pone en práctica técnicas de visión computacional y además propone un modelo heurístico basado en dirección de movimiento y distancia euclidiana para realizar el seguimiento de espermatozoides en videos obtenidos a partir del simulador de células espermáticas también desarrollado en el presente proyecto. El proyecto inicia con el desarrollo de un simulador de células espermáticas, para luego realizar la obtención de muestras de dicho simulador, seguidamente se desarrolló y aplicó un algoritmo para la detección de células espermáticas que fueron usadas como datos de entrada para el algoritmo de Optical Flow así como para la heurística propuesta en el presente trabajo, por último se realizó un estudio estadístico donde se concluye que la heurística propuesta por este proyecto es más eficaz que el algoritmo de Optical Flow. Visión por computadoras Bioingeniería Fertilidad humana Programación heurística
98	Diseño y desarrollo de un algoritmo que permita estimar el tamaño de peces, aplicando visión por computadora, y propuesta para realizar la selección adecuada de dichos peces Orellana Lizano, Henry 09 May 2011 (has links) Se plantea el desarrollo de un algoritmo que permita estimar el tamaño de los peces sin la necesidad de que haya contacto físico entre el hombre y los animales aplicando, para ello, técnicas de visión por computadora. Para realizar el planteamiento se realizó estudios de las diferentes técnicas empleadas en visión por computadora y la necesidad de contar con imágenes tomadas por cámaras seleccionadas para el posterior procesamiento con los métodos estudiados. Algoritmos Piscicultura Procesamiento de imágenes digitales Visión por computadoras
99	Robot móvil con visión estereoscópica para la localización de objetos Rodríguez Rodríguez, Jorge Antonio 02 September 2011 (has links) El procesamiento de imágenes aplicado al campo de control y automatización de sistemas industriales ha tenido una gran influencia en la tecnología de los robots móviles; así se han venido desarrollando diversas técnicas de visión para poder obtener nuevos parámetros cada vez más precisos sobre el entorno de trabajo del robot móvil. Las técnicas de reconocimiento de objetos y visión estereoscópica han demostrado ser una herramienta muy útil, ya que gracias a esto, los vehículos no tripulados pueden llegar a tener una mejor interacción con su entorno, lo cual resulta en un mejor desenvolvimiento en las diferentes tareas que realizan El presente trabajo de tesis describe la implementación de un sistema de visión estéreo aplicado al campo de los robots móviles para la localización de objetos, el cual tiene como principal características encontrar la distancia en coordenadas XYZ de un objeto en particular; para que luego esta información sea llevada al robot. Tanto para la tarea de segmentación como del cálculo de coordenadas se utilizará a la librería OpenCV la cual nos permite el uso de los diferentes algoritmos de procesamiento de imágenes. La etapa de visión estéreo propiamente dicha se llevará a cabo mediante la implementación de las siguientes etapas: cálculo de los parámetros de las cámaras, calibración, rectificación de imágenes y finalmente la triangulación, método por el cual se obtienen las coordenadas deseadas. El sistema de visión estéreo desarrollado será implementado en un computador embebido y se va comunicar con el robot móvil mediante protocolo TCP/IP para el envió de las diferentes coordenadas. Robots móviles Visión en robots Percepción de formas
100	Diseño de un sistema de evasión de obstáculos para una aeronave no tripulada usando visión estereoscópica Layme Huaquisto, Álvaro Guido 08 August 2015 (has links) En los últimos años, la utilización de unidades aéreas no tripuladas se ha incrementado enormemente debido a la gran cantidad de usos que se les puede dar. El uso de aeronaves autónomas es importante, por ejemplo, para la agricultura, arqueología, seguridad ciudadana, construcciones a gran escala y minería. Para garantizar que el vuelo autónomo de la aeronave se realice sin problemas es necesario que cuente con los medios necesarios para detectar los objetos que se encuentran en su plan de vuelo y evitar una posible colisión. Las aeronaves no tripuladas pueden ser utilizadas en distintos rubros por lo que es necesario proveer la tecnología necesaria para adaptarse a las funciones requeridas. Aeronaves--Radiofrecuencia Aeronaves--Visión por computadoras

Search results