Global ETD Search

101	Técnicas de representación y reconstrucción de objetos 3D en el computador: una revisión de literatura Sumoso Vicuña, Ernie Ludwick 18 February 2021 (has links) Actualmente en el mundo, las tecnologías de escaneo 3D se clasifican en dos grupos: de contacto y sin contacto. El primer grupo se caracteriza por la necesidad de reposar el escáner sobre el objeto (Sreenivasa K. 2003). Este tipo de escáneres representan un riesgo cuando los objetos en cuestión no pueden ser manipulados libremente debido a su fragilidad. Por otro lado, el segundo grupo de tecnologías son mayormente usadas en investigaciones y poseen una amplia variedad de aplicaciones en la industria medicinal y de entretenimiento. Este último grupo a su vez se divide en dos sub-grupos: activos y pasivos (Pears N. 2012). Las tecnologías de escaneo 3D activos se basan en el análisis y medición del tiempo de envío y retorno de una señal hacia el objeto para estimar la posición de la superficie. Por otro lado, las técnicas de escaneo sin contacto-pasivas no necesitan de la manipulación del objeto ni medición de señales ya que aprovechan la luz ambiental. Dentro de las ciencias de la computación existe el problema de cómo sintetizar, procesar y analizar la información de una superficie obtenida mediante herramientas de escaneo 3D y guardarla en el computador con el fin de que este pueda ser visualizada y/o manipulada por otras herramientas informáticas. A lo largo de los años han surgido múltiples técnicas de representación de objetos en un espacio de tres dimensiones. Sin embargo, estas técnicas dependen fuertemente de las herramientas empleadas durante el proceso de escaneo. Es por ello que se han desarrollado también técnicas pasivas-sin contacto que permitan la obtención de superficies únicamente a partir de una colección de imágenes y haciendo uso de redes neuronales entrenadas en extensos conjuntos de datos. Para poder entender estas tecnologías emergentes es necesario investigar a profundidad cuales son los recientes métodos para generar superficies u objetos 3D, en qué casos se utilizan los distintos métodos y cuáles son los enfoques de los autores al emplear dichas técnicas. Procesamiento de imágenes digitales Imágenes tridimensionales Redes neuronales (Computación)
102	Optimal vicinity 2D median filter for fixed-point or floating-point values Chang Fu, Javier 19 June 2024 (has links) Los filtros medianos son una técnica digital no lineal normalmente usada para remover ruido blanco, ’sal y pimienta’ de imágenes digitales. Consiste en reemplazar el valor de cada pixel por la mediana de los valores circundantes. Las implementaciones en punto flotante usan ordenamientos con técnicas de comparación para encontrar la mediana. Un método trivial de ordenar n elementos tiene una complejidad de O(n2), y los ordenamientos más rápidos tienen complejidad de O(n log n) al calcular la mediana de n elementos. Sin embargo, éstos algoritmos suelen tener fuerte divergencia en su ejecución. Otras implementaciones usan algoritmos basados en histogramas, y obtienen sus mejores desempeños cuando operan con filtros de ventanas grandes. Estos algoritmos pueden alcanzar tiempo constante al evaluar filtros medianos, es decir, presenta una complejidad de O(1). El presente trabajo propone un algoritmo de filtro mediano rápido y altamente paralelizable. Se basa en ordenamientos sin divergencia con ejecución O(n log2 n) y mezclas O(n) con los cuales se puede calcular grupos de pixeles en paralelo. Este método se beneficia de la redundancia de valores en pixeles próximos y encuentra la vecindad de procesamiento óptima que minimiza el número de operaciones promedio por pixel. El presente trabajo (i) puede procesar indiferentemente imágenes en punto fijo o flotante, (ii) aprovecha al máximo el paralelismo de múltiples arquitecturas, (iii) ha sido implementado en CPU y GPU, (iv) se logra una aceleración respecto al estado del arte. / Median filter is a non-linear digital technique often used to remove additive white, salt and pepper noise from images. It replaces each pixel value by the median of the surrounding pixels. Floating point implementations use sorting and comparing techniques to find median. A common method for sorting n elements has complexity O(n2), and the fastest sorting ones have complexity O(n log n) when computing the median of n elements. However, such fastest algorithms have strong divergence in their execution. Other implementations use histogram based algorithms and have their best performance for large size windows. These histogram based achieve constant time median filtering, exhibiting O(1) complexity. A fast and highly parallelizable median filter algorithm is proposed. It is based on sorting without divergence execution O(n log2 n) and merge O(n) that computes groups of pixels in parallel. The method benefits from redundancy values in neighboring pixels and finds the optimal vicinity that minimize the average operations per pixel. The present work (i) can process either fixed or floating point images, (ii) take full advantage of parallelism of multiple architectures, (iii) have been implemented on CPU and GPU, (iv) the results speed up state of the art implementations. Procesamiento de imágenes digitales Algoritmos
103	Clasificación automática de eventos en videos de fútbol utilizando redes convolucionales profundas Laboriano Galindo, Alipio 14 January 2025 (has links) La forma en que las nuevas generaciones consumen y experimentan el deporte especialmente el fútbol, ha generado oportunidades significativas en la difusión de contenidos deportivos en plataformas no tradicionales y en formatos más reducidos. Sin embargo, recuperar información con contenido semántico de eventos deportivos presentados en formato de video no es tarea sencilla y plantea diversos retos. En videos de partidos de fútbol entre otros retos tenemos: las posiciones de las cámaras de grabación, la superposición de eventos o jugadas y la ingente cantidad de fotogramas disponibles. Para generar resúmenes de calidad y que sean interesantes para el aficionado, en esta investigación se desarrolló un sistema basado en Redes Convolucionales Profundas para clasificar automáticamente eventos o jugadas que ocurren durante un partido de fútbol. Para ello se construyó una base de datos a partir de videos de fútbol descargados de SoccerNet, la cual contiene 1,959 videoclips de 5 eventos: saques de meta, tiros de esquina, faltas cometidas, tiros libres indirectos y remates al arco. Para la experimentación se utilizó técnicas de preprocesamiento de video, una arquitectura convolucional propia y se aplicó transfer learning con modelos como ResNet50, EfficientNetb0, Visión Transformers y Video Visión Transformers. El mejor resultado se obtuvo con una EfficentNetb0 modificada en su primera capa convolucional, con la cual se obtuvo un 91% accuracy, y una precisión de 100% para los saques de meta, 92% para los tiros de esquina, 90% para las faltas cometidas, 88% para los tiros libres indirectos y 89% para los remates al arco. / The way the new generations consume and experiment sports, especially soccer, has generated significant opportunities in the dissemination of sports content on non-traditional platforms and in smaller formats. However, retrieving information with semantic content of sporting events presented in video format is not an easy task and poses several challenges. In videos of soccer matches, among other challenges we have: the positions of the recording cameras, the overlapping of events or plays and the huge amount of frames available. In order to generate quality summaries that are interesting for the fan, this research developed a system based on Deep Convolutional Networks to automatically classify events or plays that occur during a soccer match. For this purpose, a database was built from soccer videos downloaded from SoccerNet, which contains 1,959 video clips of 5 events: goal kicks, corner kicks, fouls, indirect free kicks and shots on target. For the experimentation, video preprocessing techniques were used, a proprietary convolutional architecture and transfer learning was applied with models such as ResNet50, EfficientNetb0, Vision Transformers and Video Vision Transformers. The best result was obtained with a modified EfficentNetb0 in its first convolutional layer, with which 91% accuracy was obtained, and an accuracy of 100% for goal kicks, 92% for corner kicks, 90% for fouls committed, 88% for indirect free kicks and 89% for shots on target. Futbol Procesamiento de imágenes digitales Redes neuronales (Computación)
104	Predicción de un tiro penal de fútbol basado en la estimación de postura del jugador Mauricio Salazar, Josue Angel 24 June 2024 (has links) En este artículo se presenta una metodología innovadora para predecir un tiro penal en fútbol basado en la estimación de postura del jugador que ejecuta el disparo haciendo uso de dos herramientas de visión computacional como segmentación semántica en videos y la estimación de postura 3D mediante los métodos TAM y MMPose, respectivamente. Para ello, se construyó un corpus de videos de tiros penales y se han entrenado modelos de aprendizaje profundo para predecir la región del arco a la cual llegará el disparo. Los resultados muestran que el modelo llamado CNN 3D logra una mejor precisión con respecto a los otros modelos entrenados. Además, se ha medido la influencia de distintas partes del cuerpo con respecto a la tarea de predicción, mostrando que las piernas son las partes más influyentes. Por último, implementamos una herramienta web para el entrenamiento de porteros y jugadores de fútbol en tiros penales, ofreciendo de esta manera posibles mejoras en las tácticas de un disparo de tiro penal mediante el uso de la visión computacional. / This paper presents an innovative methodology for predicting a penalty kick in football based on the kicker’s pose estimation using two computer vision tools, such as semantic segmentation in videos and 3D pose estimation using the TAM and MMPose methods, respectively. For this purpose, a corpus of penalty kick videos was built and deep learning models were trained to predict the region of the goal where the kick should arrive. The results show that the CNN 3D model achieves better accuracy than the other trained models. Furthermore, the influence of different body parts on the prediction task was measured, showing that the legs are the most influential parts. Finally, we implemented a web-based tool to train goalkeepers and footballers in penalty kicks. This offers potential improvements in penalty kick tactics using computer vision. Visión por computadoras Procesamiento de imágenes digitales Aprendizaje profundo Futbol
105	Adaptación de los algoritmos SIFT y LSH para la diferenciación de archivos de imágenes Ramirez Franco, Tania Gabriela, Ibañez Quispe, Ila 27 June 2016 (has links) El almacenamiento digital de información se ha vuelto un proceso cotidiano para todo aquel que disponga de algún dispositivo electrónico. Al tratarse de un proceso tan frecuente, es muy común que se almacenen grandes cantidades de datos/información, volví ´endose ardua su administración. Esto aplica a todos los tipos de datos digitales. El presente proyecto se enfoca en los problemas de almacenamiento de archivos de imágenes, como la gran repetición de archivos, elaborando una solución que permita aminorar el problema. El objetivo del proyecto es construir una herramienta que facilite la búsqueda de archivos de imagen que contengan contenidos similares. Para lograr el objetivo, se evaluaron herramientas que permitieran manipular la información de los archivos de imagen de manera que se puedan obtener los datos necesarios para realizar un proceso de comparación. Se decidió utilizar las herramientas SIFT y LSH y se procedió a adecuarlas para su funcionamiento de acuerdo a los criterios establecidos durante la investigación. Finalmente, se pudo elaborar una solución que permite realizar la comparación de un grupo de imágenes, mostrando porcentajes de similitud entre estas para así poder saber que imágenes son similares entre sí. En el primer capítulo del presente documento se desarrolla el problema a tratar y se explican los términos que se utilizan a lo largo de todo el documento. En el siguiente capítulo se encuentran los objetivos de la tesis, así como los resultados que se pretende obtener y las herramientas que se utilizaron para la elaboración de la solución. En los capítulos siguientes, se desarrollan uno por uno los objetivos alcanzados y en el ´ ultimo capítulo se encuentran las conclusiones y comentarios sobre el trabajo realizado. Procesamiento de imágenes digitales
106	Evaluación de método para la detección automática de puntos de referencia (landmark detection) en imágenes en dos dimensiones de huellas plantares para el diseño de una plantilla ortopédica Donayre Gamboa, Gustavo Miguel 28 August 2024 (has links) El presente trabajo de investigación evalúa la técnica de regresión de mapas de calor (heatmap regression - HR) para la detección automática de puntos de referencia (landmark detection) en imágenes médicas, específicamente en las imágenes de huellas plantares en dos dimensiones. El estudio se basa en la regresión de mapas de calor con aprendizaje profundo, una técnica que ha demostrado ser efectiva en la detección de puntos en rostros y en la estimación de la pose humana. Se propone un método automático para la detección de 8 puntos en las imágenes digitalizadas de huellas plantares que servirán de referencia para el diseño base de una plantilla ortopédica bidimensional, buscando así mejorar el proceso de fabricación de plantillas ortopédicas, que actualmente se realiza de forma manual y artesanal en la mayoría de los países de América Latina. La detección automática de estos puntos de referencia en las huellas plantares tiene el potencial de agilizar este proceso y mejorar la precisión de las plantillas. Los resultados del estudio mostraron un error absoluto promedio normalizado de 0.01017 en el conjunto de validación. Estas evaluaciones se llevaron a cabo utilizando una red convolucional U-Net, la cual consta de una ruta de codificación y compresión de imágenes para capturar el contexto, y una ruta de expansión simétrica que permite una localización precisa de puntos de interés en un tiempo razonable gracias al uso de los procesadores GPU actuales. / This paper evaluates the heatmap regression (HR) technique for landmark detection in medical images, specifically in two- dimensional footprint images. The study is based on heatmap regression with deep learning, a technique that has proven to be effective in face landmark detection and human pose estimation. We propose the evaluation of an automatic method for the detection of 8 points in the digitized images of plantar footprints that will serve as a reference for the base design of a two-dimensional orthopedic insole, thus seeking to improve the orthopedic insole manufacturing process, which is currently handmade and handcrafted in most Latin American countries. The automatic detection of reference points in the plantar footprints would speed up this process and improve the accuracy of the insoles. The results of the study showed an average normalized mean absolute error of 0.01017 in the validation set. These evaluations were carried out using a U-Net convolutional network, which consists of an image encoding and compression path to capture the context, and a symmetric expansion path that allows accurate localization of points of interest in a reasonable amount of time with current GPU processors. Informática médica Procesamiento de imágenes digitales
107	Elaboración de un sistema para análisis de fallas basado en procesamiento de imágenes capturadas por un boroscopio para inspección de turbinas a gas Ordoñez Rojas, Gerardo Manuel 06 October 2020 (has links) En el presente trabajo se hace el uso de las herramientas del procesamiento de imágenes para poder verificar las fallas de los componentes internos de una turbina de gas. Específicamente el estudio se enfoca en uno de los problemas principales del mantenimiento de estas turbinas el cual es la medición de las fallas internas que se producen en estas máquinas complejas. En nuestro medio local no se cuentan con proveedores capaces de poder aplicar las herramientas de visión por computadora a las organizaciones que tienen turbinas de gas como uno de sus principales activos y por ende no pueden brindar la solución para que estas empresas demandan con un estándar alto de calidad a bajo costo, haciendo que el mantenimiento de las turbinas sea muy costoso y en especial en sectores como el de aviación militar y civil, energético y de transmisión de gas, los cuales son los sectores que más emplean este tipo de tecnología. Las turbinas de gas, desde el punto de vista económico, son activos muy costosos. Según su tamaño y potencia generada, pueden llegar a tener costos en millones de dólares y mientras más continuo sea el monitoreo de su desgaste externo e interno, sea a través de inspecciones físicas directas o de parámetros medidos, mejor se podrá monitorear su deterioro y se evitarán fallas prematuras y por consiguiente se reducen sus costos de mantenimiento a largo plazo. Con el trascurso de los años se han desarrollado diversas técnicas de mantenimiento para turbinas a gas, que han permitido incrementar su disponibilidad y confiabilidad. Una de las técnicas más importantes ha sido el monitoreo con el equipo fuera de línea u off-line de los componentes internos de estas turbinas, esta técnica es la boroscopia, el cual consiste de un sistema de inspección visual remota que unido a un procesamiento de imágenes brinda una herramienta potente para la detección y diagnóstico de fallas internas. Esta técnica es la más fiable para verificar la condición física interna de las turbinas ya que anteriormente se tenían que retirar y, en caso de no tener los medios, enviar la turbina a fábrica para su inspección y reparación correspondiente. Es por ello que en el presente trabajo se buscará diseñar un sistema de boroscopia para las turbinas a gas, el cual podrá emplearse para cumplir las funciones de inspeccionar, grabar y medir los daños internos de las turbinas a gas del mismo modo que ofrecen las soluciones comerciales, pero a un costo mucho menor. En la parte experimental de este trabajo se pone énfasis en el problema de la medición y la solución propuesta muestra que se puede obtener un error promedio de entre -0.16 a 0.028 mm para un objetivo de 5 mm., esto demuestra que la técnica obtiene resultados muy satisfactorios ya que un equipo comercial de una marca referente, que cuenta con tecnología de la medición, logra a tener un error de entre 0.025 y 0.03 mm de error para un objetivo de 5.33 mm. / Tesis Turbinas de gas Análisis de fallas Procesamiento de imágenes digitales
108	Visualización 3D de grandes cantidades de datos 3D para la prevención frente a desastres naturales: una revisión de la literatura Guillén Zapata, Handry James 25 November 2020 (has links) La visualización de datos 3D es un aspecto muy importante para varios campos de trabajo como la arquitectura, minería, videojuegos, diseño gráfico, geografía, etc. En especial en este último, la geografía, el cual a diario necesita visualizar información topográfica para hacer un estudio previo de los terrenos sin la necesidad de estar presente. En Perú, el uso información 3D por parte de los geógrafos para analizar terrenos a detalle, se ha vuelto una actividad de mucha importancia, debido a que el país es muy propenso a sufrir de fenómenos naturales como el fenómeno del Niño. Esta información topográfica suele ser de superficies de un gran tamaño que pueden llegar hasta un área de 7000 hectáreas, por lo que se necesita de procesar una inmensa cantidad de información 3D. Es por esto que el presente trabajo de investigación se centra en revisar la literatura para lograr una visualización de grandes cantidades de datos 3D. En primer lugar, se revisará cómo es que se deben guardar y organizar los datos 3D para que puedan ser fácilmente extraídos por el visualizador y qué tipo de estructura de datos es la mejor para este tipo de trabajos. En segundo lugar, se revisarán los métodos que existen actualmente para poder renderizar los datos 3D de forma fluida, con el objetivo de logar una visualización interactiva del usuario sin exigir tantos recursos. Por último, se presentarán las conclusiones de los dos puntos mencionados anteriormente y se explicarán cuáles son los mejores métodos para realizar el proyecto de visualización de grandes cantidades de datos 3D. Procesamiento de datos--Tridimensionales Procesamiento de imágenes digitales Desastres naturales--Prevención
109	Fundamentos para evaluar la generación de campo reverberante de ondas de corte en medios homogéneos Flores Barrera, Gilmer Alberto 11 September 2020 (has links) La elastografía es una modalidad de imagen médica que estima la viscoelasticidad de los tejidos, permitiendo la diferenciación cuantitativa entre región sana y región afectada [1]. Diversas técnicas convencionales se basan en la detección de las ondas de corte y la relación de su velocidad de propagación con la elasticidad del medio [2]. Estas asumen que dicha propagación es unidireccional. Sin embargo, las heterogeneidades y fronteras de los tejidos generan reflejos, provocando artefactos en las estimaciones [3]. Es por ello, que en los últimos tres años se ha desarrollado la técnica de elastografía por campo reverberante de ondas de corte, la cual presenta resultados prometedores en su aplicación clínica [3]–[8]. Este nuevo enfoque hace uso de múltiples fuentes de vibración armónica controlada con el fin de aprovechar la naturaleza reverberante de los tejidos y producir un campo difuso en la región de interés. No obstante, la generación de dicho campo, la calidad del mismo y su relación con el desempeño de los estimadores son condiciones poco exploradas. Por ello, el presente trabajo tiene como propósito delinear el objetivo principal, los objetivos específicos y el modelo de solución para realizar un futuro estudio experimental con el fin de evaluar la generación de campo reverberante de ondas de corte en medio homogéneos. Así, se describe el procedimiento teórico para la realización de simulaciones numéricas y experimentos con maniquí de gelatina. El primero se basa en el método de simulación de Monte Carlo, mientras que el segundo consiste en la aplicación de combinatoria extrema con el fin de evaluar el efecto de superposición de fuentes de vibración externa. En ambos, se analizará la generación de campo reverberante con base en el parámetro de calidad derivado de la similitud de lo obtenido con los modelos teóricos [8]: el coeficiente de determinación (R2). Asimismo, se evaluará el desempeño de tres estimadores de la velocidad de propagación de las ondas de corte (Cs): el ajuste de curva a las funciones teóricas [8], la aproximación del número de onda [3], [4], y, se propone, una modificación en la aproximación del número de onda. Procesamiento de imágenes digitales Ultrasonido--Elasticidad Ultrasonido--Biomedicina Viscoelasticidad
110	Separable dictionary learning for convolutional sparse coding via split updates Quesada Pacora, Jorge Gerardo 16 May 2019 (has links) The increasing ubiquity of Convolutional Sparse Representation techniques for several image processing tasks (such as object recognition and classification, as well as image denoising) has recently sparked interest in the use of separable 2D dictionary filter banks (as alternatives to standard nonseparable dictionaries) for efficient Convolutional Sparse Coding (CSC) implementations. However, existing methods approximate a set of K non-separable filters via a linear combination of R (R << K) separable filters, which puts an upper bound on the latter’s quality. Furthermore, this implies the need to learn first the whole set of non-separable filters, and only then compute the separable set, which is not optimal from a computational perspective. In this context, the purpose of the present work is to propose a method to directly learn a set of K separable dictionary filters from a given image training set by drawing ideas from standard Convolutional Dictionary Learning (CDL) methods. We show that the separable filters obtained by the proposed method match the performance of an equivalent number of non-separable filters. Furthermore, the computational performance of this learning method is shown to be substantially faster than a state-of-the-art non-separable CDL method when either the image training set or the filter set are large. The method and results presented here have been published [1] at the 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2018). Furthermore, a preliminary approach (mentioned at the end of Chapter 2) was also published at ICASSP 2017 [2]. The structure of the document is organized as follows. Chapter 1 introduces the problem of interest and outlines the scope of this work. Chapter 2 provides the reader with a brief summary of the relevant literature in optimization, CDL and previous use of separable filters. Chapter 3 presents the details of the proposed method and some implementation highlights. Chapter 4 reports the attained computational results through several simulations. Chapter 5 summarizes the attained results and draws some final conclusions. / Tesis Procesamiento de imágenes digitales Electrónica--Diccionarios

Search results