111 |
Optimal vicinity 2D median filter for fixed-point or floating-point valuesChang Fu, Javier 19 June 2024 (has links)
Los filtros medianos son una técnica digital no lineal normalmente usada para remover
ruido blanco, ’sal y pimienta’ de imágenes digitales. Consiste en reemplazar el valor de
cada pixel por la mediana de los valores circundantes.
Las implementaciones en punto flotante usan ordenamientos con técnicas de comparación
para encontrar la mediana. Un método trivial de ordenar n elementos tiene una
complejidad de O(n2), y los ordenamientos más rápidos tienen complejidad de O(n log n)
al calcular la mediana de n elementos. Sin embargo, éstos algoritmos suelen tener fuerte
divergencia en su ejecución.
Otras implementaciones usan algoritmos basados en histogramas, y obtienen sus mejores
desempeños cuando operan con filtros de ventanas grandes. Estos algoritmos pueden
alcanzar tiempo constante al evaluar filtros medianos, es decir, presenta una complejidad
de O(1).
El presente trabajo propone un algoritmo de filtro mediano rápido y altamente paralelizable.
Se basa en ordenamientos sin divergencia con ejecución O(n log2 n) y mezclas O(n)
con los cuales se puede calcular grupos de pixeles en paralelo. Este método se beneficia de
la redundancia de valores en pixeles próximos y encuentra la vecindad de procesamiento
óptima que minimiza el número de operaciones promedio por pixel. El presente trabajo
(i) puede procesar indiferentemente imágenes en punto fijo o flotante, (ii) aprovecha al
máximo el paralelismo de múltiples arquitecturas, (iii) ha sido implementado en CPU y
GPU, (iv) se logra una aceleración respecto al estado del arte. / Median filter is a non-linear digital technique often used to remove additive white, salt
and pepper noise from images. It replaces each pixel value by the median of the surrounding
pixels.
Floating point implementations use sorting and comparing techniques to find median.
A common method for sorting n elements has complexity O(n2), and the fastest sorting
ones have complexity O(n log n) when computing the median of n elements. However,
such fastest algorithms have strong divergence in their execution.
Other implementations use histogram based algorithms and have their best performance
for large size windows. These histogram based achieve constant time median
filtering, exhibiting O(1) complexity.
A fast and highly parallelizable median filter algorithm is proposed. It is based on
sorting without divergence execution O(n log2 n) and merge O(n) that computes groups
of pixels in parallel. The method benefits from redundancy values in neighboring pixels
and finds the optimal vicinity that minimize the average operations per pixel. The
present work (i) can process either fixed or floating point images, (ii) take full advantage
of parallelism of multiple architectures, (iii) have been implemented on CPU and GPU,
(iv) the results speed up state of the art implementations.
|
112 |
Clasificación automática de eventos en videos de fútbol utilizando redes convolucionales profundasLaboriano Galindo, Alipio 14 January 2025 (has links)
La forma en que las nuevas generaciones consumen y experimentan el
deporte especialmente el fútbol, ha generado oportunidades significativas en la
difusión de contenidos deportivos en plataformas no tradicionales y en formatos
más reducidos. Sin embargo, recuperar información con contenido semántico de
eventos deportivos presentados en formato de video no es tarea sencilla y
plantea diversos retos. En videos de partidos de fútbol entre otros retos tenemos:
las posiciones de las cámaras de grabación, la superposición de eventos o
jugadas y la ingente cantidad de fotogramas disponibles.
Para generar resúmenes de calidad y que sean interesantes para el
aficionado, en esta investigación se desarrolló un sistema basado en Redes
Convolucionales Profundas para clasificar automáticamente eventos o jugadas
que ocurren durante un partido de fútbol.
Para ello se construyó una base de datos a partir de videos de fútbol
descargados de SoccerNet, la cual contiene 1,959 videoclips de 5 eventos:
saques de meta, tiros de esquina, faltas cometidas, tiros libres indirectos y
remates al arco.
Para la experimentación se utilizó técnicas de preprocesamiento de video,
una arquitectura convolucional propia y se aplicó transfer learning con modelos
como ResNet50, EfficientNetb0, Visión Transformers y Video Visión
Transformers.
El mejor resultado se obtuvo con una EfficentNetb0 modificada en su
primera capa convolucional, con la cual se obtuvo un 91% accuracy, y una
precisión de 100% para los saques de meta, 92% para los tiros de esquina, 90% para las faltas cometidas, 88% para los tiros libres indirectos y 89% para los
remates al arco. / The way the new generations consume and experiment sports, especially
soccer, has generated significant opportunities in the dissemination of sports
content on non-traditional platforms and in smaller formats. However, retrieving
information with semantic content of sporting events presented in video format is
not an easy task and poses several challenges. In videos of soccer matches,
among other challenges we have: the positions of the recording cameras, the
overlapping of events or plays and the huge amount of frames available.
In order to generate quality summaries that are interesting for the fan, this
research developed a system based on Deep Convolutional Networks to
automatically classify events or plays that occur during a soccer match.
For this purpose, a database was built from soccer videos downloaded
from SoccerNet, which contains 1,959 video clips of 5 events: goal kicks, corner
kicks, fouls, indirect free kicks and shots on target.
For the experimentation, video preprocessing techniques were used, a
proprietary convolutional architecture and transfer learning was applied with
models such as ResNet50, EfficientNetb0, Vision Transformers and Video Vision
Transformers.
The best result was obtained with a modified EfficentNetb0 in its first
convolutional layer, with which 91% accuracy was obtained, and an accuracy of
100% for goal kicks, 92% for corner kicks, 90% for fouls committed, 88% for
indirect free kicks and 89% for shots on target.
|
113 |
Predicción de un tiro penal de fútbol basado en la estimación de postura del jugadorMauricio Salazar, Josue Angel 24 June 2024 (has links)
En este artículo se presenta una metodología innovadora para predecir un tiro penal
en fútbol basado en la estimación de postura del jugador que ejecuta el disparo
haciendo uso de dos herramientas de visión computacional como segmentación
semántica en videos y la estimación de postura 3D mediante los métodos TAM y
MMPose, respectivamente. Para ello, se construyó un corpus de videos de tiros
penales y se han entrenado modelos de aprendizaje profundo para predecir la región
del arco a la cual llegará el disparo.
Los resultados muestran que el modelo llamado CNN 3D logra una mejor precisión
con respecto a los otros modelos entrenados. Además, se ha medido la influencia de
distintas partes del cuerpo con respecto a la tarea de predicción, mostrando que las
piernas son las partes más influyentes. Por último, implementamos una herramienta
web para el entrenamiento de porteros y jugadores de fútbol en tiros penales,
ofreciendo de esta manera posibles mejoras en las tácticas de un disparo de tiro penal
mediante el uso de la visión computacional. / This paper presents an innovative methodology for predicting a penalty kick in football
based on the kicker’s pose estimation using two computer vision tools, such as
semantic segmentation in videos and 3D pose estimation using the TAM and MMPose
methods, respectively. For this purpose, a corpus of penalty kick videos was built and
deep learning models were trained to predict the region of the goal where the kick
should arrive.
The results show that the CNN 3D model achieves better accuracy than the other
trained models. Furthermore, the influence of different body parts on the prediction
task was measured, showing that the legs are the most influential parts. Finally, we
implemented a web-based tool to train goalkeepers and footballers in penalty kicks.
This offers potential improvements in penalty kick tactics using computer vision.
|
114 |
Evaluación de método para la detección automática de puntos de referencia (landmark detection) en imágenes en dos dimensiones de huellas plantares para el diseño de una plantilla ortopédicaDonayre Gamboa, Gustavo Miguel 28 August 2024 (has links)
El presente trabajo de investigación evalúa la técnica de regresión de mapas de
calor (heatmap regression - HR) para la detección automática de puntos de
referencia (landmark detection) en imágenes médicas, específicamente en las
imágenes de huellas plantares en dos dimensiones. El estudio se basa en la
regresión de mapas de calor con aprendizaje profundo, una técnica que ha
demostrado ser efectiva en la detección de puntos en rostros y en la estimación de
la pose humana. Se propone un método automático para la detección de 8 puntos
en las imágenes digitalizadas de huellas plantares que servirán de referencia para el
diseño base de una plantilla ortopédica bidimensional, buscando así mejorar el
proceso de fabricación de plantillas ortopédicas, que actualmente se realiza de
forma manual y artesanal en la mayoría de los países de América Latina. La
detección automática de estos puntos de referencia en las huellas plantares tiene el
potencial de agilizar este proceso y mejorar la precisión de las plantillas.
Los resultados del estudio mostraron un error absoluto promedio normalizado de
0.01017 en el conjunto de validación. Estas evaluaciones se llevaron a cabo
utilizando una red convolucional U-Net, la cual consta de una ruta de codificación y
compresión de imágenes para capturar el contexto, y una ruta de expansión
simétrica que permite una localización precisa de puntos de interés en un tiempo
razonable gracias al uso de los procesadores GPU actuales. / This paper evaluates the heatmap regression (HR) technique for landmark detection
in medical images, specifically in two- dimensional footprint images. The study is
based on heatmap regression with deep learning, a technique that has proven to be
effective in face landmark detection and human pose estimation. We propose the
evaluation of an automatic method for the detection of 8 points in the digitized
images of plantar footprints that will serve as a reference for the base design of a
two-dimensional orthopedic insole, thus seeking to improve the orthopedic insole
manufacturing process, which is currently handmade and handcrafted in most Latin
American countries. The automatic detection of reference points in the plantar
footprints would speed up this process and improve the accuracy of the insoles.
The results of the study showed an average normalized mean absolute error of
0.01017 in the validation set. These evaluations were carried out using a U-Net
convolutional network, which consists of an image encoding and compression path
to capture the context, and a symmetric expansion path that allows accurate
localization of points of interest in a reasonable amount of time with current GPU
processors.
|
115 |
Elaboración de un sistema para análisis de fallas basado en procesamiento de imágenes capturadas por un boroscopio para inspección de turbinas a gasOrdoñez Rojas, Gerardo Manuel 06 October 2020 (has links)
En el presente trabajo se hace el uso de las herramientas del procesamiento de imágenes para poder verificar las fallas de los componentes internos de una turbina de gas. Específicamente el estudio se enfoca en uno de los problemas principales del mantenimiento de estas turbinas el cual es la medición de las fallas internas que se producen en estas máquinas complejas. En nuestro medio local no se cuentan con proveedores capaces de poder aplicar las herramientas de visión por computadora a las organizaciones que tienen turbinas de gas como uno de sus principales activos y por ende no pueden brindar la solución para que estas empresas demandan con un estándar alto de calidad a bajo costo, haciendo que el mantenimiento de las turbinas sea muy costoso y en especial en sectores como el de aviación militar y civil, energético y de transmisión de gas, los cuales son los sectores que más emplean este tipo de tecnología.
Las turbinas de gas, desde el punto de vista económico, son activos muy costosos. Según su tamaño y potencia generada, pueden llegar a tener costos en millones de dólares y mientras más continuo sea el monitoreo de su desgaste externo e interno, sea a través de inspecciones físicas directas o de parámetros medidos, mejor se podrá monitorear su deterioro y se evitarán fallas prematuras y por consiguiente se reducen sus costos de mantenimiento a largo plazo.
Con el trascurso de los años se han desarrollado diversas técnicas de mantenimiento para turbinas a gas, que han permitido incrementar su disponibilidad y confiabilidad. Una de las técnicas más importantes ha sido el monitoreo con el equipo fuera de línea u off-line de los componentes internos de estas turbinas, esta técnica es la boroscopia, el cual consiste de un sistema de inspección visual remota que unido a un procesamiento de imágenes brinda una herramienta potente para la detección y diagnóstico de fallas internas. Esta técnica es la más fiable para verificar la condición física interna de las turbinas ya que anteriormente se tenían que retirar y, en caso de no tener los medios, enviar la turbina a fábrica para su inspección y reparación correspondiente.
Es por ello que en el presente trabajo se buscará diseñar un sistema de boroscopia para las turbinas a gas, el cual podrá emplearse para cumplir las funciones de inspeccionar, grabar y medir los daños internos de las turbinas a gas del mismo modo que ofrecen las soluciones comerciales, pero a un costo mucho menor. En la parte experimental de este trabajo se pone énfasis en el problema de la medición y la solución propuesta muestra que se puede obtener un error promedio de entre -0.16 a 0.028 mm para un objetivo de 5 mm., esto demuestra que la técnica obtiene resultados muy satisfactorios ya que un equipo comercial de una marca referente, que cuenta con tecnología de la medición, logra a tener un error de entre 0.025 y 0.03 mm de error para un objetivo de 5.33 mm. / Tesis
|
116 |
Visualización 3D de grandes cantidades de datos 3D para la prevención frente a desastres naturales: una revisión de la literaturaGuillén Zapata, Handry James 25 November 2020 (has links)
La visualización de datos 3D es un aspecto muy importante para varios campos de trabajo
como la arquitectura, minería, videojuegos, diseño gráfico, geografía, etc. En especial en
este último, la geografía, el cual a diario necesita visualizar información topográfica para
hacer un estudio previo de los terrenos sin la necesidad de estar presente.
En Perú, el uso información 3D por parte de los geógrafos para analizar terrenos a detalle,
se ha vuelto una actividad de mucha importancia, debido a que el país es muy propenso a
sufrir de fenómenos naturales como el fenómeno del Niño. Esta información topográfica
suele ser de superficies de un gran tamaño que pueden llegar hasta un área de 7000
hectáreas, por lo que se necesita de procesar una inmensa cantidad de información 3D.
Es por esto que el presente trabajo de investigación se centra en revisar la literatura para
lograr una visualización de grandes cantidades de datos 3D. En primer lugar, se revisará
cómo es que se deben guardar y organizar los datos 3D para que puedan ser fácilmente
extraídos por el visualizador y qué tipo de estructura de datos es la mejor para este tipo de
trabajos. En segundo lugar, se revisarán los métodos que existen actualmente para poder
renderizar los datos 3D de forma fluida, con el objetivo de logar una visualización interactiva
del usuario sin exigir tantos recursos. Por último, se presentarán las conclusiones de los dos
puntos mencionados anteriormente y se explicarán cuáles son los mejores métodos para
realizar el proyecto de visualización de grandes cantidades de datos 3D.
|
117 |
La técnica de correlación de imágenes digitales aplicada a ensayos de materialesVera Cieza, Diego Alejandro 05 October 2020 (has links)
La correlación de imágenes digitales (Digital Image Correlation: DIC) es una herramienta moderna de la ingeniería que permite visualizar y medir en tiempo real el movimiento y las deformaciones de diversos sistemas mecánicos.
El objetivo del presente trabajo es realizar una investigación de la literatura técnica enfocada en la aplicación de la técnica DIC en ensayos de materiales. El trabajo contempla la descripción de los fundamentos y principios de funcionamiento de la técnica, así como del equipamiento necesario y los procedimientos empleados para realizar una medición. Asimismo, se presenta una recopilación de trabajos desarrollados por investigadores en el campo de DIC y ensayos de materiales, resaltando el equipo empleado, los ensayos y materiales utilizados, y los resultados obtenidos.
La técnica DIC presenta facilidad de implementación, versatilidad para ser aplicada en diversos ensayos, posibilidad de medir deformaciones en 3D, contacto nulo con los especímenes, alta precisión, y la posibilidad de ensayar diversos tipos de materiales. Asimismo, la técnica permite la integración con los equipos de ensayos para realizar un análisis detallado del comportamiento de un material y determinar sus propiedades.
El presente trabajo se constituye como un documento de referencia para la implementación de la técnica DIC en un laboratorio y su aplicación en ensayos de materiales.
|
118 |
Fundamentos para evaluar la generación de campo reverberante de ondas de corte en medios homogéneosFlores Barrera, Gilmer Alberto 11 September 2020 (has links)
La elastografía es una modalidad de imagen médica que estima la viscoelasticidad de los tejidos, permitiendo la diferenciación cuantitativa entre región sana y región afectada [1]. Diversas técnicas convencionales se basan en la detección de las ondas de corte y la relación de su velocidad de propagación con la elasticidad del medio [2]. Estas asumen que dicha propagación es unidireccional. Sin embargo, las heterogeneidades y fronteras de los tejidos generan reflejos, provocando artefactos en las estimaciones [3]. Es por ello, que en los últimos tres años se ha desarrollado la técnica de elastografía por campo reverberante de ondas de corte, la cual presenta resultados prometedores en su aplicación clínica [3]–[8]. Este nuevo enfoque hace uso de múltiples fuentes de vibración armónica controlada con el fin de aprovechar la naturaleza reverberante de los tejidos y producir un campo difuso en la región de interés. No obstante, la generación de dicho campo, la calidad del mismo y su relación con el desempeño de los estimadores son condiciones poco exploradas. Por ello, el presente trabajo tiene como propósito delinear el objetivo principal, los objetivos específicos y el modelo de solución para realizar un futuro estudio experimental con el fin de evaluar la generación de campo reverberante de ondas de corte en medio homogéneos. Así, se describe el procedimiento teórico para la realización de simulaciones numéricas y experimentos con maniquí de gelatina. El primero se basa en el método de simulación de Monte Carlo, mientras que el segundo consiste en la aplicación de combinatoria extrema con el fin de evaluar el efecto de superposición de fuentes de vibración externa. En ambos, se analizará la generación de campo reverberante con base en el parámetro de calidad derivado de la similitud de lo obtenido con los modelos teóricos [8]: el coeficiente de determinación (R2). Asimismo, se evaluará el desempeño de tres estimadores de la velocidad de propagación de las ondas de corte (Cs): el ajuste de curva a las funciones teóricas [8], la aproximación del número de onda [3], [4], y, se propone, una modificación en la aproximación del número de onda.
|
119 |
Separable dictionary learning for convolutional sparse coding via split updatesQuesada Pacora, Jorge Gerardo 16 May 2019 (has links)
The increasing ubiquity of Convolutional Sparse Representation techniques for several image processing
tasks (such as object recognition and classification, as well as image denoising) has recently
sparked interest in the use of separable 2D dictionary filter banks (as alternatives to standard nonseparable
dictionaries) for efficient Convolutional Sparse Coding (CSC) implementations. However,
existing methods approximate a set of K non-separable filters via a linear combination of R (R << K)
separable filters, which puts an upper bound on the latter’s quality. Furthermore, this implies the need
to learn first the whole set of non-separable filters, and only then compute the separable set, which is
not optimal from a computational perspective.
In this context, the purpose of the present work is to propose a method to directly learn a set of K
separable dictionary filters from a given image training set by drawing ideas from standard Convolutional
Dictionary Learning (CDL) methods. We show that the separable filters obtained by the proposed
method match the performance of an equivalent number of non-separable filters. Furthermore, the computational
performance of this learning method is shown to be substantially faster than a state-of-the-art
non-separable CDL method when either the image training set or the filter set are large. The method and
results presented here have been published [1] at the 2018 IEEE International Conference on Acoustics,
Speech and Signal Processing (ICASSP 2018). Furthermore, a preliminary approach (mentioned at the
end of Chapter 2) was also published at ICASSP 2017 [2].
The structure of the document is organized as follows. Chapter 1 introduces the problem of interest
and outlines the scope of this work. Chapter 2 provides the reader with a brief summary of the relevant
literature in optimization, CDL and previous use of separable filters. Chapter 3 presents the details of
the proposed method and some implementation highlights. Chapter 4 reports the attained computational
results through several simulations. Chapter 5 summarizes the attained results and draws some final
conclusions. / Tesis
|
120 |
Modelo convolucional para la detección de nódulos pulmonares a partir de tomografías 3DMaldonado Cadenillas, Rodrigo Ricardo 23 May 2019 (has links)
El cáncer al pulmón se ha convertido en una de las enfermedades con mayor incidencia a nivel mundial. Sin embargo, el análisis preventivo y detección de nódulos cancerígenos generalmente se realiza de forma manual por los radiólogos, lo cual ralentiza el proceso y genera posibles errores humanos. De esta manera, se han realizado diversas investigaciones sobre este problema utilizando Deep Learning como alternativa de solución para el análisis automático de tomografías. En este trabajo, se propone una aplicación y configuración de un modelo U- net, con bloques residuales y con regiones más rápidas para la detección de nódulos en tomografías computarizadas 3D. Los resultados obtenidos arrojan un FROC del 78 %, lo cual muestra que nuestra propuesta esta´ en el camino correcto, considerando las limitaciones de hardware en la que se ejecutó. / Tesis
|
Page generated in 0.0859 seconds