Spelling suggestions: "subject:"neuronale"" "subject:"neuronal""
111 |
Aplicaciones de visión artificial para ayuda a personas con dificultades visualesAlashhab, Samer 01 July 2022 (has links)
La discapacidad visual es considerada la mayor discapacidad sensorial, la cual determina en gran medida la vida de una persona tanto en la interacción con su entorno como con la sociedad. La Organización Mundial de la Salud (OMS) informa de que al menos 2.200 millones de personas en todo el mundo padecen deficiencia visual o ceguera, lo cual convierte en una cuestión prioritaria la investigación en soluciones que sirvan de ayuda para que estas personas superen los retos con los que se enfrentan en su día a día. Existen ayudas para las personas ciegas o con dificultades visuales, como los perros guía, los bastones, el sistema braille, etc. Sin embargo, aún así, hay multitud de tareas que les resultan difíciles o incluso imposibles, como por ejemplo orientarse en entornos desconocidos o leer textos no adaptados, entre otros. Para estas tareas también podemos encontrar herramientas basadas en la tecnología, como por ejemplo aplicaciones de teléfonos móviles de ayuda a la lectura o a la orientación, aunque habitualmente estas aplicaciones resultan muy básicas y están desarrolladas para un solo propósito, por ejemplo, ampliar un texto, detectar un color, etc. Los recientes avances producidos en el campo de la Inteligencia Artificial y, más concretamente, en el Deep Learning, han creado nuevas posibilidades para el desarrollo de aplicaciones avanzadas de ayuda en tareas en las que antes no era posible. Estos avances se han unido al incremento en la capacidad hardware de los teléfonos móviles, los cuales han pasado de ser simples medios de comunicación a tener una potencia de cálculo casi equivalente a la de un ordenador. Todo esto ha producido que estos dispositivos constituyan en la actualidad una herramienta muy importante para la ayuda a este colectivo. La cuestión central que se aborda en esta tesis doctoral es la investigación en métodos de visión artificial que permitan el reconocimiento de gestos realizados con las manos y, en función del gesto, facilitar diferentes tipos de información. El objetivo es el desarrollo de un sistema eficiente y de bajo coste destinado a dispositivos móviles que permita interactuar mediante gestos con el dispositivo y sea capaz de realizar múltiples acciones de ayuda a personas con discapacidad visual. Se busca con ello un método de interacción humano-máquina que resulte natural, rápido, intuitivo y accesible, y que integre diferentes acciones sin necesidad de utilizar la pantalla táctil para activarlas o cambiar de aplicación. Para ello se define un conjunto de gestos con los que interactuar con la aplicación, cada uno de los cuales desencadena una acción diferente, por ejemplo apuntar a un objeto para obtener una descripción del mismo, apuntar con dos dedos para centrar y arrastrar a la posición señalada, hacer la forma de una lupa con la mano para obtener la descripción de la escena, o hacer un gesto de tipo "Pellizco" para hacer zoom. En este último caso tendríamos un gesto dinámico, ya que abriendo y cerrando los dedos podremos ajustar el nivel de zoom, mientras que los otros casos son ejemplos de gestos estáticos. Para gestionar todas estas acciones se propone un método eficiente que realiza de forma conjunta tanto la clasificación y la localización de gestos como las acciones asociadas a cada gesto. Este método se basa en una red multi-head compuesta por un backbone común al que se conectan diferentes cabezas (heads) para realizar las tareas especializadas (como por ejemplo la descripción del objeto o la escena, el control de los niveles de zoom, etc.). Las cabezas aprovechan las características comunes extraídas por el backbone y además solo se activan si se detecta su correspondiente gesto, lo que resulta en una arquitectura altamente eficiente. Además, para la tarea de la localización de los gestos se propone un nuevo enfoque débilmente supervisado que permite transformar una red de clasificación en un método para la localización de objetos, resultando también en una solución eficiente al no requerir una nueva arquitectura. Para evaluar la metodología propuesta se han creado tres conjuntos de datos diferentes con un total de unas 44 mil imágenes, incluyendo imágenes reales y sintéticas de gestos, y un conjunto de datos que contiene descripciones de las escenas. Todas estas imágenes se han etiquetado a varios niveles, indicando la categoría de toda la imagen, la posición de la mano y de la punta del dedo índice, y la posición y descripción de los objetos señalados. Para cada uno de los pasos del método propuesto se ha realizado un conjunto de experimentos, tanto para ajustar sus parámetros como para compararlo con alternativas del estado del arte, incluyendo redes neuronales convolucionales, redes de detección de objetos, redes de segmentación, así como la evaluación de diferentes tamaños de entrada, técnicas de inicialización y de aumentado de datos. La experimentación realizada muestra buenos resultados tanto a nivel de precisión como de eficiencia del método. Al comparar los resultados de cada una de las cabezas especializadas con otros enfoques del estado del arte, incluyendo opciones específicas para esas mismas tareas, los mejores resultados (o casi los mejores) se obtienen en todos los casos mediante la arquitectura propuesta. Además, este método también ha mostrado un buen desempeño en los dispositivos móviles actuales reportando tiempos de procesamiento promedio de entre 3-4 FPS en pruebas realizadas en dispositivos Samsung A51 y Huawei P30 lite.
|
112 |
Clasificación de sueño mediante medición de la actividad motoraOrellana López, Gabriel Andrés January 2014 (has links)
Ingeniero Civil Eléctrico / El objetivo del presente trabajo de memoria fue desarrollar un sistema capaz de aprender de registros actigráficos nocturnos de adolescentes sanos y, en base a la información obtenida y a registros polisomnográficos simultáneos, generar un algoritmo que permita clasificar automáticamente los diferentes estados y etapas del sueño en base al registro actigráfico.
La actigrafía es una técnica de extracción de información fisiológica que consiste en la ubicación de un dispositivo, denominado actígrafo, en la muñeca de la mano no dominante del paciente. El actígrafo graba la actividad de acelerómetros internos, registrando la actividad motora de la extremidad. Esta técnica ha despertado un creciente interés en la comunidad científica debido a su simplicidad, bajo costo y su carácter no invasivo, por lo que se han desarrollado numerosos estudios para el análisis de dicha señal.
El archivo de registros del Laboratorio de Sueño y Neurobiología Funcional del INTA incluye numerosos registros de actigrafía, y polisomnogramas de los mismos pacientes. Se revisaron los registros, descartando aquellos que presentaban ruido o periodos sin mediciones. Luego se buscó sincronizar los registros actigráficos aptos con su respectivo polisomnograma. Se construyó una base de datos compuesta de 114 registros actigráficos muestreados a un dato por minuto, cada uno con su respectivo hipnograma, obtenido a partir del polisomnograma y validado por expertos en medicina del sueño para ser utilizados como ground thruth. Con esta base de datos se construyó un sistema compuesto por dos clasificadores basados en Redes Neuronales Artificiales, el primero es un clasificador que permite distinguir entre sueño y vigilia, mientras que el segundo permite clasificar entre los estados y etapas del sueño.
El clasificador de sueño y vigilia utiliza 11 características extraídas de los registros actigráficos, las que fueron elegidas a través de un proceso de selección de características. Entre éstas se cuentan indicadores estadísticos, que miden tanto tendencia central como dispersión en una ventana de tiempo móvil, así como características de contexto temporal, es decir, en qué tiempo se localiza la ventana en relación con el sueño completo, y el contexto de actividad, es decir, información sobre la actividad previa y posterior a la ventana. Este clasificador tiene una precisión de 93,2%, con una detección de sueño de 96,2% y una detección de vigilia de 79,6%. Estos resultados constituyen una mejora respecto de los publicados a la fecha por otros grupos de investigación.
El segundo clasificador utiliza las mismas características que el primero excepto dos, que fueron desechadas mediante un test estadístico por ser mutuamente redundantes con otras que entregan más información, lo que no es el caso para la clasificación sueño-vigilia. En esta clasificación se busca distinguir entre los minutos pertenecientes a cuatro etapas: Sueño Quieto 1 (SQ 1), SQ 2, SQ 3&4 y Sueño Paradójico (SP). El clasificador de estados y etapas del sueño tiene una precisión global del 61,0%, detectando el 12,2% de los minutos pertenecientes a la etapa SQ 1, 80,7% de los minutos pertenecientes a la etapa SQ 2, 68,8% de los minutos pertenecientes a SQ3&4 y 6,7% de los etiquetados como etapa SP. El bajo rendimiento del sistema de clasificación se debe a que los datos actigráficos no parecen ser adecuados para discriminar estados y etapas de sueño. No existen estudios con los cuales comparar este resultado.
Combinando los ambos clasificadores se alcanzó una precisión de 62,4%.
|
113 |
Desarrollo analítico de la reactividad pupilar y su uso como marcador fisiológico en enfermedades psiquiátricasMadariaga Román, Samuel Andrés January 2015 (has links)
Ingeniero Civil Eléctrico / El propósito de la presente memoria es analizar si las diferencias anteriormente reportadas en el sistema nervioso central entre pacientes con diagnóstico de esquizofrenia y sujetos de control pueden ser capturadas y cuantificadas a partir de la reactividad pupilar, y estudiar si es posible utilizar esta señal como un marcador fisiológico que pudiese delatar la patología.
En primer lugar, se estudió, desarrolló y realizó un experimento por parte del grupo de neurocientíficos que fuese capaz de capturar la señal pupilar de los individuos, utilizando para esto conocimientos acerca del estado del arte en registros oculográficos y en estudios de la reactividad pupilar. Esta señal se extrae y se procesa gracias al desarrollo de un completo grupo de funciones computacionales, las cuales permitieron abordar el problema desde un punto de vista general con relación a los demás experimento enmarcados en el laboratorio de investigación.
El problema de la clasificación se abordó en dos etapas. Primeramente se analizó las señales promedio resultantes entre los distintos grupos de interés y a partir de conocimientos de expertos se eligieron el conjunto de valores que caracterizarían la curva. A continuación se aplicó un análisis estadístico para validar los parámetros elegidos.
La clasificación se generó a partir del entrenamiento supervisado de redes neuronales artificiales las cuales tuvieron un desempeño aceptable debido a que estas estaban orientadas a apoyar la decisión clínica y no se una única respuesta. Queda registrado como un indicio la diferenciación de la reactividad pupilar entre pacientes y sujetos de control, pero se necesita una mayor cantidad y diversidad de datos para tener resultado plenamente satisfactorios.
|
114 |
Aplicaciones de potenciales evocados para la generación de señales bioelectromagnéticas de identificación personalZárate Gonzales, César Armando January 2008 (has links)
La presente Tesis de Investigación Doctoral hace un análisis sistemático, sistémico y armónico del registro del potencial evocado hasta llegar a la codificación de esta señal bioeléctrica para su uso como registro individual específico mediante código de barras.
El código nervioso de una señal sensorial, cuyos detalles falta descifrar, está conformado por un conjunto de señales eléctricas que procesan las redes neurales del sistema sensorial, los núcleos subcorticales y la corteza cerebral, el cual es posible analizar y decodificar. Las señales nerviosas sensoriales representan por sí solas el medio exterior, pero sus procesos esenciales son decodificados en la corteza cerebral, donde se activa la información psíquica correspondiente, el decodificar las señales neuronales y su significado.
Estas señales se procesan en redes simétricas interconectadas en tiempo real, es decir, existen diferentes formas simétricas de señales en cualquier estructura del cerebro.
Tomando al cerebro humano como sistema de emisión de señales bioelectromagnéticas, se crea una interfaz con el potencial evocado, lo que permite analizar las distintas latencias y amplitudes en forma de señales neuronales bioelectromágneticas, expresadas en minivoltios y hertzios, dentro de una longitud de onda que evoca el cerebro, utilizando modelos matemáticos como las series de Fourier, wavelets y fractales.
En esta interfaz se introduce el código de barras que es un código basado en la representación mediante un conjunto de líneas paralelas verticales de distinto grosor y espaciado, que en su conjunto contienen una determinada información. De este modo, el código de barras permite reconocer rápidamente a una persona, en tanto permite generar un registro individual específico de esta persona.
Con esta finalidad, se obtuvieron pruebas médicas del potencial evocado y se decodificaron mediante la trasformada de Fourier, lo que permitió la descomposición de la señal en componentes de frecuencias diferentes, g, que corresponde al espectro de frecuencias de la señal f. Luego, estas fueron procesadas mediante los modelos fractales, lográndose obtener una trasformada que se expresa en un código de barras personalizado. Es decir, el código nervioso es descifrado mediante la matematización con el uso de las series de Fourier y el procesamiento de la dimensión fractal y de su transformada, hacia un código de barras con múltiples aplicaciones en todas las ciencias. / -- The following Ph.D. thesis research presents a systematic, systemic and harmonic analysis from the evoked potential record until the encoding of this bioelectric signal; in order to use it as a specific individual record through barcode.
The nervous code of a sensorial signal, which details need to be decoded, is formed by a group of electrical signal that processes the neural networks of the sensorial system, the sub cortical nuclei and the cerebral cortex. It is possible to analyze and decode. The sensorial nervous signals represent themselves the external mean, but their essential process is decoded at the cerebral cortex level, where it actives the respective psychic information. To decode the neural signals and their meaning.
These signals are processed in real-time interconnected symmetrical networks, which mean there are different shapes of symmetrical signals within any brain structure.
Taking the human brain as a bioelectromagnetic signal emission system, an interface is created with the evoked potential, which allows analyzing the different latencies and amplitudes through bioelectromagnetic neural signals, expressed on mini volts and hertz, within a wavelength that evokes the brain using mathematical models such as the Fourier series, wavelets and fractals.
In this interface, a barcode is produced, which is a code based on the representation of a group of vertical parallel lines with different widths and spacings, storing specific information. In this manner, the barcode allows to recognize a person quickly, as it allows generating a specific individual record of this person.
In this way, clinical tests of the evoked potential were obtained, they were decoded by the Fourier Transform, which allowed decomposing a signal into components of different frequency, g, represents the frequency spectrum of the signal f. Then, it was processed through fractal models obtaining a transform expressed by a personal barcode. In other words, the nervous code is decoded by mathematical means, using the Fourier series and the process fractal dimension and its transform, into a barcode with multiple applications to several sciences.
|
115 |
Aplicación de las redes neuronales artificiales para el pronóstico de la demanda de agua potable en la Empresa Epsel S.A. de la ciudad de LambayequeVidaurre Siadén, Yasmín Andrea, Vidaurre Siadén, Yasmín Andrea January 2012 (has links)
La predicción de la cantidad demandada de agua potable es de gran importancia hoy en día para las corporaciones pertenecientes al sector saneamiento. Realiza esta predicción a mediano plazo es una necesidad vital para estas empresas, dado que de ello depende la satisfacción de los usuarios del servicio de saneamiento, los cuales se verían perjudicados en caso este servicio deje de trabajar en horas altamente criticas para ellos. El presente trabajo pretende demostrar que el empleo de técnicas computacionales basadas en inteligencia artificial, como las redes neuronales artificiales, reducen el nivel de error de las predicciones de la demanda de agua potable. / Tesis
|
116 |
Una aplicación de redes neuronales para la formulación de un modelo avanzado de predicción del tipo de cambio nominal en el corto plazoPichara Ferreira, Elias January 2008 (has links)
Ingeniería Comercial, mención en Economía / El tipo de cambio juega un rol fundamental dentro de una economía, pero es aun más trascendental en una economía pequeña y tan abierta al mundo como la chilena, donde una buena parte de su producción depende de sus exportaciones y en menor medida de sus importaciones (como una importante fuente de insumos).
Dado lo anterior y frente a la fuerte expectativa que genera los movimientos del tipo de cambio, este trabajo tiene como objetivo encontrar un modelo que intente predecir los movimientos del tipo de cambio nominal en el corto plazo que incorpore variables fundamentales como diferencial de tasas con EE.UU. (medido por bonos a 5 años indexados en inflación), variación del precio del cobre y también variables que materialice cuantitativamente los movimientos de tasa de política monetaria y presiones para una posible intervención del Banco Central.
Este trabajo desarrolla distintos modelos con datos semanales y mediante la técnica de redes Neuronales.
Los resultados encontrados muestran que el mejor modelo encontrado es el que incorpora las variables que materializan cuantitativamente los movimientos de tasa de política monetaria y presiones de una posible intervención. Específicamente a nivel intra y extramuestrales hay un porcentaje de predicción del signo del tipo de cambio nominal cercano al 62%, reflejando la buena capacidad predictiva del modelo. Además la evaluación estadística del modelo, mediante el test de Pesaran y Timmerman, entrego capacidad predictiva a un nivel de significancia de un 10% o mas.
|
117 |
Un módelo no lineal para la predicción de la variación del índice IPSA considerando volatilidades en clusteringLanyon Rioseco, Daniel Nicolás 12 1900 (has links)
Seminario para optar al grado de Ingeniero Comercial, Mención Administración / El estudio evalúa la capacidad de un modelo GARCH, optimizado por algoritmo genético, para predecir la dirección del cambio del precio de un índice financiero, particularmente el IPSA.
La particularidad de esta tesis es que incorpora en el modelo eventos o episodios de volatilidad pasados y así verificar la capacidad de estos modelos para modelar el comportamiento del IPSA y mejorar la capacidad de acertar a los cambios de variación de signo del índice. A modo de comparación se evaluó este modelo con modelos GARCH simples que no incorporan estos episodios de volatilidad.
El índice utilizado fue el IPSA y los datos se tomaron desde una serie histórica de datos semanales, periodo que corresponde al 01 de Enero de 1995 y 28 de Diciembre del 2007. Los resultados arrojados mostraron que en general los modelos GARCH (p, q) no obtienen un buen PPS arrojando una media del 53,93% dentro de un intervalo al 95% de confianza en 53,13% y 54,73%. Sin embargo, al incluir los episodios de volatilidad como clusters y optimizar la función de máxima verosimilitud minimizando el error cuadrático medio ECM, se logran mejores resultados y muestra que, si bien la optimización de una estructura GARCH (p, q) no garantiza un buen PPS, en la medida que el ajuste aumenta, disminuyendo el ECM, se obtiene un mejor PPS. Sin duda que los mejores resultados tanto
“Un modelo no lineal para la predicción de la variación del índice IPSA considerando
volatilidades en clustering”
en ECM como en PPS fueron canalizados por un mejor ajuste de la estimación que además permitió acertar mas veces al signo de la variación. Es posible que al incorporar al modelo la capacidad de los “traders” de reconocer episodios que alguna vez se dieron en el pasado para ajustar sus predicciones haya incorporado mayor realismo y por ende un mejor ajuste.
|
118 |
Diseño e implementación de metodología para desarrollo de sistema detector de fatiga mental mediante el análisis de la variabilidad del ritmo cardíaco a través de vestimentas electrotextilesGaínza Kunstmann, Jetro Ignacio January 2015 (has links)
Ingeniero Civil Eléctrico / La fatiga mental se define como un cambio en los estados fisiológicos y psicológicos que experimenta una persona a medida que realiza una actividad cognitiva de alta demanda por un período de tiempo. Este trabajo de título diseña y aplica una metodología para la confección de un sistema detector de fatiga mental mediante el análisis de la variabilidad del ritmo cardiaco, con el fin de generar una herramienta que ayude a minimizar la tasa de accidentes en operaciones industriales. Dicha metodología contempla la generación de una base de datos con muestras de variabilidades del ritmo cardíaco (HRV), las cuales son extraídas del registro de electrocardiogramas (ECG) a sujetos con diversos niveles de cansancio mental.
Para cada uno de los participantes de este estudio, se realiza una toma de muestra tanto al inicio como al final de su jornada laboral, a lo largo de una semana de trabajo, con la finalidad de obtener posibles tendencias en las características analizadas en el HRV, con respecto al transcurso de una jornada, o de la semana. Para lograr un análisis fidedigno entre el grado de cansancio real que tiene cada voluntario, y los cambios fisiológicos vinculados a estos niveles, se registran parámetros cognitivos y contextuales tales como el puntaje obtenido en un test de habilidad mental, las horas dormidas la noche anterior, y el nivel de fatiga mental auto reportado en una escala entre 0 y 10. A partir de estos parámetros, se implementa un sistema de etiquetado de muestras, para caracterizar tanto de forma continua como de forma binaria, el nivel de fatiga mental estimado en cada individuo, dado por las características de las HRV analizadas. Completado este proceso, se analiza en conjunto la relación entre las etiquetas generadas y las características medidas, para posteriormente desarrollar un algoritmo basado en los paradigmas de la inteligencia computacional clasificador del nivel de fatiga mental.
Como resultado de esta metodología, se obtienen dos redes neuronales: la primera, entrenada para caracterizar el nivel de fatiga mental en una escala lineal porcentual entre 0 y 100%. La segunda, entrenada para clasificar de forma binaria entre los conjuntos No Fatiga y Fatiga . Para el primer algoritmo se obtuvo una correlación promedio porcentual de 18% entre las características de las muestras y las etiquetas generadas. Para el segundo algoritmo implementado, se obtuvo un promedio para la exactitud, precisión y sensibilidad de 58%, 61% y 83% respectivamente.
La principal limitación del presente estudio fue la elección de los mecanismos utilizados para generar el sistema de etiquetado. En específico, la encuesta de auto reporte no contenía preguntas completamente claras para el voluntario, el juego cognitivo evidenció una tasa de aprendizaje que impedía visualizar cambios en los niveles de concentración, y la medición del electroencefalograma (EEG) presentó problemas de conectividad Bluetooth para recibir la data. Adicionalmente, la cantidad de muestras obtenidas se considera insuficiente para entrenar de forma eficaz una red neuronal.
Esto sugiere que, para una próxima realización de este estudio, es necesario perfeccionar las herramientas utilizadas en esta metodología, con el fin de poder caracterizar y clasificar de forma más óptima la fatiga mental mediante el análisis de la variabilidad del ritmo cardiaco.
|
119 |
Diagnóstico de fallas basado en emisión acústica mediante redes neuronales convolucionales profundasGonzález Toledo, Danilo Fabián January 2018 (has links)
Ingeniero Civil Mecánico / La Ingeniería Mecánica está presente en la industria productiva debido a su aporte en la
generación de equipos y sistemas que realicen determinadas funciones dentro de una línea de
trabajo. A medida que los tiempos avanzan, los requerimientos de estos sistemas aumentan,
presentando nuevos desafíos a la hora de su diseño y manufactura, pero también, durante su
vida útil. En esto, el área de Gestión de Activos Físicos ha sido el protagonista a la hora de
estudiar el desgaste, rastrear posibles fallas y realizar las mantenciones a tiempo de manera
de reducir los tiempos fuera de operación que generan altos costos.
Debido a lo anterior, cada vez es más urgente monitorear los sistemas y detectar a tiempo
las situaciones que escapen de una operación eficiente y efectiva. Sin embargo, la gran
dimensionalidad de la información obtenida mediante los diversos tipos de monitoreo y el
alto ruido que normalmente presentan estos sistemas debido a sus componentes rotatorios o
cíclicos, dificultan el análisis efectivo de las bases de datos.
Es aquí donde los métodos de aprendizaje de máquinas presentan su potencial, ya que
éstos realizan una extracción de características sobre la base de datos, para luego discriminar
entre la información, generando una forma práctica de procesar la información disponible
permitiendo un análisis efectivo. En particular, las Redes Neuronales Convolucionales (CNN)
son un método de aprendizaje supervisado que está inspirado en las redes neuronales humanas
y desarrolla su potencial en la clasificación de imágenes debido a que su método de aprendizaje
incluye filtros que resaltan (o atenuan) rasgos destacables.
Por otro lado, la emisión acústica es un fenómeno de generación de ondas elásticas debido
a los cambios irreversibles en la estructura interna de un cuerpo sólido. Las anteriores pueden
monitorearse mediante sensores, método de fácil implementación, alta densidad de datos y
sensibilidad.
En el presente trabajo de título se desarrollará un modelo de Red Neuronal Convolucional
en la cual se procesarán señales brutas (sin procesamiento previo) de emisión acústica con el
fin de generar un diagnóstico del estado de salud de un rotor experimental.
El rotor utilizado es puesto a prueba bajo 25 clases diferentes: Grieta a 5[mm], 10[mm],
15[mm], 20[mm], 30[mm], 45[mm], 65[mm] y 90[mm] del acople al eje con tamaños de 3, 6
y 10 [mm], además se capturan señales del caso sano. Esta base de datos queda disponible
para futuros trabajos, en el presente se trabaja con las fallas a 5[mm], 20[mm] y el caso sano.
La metodología de trabajo se divide en 4 etapas principales: puesta a punto del sistema
experimental, obtención de señales de emisión acústica, diseño, implementación y ajuste de
la CNN y finalmente los resultados y análisis.
El mejor modelo realizado consta de 3 clasificadores que en conjunto logran un desempeño
global del 98,65% en la clasificación del estado de salud del sistema. Superando por un 7,5%
al modelo más cercano con extracción previa de parámetros.
|
120 |
Object detection in videos using principal component pursuit and convolutional neural networksTejada Gamero, Enrique David 03 May 2018 (has links)
Object recognition in videos is one of the main challenges in computer vision. Several methods have been proposed to achieve this task, such as background subtraction, temporal differencing, optical
flow, particle filtering among others. Since the introduction of Convolutonal Neural Networks (CNN)
for object detection in the Imagenet Large Scale Visual Recognition Competition (ILSVRC), its use
for image detection and classification has increased, becoming the state-of-the-art for such task, being
Faster R-CNN the preferred model in the latest ILSVRC challenges. Moreover, the Faster R-CNN
model, with minimum modifications, has been succesfully used to detect and classify objects (either
static or dynamic) in video sequences; in such setup, the frames of the video are input “as is” i.e.
without any pre-processing. In this thesis work we propose to use Robust PCA (RPCA, a.k.a. Principal Component Pursuit, PCP), as a video background modeling pre-processing step, before using the Faster R-CNN model, in order to improve the overall performance of detection and classification of, specifically, the moving objects. We hypothesize that such pre-processing step, which segments the moving objects from the background, would reduce the amount of regions to be analyzed in a given frame and thus (i) improve the classification time and (ii) reduce the error in classification for the dynamic objects present in the video. In particular, we use a fully incremental RPCA / PCP algorithm that is suitable for real-time or on-line processing. Furthermore, we present extensive computational results that were carried out in three different platforms: A high-end server with a Tesla K40m GPU, a desktop with a Tesla K10m GPU and the embedded system Jetson TK1. Our classification results attain competitive or superior performance in terms of Fmeasure, achieving an improvement ranging from 3.7% to 97.2%, with a mean improvement of 22% when the sparse image was used to detect and classify the object with the neural network, while at the same time, reducing the classification time in all architectures by a factor raging between 2% and 25%. / Tesis
|
Page generated in 0.2506 seconds