Spelling suggestions: "subject:"nnálisas dde imagens"" "subject:"nnálisas dee imagens""
1 |
Detección de objetos usando redes neuronales convolucionales junto con Random Forest y Support Vector MachinesCampanini García, Diego Alejandro January 2018 (has links)
Ingeniero Civil Eléctrico / En el presente trabajo de título se desarrolla un sistema de detección de objetos (localización y clasificación), basado en redes neuronales convolucionales (CNN por su sigla en inglés) y dos métodos clásicos de machine learning como Random Forest (RF) y Support Vector Machines (SVMs). La idea es mejorar, con los mencionados clasificadores, el rendimiento del sistema de detección conocido como Faster R-CNN (su significado en inglés es: Regions with CNN features).
El sistema Faster R-CNN, se fundamenta en el concepto de region proposal para generar muestras candidatas a ser objetos y posteriormente producir dos salidas: una con la regresión que caracteriza la localización de los objetos y otra con los puntajes de confianza asociados a los bounding boxes predichos. Ambas salidas son generadas por capas completamente conectadas. En este trabajo se interviene la salida que genera los puntajes de confianza, tal que, en este punto se conecta un clasificador (RF o SVM), para generar con estos los puntajes de salida del sistema. De esta forma se busca mejorar el rendimiento del sistema Faster R-CNN.
El entrenamiento de los clasificadores se realiza con los vectores de características extraídos, desde una de las capas completamente conectadas del sistema Faster R-CNN, específicamente se prueban las tres que contempla la arquitectura, para evaluar cuál de estas permite obtener los mejores resultados. Para definir, entre otras cosas, el número de capas convolucionales a utilizar y el tamaño de los filtros presentes en las primeras capas del sistema Faster R-CNN, se emplean los modelos de redes convolucionales ZF y VGG16, estas redes son solamente de clasificación, y son las mismas ocupados originalmente.
Para desarrollar los sistemas propuestos se utilizan distintas implementaciones o librerías para las cuales se dispone de su código de forma abierta. Para el detector Faster R-CNN se utiliza una implementación desarrollado en Python, para RF se comparan dos librerías: randomForest escrita en R y scikit-learn en Python. Por su parte para SVM se utiliza la librería conocida como LIBSVM escrita en C. Las principales tareas de programación consisten en desarrollar los algoritmos de etiquetado de los vectores de características extraídos desde las capas completamente conectadas; unir los clasificadores con el sistema base, para el análisis \textit{online} de las imágenes en la etapa de prueba; programar un algoritmo para el entrenamiento eficiente en tiempo y en memoria para SVM (algoritmo conocido como hard negative mining)
Al evaluar los sistemas desarrollados se concluye que los mejores resultados se obtienen con la red VGG16, específicamente para el caso en que se implementa el sistema Faster R-CNN+SVM con kernel RBF (radial basis function), logrando un mean Average Precision (mAP) de 68.9%. El segundo mejor resultado se alcanza con Faster R-CNN+RF con 180 árboles y es de 67.8%. Con el sistema original Faster R-CNN se consigue un mAP de 69.3%.
|
2 |
Modelo de negocio para la comercialización de un servicio informático de análisis de imágenes, basado en Web Intelligence, exploración visual y neurocienciaOrtiz Mir, Magdalena Sofía January 2018 (has links)
Ingeniera Civil Industrial / El presente trabajo de título tiene como objetivo determinar si existe un mercado potencial interesado en adquirir un servicio de análisis de imágenes que entregue la predicción visual de las personas sobre estas. Y si existiese el mercado, diseñar un modelo de negocio para un servicio basado en dicha herramienta y en las necesidades del cliente objetivo.
AKORI es un proyecto que se ha desarrollado desde el año 2012 entre las facultades de ciencias físicas y matemáticas y de medicina de la Universidad de Chile. Se basa en un algoritmo de redes neuronales, el cual permite simular la atención visual de las personas sobre una imagen y predecir qué zonas llaman más la atención al ser humano.
Actualmente se tiene un prototipo funcional que permite analizar páginas web mediante la captura de pantalla de la página y el posterior análisis de la imagen. Surge la oportunidad de comercializar un servicio basado en dicho algoritmo, al tener un prototipo funcional similar a servicios comercializados en el mercado internacional por cientos de dólares. Por lo que la hipótesis de la memoria es: Es posible diseñar un producto o servicio basado en la predicción visual de las personas de tal forma que exista un mercado en Chile interesado en adquirirlo y por ende, el proyecto AKORI sería comercializable.
Existen diversas herramientas para analizar diseños, desde servicios de analítica de sesiones de usuarios, análisis experto, agencias de experiencia del usuario, entre otras. La herramienta AKORI presenta como ventaja competitiva, el entregar un reporte objetivo, rápido y económico versus servicios personalizados.
Se opta por la metodología Lean Canvas para la obtención del modelo de negocios porque se centra en las necesidades reales de los clientes, está orientada a servicios web y emprendimientos tecnológicos y porque no considera únicamente el lienzo de negocios, sino una metodología completa basada en la iteración de experimentos y la validación de hipótesis.
Se validó la existencia de un nicho de clientes interesado en el servicio, el cual consta de agencias de publicidad y diseño web con diseños a la medida. Los clientes potenciales ayudaron a diseñar un servicio web orientado a sus necesidades, el cual entregaría un reporte de cuatro mapas distintos y su mayor beneficio para el cliente es la validación cuantificable y objetiva de sus diseños. Validando de esta forma la hipótesis de la memoria.
Se realizó una estimación de los flujos de caja libre a obtenerse por el servicio en un horizonte de cinco años, obteniéndose un valor presente neto de dos mil ochocientos sesenta millones de pesos aproximadamente.
|
3 |
IMGPEDIA: A large-scale knowledge-base to perform visuo-semantic queries over Wikimedia Commons imagesFerrada Aliaga, Sebastián Camilo January 2017 (has links)
Magíster en Ciencias, Mención Computación / Motivación. Los estándares de la Web Semántica son útiles para poder organizar la información de la Web de forma que los computadores puedan procesarla y comprenderla de mejor manera, pudiendo así los usuarios realizar búsquedas más sofisticadas y contar con un lenguaje más expresivo para realizarlas. Sin embargo, la mayoría de las bases de conocimiento disponibles utilizan solamente la información textual en desmedro del contenido multimedia, el cual ha aumentado enormemente los últimos años y ya es parte fundamental de la Web.
Objetivo. Dado lo anterior, nuestro objetivo en este trabajo es construir una base de conocimientos que nos permita combinar consultas semánticas con consultas sobre el contenido visual de las imágenes de la Web, que llamaremos IMGpedia. Concretamente, se trabajará utilizando las imágenes de Wikimedia Commons.
Contribución. Una vez completado, este trabajo pretende ser un puente entre el mundo del análisis multimedia y el de la Web de Datos. En este sentido, todas las rutinas de descripción de contenido visual serán publicadas como implementaciones de referencia en diferentes lenguajes de programación. Además, la base de conocimientos será una fuente de Datos Enlazados Abiertos de alta calidad, puesto que proveerá enlaces a diferentes fuentes de conocimiento para proveer contexto. Finalmente, estos datos podrán ser consultados a través del SPARQL endpoint público provisto para tal efecto. Esta base de conocimientos es pionera en combinar información del contenido visual de imágenes de la Web con datos semánticos extraídos de DBpedia.
Metodología. Se propone y desarrolla una metodología, dadas las 15 millones de imágenes extraídas de Wikimedia Commons, estas se analicen y procesen para formar una completa base de conocimiento. Primeramente, se calculan sus descriptores visuales; luego se computan sus vecinos más cercanos para establecer enlaces de similitud entre ellas; posteriormente, se propone una estrategia para enlazar las imágenes con recursos de DBpedia si es que las imágenes son utilizadas en el respectivo artículo de Wikipedia; y, finalmente, los datos se publican como un grafo RDF, listos para ser consultados a través de un terminal de consulta SPARQL.
Valor. El valor de este trabajo está en que es el inicio de un proyecto a largo plazo, el cual busca incluir el contenido multimedia dentro de la Web de Datos de una forma automatizada, sin necesidad de etiquetar los medios manualmente, sino que los hechos puedan ser extraídos de fuentes complementarias. De esta forma se hace que el hecho de realizar consultas sobre similitud visual e incluyendo filtros semánticos sea una tarea cada vez más común. / Este trabajo ha sido parcialmente financiado por el Núcleo Milenio Centro de Investigación
para la Web Semántica
|
Page generated in 0.0898 seconds