A Parametric Model for Computational Colour Naming

Benavente Vidal, Robert 29 June 2007 (has links)
El color és una font d'informació visual molt important i àmpliament utilitzada en els darrers anys en la visió per computador. La majoria dels mètodes desenvolupats fins ara tenen com objectiu extreure característiques de baix nivell de les imatges i aquesta informació no té un lligam directe amb la semàntica d'alt nivell que utilitzem els humans. La falta d'aquesta relació directa, que es coneix com -semantic gap', és encara més significativa per algunes aplicacions com la recuperació d'imatges de bases de dades on els usuaris requereixen sistemes que permetin realitzar cerques en llenguatge natural o almenys en un llenguatge d'alt nivell. Per tant, el principal objectiu d'aquesta tesi és fer un avanç en la línia de reduir el -semantic gap' en la tasca de donar noms als colors de les imatges.La principal contribució d'aquesta tesi és un model paramètric d'assignació de noms de colors en imatges. El problema s'ha emmarcat en la teoria dels conjunts difusos en la que cadascuna de les 11 categories bàsiques de color (blanc, negre, vermell, verd,groc, blau, marró, morat, rosa, taronja i gris) està caracteritzada per una funció de pertinença.Donat que l'objectiu d'aquest model és obtenir els mateixos noms que proporcionaria un observador humà, es necessita un conjunt de judicis fets per persones com a punt de partida pel procés de modelat. Per obtenir aquest conjunt de dades es proposa una metodologia basada en lògica difusa per experiments psicofísics que ha permès obtenir un conjunt de judicis difusos. La metodologia i els resultats són validats a partir del càlcul d'alguns estadístics habituals que són comparats amb experiments previs per mostrar l'equivalència entre els resultats obtinguts amb la nova metodologia i els d'experiments anteriors. El conjunt de dades obtingut s'ha posat a disposició de la comunitat científica a través d'Internet.L'anàlisi dels resultats de l'experiment permet definir les propietats que les funcions de pertinença haurien de complir. Proposarem i avaluarem diverses funcions per arribar finalment al model Triple Sigmoid amb centre El·líptic (TSE) que proporciona un bon ajust al conjunt d'aprenentatge i una classificació de l'espai de color Munsell que és consistent amb els treballs previs. El resultat del procés d'ajust és el conjunt de paràmetres del model que permeten calcular la pertinença de qualsevol mostra de color a les 11 categories de color considerades, amb tots els avantatges d'una implementació paramètrica.La darrera part de la tesi està dedicada a l'anàlisi de les condicions necessàries per aplicar el model en imatges reals sota condicions no calibrades on no es coneix cap informació sobre les condicions d'adquisició. Aquesta anàlisi mostra que el model pot funcionar amb un error acceptable en aplicacions de visió per computador en les que és necessària una representació perceptiva de la informació de color. El model s'avalua en una d'aquestes aplicacions per un problema real d'anotació automàtica de bases de dades d'imatges. Els resultats en els experiments mostren la potencialitat del model d'assignació de noms de color per diferents aplicacions futures i obren noves possibilitats de recerca en aquest camp. / Colour is an important visual cue widely used in computer vision in the last years. Most of the methods developed so far aim to extract low-level colour features from images and such information do not have a direct link to the high-level semantics that humans use. The lack of this direct link, known as the semantic gap, is even more significant for some applications such as image retrieval where users require systems able to support queries in natural language or, at least, in a high-level language. Hence, the main goal of this thesis is to make a further step in the way of reducing the semantic gap in the task of giving names to colours in images.The main contribution of this thesis is a parametric colour-naming model for images. The problem is framed on the fuzzy set theory where each one of the 11 basic colour categories (white, black, red, green, yellow, blue, brown, purple, pink, orange, and grey) is characterized by a membership function.Since the goal of such a model is to obtain the same name assignments as a human observer would provide, a set of human judgements is needed as starting point for the modelling process. To obtain such a data set we propose a methodology for fuzzy psychophysical experiments and a set of fuzzy judgements are obtained. The methodology and the results are validated by computing some usual statistics which are compared to previous experiments to show the equivalence of the results obtained with the new methodology and the ones from former experiments. The data set obtained has been made available online on the Internet for the research community.The analysis of the results from the experiment allows defining the properties that the membership functions should fulfil. Several functions are proposed and evaluated to achieve the final Triple-Sigmoid with Elliptical centre (TSE) model which provides good fitting to the learning data and a categorization of the Munsell colour space which is consistent with previous works. The result of the fitting process is the set of parameters of the model which allows computing the membership of any given colour sample to the 11 colour categories considered, with all the advantages of a parametric implementation.The last part of the thesis is devoted to analyse the conditions needed to apply the model on real images under uncalibrated conditions where no information about the acquisition conditions is known. This analysis shows that the model can work with an acceptable error on computer vision applications where a perceptual representation of colour information is needed. The model is tested in one of these applications on a real problem where automatic image annotation is used for image retrieval. The results on the experiments show the potentiality of the colour-naming model for different future applications and open new research possibilities in this field.

Color Constancy and Image Segmentation Techniques for Applications to Mobile Robotics

Vergés Llahí, Jaume 27 July 2005 (has links)
Aquesta Tesi que pretén proporcionar un conjunt de tècniques per enfrontar-se al problema que suposa la variació del color en les imatges preses des d'una plataforma mòbil per causa del canvi en les condicions d'il·luminació entre diverses vistes d'una certa escena preses en diferents instants i posicions. També tracta el problema de la segmentació de imatges de color per a poder-les utilitzar en tasques associades a les capacitats d'un robot mòbil, com ara la identificació d'objectes o la recuperació d'imatges d'una gran base de dades.Per dur a terme aquests objectius, primerament s'estableix matemàticament la transformació entre colors degut a variacions d'il·luminació. Així es proposa un model continu per la generació del senyal de color com a generalització natural d'altres propostes anteriors. D'aquesta manera es pot estudiar matemàticament i amb generalitat les condicions per l'existència, unicitat i bon comportament de les solucions, i expressar qualsevol tipus d'aplicació entre colors, independentment del tipus de discretització. Així, queda palès la relació íntima entre el problema de la invariància de color i el de la recuperació espectral, que també es planteja a la pràctica. El model desenvolupat es contrasta numèricament amb els de regressió lineal, en termes d'errors de predicció.Un cop establert el model general, s'opta per un model lineal simplificat a l'hora de realitzar els càlculs pràctics i permet alleugerir el nombre dels mateixos. En particular, el mètode proposat es basa en trobar la transformació més probable entre dues imatges a partir del càlcul d'un conjunt de transformacions possibles i de l'estimació de la freqüència i grau d'efectivitat de cadascuna d'elles. Posteriorment, es selecciona el millor candidat d'acord amb la seva versemblança. L'aplicació resultant serveix per transformar els colors de la imatge tal i com es veuria sota les condicions d'il·luminació canòniques.Una vegada el color de les imatges d'una mateixa escena es manté constant, cal procedir a la seva segmentació per extreure'n la informació corresponent a les regions amb color homogeni. En aquesta Tesi es suggereix un algorisme basat en la partició de l'arbre d'expansió mínima d'una imatge mitjançant una mesura local de la probabilitat de les unions entre components. La idea és arribar a una segmentació coherent amb les regions reals, compromís entre particions amb moltes components (sobresegmentades) i amb molt poques (subsegmentades). Un altre objectiu és que l'algorisme sigui prou ràpid com per ser útil en aplicacions de robòtica mòbil. Aquesta característica s'assoleix amb un plantejament local del creixement de regions, tot i que el resultat presenti caràcters globals (color). La possible sobresegmentació es suavitza gràcies al factor probabilístic introduït.L'algorisme de segmentació també hauria de generar segmentacions estables en el temps. Així, l'algorisme referit s'ha ampliat incloent-hi un pas intermedi entre segmentacions que permet de relacionar regions semblants en imatges diferents i propagar cap endavant els reagrupaments de regions fets en anteriors imatges, així si en una imatge unes regions s'agrupen formant-ne una de sola, les regions corresponents en la imatge següent també s'han d'agrupar juntes. D'aquesta manera, dues segmentacions correlatives s'assemblen i es pot mantenir estable la segmentació d'una seqüència.Finalment, es planteja el problema de comparar imatges a partir del seu contingut. Aquesta Tesi es concentra només en la informació de color i, a més de investigar la millor distància entre segmentacions, es busca també mostrar com la invariància de color afecta les segmentacions.Els resultats obtinguts per cada objectiu proposat en aquesta Tesi avalen els punts de vista defensats, i mostren la utilitat dels algorismes, així com el model de color tant per la recuperació espectral com pel càlcul explícit de les transformacions entre colors. / This Thesis endeavors providing a set of techniques for facing the problem of color variation in images taken from a mobile platform and caused by the change in the conditions of lighting among several views of a certain scene taken at different instants and positions. It also treats the problem of segmenting color images in order to use them in tasks associated with the capacities of a mobile robot, such as object identification or image retrieval from a large database.In order to carry out these goals, first transformation among colors due to light variations is mathematically established. Thus, a continuous model for the generation of color is proposed as a natural generalization of other former models. In this way, conditions for the existence, uniqueness, and good behavior of the solutions can be mathematically studied with a great generality, and any type of applications among colors can be expressed independently of the discretization scheme applied. Thus, the intimate relation among the problem of color invariance and that of spectral recovery is made evident and studied in practice too. The developed model is numerically contrasted with those of a least squares linear regression in terms of prediction errors.Once the general model is established, a simplified linear version is chosen instead for carrying out the practical calculations while lightening the number of them. In particular, the proposed method is based on finding the likeliest transformation between two images from the calculation of a set of feasible transformations and the estimation of the frequency and the effectiveness degree of each of them. Later, the best candidate is selected in accordance with its likelihood. The resulting application is then able to transform the image colors as they would be seen under the canonical light.After keeping the image colors from a scene constant, it is necessary to proceed to their segmentation to extract information corresponding to regions with homogeneous colors. In this Thesis, an algorithm based on the partition of the minimum spanning tree of an image through a local measure of the likelihood of the unions among components is suggested. The idea is to arrive at a segmentation coherent with the real regions, a trade-off between partitions with many component (oversegmented) and those with fewer components (subsegmented).Another goal is that of obtaining an algorithm fast enough to be useful in applications of mobile robotics. This characteristic is attained by a local approach to region growing, even though the result still shows global feature (color). The possible oversegmentation is softened thanks to a probabilistic factor.The segmentation algorithm should also generate stable segmentations through time. Thus, the aforementioned algorithm has been widened by including an intermediate step that allows to relate similar regions in different images and to propagate forwards the regrouping of regions made in previous images. This way, if in some image some regions are grouped forming only one bigger region, the corresponding regions in the following image will also be grouped together. In this way, two correlatives segmentations resemble each other, keeping the whole segmented sequence stabler.Finally, the problem of comparing images via their content is also studied in this Thesis, focusing on the color information and, besides investigating which is for our aims the best distance between segmentation, also showing how color constancy affects segmentations. The results obtained in each of the goals proposed in this Thesis guarantee the exposed points of view, and show the utility of the algorithms suggested, as well as the color model for the spectral recovery and the explicit calculation of the transformations among colors.

An approach to coded structured light to obtain three dimensional information

Salvi, Joaquim 16 February 1998 (has links)
The human visual ability to perceive depth looks like a puzzle. We perceive three-dimensional spatial information quickly and efficiently by using the binocular stereopsis of our eyes and, what is mote important the learning of the most common objects which we achieved through living. Nowadays, modelling the behaviour of our brain is a fiction, that is why the huge problem of 3D perception and further, interpretation is split into a sequence of easier problems. A lot of research is involved in robot vision in order to obtain 3D information of the surrounded scene. Most of this research is based on modelling the stereopsis of humans by using two cameras as if they were two eyes. This method is known as stereo vision and has been widely studied in the past and is being studied at present, and a lot of work will be surely done in the future. This fact allows us to affirm that this topic is one of the most interesting ones in computer vision.The stereo vision principle is based on obtaining the three dimensional position of an object point from the position of its projective points in both camera image planes. However, before inferring 3D information, the mathematical models of both cameras have to be known. This step is known as camera calibration and is broadly describes in the thesis. Perhaps the most important problem in stereo vision is the determination of the pair of homologue points in the two images, known as the correspondence problem, and it is also one of the most difficult problems to be solved which is currently investigated by a lot of researchers. The epipolar geometry allows us to reduce the correspondence problem. An approach to the epipolar geometry is describes in the thesis. Nevertheless, it does not solve it at all as a lot of considerations have to be taken into account. As an example we have to consider points without correspondence due to a surface occlusion or simply due to a projection out of the camera scope.The interest of the thesis is focused on structured light which has been considered as one of the most frequently used techniques in order to reduce the problems related lo stereo vision. Structured light is based on the relationship between a projected light pattern its projection and an image sensor. The deformations between the pattern projected into the scene and the one captured by the camera, permits to obtain three dimensional information of the illuminated scene. This technique has been widely used in such applications as: 3D object reconstruction, robot navigation, quality control, and so on. Although the projection of regular patterns solve the problem of points without match, it does not solve the problem of multiple matching, which leads us to use hard computing algorithms in order to search the correct matches.In recent years, another structured light technique has increased in importance. This technique is based on the codification of the light projected on the scene in order to be used as a tool to obtain an unique match. Each token of light is imaged by the camera, we have to read the label (decode the pattern) in order to solve the correspondence problem. The advantages and disadvantages of stereo vision against structured light and a survey on coded structured light are related and discussed. The work carried out in the frame of this thesis has permitted to present a new coded structured light pattern which solves the correspondence problem uniquely and robust. Unique, as each token of light is coded by a different word which removes the problem of multiple matching. Robust, since the pattern has been coded using the position of each token of light with respect to both co-ordinate axis. Algorithms and experimental results are included in the thesis. The reader can see examples 3D measurement of static objects, and the more complicated measurement of moving objects. The technique can be used in both cases as the pattern is coded by a single projection shot. Then it can be used in several applications of robot vision.Our interest is focused on the mathematical study of the camera and pattern projector models. We are also interested in how these models can be obtained by calibration, and how they can be used to obtained three dimensional information from two correspondence points. Furthermore, we have studied structured light and coded structured light, and we have presented a new coded structured light pattern. However, in this thesis we started from the assumption that the correspondence points could be well-segmented from the captured image. Computer vision constitutes a huge problem and a lot of work is being done at all levels of human vision modelling, starting from a)image acquisition; b) further image enhancement, filtering and processing, c) image segmentation which involves thresholding, thinning, contour detection, texture and colour analysis, and so on. The interest of this thesis starts in the next step, usually known as depth perception or 3D measurement.

Estudi fonamental i aplicat de l'etapa d'eliminació de tinta per flotació

Presta Masó, Susanna 14 July 2006 (has links)
La tesi realitza un estudi detallat dels principals processos que tenen lloc durant l'eliminació de tinta tòner per flotació.L'estudi del procés d'adhesió de tinta a la superfície de bombolles d'aire s'ha realitzat mitjançant visió artificial. Els resultats obtinguts han mostrat que un excés de tensioactiu provoca una disminució de la quantitat de tinta unida a la bombolla d'aire i per tant una disminució de l'eficàcia del procés de flotació. La caracterització de les bombolles d'aire presents en una cel·la de flotació ha posat de manifest que tant el cabal d'aire com la velocitat de l'agitador configuren la distribució de diàmetres final. L'estudi del procés d'eliminació de tinta per flotació en absència de fibres cel·lulòsiques ha mostrat que les variables físico-químiques estudiades són les que tenen una major influència en el procés d'eliminació de tinta tòner per flotació.Finalment s'han addicionat fibres cel·lulòsiques a la suspensió. S'ha pogut comprovar que s'aconsegueix una bona eliminació de tinta sempre i quan les condicions hidrodinàmiques siguin les adequades. / First of all the adhesion of ink particles to air bubbles surface was studied by means of artificial vision. Results obtained showed that an excess of surfactant decreases ink adsorption decreasing flotation efficiency. Air bubbles created in a lab-scale flotation cell were characterized by means of artificial vision. Results showed that air flow and agitation rate configure the final air bubble distribution.Ink removal from a flotation cell was studied without the presence of cellulose fibers. Results obtained showed that the physico-chemical variables studied had a major influence on ink removal than hydrodynamic variables studied.Finally, cellulose fibers were added to the suspension. Results obtained showed that it was possible to obtain good flotation results provided that the hydrodynamic conditions were carefully adjusted.

Cellular Nonlinear Networks: optimized implementation on FPGA and applications to robotics

Albó Canals, Jordi 18 June 2012 (has links)
L'objectiu principal d'aquesta tesi consisteix a estudiar la factibilitat d'implementar un sensor càmera CNN amb plena funcionalitat basat en FPGA de baix cost adequat per a aplicacions en robots mòbils. L'estudi dels fonaments de les xarxes cel•lulars no lineals (CNNs) i la seva aplicació eficaç en matrius de portes programables (FPGAs) s'ha complementat, d'una banda amb el paral•lelisme que s'estableix entre arquitectura multi-nucli de les CNNs i els eixams de robots mòbils, i per l'altre banda amb la correlació dinàmica de CNNs i arquitectures memristive. A més, els memristors es consideren els substituts dels futurs dispositius de memòria flash per la seva capacitat d'integració d'alta densitat i el seu consum d'energia prop de zero. En el nostre cas, hem estat interessats en el desenvolupament d’FPGAs que han deixat de ser simples dispositius per a la creació ràpida de prototips ASIC per esdevenir complets dispositius reconfigurables amb integració de la memòria i els elements de processament general. En particular, s'han explorat com les arquitectures implementades CNN en FPGAs poden ser optimitzades en termes d’àrea ocupada en el dispositiu i el seu consum de potència. El nostre objectiu final ens ah portat a implementar de manera eficient una CNN-UM amb complet funcionament a un baix cost i baix consum sobre una FPGA amb tecnología flash. Per tant, futurs estudis sobre l’arquitectura eficient de la CNN sobre la FPGA i la interconnexió amb els robots comercials disponibles és un dels objectius d'aquesta tesi que se seguiran en les línies de futur exposades en aquest treball. / El objetivo principal de esta tesis consiste en estudiar la factibilidad de implementar un sensor cámara CNN con plena funcionalidad basado en FPGA de bajo coste adecuado para aplicaciones en robots móviles. El estudio de los fundamentos de las redes celulares no lineales (CNNs) y su aplicación eficaz en matrices de puertas programables (FPGAs) se ha complementado, por un lado con el paralelismo que se establece entre arquitectura multi -núcleo de las CNNs y los enjambres de robots móviles, y por el otro lado con la correlación dinámica de CNNs y arquitecturas memristive. Además, los memristors se consideran los sustitutos de los futuros dispositivos de memoria flash por su capacidad de integración de alta densidad y su consumo de energía cerca de cero. En nuestro caso, hemos estado interesados en el desarrollo de FPGAs que han dejado de ser simples dispositivos para la creación rápida de prototipos ASIC para convertirse en completos dispositivos reconfigurables con integración de la memoria y los elementos de procesamiento general. En particular, se han explorado como las arquitecturas implementadas CNN en FPGAs pueden ser optimizadas en términos de área ocupada en el dispositivo y su consumo de potencia. Nuestro objetivo final nos ah llevado a implementar de manera eficiente una CNN-UM con completo funcionamiento a un bajo coste y bajo consumo sobre una FPGA con tecnología flash. Por lo tanto, futuros estudios sobre la arquitectura eficiente de la CNN sobre la FPGA y la interconexión con los robots comerciales disponibles es uno de los objetivos de esta tesis que se seguirán en las líneas de futuro expuestas en este trabajo. / The main goal of this thesis consists in studying the feasibility to implement a full-functionality CNN camera sensor based on low-cost FPGA device suitable for mobile robotic applications. The study of Cellular Nonlinear Networks (CNNs) fundamentals and its efficient implementation on Field Programmable Gate Arrays (FPGAs) has been complemented, on one side with the parallelism established between multi-core CNN architecture and swarm of mobile robots, and on the other side with the dynamics correlation of CNNs and memristive architectures. Furthermore, memristors are considered the future substitutes of flash memory devices because of its capability of high density integration and its close to zero power consumption. In our case, we have been interested in the development of FPGAs that have ceased to be simple devices for ASIC fast prototyping to become complete reconfigurable devices embedding memory and processing elements. In particular, we have explored how the CNN architectures implemented on FPGAs can be optimized in terms of area occupied on the device or power consumption. Our final accomplishment has been implementing efficiently a fully functional reconfigurable CNN-UM on a low-cost low-power FPGA based on flash technology. Therefore, further studies on an efficient CNN architecture on FPGA and interfacing it with commercially-available robots is one of the objectives of this thesis that will be followed in the future directions exposed in this work.

