Return to search

A Parametric Model for Computational Colour Naming

El color és una font d'informació visual molt important i àmpliament utilitzada en els darrers anys en la visió per computador. La majoria dels mètodes desenvolupats fins ara tenen com objectiu extreure característiques de baix nivell de les imatges i aquesta informació no té un lligam directe amb la semàntica d'alt nivell que utilitzem els humans. La falta d'aquesta relació directa, que es coneix com -semantic gap', és encara més significativa per algunes aplicacions com la recuperació d'imatges de bases de dades on els usuaris requereixen sistemes que permetin realitzar cerques en llenguatge natural o almenys en un llenguatge d'alt nivell. Per tant, el principal objectiu d'aquesta tesi és fer un avanç en la línia de reduir el -semantic gap' en la tasca de donar noms als colors de les imatges.La principal contribució d'aquesta tesi és un model paramètric d'assignació de noms de colors en imatges. El problema s'ha emmarcat en la teoria dels conjunts difusos en la que cadascuna de les 11 categories bàsiques de color (blanc, negre, vermell, verd,groc, blau, marró, morat, rosa, taronja i gris) està caracteritzada per una funció de pertinença.Donat que l'objectiu d'aquest model és obtenir els mateixos noms que proporcionaria un observador humà, es necessita un conjunt de judicis fets per persones com a punt de partida pel procés de modelat. Per obtenir aquest conjunt de dades es proposa una metodologia basada en lògica difusa per experiments psicofísics que ha permès obtenir un conjunt de judicis difusos. La metodologia i els resultats són validats a partir del càlcul d'alguns estadístics habituals que són comparats amb experiments previs per mostrar l'equivalència entre els resultats obtinguts amb la nova metodologia i els d'experiments anteriors. El conjunt de dades obtingut s'ha posat a disposició de la comunitat científica a través d'Internet.L'anàlisi dels resultats de l'experiment permet definir les propietats que les funcions de pertinença haurien de complir. Proposarem i avaluarem diverses funcions per arribar finalment al model Triple Sigmoid amb centre El·líptic (TSE) que proporciona un bon ajust al conjunt d'aprenentatge i una classificació de l'espai de color Munsell que és consistent amb els treballs previs. El resultat del procés d'ajust és el conjunt de paràmetres del model que permeten calcular la pertinença de qualsevol mostra de color a les 11 categories de color considerades, amb tots els avantatges d'una implementació paramètrica.La darrera part de la tesi està dedicada a l'anàlisi de les condicions necessàries per aplicar el model en imatges reals sota condicions no calibrades on no es coneix cap informació sobre les condicions d'adquisició. Aquesta anàlisi mostra que el model pot funcionar amb un error acceptable en aplicacions de visió per computador en les que és necessària una representació perceptiva de la informació de color. El model s'avalua en una d'aquestes aplicacions per un problema real d'anotació automàtica de bases de dades d'imatges. Els resultats en els experiments mostren la potencialitat del model d'assignació de noms de color per diferents aplicacions futures i obren noves possibilitats de recerca en aquest camp. / Colour is an important visual cue widely used in computer vision in the last years. Most of the methods developed so far aim to extract low-level colour features from images and such information do not have a direct link to the high-level semantics that humans use. The lack of this direct link, known as the semantic gap, is even more significant for some applications such as image retrieval where users require systems able to support queries in natural language or, at least, in a high-level language. Hence, the main goal of this thesis is to make a further step in the way of reducing the semantic gap in the task of giving names to colours in images.The main contribution of this thesis is a parametric colour-naming model for images. The problem is framed on the fuzzy set theory where each one of the 11 basic colour categories (white, black, red, green, yellow, blue, brown, purple, pink, orange, and grey) is characterized by a membership function.Since the goal of such a model is to obtain the same name assignments as a human observer would provide, a set of human judgements is needed as starting point for the modelling process. To obtain such a data set we propose a methodology for fuzzy psychophysical experiments and a set of fuzzy judgements are obtained. The methodology and the results are validated by computing some usual statistics which are compared to previous experiments to show the equivalence of the results obtained with the new methodology and the ones from former experiments. The data set obtained has been made available online on the Internet for the research community.The analysis of the results from the experiment allows defining the properties that the membership functions should fulfil. Several functions are proposed and evaluated to achieve the final Triple-Sigmoid with Elliptical centre (TSE) model which provides good fitting to the learning data and a categorization of the Munsell colour space which is consistent with previous works. The result of the fitting process is the set of parameters of the model which allows computing the membership of any given colour sample to the 11 colour categories considered, with all the advantages of a parametric implementation.The last part of the thesis is devoted to analyse the conditions needed to apply the model on real images under uncalibrated conditions where no information about the acquisition conditions is known. This analysis shows that the model can work with an acceptable error on computer vision applications where a perceptual representation of colour information is needed. The model is tested in one of these applications on a real problem where automatic image annotation is used for image retrieval. The results on the experiments show the potentiality of the colour-naming model for different future applications and open new research possibilities in this field.

Identiferoai:union.ndltd.org:TDX_UAB/oai:www.tdx.cat:10803/5781
Date29 June 2007
CreatorsBenavente Vidal, Robert
ContributorsVanrell i Martorell, Maria I., Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
PublisherUniversitat Autònoma de Barcelona
Source SetsUniversitat Autònoma de Barcelona
LanguageEnglish
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion
Formatapplication/pdf
SourceTDX (Tesis Doctorals en Xarxa)
Rightsinfo:eu-repo/semantics/openAccess, ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Page generated in 0.0028 seconds