La validación de un cluster sigue siendo un problema abierto por no haberse encontrado aún un criterio objetivo para determinar la calidad de un conjunto de clases en el contexto del clustering. La interpretación de un clustering se convierte así en una fase fundamental del proceso de validación y sigue siendo, aún hoy, uno de los criterios más utilizados en la práctica.Así, actualmente es necesario introducir herramientas para asistir al usuario en las tareas de interpretación de una partición sobre un conjunto de objetos, con el fin de establecer el significado de las clases resultantes. Si las clases obtenidas no tienen sentido para los expertos, los resultados no son considerados válidos, ni tampoco se podrán utilizar, ni darán apoyo a ninguna decisión posterior. La literatura abunda algoritmos (técnicas) de validación orientados a la vertiente estructural de la partición, pero disponer de clases bien formadas estructuralmente no ofrece garantía de que un experto vaya a ser capaz de asociar cada uno de esos grupos a una entidad semántica. Esta tesis pretende contribuir a la mejora de este proceso, fundamental para comprender el significado de las clases obtenidas y dar soporte efectivo a la posterior toma de decisiones.La alternativa que parece más prometedora es el desarrollo de técnicas que a partir de la evidencia empírica, identifiquen las variables más relevantes y formulen conceptos que expresen las particularidades de cada clase y se expresen en una forma de representación conceptual generable automáticamente y directamente comprensible para el experto.Incorporar procedimientos que trasladen los resultados del análisis a una representación explícita del conocimiento obtenido, se sitúa en la línea de lo que Fallad propone para los sistemas de Knowledge Discovery from Data (KDD), donde la fase de post-proceso de los resultados para generar conocimiento es casi tan importante como el análisis en si mismo.La metodología de Caracterización Conceptual por Condicionamientos Sucesivos (CCCS) trata de aproximar en un modelo formal el proceso natural que sigue un experto en su fase de interpretación de resultados realizando una aproximación iterativa basada en el clustering jerárquico. La CCCS:· Aporta una sistematización al proceso de interpretación de clases procedentes de un cluster jerárquico y supone un avance significativo respecto al estado actual en que la interpretación se realiza de forma artesanal.· Contribuye a sistematizar y objetivar los mecanismos de interpretación que usan los expertos humanos.· Genera resultados que permiten que el experto pueda comprender más fácilmente las características principales de la clasificación obtenida ya que genera conocimiento explícito directamente a partir de las clases.Si bien la CCCS es general, se ha centrado la aplicación a estaciones depuradoras de aguas residuales por ser éste uno de los dominios donde las aproximaciones clásicas funcionan peor.Desde un punto de vista teórico, el interés de esta tesis es presentar una propuesta metodológica híbrida que combine herramientas y técnicas de Estadística e Inteligencia Artificial (IA) en forma cooperativa, siguiendo un enfoque transversal y multidiciplinar combinando elementos de la inducción de conceptos en IA, lógica proposicional y teoría de probabilidad. Es así como, ésta tesis, contribuye a la concepción genérica de sistema de KDD y a objetivar los procedimientos de validación de resultados, ya que el hecho de que un clustering tenga una interpretación clara está relacionado con su utilidad; evaluarla requiere un mecanismo a posteriori de comprensión del significado de las clases.La CCCS aprovecha la estructura jerárquica de la clasificación objetivo para inducir conceptos iterando sobre las divisiones binarias que indica el dendrograma, de tal forma que, a partir de las variables que describen los objetos pertenecientes a cierto dominio, se puedan encontrar las particularidades de cada clase, contribuyendo así al proceso de interpretación conceptual automática de clases. / The validation of a cluster is still an open problem as an objective criteria for determining the quality of a set of classes has not yet been found in the context of clustering. The interpretation constitutes a fundamental phase of the process and still today remains one of the most commonly used criteria to validate the cluster. Thus, it is now necessary to introduce tools to assist the user in the task of interpreting a partition of a set of objects in order to establish the meaning of the resulting classes. If the classes obtained don't do not make sense to the experts, the results of the classification are not considered valid, nor could be used or support any subsequent decision. All validation techniques and algorithms focus on the structure of the partition, but having well-structured classes does not guarantee that an expert will be able to associate each of these groups with a semantic entity. This thesis wants to make a contribution to this process, fundamental for understanding the meaning of the obtained classes and to give effective support to the subsequent decision-making.The most promising alternative seems to be the development of techniques based on empirical evidence to identify the most important variables and formulate concepts that express the specifics (or: specific nature) of each class and are expressed in a conceptual representation able apt for automatic generation and directly understandable to the expert.To incorporate procedures that translate the results of analysis (in this case of clustering) into a representation of explicit knowledge is in line with what Fayyad in 1996 suggests for systems of Knowledge Discovery from Data (KDD) where the phase of post-process of the results to generate knowledge is almost as important as the analysis itself. Perhaps due to its semantic nature, the automatic generation of interpretations of a classification has not been formally treated by statistics, but to resolve it is essential.The methodology of Characterization by Embedded Conditioning (CCEC) proposed tries to approximate in a formal model the natural process that an expert follows in its phase of interpretation of results by making an iterative approximation based on a hierarchical clustering. The CCEC:· Provides a systematizing of the process of interpretation of classes from a hierarchical cluster and represents a significant advance to the current situation in which the interpretation is done manually and more or less crafted.· Helps to systematize and objectify the mechanisms of interpretation used by human experts.· The results generated by the methodology allow the expert to better understand the main characteristics of the classification obtained by generating explicit knowledge directly from the classes.While the methodology proposed is general, the application focuses on Waste Water Treatment Plant (WWTP) because this is one of the domains where conventional approaches lack efficiency.From a theoretical point of view, the main focus of this thesis has been to present a hybrid methodology that combines tools and techniques of statistics and Artificial Intelligence in a cooperative way, using a transversal and multidisciplinary approach combining elements of the induction of concepts from Artificial Intelligence, propositional logic and probability theory. Thus, this thesis contributes to the generic design of KDD system. It also contributes to objectivate procedures for the validation of results, as the fact that clustering has a clear interpretation is related to the usefulness of a classification; evaluating the usefulness requires a posteriori mechanism of understanding the meaning of classes.The methodology CCEC benefits from the hierarchical structure of the target classification by induceing concepts iterating with binary divisions from dendrogram, so that, based on the variables that describe the objects belonging to a certain domain, the specifics of each class can be found, thus contributing to the automatic interpretation of conceptual description of clustering.
Identifer | oai:union.ndltd.org:TDX_UPC/oai:www.tdx.cat:10803/6533 |
Date | 12 January 2010 |
Creators | Pérez Bonilla, Alejandra Alicia |
Contributors | Gibert Oliveras, Karina, Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa |
Publisher | Universitat Politècnica de Catalunya |
Source Sets | Universitat Politècnica de Catalunya |
Language | Spanish |
Detected Language | Spanish |
Type | info:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion |
Format | application/pdf |
Source | TDX (Tesis Doctorals en Xarxa) |
Rights | info:eu-repo/semantics/openAccess, ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs. |
Page generated in 0.0031 seconds