Global ETD Search

1	Parameter-free agglomerative hierarchical clustering to model learners' activity in online discussion forums Cobo Rodríguez, Germán 22 April 2014 (has links) L'anàlisi de l'activitat dels estudiants en els fòrums de discussió online implica un problema de modelització altament depenent del context, el qual pot ser plantejat des d'aproximacions tant teòriques com empíriques. Quan aquest problema és abordat des de l'àmbit de la mineria de dades, l'enfocament més comunament adoptat és el de la classificació no supervisada (o clustering), donant lloc, d'aquesta manera, a un escenari de clustering en el qual el nombre real de clústers és a priori desconegut. Per tant, aquesta aproximació revela una qüestió subjacent, la qual no és sinó un dels problemes més coneguts del paradigma del clustering: l'estimació del nombre de clústers, habitualment seleccionat per l'usuari concorde a algun tipus de criteri subjectiu que pot comportar fàcilment l'aparició de biaixos indesitjats en els models obtinguts. Amb l'objectiu d'evitar qualsevol intervenció de l'usuari en l'etapa de clustering, dos nous criteris d'unió entre clústers són proposats en la present tesi, els quals, al seu torn, permeten la implementació d'un nou algorisme de clustering jeràrquic aglomeratiu lliure de paràmetres. Un complet conjunt d'experiments indica que el nou algorisme de clustering és capaç de proporcionar solucions de clustering òptimes enfront d'una gran varietat d'escenaris de clustering, sent capaç de bregar amb diferents classes de dades, així com de millorar el rendiment ofert pels algorismes de clustering més àmpliament emprats en la pràctica. Finalment, una estratègia d'anàlisi de dues etapes basada en el paradigma del clustering subespaial és proposada a fi d'abordar adequadament el problema de la modelització de la participació dels estudiants en les discussions asíncrones. Combinada amb el nou algorisme clustering, l'estratègia proposada demostra ser capaç de limitar la intervenció subjectiva de l'usuari a les etapes d'interpretació del procés d'anàlisi i de donar lloc a una completa modelització de l'activitat duta a terme pels estudiants en els fòrums de discussió online. / El análisis de la actividad de los estudiantes en los foros de discusión online acarrea un problema de modelización altamente dependiente del contexto, el cual puede ser planteado desde aproximaciones tanto teóricas como empíricas. Cuando este problema es abordado desde el ámbito de la minería de datos, el enfoque más comúnmente adoptado es el de la clasificación no supervisada (o clustering), dando lugar, de este modo, a un escenario de clustering en el que el número real de clusters es a priori desconocido. Por tanto, esta aproximación revela una cuestión subyacente, la cual no es sino uno de los problemas más conocidos del paradigma del clustering: la estimación del número de clusters, habitualmente seleccionado por el usuario acorde a algún tipo de criterio subjetivo que puede conllevar fácilmente la aparición de sesgos indeseados en los modelos obtenidos. Con el objetivo de evitar cualquier intervención del usuario en la etapa de clustering, dos nuevos criterios de unión entre clusters son propuestos en la presente tesis, los cuales, a su vez, permiten la implementación de un nuevo algoritmo de clustering jerárquico aglomerativo libre de parámetros. Un completo conjunto de experimentos indica que el nuevo algoritmo de clustering es capaz de proporcionar soluciones de clustering óptimas frente a una gran variedad de escenarios de clustering, siendo capaz de lidiar con diferentes clases de datos, así como de mejorar el rendimiento ofrecido por los algoritmos de clustering más ampliamente utilizados en la práctica. Finalmente, una estrategia de análisis de dos etapas basada en el paradigma del clustering subespacial es propuesta a fin de abordar adecuadamente el problema de la modelización de la participación de los estudiantes en las discusiones asíncronas. Combinada con el nuevo algoritmo clustering, la estrategia propuesta demuestra ser capaz de limitar la intervención subjetiva del usuario a las etapas de interpretación del proceso de análisis y de dar lugar a una completa modelización de la actividad llevada a cabo por los estudiantes en los foros de discusión online. / The analysis of learners' activity in online discussion forums leads to a highly context-dependent modelling problem, which can be posed from both theoretical and empirical approaches. When this problem is tackled from the data mining field, a clustering-based perspective is usually adopted, thus giving rise to a clustering scenario where the real number of clusters is a priori unknown. Hence, this approach reveals an underlying problem, which is one of the best-known issues of the clustering paradigm: the estimation of the number of clusters, habitually selected by user according to some kind of subjective criterion that may easily lead to the appearance of undesired biases in the obtained models. With the aim of avoiding any user intervention in the cluster analysis stage, two new cluster merging criteria are proposed in the present thesis, which allow to implement a novel parameter-free agglomerative hierarchical algorithm. A complete set of experiments indicate that the new clustering algorithm is able to provide optimal clustering solutions in the face of a great variety of clustering scenarios, both having the ability to deal with different kinds of data and outperforming clustering algorithms most widely used in practice. Finally, a two-stage analysis strategy based on the subspace clustering paradigm is proposed to properly tackle the issue of modelling learners' participation in the asynchronous discussions. In combination with the new clustering algorithm, the proposed strategy proves to be able to limit user's subjective intervention to the interpretation stages of the analysis process and to lead to a complete modelling of the activity performed by learners in online discussion forums. 004 - Informàtica 378 - Ensenyament superior. Universitats
2	Adaptive Learning and Mining for Data Streams and Frequent Patterns Bifet Figuerol, Albert Carles 24 April 2009 (has links) Aquesta tesi està dedicada al disseny d'algorismes de mineria de dades per fluxos de dades que evolucionen en el temps i per l'extracció d'arbres freqüents tancats. Primer ens ocupem de cadascuna d'aquestes tasques per separat i, a continuació, ens ocupem d'elles conjuntament, desenvolupant mètodes de classificació de fluxos de dades que contenen elements que són arbres. En el model de flux de dades, les dades arriben a gran velocitat, i els algorismes que els han de processar tenen limitacions estrictes de temps i espai. En la primera part d'aquesta tesi proposem i mostrem un marc per desenvolupar algorismes que aprenen de forma adaptativa dels fluxos de dades que canvien en el temps. Els nostres mètodes es basen en l'ús de mòduls detectors de canvi i estimadors en els llocs correctes. Proposem ADWIN, un algorisme de finestra lliscant adaptativa, per la detecció de canvi i manteniment d'estadístiques actualitzades, i proposem utilitzar-lo com a caixa negra substituint els comptadors en algorismes inicialment no dissenyats per a dades que varien en el temps. Com ADWIN té garanties teòriques de funcionament, això obre la possibilitat d'ampliar aquestes garanties als algorismes d'aprenentatge i de mineria de dades que l'usin. Provem la nostre metodologia amb diversos mètodes d'aprenentatge com el Naïve Bayes, partició, arbres de decisió i conjunt de classificadors. Construïm un marc experimental per fer mineria amb fluxos de dades que varien en el temps, basat en el programari MOA, similar al programari WEKA, de manera que sigui fàcil pels investigadors de realitzar-hi proves experimentals. Els arbres són grafs acíclics connectats i són estudiats com vincles en molts casos. En la segona part d'aquesta tesi, descrivim un estudi formal dels arbres des del punt de vista de mineria de dades basada en tancats. A més, presentem algorismes eficients per fer tests de subarbres i per fer mineria d'arbres freqüents tancats ordenats i no ordenats. S'inclou una anàlisi de l'extracció de regles d'associació de confiança plena dels conjunts d'arbres tancats, on hem trobat un fenomen interessant: les regles que la seva contrapart proposicional és no trivial, són sempre certes en els arbres a causa de la seva peculiar combinatòria. I finalment, usant aquests resultats en fluxos de dades evolutius i la mineria d'arbres tancats freqüents, hem presentat algorismes d'alt rendiment per fer mineria d'arbres freqüents tancats de manera adaptativa en fluxos de dades que evolucionen en el temps. Introduïm una metodologia general per identificar patrons tancats en un flux de dades, utilitzant la Teoria de Reticles de Galois. Usant aquesta metodologia, desenvolupem un algorisme incremental, un basat en finestra lliscant, i finalment un que troba arbres freqüents tancats de manera adaptativa en fluxos de dades. Finalment usem aquests mètodes per a desenvolupar mètodes de classificació per a fluxos de dades d'arbres. / This thesis is devoted to the design of data mining algorithms for evolving data streams and for the extraction of closed frequent trees. First, we deal with each of these tasks separately, and then we deal with them together, developing classification methods for data streams containing items that are trees. In the data stream model, data arrive at high speed, and the algorithms that must process them have very strict constraints of space and time. In the first part of this thesis we propose and illustrate a framework for developing algorithms that can adaptively learn from data streams that change over time. Our methods are based on using change detectors and estimator modules at the right places. We propose an adaptive sliding window algorithm ADWIN for detecting change and keeping updated statistics from a data stream, and use it as a black-box in place or counters or accumulators in algorithms initially not designed for drifting data. Since ADWIN has rigorous performance guarantees, this opens the possibility of extending such guarantees to learning and mining algorithms. We test our methodology with several learning methods as Naïve Bayes, clustering, decision trees and ensemble methods. We build an experimental framework for data stream mining with concept drift, based on the MOA framework, similar to WEKA, so that it will be easy for researchers to run experimental data stream benchmarks. Trees are connected acyclic graphs and they are studied as link-based structures in many cases. In the second part of this thesis, we describe a rather formal study of trees from the point of view of closure-based mining. Moreover, we present efficient algorithms for subtree testing and for mining ordered and unordered frequent closed trees. We include an analysis of the extraction of association rules of full confidence out of the closed sets of trees, and we have found there an interesting phenomenon: rules whose propositional counterpart is nontrivial are, however, always implicitly true in trees due to the peculiar combinatorics of the structures. And finally, using these results on evolving data streams mining and closed frequent tree mining, we present high performance algorithms for mining closed unlabeled rooted trees adaptively from data streams that change over time. We introduce a general methodology to identify closed patterns in a data stream, using Galois Lattice Theory. Using this methodology, we then develop an incremental one, a sliding-window based one, and finally one that mines closed trees adaptively from data streams. We use these methods to develop classification methods for tree data streams. Mineria de dades Fluxe de dades Dades estructurades Canvi de concepte Arbres Metodes adaptatius 004
3	Captura i Anàlisi del Comportament dels Estudiants en Entorns Virtuals d'Aprenentatge: El Campus Virtual de la UOC Mor Pera, Enric 16 June 2008 (has links) Aquest treball de tesi doctoral fa una aportació a les àrees de l'e-learning i la interacció persona-ordinador, en relació a l'obtenció d'informació dels usuaris i de l'ús que fan d'un sistema interactiu. Per a assolir aquest objectiu s'ha proposat una metodologia d'anàlisi que es basa en un estudi a tres nivells que permet abastar els objectius i motivacions dels usuaris en diferents períodes de temps. Concretament, s'ha definit una metodologia que permet obtenir informació rellevant de la navegació dels estudiants d'un entorn virtual d'aprenentatge, entenent que ho fan no només pels espais i serveis del campus virtual, sinó també pels continguts, activitats i recursos educatius de les assignatures, així com per les assignatures d'una o més titulacions i ofertes formatives, és a dir, a diferents nivells. Aquest objectiu es basa en la necessitat de conèixer als estudiants i les seves interaccions amb l'entorn virtual, per així poder millorar la usabilitat del sistema i la seva experiència d'ús, i aportar informació a un model d'usuari que permeti introduir elements de personalització en el procés d'aprenentatge. Els resultats obtinguts constitueixen noves evidències sobre la UOC, el seu entorn virtual d'aprenentatge i els seus usuaris, i proporcionen informació rellevant pel nou disseny del campus virtual i per la millora i personalització del procés d'aprenentatge. / This doctoral thesis makes a contribution to the areas of e-learning and human-computer interaction, related to obtaining information about the users and about how they use interactive systems. To achieve this goal a methodology of analysis has been proposed. This methodology is based on a three level approach that allows covering the goals and motivations of the users in different periods of time. More precisely, the proposed methodology of analysis allows obtaining new and relevant information about the students' navigation in a virtual learning environment, understanding that they visit not only the main areas and services of the virtual campus, but the contents, activities and educational resources of the courses, as well as other courses that are included in their program or formative offer. That is, at different levels in different points of time. This goal is based on the need to know the students' interactions with the virtual environment, to be able to improve the usability of the system and their experience of use, and to collect information to build a user model which allows embedding elements of personalization in the learning process. The obtained results constitute new evidence about the UOC, its virtual learning environment and its users, and provide relevant information for the design of the new virtual campus and to improve and personalize the learning process. Mineria de Dades Interacció Persona-Ordinador Entorns virtuals d'aprenentatge E-Learning Modelatge d'Usuaris 37 62
4	Data complexity in supervised learning: A far-reaching implication Macià Antolínez, Núria 06 October 2011 (has links) Aquesta tesi estudia la complexitat de les dades i el seu rol en la definició del comportament de les tècniques d'aprenentatge supervisat, i alhora explora la generació artificial de conjunts de dades mitjançant estimadors de complexitat. El treball s'ha construït sobre quatre principis que s'han succeït de manera natural. (1) La crítica de la metodologia actual utilitzada per la comunitat científica per avaluar el rendiment de nous sistemes d'aprenentatge ha desencadenat (2) l'interès per estimadors alternatius basats en l'anàlisi de la complexitat de les dades i el seu estudi. Ara bé, tant l'estat primerenc de les mesures de complexitat com la disponibilitat limitada de problemes del món real per fer el seu test han inspirat (3) la generació sintètica de problemes, la qual ha esdevingut l'eix central de la tesi, i (4) la proposta de fer servir estàndards artificials amb semblança als problemes reals. L'objectiu que es persegueix a llarg termini amb aquesta recerca és proporcionar als usuaris (1) unes directrius per escollir el sistema d'aprenentatge idoni per resoldre el seu problema i (2) una col•lecció de problemes per, o bé avaluar el rendiment dels sistemes d'aprenentatge, o bé provar les seves limitacions. / Esta tesis profundiza en el estudio de la complejidad de los datos y su papel en la definición del comportamiento de las técnicas de aprendizaje supervisado, a la vez que explora la generación artificial de conjuntos de datos mediante estimadores de complejidad. El trabajo se ha construido sobre cuatro pilares que se han sucedido de manera natural. (1) La crítica de la metodología actual utilizada por la comunidad científica para evaluar el rendimiento de nuevos sistemas de aprendizaje ha desatado (2) el interés por estimadores alternativos basados en el análisis de la complejidad de los datos y su estudio. Sin embargo, tanto el estado primerizo de las medidas de complejidad como la limitada disponibilidad de problemas del mundo real para su testeo han inspirado (3) la generación sintética de problemas, considerada el eje central de la tesis, y (4) la propuesta del uso de estándares artificiales con parecido a los problemas reales. El objetivo que se persigue a largo plazo con esta investigación es el de proporcionar a los usuarios (1) unas pautas pare escoger el sistema de aprendizaje más idóneo para resolver su problema y (2) una colección de problemas para evaluar el rendimiento de los sistemas de aprendizaje o probar sus limitaciones. / This thesis takes a close view of data complexity and its role shaping the behaviour of machine learning techniques in supervised learning and explores the generation of synthetic data sets through complexity estimates. The work has been built upon four principles which have naturally followed one another. (1) A critique about the current methodologies used by the machine learning community to evaluate the performance of new learners unleashes (2) the interest for alternative estimates based on the analysis of data complexity and its study. However, both the early stage of the complexity measures and the limited availability of real-world problems for testing inspire (3) the generation of synthetic problems, which becomes the backbone of this thesis, and (4) the proposal of artificial benchmarks resembling real-world problems. The ultimate goal of this research flow is, in the long run, to provide practitioners (1) with some guidelines to choose the most suitable learner given a problem and (2) with a collection of benchmarks to either assess the performance of the learners or test their limitations. Mineria de dades Aprenentatge supervisat Complexitat de les dades Minería de datos Aprendizaje superivisado Complejidad de los datos Data mining Supervised learning Data complexity Les TIC i la seva Gestió 004
5	Information sources selection methodology for recommender systems based on intrinsic characteristics and trust measure Aciar, Silvana Vanesa 18 June 2007 (has links) El treball desenvolupat en aquesta tesi presenta un profund estudi i proveïx solucions innovadores en el camp dels sistemes recomanadors. Els mètodes que usen aquests sistemes per a realitzar les recomanacions, mètodes com el Filtrat Basat en Continguts (FBC), el Filtrat Col·laboratiu (FC) i el Filtrat Basat en Coneixement (FBC), requereixen informació dels usuaris per a predir les preferències per certs productes. Aquesta informació pot ser demogràfica (Gènere, edat, adreça, etc), o avaluacions donades sobre algun producte que van comprar en el passat o informació sobre els seus interessos. Existeixen dues formes d'obtenir aquesta informació: els usuaris ofereixen explícitament aquesta informació o el sistema pot adquirir la informació implícita disponible en les transaccions o historial de recerca dels usuaris. Per exemple, el sistema recomanador de pel·lícules MovieLens (http://movielens.umn.edu/login) demana als usuaris que avaluïn almenys 15 pel·lícules dintre d'una escala de * a * * * * * (horrible, ...., ha de ser vista). El sistema genera recomanacions sobre la base d'aquestes avaluacions. Quan els usuaris no estan registrat en el sistema i aquest no té informació d'ells, alguns sistemes realitzen les recomanacions tenint en compte l'historial de navegació. Amazon.com (http://www.amazon.com) realitza les recomanacions tenint en compte les recerques que un usuari a fet o recomana el producte més venut. No obstant això, aquests sistemes pateixen de certa falta d'informació. Aquest problema és generalment resolt amb l'adquisició d'informació addicional, se li pregunta als usuaris sobre els seus interessos o es cerca aquesta informació en fonts addicionals. La solució proposada en aquesta tesi és buscar aquesta informació en diverses fonts, específicament aquelles que contenen informació implícita sobre les preferències dels usuaris. Aquestes fonts poden ser estructurades com les bases de dades amb informació de compres o poden ser no estructurades com les pàgines web on els usuaris deixen la seva opinió sobre algun producte que van comprar o posseïxen.Nosaltres trobem tres problemes fonamentals per a aconseguir aquest objectiu: 1 . La identificació de fonts amb informació idònia per als sistemes recomanadors.2 . La definició de criteris que permetin la comparança i selecció de les fonts més idònies. 3 . La recuperació d'informació de fonts no estructurades. En aquest sentit, en la tesi proposada s'ha desenvolupat: 1 . Una metodologia que permet la identificació i selecció de les fonts més idònies. Criteris basats en les característiques de les fonts i una mesura de confiança han estat utilitzats per a resoldre el problema de la identificació i selecció de les fonts. 2 . Un mecanisme per a recuperar la informació no estructurada dels usuaris disponible en la web. Tècniques de Text Mining i ontologies s'han utilitzat per a extreure informació i estructurar-la apropiadament perquè la utilitzin els recomanadors. Les contribucions del treball desenvolupat en aquesta tesi doctoral són: 1. Definició d'un conjunt de característiques per a classificar fonts rellevants per als sistemes recomanadors2. Desenvolupament d'una mesura de rellevància de les fonts calculada sobre la base de les característiques definides3. Aplicació d'una mesura de confiança per a obtenir les fonts més fiables. La confiança es definida des de la perspectiva de millora de la recomanació, una font fiable és aquella que permet millorar les recomanacions. 4. Desenvolupament d'un algorisme per a seleccionar, des d'un conjunt de fonts possibles, les més rellevants i fiable utilitzant les mitjanes esmentades en els punts previs. 5. Definició d'una ontologia per a estructurar la informació sobre les preferències dels usuaris que estan disponibles en Internet. 6. Creació d'un procés de mapatge que extreu automàticament informació de les preferències dels usuaris disponibles en la web i posa aquesta informació dintre de l'ontologia. Aquestes contribucions permeten aconseguir dos objectius importants: 1 . Millorament de les recomanacions usant fonts d'informació alternatives que sigui rellevants i fiables.2 . Obtenir informació implícita dels usuaris disponible en Internet. / The work developed in this thesis presents an in-depth study and provides innovative solutions in the field of recommender systems. The methods used by these systems to carry out recommendations, such as Content-Based Filtering (CBF), Collaborative Filtering (CF) and Knowledge-Based Filtering (KBF), require information from users to predict preferences for certain products. This may be demographic information (genre, age and address), evaluations given to certain products in the past or information about their interests. There are two ways of obtaining this information: users offer it explicitly or the system can retrieve the implicit information available in the purchase and search history. For example, the movie recommender system MovieLens (http://movielens.umn.edu/login) asks users to rate at least 15 movies on a scale of * to * * * * * (awful, ... , must be seen). The system generates recommendations based on these evaluations. When users are not registered into the site and it has no information about them, recommender systems make recommendations according to the site search history. Amazon.com (http://www.amazon.com) make recommendations according to the site search history or recommend the best selling products. Nevertheless, these systems suffer from a certain lack of information. This problem is generally solved with the acquisition of additional information; users are asked about their interests or that information is searched for in additional available sources. The solution proposed in this thesis is to look for that information in various sources, specifically those that contain implicit information about user preferences. These sources can be structured like databases with purchasing information or they can be unstructured sources like review pages where users write their experiences and opinions about a product they buy or possess.We have found three fundamental problems to achieve this objective: 1. The identification of sources with suitable information for recommender systems.2. The definition of criteria that allows the comparison and selection of the most suitable sources.3. Retrieving the information from unstructured sources.In this sense, the proposed thesis has developed:1. A methodology that allows the identification and selection of the most suitable sources. Criteria based on the characteristics of sources and a trust measure have been used to solve the problem of identifying and selecting sources.2. A mechanism to retrieve unstructured information from users available on the Web. Text mining techniques and ontologies have been used to extract information and structure it appropriately for use by the recommenders.The contributions of the work developed in this doctoral thesis are:1. Definition of a set of characteristics to classify relevant sources of information for recommender systems.2. Development of a measure of relevance of sources according to characteristics defined in previous point.3. Application of a trust measure to obtain the most reliable sources. Confidence is measured from the perspective of improving the recommendation; a reliable source is one that leads to improved recommendations.4. Development of an algorithm to select, from a set of possible sources, the most relevant and reliable ones according to measures defined in previous points.5. Definition of an ontology to structure information about user preferences that are available on the Internet.6. The creation of a mapping process that automatically extracts information about user preferences available on the web and put in the ontology.These contributions allow us the achievement of two important objectives:1. Improving recommendations using alternative sources of information that are relevant and trustworthy.2. Obtaining implicit information about user available on the Internet. Mineria de dades Data mining Confianza Trust Confiança Fuentes de infomación Fonts d'informació Information sources Sistemas recomendadores Sistemes recomanadors Recommender systems Perfil de usuario Perfil d'usuari User profile Mineria de datos 68
6	Facing-up Challenges of Multiobjective Clustering Based on Evolutionary Algorithms: Representations, Scalability and Retrieval Solutions García Piquer, Álvaro 13 April 2012 (has links) Aquesta tesi es centra en algorismes de clustering multiobjectiu, que estan basats en optimitzar varis objectius simultàniament obtenint una col•lecció de solucions potencials amb diferents compromisos entre objectius. El propòsit d'aquesta tesi consisteix en dissenyar i implementar un nou algorisme de clustering multiobjectiu basat en algorismes evolutius per afrontar tres reptes actuals relacionats amb aquest tipus de tècniques. El primer repte es centra en definir adequadament l'àrea de possibles solucions que s'explora per obtenir la millor solució i que depèn de la representació del coneixement. El segon repte consisteix en escalar el sistema dividint el conjunt de dades original en varis subconjunts per treballar amb menys dades en el procés de clustering. El tercer repte es basa en recuperar la solució més adequada tenint en compte la qualitat i la forma dels clusters a partir de la regió més interessant de la col•lecció de solucions ofertes per l’algorisme. / Esta tesis se centra en los algoritmos de clustering multiobjetivo, que están basados en optimizar varios objetivos simultáneamente obteniendo una colección de soluciones potenciales con diferentes compromisos entre objetivos. El propósito de esta tesis consiste en diseñar e implementar un nuevo algoritmo de clustering multiobjetivo basado en algoritmos evolutivos para afrontar tres retos actuales relacionados con este tipo de técnicas. El primer reto se centra en definir adecuadamente el área de posibles soluciones explorada para obtener la mejor solución y que depende de la representación del conocimiento. El segundo reto consiste en escalar el sistema dividiendo el conjunto de datos original en varios subconjuntos para trabajar con menos datos en el proceso de clustering El tercer reto se basa en recuperar la solución más adecuada según la calidad y la forma de los clusters a partir de la región más interesante de la colección de soluciones ofrecidas por el algoritmo. / This thesis is focused on multiobjective clustering algorithms, which are based on optimizing several objectives simultaneously obtaining a collection of potential solutions with different trade¬offs among objectives. The goal of the thesis is to design and implement a new multiobjective clustering technique based on evolutionary algorithms for facing up three current challenges related to these techniques. The first challenge is focused on successfully defining the area of possible solutions that is explored in order to find the best solution, and this depends on the knowledge representation. The second challenge tries to scale-up the system splitting the original data set into several data subsets in order to work with less data in the clustering process. The third challenge is addressed to the retrieval of the most suitable solution according to the quality and shape of the clusters from the most interesting region of the collection of solutions returned by the algorithm. Mineria de dades Clustering Algoritmes evolutius Clustering Multiobjectiu Grans Volums de Dades Minería de datos Algoritmos evolutivos Clustering Multiobjetivo Grandes Volúmenes de Datos Data Mining Evolutionary Algorithms Multiobjective Clustering Large Data Les TIC i la seva gestió 004
7	Discovering frequent and significant episodes. Application to sequences of events recorded in power distribution networks Quiroga Quiroga, Oscar Arnulfo 18 December 2012 (has links) This thesis proposes a formalism to analyse and automatically exploit sequences of events, which are related with faults occurred in power distribution networks and are recorded by power quality monitors at substations. This formalism allows to find dependencies or relationships among events, looking for meaningful patterns. Once those patterns are found, they can be used to better describe fault situations and their temporal evolution or can be also useful to predict future failures by recognising the events that match the early stages of a pattern. / En aquesta tesi es proposa un formalisme per analitzar conjunts de dades d'esdeveniments relacionats amb les fallades que es produeixen en les xarxes de distribució elèctrica, i explotar automàticament seqüències d'esdeveniments registrats pels monitors de qualitat d'ona instal•lats en substacions. Aquest formalisme permet cercar dependencies o relacions entre esdeveniments per trobar patrons significatius. Quan els patrons es troben, es poden utilitzar per descriure millor les situacions de fallada i la seva evolució. Els patrons també poden ser útils per a predir fallades futures mitjançant el reconeixement dels successos que coincideixin amb les primeres etapes d'un patró. Xarxes de distribució elèctrica Power distribution networks Redes de distribución eléctrica Seqüències d'esdeveniments Event sequences Secuencias de eventos Diagnòstic de fallades Fault diagnosis Diagnóstico de fallos Pronòstic de fallades Fault prognosis Pronóstico de fallos Fallades del sistema de potència Power system faults Fallos del sistema de potencia Mineria de patrons Pattern mining Minería de patrones Mineria de dades Data mining Minería de datos 68

1

Page generated in 0.0834 seconds