Spelling suggestions: "subject:"symbolic data"" "subject:"ymbolic data""
1 |
Dissimilarity fuctions analysis based on dynamic clustering for symbolic dataCléa Gomes da Silva, Alzennyr January 2005 (has links)
Made available in DSpace on 2014-06-12T16:01:14Z (GMT). No. of bitstreams: 2
arquivo7274_1.pdf: 1733810 bytes, checksum: 2d9eb7a4489382e5afbf1790810474a0 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2005 / A análise de dados simbólicos (Symbolic Data Analysis) é um novo domínio na área
de descoberta automática de conhecimento que visa desenvolver métodos para dados descritos
por variáveis que podem assumir como valor conjuntos de categorias, intervalos ou
distribuições de probabilidade. Essas novas variáveis permitem levar em conta a variabilidade
e/ou a incerteza presente nos dados. O tratamento de dados simbólicos através de técnicas
estatísticas e de aprendizagem de máquina necessita da introdução de medidas de distância
capazes de manipular tal tipo de dado. Com esse objetivo, diversas funções de dissimilaridade
têm sido propostas na literatura. Entretanto, nenhum estudo comparativo acerca do
desempenho de tais funções em problemas que envolvem simultaneamente dados simbólicos
booleanos e modais foi realizado.
A principal contribuição dessa dissertação é realizar uma análise comparativa e uma
avaliação empírica sobre funções de dissimilaridade para dados simbólicos, uma vez que esse
tipo de estudo, apesar de muito relevante, é quase inexistente na literatura. Além disso, este
trabalho também introduz novas funções de dissimilaridade que podem ser usadas no
agrupamento dinâmico de dados simbólicos. Os algoritmos de agrupamento dinâmico
consistem em obter, simultaneamente, uma partição em um número fixo de classes e a
identificação de um representante para cada classe, minimizando localmente um critério que
mede a adequação entre as classes e os seus representantes.
Para validar esse estudo, foram realizados experimentos com bases de dados de
referência na literatura e dois conjuntos de dados artificiais de intervalos com diferentes graus
de dificuldade de classificação, objetivando a comparação das funções avaliadas. A precisão
dos resultados foi mensurada por um índice externo de agrupamento aplicado na validação
cruzada não supervisionada, para as bases de dados reais, e também no quadro de uma
experiência Monte Carlo, para as bases de dados artificiais. Com os resultados alcançados é
possível verificar a adequação das diversas funções de dissimilaridade aos diferentes tipos de
dados simbólicos (multivalorado, multivalorado ordinal, intervalar, e modal de mesmo
suporte e de suportes diferentes), bem como identificar as melhores configurações de funções.
Testes estatísticos validam as conclusões
|
2 |
Incremental learning for querying multimodal symbolic data.Lazarescu, Mihai M. January 2000 (has links)
In this thesis we present an incremental learning algorithm for learning and classifying the pattern of movement of multiple objects in a dynamic scene. The method that we describe is based on symbolic representations of the patterns. The typical representation has a spatial component that describes the relationships of the objects and a temporal component that describes the ordering of the actions of the objects in the scene. The incremental learning algorithm (ILF) uses evidence based forgetting, generates compact concept structures and can track concept drift.We also present two novel algorithms that combine incremental learning and image analysis. The first algorithm is used in an American Football application and shows how natural language parsing can be combined with image processing and expert background knowledge to address the difficult problem of classifying and learning American Football plays. We present in detail the model developed to representAmerican Football plays, the parser used to process the transcript of the American Football commentary and the algorithms developed to label the players and classify the queries. The second algorithm is used in a cricket application. It combines incremental machine learning and camera motion estimation to classify and learn common cricket shots. We describe the method used to extract and convert the camera motion parameter values to symbolic form and the processing involved in learning the shots.Finally, we explore the issues that arise from combining incremental learning with incremental recognition. Two methods that combine incremental recognition and incremental learning are presented along with a comparison between the algorithms.
|
3 |
Implementacion de un algoritmo de monitoreo de salud estructural basado en objetos simbolicos y clasificación por agrupamientoLagos Flores, Gustavo Patricio January 2017 (has links)
Magíster en Ciencias de la Ingeniería, Mención Ingeniería Sísmica / El presente trabajo de Tesis muestra la implementación y análisis de variados métodos de aprendizaje de máquinas y minería de datos, desde la fase de extracción de características sensibles usando objetos simbólicos y clasificación mediante algoritmos de agrupamiento, para el estudio y monitoreo de la condición estructural de obras civiles, con énfasis en la detección temprana de la ocurrencia de daños estructurales.
El monitoreo de salud estructural mediante algoritmos de minería de datos, reconocimiento de patrones y aprendizaje de máquinas es un campo moderno y activo en la Ingeniería Civil. El flujo general es que a partir de mediciones de aceleración en sitio y utilizando metodologías de identificación de sistemas, se extrae la información modal que representa algún modelo clásico de la dinámica estructural. En este trabajo se busca extender el tipo de información que se puede extraer desde las series de aceleración, estudiando el uso de las series de aceleración en bruto y a su vez mediante la extracción de características sensibles usando ajustes de modelos autoregresivos.
La metodología global que se utiliza está basada en el agrupamiento de objetos simbólicos que representan el comportamiento estadístico de características sensibles, y se implementa tanto en series de aceleración obtenidas en laboratorio como en un edificio en operación instrumentado. En el segundo capítulo se estudian las series de aceleración en bruto como entrada para la transformación a objetos simbólicos con uso de histogramas e intervalos intercuartiles, concluyéndose que la energía de entrada es altamente determinante en los grupos obtenidos por los algoritmos de clasificación. Aún así, se puede extraer información del estado estructural si se analizan series de aceleración obtenidas desde un misma condición operacional y ambiental. En el tercer capítulo se estudia la extracción de otro tipo de característica basada en modelos autoregresivos, con las que se generan series de coeficientes de modelos AR(p) ajustados a las series de aceleración originales, encontrándose que los parámetros AR son mucho más sensibles a los cambios estructurales que la aceleración y que dicha sensibilidad puede aumentarse sin pérdida de robustez si se consideran líneas base de referencia. En el cuarto capítulo se analiza el uso de las series de coeficientes AR como entrada para la condensación a objetos simbólicos con los que realizar el agrupamiento, consiguiendo una mejora considerable en la separación de con respecto al uso de las series de aceleración en bruto.
|
4 |
Revisiting Empirical Bayes Methods and Applications to Special Types of DataDuan, Xiuwen 29 June 2021 (has links)
Empirical Bayes methods have been around for a long time and have a wide range of
applications. These methods provide a way in which historical data can be aggregated
to provide estimates of the posterior mean. This thesis revisits some of the empirical
Bayesian methods and develops new applications. We first look at a linear empirical Bayes estimator and apply it on ranking and symbolic data. Next, we consider
Tweedie’s formula and show how it can be applied to analyze a microarray dataset.
The application of the formula is simplified with the Pearson system of distributions.
Saddlepoint approximations enable us to generalize several results in this direction.
The results show that the proposed methods perform well in applications to real data
sets.
|
5 |
Techniques d'anormalité appliquées à la surveillance de santé structurale / Novelty detection applied to structural health monitoringCury, Alexandre 16 December 2010 (has links)
Le paradigme de la surveillance de santé structurale repose sur l'introduction d'indicateurs fiables et robustes permettant de détecter, localiser, quantifier et prédire un endommagement de manière précoce. En effet, la détection d'une modification structurale susceptible de devenir critique peut éviter l'occurrence de dysfonctionnements majeurs associés à des conséquences sociales, économiques et environnementales très importantes.Ces dernières années, de nombreuses recherches se fait de l'évaluation dynamique un élément de diagnostic. La plupart des méthodes reposent sur une analyse temporelle ou fréquentielle des signaux pour en extraire une information compressée au travers de quelques caractéristiques modales ou d'indicateurs évolués construits sur ces caractéristiques. Ces indicateurs ont montré leur efficacité, mais le problème de leur sensibilité, de la nécessité de disposer d'un état de référence, et de leur fiabilité en terme de la probabilité de détection et de fausses alarmes, reste entier. De plus, le fait d'utiliser des mesures dynamiques (particulièrement si plusieurs voies de mesures sont considérées) mène au stockage de grands volumes de données.Dans ce contexte, il est important d'employer des techniques permettant d'utiliser autant des données brutes que les propriétés modales de manière pratique et pertinente. Pour cela, des représentations adaptées ont été développées pour améliorer la manipulation et le stockage des données. Ces représentations sont connues sous le nom de og données symboliques fg . Elles permettent de caractériser la variabilité et l'incertitude qui entachent chacune des variables. Le développement de nouvelles méthodes d'analyse adéquates pour traiter ces données est le but de l'Analyse de Données Symboliques (ADS).L'objectif de cette thèse est double : le premier consiste à utiliser différentes méthodes couplées à l'ADS pour détecter un endommagement structural. L'idée est d'appliquer des procédures de classification non supervisée (e.g. divisions hiérarchiques, agglomérations hiérarchiques et nuées dynamiques) et supervisée (e.g., arbres de décision Bayésiens, réseaux de neurones et machines à vecteurs supports) afin de discriminer les différents états de santé d'une structure. Dans le cadre de cette thèse, l'ADS est appliquée aux mesures dynamiques acquises emph{in situ} (accélérations) et aux paramètres modaux identifiés. Le deuxième objectif est la compréhension de l'impact des effets environnementaux, notamment de ceux liés à la variation thermique, sur les paramètres modaux. Pour cela, des techniques de régression des données sont proposées.Afin d'évaluer la pertinence des démarches proposées, des études de sensibilité sont menées sur des exemples numériques et des investigations expérimentales. Il est montré que le couplage de l'ADS aux méthodes de classification de données permet de discriminer des états structuraux avec un taux de réussite élevé. Par ailleurs, la démarche proposée permet de vérifier l'importance d'utiliser des techniques permettant de corriger les propriétés modales identifiées des effets thermiques, afin de produire un processus de détection d'endommagements efficace / The paradigm of structural health monitoring is based on the development of reliable and robust indicators able to detect, locate, quantify and predict damage. Studies related to damage detection in civil engineering structures have a noticeable interest for researchers in this area. Indeed, the detection of structural changes likely to become critical can avoid the occurrence of major dysfunctions associated with social, economic and environmental consequences.Recently, many researches have focused on dynamic assessment as part of structural diagnosis. Most of the studied techniques are based on time or frequency domain analyses to extract compressed information from modal characteristics or based on indicators built from these parameters. These indicators have shown their potentialities, but the problem of their sensitivity, the necessity of a reference state, and their reliability in terms of detection probability and false alarm, still remains. Moreover, the use of raw dynamic measurements (especially if several measurement channels are considered) leads to the storage of large datasets.In this context, it is important to use techniques capable of dealing not only with raw data but also modal parameters in a practical and relevant way. In order to give some insights to this problem, appropriate representations have been developed to improve both manipulation and storage of data. These representations are known as og symbolic data fg. They are used to characterize the variability and uncertainty that exists within each variable. The development of new methods capable of dealing with this type of data is the goal of Symbolic Data Analysis (SDA).This thesis has two main objectives: the first one is to use different methods coupled with the SDA to detect structural damage. The idea is to employ clustering procedures (e.g., hierarchy-divisive, hierarchy-agglomerative and dynamic clouds) and supervised classification methods (e.g., Bayesien decision trees, neural networks and support vector machines) to discriminate different structural states. In this thesis, SDA is applied to dynamic measurements obtained on site (accelerations) and to the identified modal parameters. The second goal is to study the impact of environmental effects, particularly those related to thermal variation over modal parameters. To this end, a couple of regression techniques are proposed.In order to attest the efficiency of the proposed approaches, several sensibility studies considering numerical applications and experimental investigations are carried out. It is shown that SDA coupled with classification methods is able to distinguish structural conditions with adequate rates. Furthermore, it is stressed the importance of using techniques capable of correcting modal parameters from thermal effects in order to build efficient procedures for damage detection
|
6 |
Cartes auto-organisatrices pour la classification de données symboliques mixtes, de données de type intervalle et de données discrétisées. / Self-Organizing Maps for the clustering of mixed feature-type symbolic data, of interval-valued data and of binned dataHajjar, Chantal 10 February 2014 (has links)
Cette thèse s'inscrit dans le cadre de la classification automatique de données symboliques par des méthodes géométriques bio-inspirées, plus spécifiquement par les cartes auto-organisatrices. Nous mettons en place plusieurs algorithmes d'apprentissage des cartes auto-organisatrices pour classifier des données symboliques mixtes ainsi que des données de type intervalle et des données discrétisées. Plusieurs jeux de données symboliques simulées et réelles, dont deux construits dans le cadre de cette thèse, sont utilisés pour tester les méthodes proposées. En plus, nous proposons une carte auto-organisatrice pour les données discrétisées (binned data) dans le but d'accélérer l'apprentissage des cartes classiques et nous appliquons la méthode proposée à la segmentation d'images. / This thesis concerns the clustering of symbolic data with bio-inspired geometric methods, more specifically with Self-Organizing Maps. We set up several learning algorithms for the self-organizing maps in order to cluster mixed-feature symbolic data as well as interval-valued data and binned data. Several simulated and real symbolic data sets, including two sets built as part of this thesis, are used to test the proposed methods. In addition, we propose a self-organizing map for binned data in order to accelerate the learning of standard maps, and we use the proposed method for image segmentation.
|
7 |
Group recommendation strategies based on collaborative filteringRicardo de Melo Queiroz, Sérgio January 2003 (has links)
Made available in DSpace on 2014-06-12T15:59:01Z (GMT). No. of bitstreams: 2
arquivo4812_1.pdf: 2843132 bytes, checksum: cf053779fad5d73c77a2b107542256b3 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2003 / Ricardo de Melo Queiroz, Sérgio; de Assis Tenório Carvalho, Francisco. Group recommendation strategies based on collaborative filtering. 2003. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2003.
|
8 |
Algoritmos de agrupamentos fuzzy intervalares e ?ndice de valida??o para agrupamento de dados simb?licos do tipo intervalo / An interval fuzzy clustering and validation index for clusteinf in interval symbolic dataMoura, Ronildo Pinheiro de Ara?jo 21 February 2014 (has links)
Made available in DSpace on 2014-12-17T15:48:11Z (GMT). No. of bitstreams: 1
RonildoPAM_DISSERT.pdf: 2783175 bytes, checksum: c268ade677ca4b8c543ccc014b0aafef (MD5)
Previous issue date: 2014-02-21 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior / Symbolic Data Analysis (SDA) main aims to provide tools for reducing large databases
to extract knowledge and provide techniques to describe the unit of such data in complex
units, as such, interval or histogram. The objective of this work is to extend classical
clustering methods for symbolic interval data based on interval-based distance. The main
advantage of using an interval-based distance for interval-based data lies on the fact that
it preserves the underlying imprecision on intervals which is usually lost when real-valued
distances are applied. This work includes an approach allow existing indices to be adapted
to interval context. The proposed methods with interval-based distances are compared
with distances punctual existing literature through experiments with simulated data and
real data interval / A An?lise de Dados Simb?licos (SDA) tem como objetivo prover mecanismos de redu??o
de grandes bases de dados para extra??o do conhecimento e desenvolver m?todos que descrevem
esses dados em unidades complexas, tais como, intervalos ou um histograma. O
objetivo deste trabalho ? estender m?todos de agrupamento cl?ssicos para dados simb?licos
intervalares baseados em dist?ncias essencialmente intervalares. A principal vantagem
da utiliza??o de uma dist?ncia essencialmente intervalar est? no fato da preserva??o da
imprecis?o inerente aos intervalos, pois a imprecis?o ? normalmente perdida quando as
dist?ncias valoradas em R s?o aplicadas. Este trabalho inclui uma abordagem que permite
adaptar ?ndices de valida??o de agrupamento existentes para o contexto intervalar.
Os m?todos propostos com dist?ncias essencialmente intervalares s?o comparados a dist?ncias
pontuais existentes na literatura atrav?s de experimentos realizados com dados
sint?ticos e reais intervalares
|
9 |
Arbres de décisions symboliques, outils de validations et d'aide à l'interprétation / Symbolic decision trees, tools for validation and interpretation assistanceSeck, Djamal 20 December 2012 (has links)
Nous proposons dans cette thèse la méthode STREE de construction d'arbres de décision avec des données symboliques. Ce type de données permet de caractériser des individus de niveau supérieur qui peuvent être des classes ou catégories d’individus ou des concepts au sens des treillis de Galois. Les valeurs des variables, appelées variables symboliques, peuvent être des ensembles, des intervalles ou des histogrammes. Le critère de partitionnement récursif est une combinaison d'un critère par rapport aux variables explicatives et d'un critère par rapport à la variable à expliquer. Le premier critère est la variation de la variance des variables explicatives. Quand il est appliqué seul, STREE correspond à une méthode descendante de classification non supervisée. Le second critère permet de construire un arbre de décision. Il s'agit de la variation de l'indice de Gini si la variable à expliquer est nominale et de la variation de la variance si la variable à expliquer est continue ou bien est une variable symbolique. Les données classiques sont un cas particulier de données symboliques sur lesquelles STREE peut aussi obtenir de bons résultats. Il en ressort de bonnes performances sur plusieurs jeux de données UCI par rapport à des méthodes classiques de Data Mining telles que CART, C4.5, Naive Bayes, KNN, MLP et SVM. STREE permet également la construction d'ensembles d'arbres de décision symboliques soit par bagging soit par boosting. L'utilisation de tels ensembles a pour but de pallier les insuffisances liées aux arbres de décisions eux-mêmes et d'obtenir une décision finale qui est en principe plus fiable que celle obtenue à partir d'un arbre unique. / In this thesis, we propose the STREE methodology for the construction of decision trees with symbolic data. This data type allows us to characterize individuals of higher levels which may be classes or categories of individuals or concepts within the meaning of the Galois lattice. The values of the variables, called symbolic variables, may be sets, intervals or histograms. The criterion of recursive partitioning is a combination of a criterion related to the explanatory variables and a criterion related to the dependant variable. The first criterion is the variation of the variance of the explanatory variables. When it is applied alone, STREE acts as a top-down clustering methodology. The second criterion enables us to build a decision tree. This criteron is expressed as the variation of the Gini index if the dependant variable is nominal, and as the variation of the variance if thedependant variable is continuous or is a symbolic variable. Conventional data are a special case of symbolic data on which STREE can also get good results. It has performed well on multiple sets of UCI data compared to conventional methodologies of Data Mining such as CART, C4.5, Naive Bayes, KNN, MLP and SVM. The STREE methodology also allows for the construction of ensembles of symbolic decision trees either by bagging or by boosting. The use of such ensembles is designed to overcome shortcomings related to the decisions trees themselves and to obtain a finaldecision that is in principle more reliable than that obtained from a single tree.
|
10 |
Apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées / Supervised learning of Symbolic Data and adaptation to Big DataHaddad, Raja 23 November 2016 (has links)
Cette thèse a pour but l'enrichissement des méthodes supervisées d'analyse de données symboliques et l'extension de ce domaine aux données volumineuses, dites "Big Data". Nous proposons à cette fin une méthode supervisée nommée HistSyr. HistSyr convertit automatiquement les variables continues en histogrammes les plus discriminants pour les classes d'individus. Nous proposons également une nouvelle méthode d'arbres de décision symbolique, dite SyrTree. SyrTree accepte tous plusieurs types de variables explicatives et à expliquer pour construire l'arbre de décision symbolique. Enfin, nous étendons HistSyr aux Big Data, en définissant une méthode distribuée nommée CloudHistSyr. CloudHistSyr utilise Map/Reduce pour créer les histogrammes les plus discriminants pour des données trop volumineuses pour HistSyr. Nous avons testé CloudHistSyr sur Amazon Web Services (AWS). Nous démontrons la scalabilité et l’efficacité de notre méthode sur des données simulées et sur les données expérimentales. Nous concluons sur l’utilité de CloudHistSyr qui , grâce à ses résultats, permet l'étude de données massives en utilisant les méthodes d'analyse symboliques existantes. / This Thesis proposes new supervised methods for Symbolic Data Analysis (SDA) and extends this domain to Big Data. We start by creating a supervised method called HistSyr that converts automatically continuous variables to the most discriminant histograms for classes of individuals. We also propose a new method of symbolic decision trees that we call SyrTree. SyrTree accepts many types of inputs and target variables and can use all symbolic variables describing the target to construct the decision tree. Finally, we extend HistSyr to Big Data, by creating a distributed method called CloudHistSyr. Using the Map/Reduce framework, CloudHistSyr creates of the most discriminant histograms for data too big for HistSyr. We tested CloudHistSyr on Amazon Web Services. We show the efficiency of our method on simulated data and on actual car traffic data in Nantes. We conclude on overall utility of CloudHistSyr which, through its results, allows the study of massive data using existing symbolic analysis methods.
|
Page generated in 0.0582 seconds