Spelling suggestions: "subject:"symbolic data 2analysis"" "subject:"symbolic data 3analysis""
1 |
Dissimilarity fuctions analysis based on dynamic clustering for symbolic dataCléa Gomes da Silva, Alzennyr January 2005 (has links)
Made available in DSpace on 2014-06-12T16:01:14Z (GMT). No. of bitstreams: 2
arquivo7274_1.pdf: 1733810 bytes, checksum: 2d9eb7a4489382e5afbf1790810474a0 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2005 / A análise de dados simbólicos (Symbolic Data Analysis) é um novo domínio na área
de descoberta automática de conhecimento que visa desenvolver métodos para dados descritos
por variáveis que podem assumir como valor conjuntos de categorias, intervalos ou
distribuições de probabilidade. Essas novas variáveis permitem levar em conta a variabilidade
e/ou a incerteza presente nos dados. O tratamento de dados simbólicos através de técnicas
estatísticas e de aprendizagem de máquina necessita da introdução de medidas de distância
capazes de manipular tal tipo de dado. Com esse objetivo, diversas funções de dissimilaridade
têm sido propostas na literatura. Entretanto, nenhum estudo comparativo acerca do
desempenho de tais funções em problemas que envolvem simultaneamente dados simbólicos
booleanos e modais foi realizado.
A principal contribuição dessa dissertação é realizar uma análise comparativa e uma
avaliação empírica sobre funções de dissimilaridade para dados simbólicos, uma vez que esse
tipo de estudo, apesar de muito relevante, é quase inexistente na literatura. Além disso, este
trabalho também introduz novas funções de dissimilaridade que podem ser usadas no
agrupamento dinâmico de dados simbólicos. Os algoritmos de agrupamento dinâmico
consistem em obter, simultaneamente, uma partição em um número fixo de classes e a
identificação de um representante para cada classe, minimizando localmente um critério que
mede a adequação entre as classes e os seus representantes.
Para validar esse estudo, foram realizados experimentos com bases de dados de
referência na literatura e dois conjuntos de dados artificiais de intervalos com diferentes graus
de dificuldade de classificação, objetivando a comparação das funções avaliadas. A precisão
dos resultados foi mensurada por um índice externo de agrupamento aplicado na validação
cruzada não supervisionada, para as bases de dados reais, e também no quadro de uma
experiência Monte Carlo, para as bases de dados artificiais. Com os resultados alcançados é
possível verificar a adequação das diversas funções de dissimilaridade aos diferentes tipos de
dados simbólicos (multivalorado, multivalorado ordinal, intervalar, e modal de mesmo
suporte e de suportes diferentes), bem como identificar as melhores configurações de funções.
Testes estatísticos validam as conclusões
|
2 |
Implementacion de un algoritmo de monitoreo de salud estructural basado en objetos simbolicos y clasificación por agrupamientoLagos Flores, Gustavo Patricio January 2017 (has links)
Magíster en Ciencias de la Ingeniería, Mención Ingeniería Sísmica / El presente trabajo de Tesis muestra la implementación y análisis de variados métodos de aprendizaje de máquinas y minería de datos, desde la fase de extracción de características sensibles usando objetos simbólicos y clasificación mediante algoritmos de agrupamiento, para el estudio y monitoreo de la condición estructural de obras civiles, con énfasis en la detección temprana de la ocurrencia de daños estructurales.
El monitoreo de salud estructural mediante algoritmos de minería de datos, reconocimiento de patrones y aprendizaje de máquinas es un campo moderno y activo en la Ingeniería Civil. El flujo general es que a partir de mediciones de aceleración en sitio y utilizando metodologías de identificación de sistemas, se extrae la información modal que representa algún modelo clásico de la dinámica estructural. En este trabajo se busca extender el tipo de información que se puede extraer desde las series de aceleración, estudiando el uso de las series de aceleración en bruto y a su vez mediante la extracción de características sensibles usando ajustes de modelos autoregresivos.
La metodología global que se utiliza está basada en el agrupamiento de objetos simbólicos que representan el comportamiento estadístico de características sensibles, y se implementa tanto en series de aceleración obtenidas en laboratorio como en un edificio en operación instrumentado. En el segundo capítulo se estudian las series de aceleración en bruto como entrada para la transformación a objetos simbólicos con uso de histogramas e intervalos intercuartiles, concluyéndose que la energía de entrada es altamente determinante en los grupos obtenidos por los algoritmos de clasificación. Aún así, se puede extraer información del estado estructural si se analizan series de aceleración obtenidas desde un misma condición operacional y ambiental. En el tercer capítulo se estudia la extracción de otro tipo de característica basada en modelos autoregresivos, con las que se generan series de coeficientes de modelos AR(p) ajustados a las series de aceleración originales, encontrándose que los parámetros AR son mucho más sensibles a los cambios estructurales que la aceleración y que dicha sensibilidad puede aumentarse sin pérdida de robustez si se consideran líneas base de referencia. En el cuarto capítulo se analiza el uso de las series de coeficientes AR como entrada para la condensación a objetos simbólicos con los que realizar el agrupamiento, consiguiendo una mejora considerable en la separación de con respecto al uso de las series de aceleración en bruto.
|
3 |
Techniques d'anormalité appliquées à la surveillance de santé structurale / Novelty detection applied to structural health monitoringCury, Alexandre 16 December 2010 (has links)
Le paradigme de la surveillance de santé structurale repose sur l'introduction d'indicateurs fiables et robustes permettant de détecter, localiser, quantifier et prédire un endommagement de manière précoce. En effet, la détection d'une modification structurale susceptible de devenir critique peut éviter l'occurrence de dysfonctionnements majeurs associés à des conséquences sociales, économiques et environnementales très importantes.Ces dernières années, de nombreuses recherches se fait de l'évaluation dynamique un élément de diagnostic. La plupart des méthodes reposent sur une analyse temporelle ou fréquentielle des signaux pour en extraire une information compressée au travers de quelques caractéristiques modales ou d'indicateurs évolués construits sur ces caractéristiques. Ces indicateurs ont montré leur efficacité, mais le problème de leur sensibilité, de la nécessité de disposer d'un état de référence, et de leur fiabilité en terme de la probabilité de détection et de fausses alarmes, reste entier. De plus, le fait d'utiliser des mesures dynamiques (particulièrement si plusieurs voies de mesures sont considérées) mène au stockage de grands volumes de données.Dans ce contexte, il est important d'employer des techniques permettant d'utiliser autant des données brutes que les propriétés modales de manière pratique et pertinente. Pour cela, des représentations adaptées ont été développées pour améliorer la manipulation et le stockage des données. Ces représentations sont connues sous le nom de og données symboliques fg . Elles permettent de caractériser la variabilité et l'incertitude qui entachent chacune des variables. Le développement de nouvelles méthodes d'analyse adéquates pour traiter ces données est le but de l'Analyse de Données Symboliques (ADS).L'objectif de cette thèse est double : le premier consiste à utiliser différentes méthodes couplées à l'ADS pour détecter un endommagement structural. L'idée est d'appliquer des procédures de classification non supervisée (e.g. divisions hiérarchiques, agglomérations hiérarchiques et nuées dynamiques) et supervisée (e.g., arbres de décision Bayésiens, réseaux de neurones et machines à vecteurs supports) afin de discriminer les différents états de santé d'une structure. Dans le cadre de cette thèse, l'ADS est appliquée aux mesures dynamiques acquises emph{in situ} (accélérations) et aux paramètres modaux identifiés. Le deuxième objectif est la compréhension de l'impact des effets environnementaux, notamment de ceux liés à la variation thermique, sur les paramètres modaux. Pour cela, des techniques de régression des données sont proposées.Afin d'évaluer la pertinence des démarches proposées, des études de sensibilité sont menées sur des exemples numériques et des investigations expérimentales. Il est montré que le couplage de l'ADS aux méthodes de classification de données permet de discriminer des états structuraux avec un taux de réussite élevé. Par ailleurs, la démarche proposée permet de vérifier l'importance d'utiliser des techniques permettant de corriger les propriétés modales identifiées des effets thermiques, afin de produire un processus de détection d'endommagements efficace / The paradigm of structural health monitoring is based on the development of reliable and robust indicators able to detect, locate, quantify and predict damage. Studies related to damage detection in civil engineering structures have a noticeable interest for researchers in this area. Indeed, the detection of structural changes likely to become critical can avoid the occurrence of major dysfunctions associated with social, economic and environmental consequences.Recently, many researches have focused on dynamic assessment as part of structural diagnosis. Most of the studied techniques are based on time or frequency domain analyses to extract compressed information from modal characteristics or based on indicators built from these parameters. These indicators have shown their potentialities, but the problem of their sensitivity, the necessity of a reference state, and their reliability in terms of detection probability and false alarm, still remains. Moreover, the use of raw dynamic measurements (especially if several measurement channels are considered) leads to the storage of large datasets.In this context, it is important to use techniques capable of dealing not only with raw data but also modal parameters in a practical and relevant way. In order to give some insights to this problem, appropriate representations have been developed to improve both manipulation and storage of data. These representations are known as og symbolic data fg. They are used to characterize the variability and uncertainty that exists within each variable. The development of new methods capable of dealing with this type of data is the goal of Symbolic Data Analysis (SDA).This thesis has two main objectives: the first one is to use different methods coupled with the SDA to detect structural damage. The idea is to employ clustering procedures (e.g., hierarchy-divisive, hierarchy-agglomerative and dynamic clouds) and supervised classification methods (e.g., Bayesien decision trees, neural networks and support vector machines) to discriminate different structural states. In this thesis, SDA is applied to dynamic measurements obtained on site (accelerations) and to the identified modal parameters. The second goal is to study the impact of environmental effects, particularly those related to thermal variation over modal parameters. To this end, a couple of regression techniques are proposed.In order to attest the efficiency of the proposed approaches, several sensibility studies considering numerical applications and experimental investigations are carried out. It is shown that SDA coupled with classification methods is able to distinguish structural conditions with adequate rates. Furthermore, it is stressed the importance of using techniques capable of correcting modal parameters from thermal effects in order to build efficient procedures for damage detection
|
4 |
Group recommendation strategies based on collaborative filteringRicardo de Melo Queiroz, Sérgio January 2003 (has links)
Made available in DSpace on 2014-06-12T15:59:01Z (GMT). No. of bitstreams: 2
arquivo4812_1.pdf: 2843132 bytes, checksum: cf053779fad5d73c77a2b107542256b3 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2003 / Ricardo de Melo Queiroz, Sérgio; de Assis Tenório Carvalho, Francisco. Group recommendation strategies based on collaborative filtering. 2003. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2003.
|
5 |
Algoritmos de agrupamentos fuzzy intervalares e ?ndice de valida??o para agrupamento de dados simb?licos do tipo intervalo / An interval fuzzy clustering and validation index for clusteinf in interval symbolic dataMoura, Ronildo Pinheiro de Ara?jo 21 February 2014 (has links)
Made available in DSpace on 2014-12-17T15:48:11Z (GMT). No. of bitstreams: 1
RonildoPAM_DISSERT.pdf: 2783175 bytes, checksum: c268ade677ca4b8c543ccc014b0aafef (MD5)
Previous issue date: 2014-02-21 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior / Symbolic Data Analysis (SDA) main aims to provide tools for reducing large databases
to extract knowledge and provide techniques to describe the unit of such data in complex
units, as such, interval or histogram. The objective of this work is to extend classical
clustering methods for symbolic interval data based on interval-based distance. The main
advantage of using an interval-based distance for interval-based data lies on the fact that
it preserves the underlying imprecision on intervals which is usually lost when real-valued
distances are applied. This work includes an approach allow existing indices to be adapted
to interval context. The proposed methods with interval-based distances are compared
with distances punctual existing literature through experiments with simulated data and
real data interval / A An?lise de Dados Simb?licos (SDA) tem como objetivo prover mecanismos de redu??o
de grandes bases de dados para extra??o do conhecimento e desenvolver m?todos que descrevem
esses dados em unidades complexas, tais como, intervalos ou um histograma. O
objetivo deste trabalho ? estender m?todos de agrupamento cl?ssicos para dados simb?licos
intervalares baseados em dist?ncias essencialmente intervalares. A principal vantagem
da utiliza??o de uma dist?ncia essencialmente intervalar est? no fato da preserva??o da
imprecis?o inerente aos intervalos, pois a imprecis?o ? normalmente perdida quando as
dist?ncias valoradas em R s?o aplicadas. Este trabalho inclui uma abordagem que permite
adaptar ?ndices de valida??o de agrupamento existentes para o contexto intervalar.
Os m?todos propostos com dist?ncias essencialmente intervalares s?o comparados a dist?ncias
pontuais existentes na literatura atrav?s de experimentos realizados com dados
sint?ticos e reais intervalares
|
6 |
Apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées / Supervised learning of Symbolic Data and adaptation to Big DataHaddad, Raja 23 November 2016 (has links)
Cette thèse a pour but l'enrichissement des méthodes supervisées d'analyse de données symboliques et l'extension de ce domaine aux données volumineuses, dites "Big Data". Nous proposons à cette fin une méthode supervisée nommée HistSyr. HistSyr convertit automatiquement les variables continues en histogrammes les plus discriminants pour les classes d'individus. Nous proposons également une nouvelle méthode d'arbres de décision symbolique, dite SyrTree. SyrTree accepte tous plusieurs types de variables explicatives et à expliquer pour construire l'arbre de décision symbolique. Enfin, nous étendons HistSyr aux Big Data, en définissant une méthode distribuée nommée CloudHistSyr. CloudHistSyr utilise Map/Reduce pour créer les histogrammes les plus discriminants pour des données trop volumineuses pour HistSyr. Nous avons testé CloudHistSyr sur Amazon Web Services (AWS). Nous démontrons la scalabilité et l’efficacité de notre méthode sur des données simulées et sur les données expérimentales. Nous concluons sur l’utilité de CloudHistSyr qui , grâce à ses résultats, permet l'étude de données massives en utilisant les méthodes d'analyse symboliques existantes. / This Thesis proposes new supervised methods for Symbolic Data Analysis (SDA) and extends this domain to Big Data. We start by creating a supervised method called HistSyr that converts automatically continuous variables to the most discriminant histograms for classes of individuals. We also propose a new method of symbolic decision trees that we call SyrTree. SyrTree accepts many types of inputs and target variables and can use all symbolic variables describing the target to construct the decision tree. Finally, we extend HistSyr to Big Data, by creating a distributed method called CloudHistSyr. Using the Map/Reduce framework, CloudHistSyr creates of the most discriminant histograms for data too big for HistSyr. We tested CloudHistSyr on Amazon Web Services. We show the efficiency of our method on simulated data and on actual car traffic data in Nantes. We conclude on overall utility of CloudHistSyr which, through its results, allows the study of massive data using existing symbolic analysis methods.
|
Page generated in 0.0552 seconds