Global ETD Search

1	Agrupamento de dados intervalares usando uma abordagem não linear BARREIROS, Daniel Bion 24 August 2016 (has links) Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-07-11T20:03:14Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Daniel Bion Barreiros.pdf: 539777 bytes, checksum: 8e84328a9bfeb5bf449948e1b27eaf03 (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-07-17T22:23:26Z (GMT) No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Daniel Bion Barreiros.pdf: 539777 bytes, checksum: 8e84328a9bfeb5bf449948e1b27eaf03 (MD5) / Made available in DSpace on 2018-07-17T22:23:26Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Daniel Bion Barreiros.pdf: 539777 bytes, checksum: 8e84328a9bfeb5bf449948e1b27eaf03 (MD5) Previous issue date: 2016-08-24 / A Análise de Dados Simbólicos (ADS) é uma abordagem da área de inteligência computacional que visa desenvolver métodos para dados descritos por variáveis onde existem conjuntos de categorias, intervalos ou distribuições de probabilidade. O objetivo deste trabalho é estender um método probabilístico de agrupamento clássicos para dados simbólicos intervalares fazendo uso de funções de núcleo. A aplicação de funções de núcleo tem sido utilizada com sucesso no agrupamento para dados clássicos apresentando resultados positivos quando o conjunto de dados apresenta grupos não linearmente separáveis. No entanto, a literatura de ADS precisa de métodos probabilísticos para identificar grupos não linearmente separáveis. Para mostrar a eficácia do método proposto, foram realizados experimentos com conjuntos de dados intervalares reais, e conjuntos sintéticos fazendo uso de simulações Monte Carlo. Também se apresenta um estudo comparando o método proposto com diferentes algoritmos de agrupamento da literatura através de estatísticas que evidenciam o desempenho superior do método proposto em determinados casos. / Symbolic Data Analysis (SDA) is a domain in the computational intelligence area that aims to provide suitable methods for data described through multi-valued variables, where there are sets of categories, intervals, histograms, or weight (probability) distributions. This work aims to extend a probabilistic clustering method of classic data to symbolic interval data making use of kernel functions. The kernel functions application have been successfully used in classic data clustering showing positive results when the data set has non linearly separable groups. However, SDA literature needs more probabilistic methods to identify non linearly separable groups. To show the effectiveness of the proposed method, experiments were performed with real interval data sets, and synthetic interval data sets using Monte Carlo simulations. It is also presented a study comparing the proposed method with different clustering algorithms of the literature through statistics that demonstrate the superior performance of the proposed method in certain cases. Inteligência computacional Análise de dados simbólicos
2	Abordagem Kernelizada Para Análise Discriminante Generalizada Queiroz, Diego Cesar Florencio de 30 July 2013 (has links) Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-10T13:56:06Z No. of bitstreams: 2 Dissertacao Diego de Queiroz.pdf: 4124952 bytes, checksum: 8b1119beb27827489557809772a98050 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-10T13:56:06Z (GMT). No. of bitstreams: 2 Dissertacao Diego de Queiroz.pdf: 4124952 bytes, checksum: 8b1119beb27827489557809772a98050 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2013-07-30 / Diferentes modelos clássicos já foram estendidos para a classificação de dados simbólicos de natureza intervalar, como regressão logística e discriminante linear, entre vários outros, contudo a maior parte desses classificadores foi desenvolvida para a resolução de problemas linearmente separáveis, não possuindo um bom desempenho face à problemas não-linearmente separáveis. Esse trabalho introduz duas abordagens baseadas no modelo de discriminante linear generalizado para classificar dados simbólicos intervalares. Nessas abordagens duas famílias de funções de kernel foram utilizadas separadamente para transpor os dados para um espaço de alta dimensão, permitindo a classificação de problemas não linearmente separáveis. Tal transposição é realizada através do kernel trick utilizando o produto escalar convencional e o produto escalar kernelizado para dados intervalares. Experimentos com conjuntos de dados sintéticos, híbrido entre sintético e real e uma aplicação com um conjunto de dados intervalares real demonstram a funcionalidade e eficiência dessa abordagem. Análise de Dados Simbólicos Kernel Discriminantes Lineares
3	Abordagem híbrida para representação de forma e textura baseada em dados simbólicos ALMEIDA, Carlos Wilson Dantas de 13 March 2013 (has links) Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-12T18:31:53Z No. of bitstreams: 2 Tese Carlos Dantas.pdf: 9442070 bytes, checksum: 23ec0df3aeec907b3058315538fe9c19 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-12T18:31:53Z (GMT). No. of bitstreams: 2 Tese Carlos Dantas.pdf: 9442070 bytes, checksum: 23ec0df3aeec907b3058315538fe9c19 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2013-03-13 / CNPq / A análise de dados simbólicos (Symbolic Data Analysis) é uma nova abordagem na área de descoberta automática de conhecimento que visa desenvolver métodos para dados descritos por variáveis onde existem conjuntos de categorias, intervalos ou distribuições de probabilidade nas células das tabelas de dados. Os dados clássicos passam a ser agregados a fim de representar variáveis mais complexas como intervalos reais, conjuntos de categorias, histogramas, distribuições de probabilidade, entre outras. Esta tese introduz um novo algoritmo de agrupamento denominado Fuzzy Kohonen Clustering Network para dados simbólicos do tipo intervalo. São apresentadas duas versões do algoritmo. Na primeira versão, é introduzido o algoritmo clássico utilizando a abordagem da análise de dados simbólicos. Na segunda versão, é introduzido o cálculo de pesos para cada classe e para cada atributo da classe como principal alteração do algoritmo original. Um outro ponto abordado se refere ao desenvolvimento de novos descritores de imagens. Nos últimos anos, o uso de documentos e imagens digitais vêm tomando um espaço cada vez maior na sociedade. Em resposta a esses desafios, iremos investigar uma nova estratégia, desenvolvendo descritores de forma e textura junto com os algoritmos de agrupamento. Estes descritores são desenvolvidos nesta tese como uma abordagem baseada em dados simbólicos de tipo intervalo. Análise de dados simbólicos Métodos de agrupamento Processamento de imagens
4	Modelos de regressão para dados simbólicos de natureza intervalar de Andrade Lima Neto, Eufrasio 31 January 2008 (has links) Made available in DSpace on 2014-06-12T15:49:15Z (GMT). No. of bitstreams: 1 license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2008 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / O processo de descoberta de conhecimento tem por objetivo a extração de informações úteis (conhecimento) em bases de dados. As ferramentas utilizadas para execução do processo de extração de conhecimento são genéricas e derivadas de diferentes áreas de conhecimento tais como da estatística, aprendizagem de máquina e banco de dados. Dentre as técnicas estatísticas, os modelos de regressão procuram classificar ou prever o comportamento de uma variável dependente (resposta) a partir das informações provenientes de um conjunto de variáveis independentes (explicativas). A análise de dados simbólicos (SDA) (Bock & Diday 2000) tem sido introduzida como uma novo domínio relacionado à análise multivariada, reconhecimento de padrões e inteligência artificial com o objetivo de estender os métodos estatísticos e de análise exploratória de dados para dados simbólicos. O objetivo deste trabalho é propor métodos de regressão linear e não-linear para dados simbólicos que apresentem uma performance de predição superior ao método proposto por Billard & Diday (2000), no caso de variáveis simbólicas tipo intervalo Modelos de Regressão Variável Intervalar Dados Simbólicos
5	Análise de dados poligonais: uma nova abordagem para dados simbólicos SILVA, Wagner Jorge Firmino da 15 February 2017 (has links) Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-06-25T19:38:21Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Wagner Jorge Firmino da Silva.pdf: 2229812 bytes, checksum: cd0717859fc2db2f941c19518ac603d0 (MD5) / Made available in DSpace on 2018-06-25T19:38:21Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Wagner Jorge Firmino da Silva.pdf: 2229812 bytes, checksum: cd0717859fc2db2f941c19518ac603d0 (MD5) Previous issue date: 2017-02-15 / CAPES / Análise de Dados Simbólicos (ADS) é um paradigma que fornece uma estrutura para construir, descrever, analisar e extrair conhecimento de dados mais complexos como intervalos, histogramas, distribuição de pesos ou lista de valores (categorias). Tipicamente, os dados simbólicos surgem em duas situações, ao longo da coleta e processamento de dados. Alguns dados coletados são inerentemente simbólicos e outros se tornam dados simbólicos após o processamento de enormes conjuntos de dados, a ﬁm de resumi-los através de classes de dados. Dados poligonais, propostos neste trabalho, são estruturas complexas multivariadas de dados que são capazes de armazenar informações de classes de dados. Este trabalho introduz uma nova estrutura para análise de dados poligonais no paradigma de análise de dados simbólicos. Mostramos que dados poligonais generalizam dados de intervalos bivariados. Para análise de dados poligonais estatísticas descritivas e um modelo de regressão linear são propostos. Estudo de simulação de Monte Carlo são realizados para veriﬁcar o desempenho da previsão em dados poligonais. Dois conjuntos de dados reais são apresentados. / Symbolic Interval Data (SDA) is a paradigm which provides a framework for building, describing, analyzing and extracting knowledge from data more complex such as intervals, histograms, distribution of weights or list of values (categories). Typically, symbolic data arise in two situations throughout data collecting and processing. Some data collected are inherently symbolic and some become symbolic data after processing of huge data sets in order to summarize them through classes of data. Polygonal data present in this work is a multivariate complex structure of data that is able to store information from classes of data. This work introduces a new framework for polygonal data analysis in the symbolic data analysis paradigm. We show that polygonal data generalizes bivariate interval data. To analyse polygonal data descriptive statistics and a linear regression model are proposed for symbolic polygonal data. A Monte Carlo study of simulation are present to verify the performance of prediction for polygonal data. Two real dataset are present. Análise de dados simbólicos Dados poligonais Regressão
6	Ensaios de modelos de regressão linear e não-linear para dados simbólicos de tipo intervalo REYES, Dailys Maite Aliaga 14 February 2017 (has links) Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-06-25T20:27:45Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Dailys Maite Aliaga Reyes.pdf: 1031688 bytes, checksum: d2b38d73f1c20d04530a539f28c3bff9 (MD5) / Made available in DSpace on 2018-06-25T20:27:45Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Dailys Maite Aliaga Reyes.pdf: 1031688 bytes, checksum: d2b38d73f1c20d04530a539f28c3bff9 (MD5) Previous issue date: 2017-02-14 / FACEPE / A presente dissertação foi desenvolvida no marco da análise de dados simbólicos de tipo intervalo, especiﬁcamente, em modelos de regressão. Os dados simbólicos são extensões de tipos de dados clássicos. Em conjuntos de dados convencionais, os objetos são individualizados, enquanto em dados simbólicos estes são uniﬁcados por relacionamentos. Primeiramente, foi realizada uma revisão sobre dados desta natureza e das principais metodologias utilizadas para sua análise. Um novo modelo de preciﬁcação de ativos de capital (CAPM pelas siglas em inglês) foi proposto e testado para dados intervalares. A abordagem levou em conta a variação nos intervalos de preços diários em ativos de mercado, observando os preços máximos e mínimos ao invés dos preços de abertura ou fechamento que têm sido mais populares em aplicações econométricas com modelos de CAPM. Para os cálculos envolvendo intervalos de preços e retornos de ativos, as operações básicas da aritmética intervalar foram utilizadas. O modelo proposto (iCAPM) é uma das mais recentes aplicações CAPM intervalares, em que a estimativa do parâmetro β é um intervalo. Nesta ocasião, foi proposta uma nova interpretação para dito parâmetro em conformidade com a interpretação tradicional para o risco sistemático de ativos na área das ﬁnanças. Foram apresenta dos dois exemplos ilustrativos com os intervalos de preços diários da Microsoft e de Amazon, usando os retornos do mercado derivados do índice S&P500 do01denovembrode2013ao15dejaneirode2015. Em conformidade com os testes estatísticos aqui realizados, os resultados da aplicação do modelo CAPM intervalar (iCAPM) proposto são consistentes estatísticamente, comum a explicação conﬁável referente aos retornos dos ativos em questão e aos retornos do mercado. Conjuntamente, foi introduzido um modelo de regressão não-linear simétrica para dados simbólicos de tipo intervalo (SNLRM-IVD), o qual ajusta um único modelo de regressão não-linear aos pontos médios (centros) e amplitudes (ranges) dos intervalos considerando a distribuição de t-Student. O desempenho do modelo foi validado através do critério estatístico da magnitude média doerro relativo, desenvolvendo experimentos no âmbito de simulações de Monte Carlo em relação a vários cenários simbólicos com outliers. Além do mais, o modelo proposto foi ajustado a um conjunto real de dados intervalares. A principal característica deste modelo é que proporciona estimadores não sensíveis à presença de outliers. / The present dissertation was developed within the framework of the symbolic data analysis of interval-valued type, and it is specially related to regression models. Symbolic data are extensions of classic data types. In conventional data sets, objects are individualized, while in symbolic data they are uniﬁed by relationships. At ﬁrst, a deep review about the nature of this kind of data and the main methodologies used for its analysis were performed. A new capital asset pricing model (CAPM) has been proposed and tested for interval symbolic data. The approach considered the daily variation of the price ranges in market assets according to the maximum and minimum prices rather than the opening or closing prices, which have been most popular in econometric applications with CAPM models. For calculations involving price ranges and asset returns, the basic operations concerning the interval arithmetic were used. The proposed model (iCAPM) is one of the most recent interval CAPM applications, in which the estimate of theβ-parameter is, in fact, an interval. On this occasion, a new interpretation was proposed for this parameter in accordance with the traditional interpretation for the systematic risk of the assets in the market. Two ﬁgurative examples involving the daily price ranges of Microsoft and Amazon have been presented, using the market returns from the S&P500 index in the period from November 1, 2013 to January 15, 2015. In accordance with the statistical tests performed here, the results of the application of the proposed model (iCAPM) are statistically consistent with a reliable explanation of the assets returns and the market returns in question. Secondly, a non-linear regression model for interval-valued data was introduced (SNLRM-IVD), which sets a single regression model to the midpoints (centers) and ranges of the intervals at once, considering thet-Student distribution. The performance of the model was validated through the statistical criterion of the average magnitude of the relative error, undergoing experiments in the scope of Monte Carlo simulations in relation to several symbolic scenarios with outliers. Finally, the proposed model was ﬁtted to a real set of interval data. The main feature of this SNLRM-IVD is that it provides estimators that are not sensitive to the presence of outliers. Inteligência computacional Análise de dados simbólicos Modelos de regressão
7	Métodos de regressão robusta e kernel para dados intervalares FAGUNDES, Roberta Andrade de Araújo, CYSNEIROS, Francisco José de Azevêdo 16 December 2013 (has links) Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-12T19:39:46Z No. of bitstreams: 2 Tese Roberta Fagundes.pdf: 7867298 bytes, checksum: 0839d26ed0dc955fd5fc7770e39965b0 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-12T19:39:46Z (GMT). No. of bitstreams: 2 Tese Roberta Fagundes.pdf: 7867298 bytes, checksum: 0839d26ed0dc955fd5fc7770e39965b0 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2013-12-16 / O processo de descoberta de conhecimento tem o objetivo de extrair de informa¸c˜oes ´uteis (conhecimento) em bases de dados. As abordagens usadas na execu¸c˜ao do processo de extra¸c˜ao do conhecimento s˜ao gen´ericas e derivadas das diferentes ´areas de conhecimento, tais como da estat´ıstica, aprendizagem de m´aquina e banco de dados. A An´alise de Dados Simb´olicos (ADS) [Bock e Diday, (2000)] ´e introduzida como abordagem na ´area de descoberta autom´atica de conhecimento que visa desenvolver m´etodos para dados descritos por vari´aveis atrav´es de conjuntos de categorias, lista de valores, intervalos ou distribui¸c˜ao de probabilidade. Dentre as t´ecnicas estat´ısticas, os modelos de regress˜ao procuram prever o comportamento da vari´avel resposta (dependente) a partir de informa¸c˜oes provenientes do conjunto de vari´aveis preditoras (independentes). O objetivo deste trabalho ´e propor duas metodologias para an´alise de dados intervalares. A primeira metodologia aborda o m´etodo robusto em regress˜ao, que ´e uma alternativa para o uso do m´etodo dos m´ınimos quadrados quando os dados contˆem outliers. Enquanto a segunda aborda regress˜ao por kernel, que ´e um m´etodo que prover uma rela¸c˜ao n˜ao param´etrica entre as vari´aveis, sem utilizar um modelo com paramˆetros fixos, mas as taxas de convergˆencias dos estimadores n˜ao param´etricos s˜ao mais lentas do que a dos estimadores param´etricos. Experimentos com conjuntos de dados simulados e aplica¸c˜oes com conjuntos de dados reais intervalares indicam a funcionalidade e eficiˆencia dos m´etodos propostos. Regressão robusta Regressão Kernel Análise de dados simbólicos Dados simbólicos do tipo intervalo
8	Agrupamento de dados simbólicos intervalares usando funções de Kenel COSTA, Anderson Fabiano Batista Ferreira da 31 January 2011 (has links) Made available in DSpace on 2014-06-12T15:54:45Z (GMT). No. of bitstreams: 2 arquivo7569_1.pdf: 1287031 bytes, checksum: 800ef43411a3e9e106b5d9c3fffdf8d7 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2011 / A Análise de dados simbólicos (ADS) ou Symbolic Data Analysis é uma nova abordagem na área de descoberta automática de conhecimentos que visa desenvolver métodos para dados descritos por variáveis onde existem conjuntos de categorias, intervalos ou distribuições de probabilidade. O objetivo deste trabalho é estender métodos de agrupamento clássicos para dados simbólicos intervalares baseados em funções de kernel. A aplicação de funções de kernel tem sido amplamente utilizado na classificação não supervisionada para dados clássicos e apresenta bons resultados quando o conjunto apresenta uma disposição não-linear dos dados. No entanto, na literatura de ADS ainda necessita de métodos para identificar grupos não lineares. Este trabalho engloba os paradigmas de agrupamento rígido (hard) e difuso (fuzzy), e realiza tais agrupamentos utilizando as funções de kernel em um espaço de alta dimensão, conhecido como espaço de características. Os métodos propostos neste trabalho consideram duas variantes comumente utilizadas em abordagens de kernel, onde uma considera que o protótipo dos grupos está definido neste espaço de características de alta dimensão e outra que considera o protótipo definido no espaço original de entradas. Os métodos propostos são comparados com variações do método K-médias existentes na literatura de ADS através de experimentos realizados com dados simulados e dados reais intervalares fazendo uso do experimento Monte Carlo e métricas estatísticas que evidenciam o desempenho superior dos métodos propostos Análise de Dados Simbólicos Agrupamento Kernel K-médias Dados Simbólicos do tipo Intervalo
9	Métodos robustos em análise de agrupamento para dados simbólicos Cristina de Assis, Elaine 31 January 2011 (has links) Made available in DSpace on 2014-06-12T16:00:00Z (GMT). No. of bitstreams: 2 arquivo5813_1.pdf: 1242512 bytes, checksum: 898cc02cecdade8681b49f419621a5ce (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2011 / Faculdade de Amparo à Ciência e Tecnologia do Estado de Pernambuco / Análise de agrupamento (cluster analysis) visa organizar um conjunto de itens em grupos tal que os itens em um dado grupo têm alto grau de similaridade, enquanto itens pertencentes a grupos diferentes têm um alto grau de dissimilaridade. Técnicas de análise de agrupamento podem ser divididas em hierárquicas e de particionamento. Métodos hierárquicos formam seqüências de partições dos dados de entrada gerando assim hierarquias completas, enquanto métodos de particionamento procuram obter uma simples partição dos dados de entrada em um número fixo de grupos. Em geral esses métodos são divididos em dois grupos de paradigmas: rígido (hard) e difuso/nebuloso (fuzzy). Os algoritmos rígidos associam um item a apenas um grupo, enquanto os algoritmos difusos/nebulosos associam um item a todos os grupos através de um grau de pertinência do item em cada grupo. Os algoritmos de agrupamento baseados em medoid são conhecidos por serem menos sensíveis na presença de observações aberrantes/ruídos. Adicionalmente, esses algoritmos são mais flexíveis uma vez que a entrada de dados é uma matriz de dissimilaridade. A fim de modelar variabilidade e/ou incerteza inerente aos dados, variáveis podem assumir conjuntos de categorias ou intervalos, possivelmente até mesmo com freqüências ou pesos. A análise de dados simbólicos (Symbolic Data Analysis) é um domínio relacionado com análise multivariada, reconhecimento de padrão e inteligência artificial para tratar com conjuntos de dados simbólicos descritos por intervalos, distribuição de peso (probabilidade) ou conjuntos de categorias. Esta dissertação apresenta métodos de agrupamento rígidos e difusos/nebulosos baseados em medoid para conjuntos de dados simbólicos. Diferentes funções de distâncias padronizadas para dados simbólicos são também investigadas. Para avaliar os métodos aplicados a dados simbólicos, foram realizados experimentos com conjuntos de dados intervalares artificiais contendo observações aberrantes e conjuntos de dados simbólicos reais mistos. Os resultados da medida de qualidade adotada demonstraram que em geral os métodos baseados em medoid obtiveram um desempenho satisfatório em relação a outros métodos de particionamento existentes na literatura de dados simbólicos Análise de Agrupamento Análise de Dados Simbólicos Dados Simbólicos Mistos
10	Classificação Supervisionada Usando Dados Simbólicos de Semântica Modal César Donato Silva, Fábio January 2007 (has links) Made available in DSpace on 2014-06-12T16:00:26Z (GMT). No. of bitstreams: 2 arquivo6609_1.pdf: 1572704 bytes, checksum: 1b78e99bab6319081e75d92d5e7f2d0d (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2007 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / A Análise de Dados Simbólicos (Symbolic Data Analysis) é um domínio na área de descoberta automática de conhecimento que visa desenvolver métodos para dados descritos por variáveis que podem assumir como valor conjuntos ou listas de categorias, intervalos ou distribuições de probabilidade. Essas variáveis permitem levar em conta a variabilidade e/ou a incerteza presente nos dados. Este trabalho apresenta um classificador simbólico de semântica modal para dados simbólicos de tipo intervalo. O classificador proposto apresenta duas etapas básicas, a aprendizagem e a alocação, onde ambas necessitam de uma etapa precedente de préprocessamento que transforma os dados simbólicos do tipo intervalo em dados simbólicos modal. Cada exemplo do conjunto de aprendizagem é descrito por um vetor de intervalos. Após o pré-processamento, cada exemplo passa a ser descrito por um vetor de distribuições de pesos. Após a etapa de aprendizagem, cada classe é também descrita por um vetor de distribuições de pesos que sintetiza as informações dos exemplos da classe. Cada novo exemplo a ser atribuído a uma classe (etapa de alocação), representado por um vetor de intervalos, após a fase de pré-processamento passa a ser descrito por um vetor de distribuições de pesos. A alocação de um exemplo a uma classe é realizada através de funções de dissimilaridade que comparam pares de vetores de distribuições de pesos. Algumas funções de dissimilaridade desse tipo são consideradas nesse trabalho. A avaliação do desempenho desse classificador é realizada através da aplicação do mesmo a conjuntos de dados sintéticos em uma experiência Monte Carlo e a conjuntos de dados reais usando a técnica de validação cruzada leave-one-out. O desempenho é medido pela taxa (média) de erro de classificação e pelo tempo de execução das etapas de aprendizagem e classificação. Além disso, o desempenho desse classificador foi comparado com o desempenho de um classificador de tipo k-vizinhos mais próximos também de semântica modal. Através desses exemplos, esse trabalho mostra alguns dos interesses desse classificador de semântica modal Analise de dados simbólicos Classificador simbólico modal Classificação supervisionada Dados simbólicos modas Funções de dissimilaridade

Search results