Spelling suggestions: "subject:"análise dde dados simbólicos"" "subject:"análise dde dados imbólicos""
1 |
Agrupamento de dados intervalares usando uma abordagem não linearBARREIROS, Daniel Bion 24 August 2016 (has links)
Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-07-11T20:03:14Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Daniel Bion Barreiros.pdf: 539777 bytes, checksum: 8e84328a9bfeb5bf449948e1b27eaf03 (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-07-17T22:23:26Z (GMT) No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Daniel Bion Barreiros.pdf: 539777 bytes, checksum: 8e84328a9bfeb5bf449948e1b27eaf03 (MD5) / Made available in DSpace on 2018-07-17T22:23:26Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Daniel Bion Barreiros.pdf: 539777 bytes, checksum: 8e84328a9bfeb5bf449948e1b27eaf03 (MD5)
Previous issue date: 2016-08-24 / A Análise de Dados Simbólicos (ADS) é uma abordagem da área de inteligência computacional que visa desenvolver métodos para dados descritos por variáveis onde existem conjuntos de categorias, intervalos ou distribuições de probabilidade. O objetivo deste trabalho é estender um método probabilístico de agrupamento clássicos para dados simbólicos intervalares fazendo uso de funções de núcleo. A aplicação de funções de núcleo tem sido utilizada com sucesso no agrupamento para dados clássicos apresentando resultados positivos quando o conjunto de dados apresenta grupos não linearmente separáveis. No entanto, a literatura de ADS precisa de métodos probabilísticos para identificar grupos não linearmente separáveis. Para mostrar a eficácia do método proposto, foram realizados experimentos com conjuntos de dados intervalares reais, e conjuntos sintéticos fazendo uso de simulações Monte Carlo. Também se apresenta um estudo comparando o método proposto com diferentes algoritmos de agrupamento da literatura através de estatísticas que evidenciam o desempenho superior do método proposto em determinados casos. / Symbolic Data Analysis (SDA) is a domain in the computational intelligence area that aims to provide suitable methods for data described through multi-valued variables, where there are sets of categories, intervals, histograms, or weight (probability) distributions. This work aims to extend a probabilistic clustering method of classic data to symbolic interval data making use of kernel functions. The kernel functions application have been successfully used in classic data clustering showing positive results when the data set has non linearly separable groups. However, SDA literature needs more probabilistic methods to identify non linearly separable groups. To show the effectiveness of the proposed method, experiments were performed with real interval data sets, and synthetic interval data sets using Monte Carlo simulations. It is also presented a study comparing the proposed method with different clustering algorithms of the literature through statistics that demonstrate the superior performance of the proposed method in certain cases.
|
2 |
Abordagem Kernelizada Para Análise Discriminante GeneralizadaQueiroz, Diego Cesar Florencio de 30 July 2013 (has links)
Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-10T13:56:06Z
No. of bitstreams: 2
Dissertacao Diego de Queiroz.pdf: 4124952 bytes, checksum: 8b1119beb27827489557809772a98050 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-10T13:56:06Z (GMT). No. of bitstreams: 2
Dissertacao Diego de Queiroz.pdf: 4124952 bytes, checksum: 8b1119beb27827489557809772a98050 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-07-30 / Diferentes modelos clássicos já foram estendidos para a classificação de dados simbólicos
de natureza intervalar, como regressão logística e discriminante linear, entre vários
outros, contudo a maior parte desses classificadores foi desenvolvida para a resolução de
problemas linearmente separáveis, não possuindo um bom desempenho face à problemas
não-linearmente separáveis. Esse trabalho introduz duas abordagens baseadas no modelo
de discriminante linear generalizado para classificar dados simbólicos intervalares.
Nessas abordagens duas famílias de funções de kernel foram utilizadas separadamente
para transpor os dados para um espaço de alta dimensão, permitindo a classificação de
problemas não linearmente separáveis. Tal transposição é realizada através do kernel
trick utilizando o produto escalar convencional e o produto escalar kernelizado para
dados intervalares. Experimentos com conjuntos de dados sintéticos, híbrido entre sintético
e real e uma aplicação com um conjunto de dados intervalares real demonstram a
funcionalidade e eficiência dessa abordagem.
|
3 |
Abordagem híbrida para representação de forma e textura baseada em dados simbólicosALMEIDA, Carlos Wilson Dantas de 13 March 2013 (has links)
Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-12T18:31:53Z
No. of bitstreams: 2
Tese Carlos Dantas.pdf: 9442070 bytes, checksum: 23ec0df3aeec907b3058315538fe9c19 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-12T18:31:53Z (GMT). No. of bitstreams: 2
Tese Carlos Dantas.pdf: 9442070 bytes, checksum: 23ec0df3aeec907b3058315538fe9c19 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-03-13 / CNPq / A análise de dados simbólicos (Symbolic Data Analysis) é uma nova abordagem
na área de descoberta automática de conhecimento que visa desenvolver
métodos para dados descritos por variáveis onde existem conjuntos de categorias,
intervalos ou distribuições de probabilidade nas células das tabelas de dados.
Os dados clássicos passam a ser agregados a fim de representar variáveis mais
complexas como intervalos reais, conjuntos de categorias, histogramas, distribuições
de probabilidade, entre outras. Esta tese introduz um novo algoritmo
de agrupamento denominado Fuzzy Kohonen Clustering Network para dados
simbólicos do tipo intervalo. São apresentadas duas versões do algoritmo. Na
primeira versão, é introduzido o algoritmo clássico utilizando a abordagem da
análise de dados simbólicos. Na segunda versão, é introduzido o cálculo de pesos
para cada classe e para cada atributo da classe como principal alteração do
algoritmo original. Um outro ponto abordado se refere ao desenvolvimento de
novos descritores de imagens. Nos últimos anos, o uso de documentos e imagens
digitais vêm tomando um espaço cada vez maior na sociedade. Em resposta a
esses desafios, iremos investigar uma nova estratégia, desenvolvendo descritores
de forma e textura junto com os algoritmos de agrupamento. Estes descritores
são desenvolvidos nesta tese como uma abordagem baseada em dados simbólicos
de tipo intervalo.
|
4 |
Análise de dados poligonais: uma nova abordagem para dados simbólicosSILVA, Wagner Jorge Firmino da 15 February 2017 (has links)
Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-06-25T19:38:21Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Wagner Jorge Firmino da Silva.pdf: 2229812 bytes, checksum: cd0717859fc2db2f941c19518ac603d0 (MD5) / Made available in DSpace on 2018-06-25T19:38:21Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Wagner Jorge Firmino da Silva.pdf: 2229812 bytes, checksum: cd0717859fc2db2f941c19518ac603d0 (MD5)
Previous issue date: 2017-02-15 / CAPES / Análise de Dados Simbólicos (ADS) é um paradigma que fornece uma estrutura para construir, descrever, analisar e extrair conhecimento de dados mais complexos como intervalos, histogramas, distribuição de pesos ou lista de valores (categorias). Tipicamente, os dados simbólicos surgem em duas situações, ao longo da coleta e processamento de dados. Alguns dados coletados são inerentemente simbólicos e outros se tornam dados simbólicos após o processamento de enormes conjuntos de dados, a fim de resumi-los através de classes de dados. Dados poligonais, propostos neste trabalho, são estruturas complexas multivariadas de dados que são capazes de armazenar informações de classes de dados. Este trabalho introduz uma nova estrutura para análise de dados poligonais no paradigma de análise de dados simbólicos. Mostramos que dados poligonais generalizam dados de intervalos bivariados. Para análise de dados poligonais estatísticas descritivas e um modelo de regressão linear são propostos. Estudo de simulação de Monte Carlo são realizados para verificar o desempenho da previsão em dados poligonais. Dois conjuntos de dados reais são apresentados. / Symbolic Interval Data (SDA) is a paradigm which provides a framework for building, describing, analyzing and extracting knowledge from data more complex such as intervals, histograms, distribution of weights or list of values (categories). Typically, symbolic data arise in two situations throughout data collecting and processing. Some data collected are inherently symbolic and some become symbolic data after processing of huge data sets in order to summarize them through classes of data. Polygonal data present in this work is a multivariate complex structure of data that is able to store information from classes of data. This work introduces a new framework for polygonal data analysis in the symbolic data analysis paradigm. We show that polygonal data generalizes bivariate interval data. To analyse polygonal data descriptive statistics and a linear regression model are proposed for symbolic polygonal data. A Monte Carlo study of simulation are present to verify the performance of prediction for polygonal data. Two real dataset are present.
|
5 |
Ensaios de modelos de regressão linear e não-linear para dados simbólicos de tipo intervaloREYES, Dailys Maite Aliaga 14 February 2017 (has links)
Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-06-25T20:27:45Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Dailys Maite Aliaga Reyes.pdf: 1031688 bytes, checksum: d2b38d73f1c20d04530a539f28c3bff9 (MD5) / Made available in DSpace on 2018-06-25T20:27:45Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Dailys Maite Aliaga Reyes.pdf: 1031688 bytes, checksum: d2b38d73f1c20d04530a539f28c3bff9 (MD5)
Previous issue date: 2017-02-14 / FACEPE / A presente dissertação foi desenvolvida no marco da análise de dados simbólicos de tipo intervalo, especificamente, em modelos de regressão. Os dados simbólicos são extensões de tipos de dados clássicos. Em conjuntos de dados convencionais, os objetos são individualizados, enquanto em dados simbólicos estes são unificados por relacionamentos. Primeiramente, foi realizada uma revisão sobre dados desta natureza e das principais metodologias utilizadas para sua análise. Um novo modelo de precificação de ativos de capital (CAPM pelas siglas em inglês) foi proposto e testado para dados intervalares. A abordagem levou em conta a variação nos intervalos de preços diários em ativos de mercado, observando os preços máximos e mínimos ao invés dos preços de abertura ou fechamento que têm sido mais populares em aplicações econométricas com modelos de CAPM. Para os cálculos envolvendo intervalos de preços e retornos de ativos, as operações básicas da aritmética intervalar foram utilizadas. O modelo proposto (iCAPM) é uma das mais recentes aplicações CAPM intervalares, em que a estimativa do parâmetro β é um intervalo. Nesta ocasião, foi proposta uma nova interpretação para dito parâmetro em conformidade com a interpretação tradicional para o risco sistemático de ativos na área das finanças. Foram apresenta dos dois exemplos ilustrativos com os intervalos de preços diários da Microsoft e de Amazon, usando os retornos do mercado derivados do índice S&P500 do01denovembrode2013ao15dejaneirode2015. Em conformidade com os testes estatísticos aqui realizados, os resultados da aplicação do modelo CAPM intervalar (iCAPM) proposto são consistentes estatísticamente, comum a explicação confiável referente aos retornos dos ativos em questão e aos retornos do mercado. Conjuntamente, foi introduzido um modelo de regressão não-linear simétrica para dados simbólicos de tipo intervalo (SNLRM-IVD), o qual ajusta um único modelo de regressão não-linear aos pontos médios (centros) e amplitudes (ranges) dos intervalos considerando a distribuição de t-Student. O desempenho do modelo foi validado através do critério estatístico da magnitude média doerro relativo, desenvolvendo experimentos no âmbito de simulações de Monte Carlo em relação a vários cenários simbólicos com outliers. Além do mais, o modelo proposto foi ajustado a um conjunto real de dados intervalares. A principal característica deste modelo é que proporciona estimadores não sensíveis à presença de outliers. / The present dissertation was developed within the framework of the symbolic data analysis of interval-valued type, and it is specially related to regression models. Symbolic data are extensions of classic data types. In conventional data sets, objects are individualized, while in symbolic data they are unified by relationships. At first, a deep review about the nature of this kind of data and the main methodologies used for its analysis were performed. A new capital asset pricing model (CAPM) has been proposed and tested for interval symbolic data. The approach considered the daily variation of the price ranges in market assets according to the maximum and minimum prices rather than the opening or closing prices, which have been most popular in econometric applications with CAPM models. For calculations involving price ranges and asset returns, the basic operations concerning the interval arithmetic were used. The proposed model (iCAPM) is one of the most recent interval CAPM applications, in which the estimate of theβ-parameter is, in fact, an interval. On this occasion, a new interpretation was proposed for this parameter in accordance with the traditional interpretation for the systematic risk of the assets in the market. Two figurative examples involving the daily price ranges of Microsoft and Amazon have been presented, using the market returns from the S&P500 index in the period from November 1, 2013 to January 15, 2015. In accordance with the statistical tests performed here, the results of the application of the proposed model (iCAPM) are statistically consistent with a reliable explanation of the assets returns and the market returns in question. Secondly, a non-linear regression model for interval-valued data was introduced (SNLRM-IVD), which sets a single regression model to the midpoints (centers) and ranges of the intervals at once, considering thet-Student distribution. The performance of the model was validated through the statistical criterion of the average magnitude of the relative error, undergoing experiments in the scope of Monte Carlo simulations in relation to several symbolic scenarios with outliers. Finally, the proposed model was fitted to a real set of interval data. The main feature of this SNLRM-IVD is that it provides estimators that are not sensitive to the presence of outliers.
|
6 |
Uma abordagem adaptativa de learning vector quantization para classificação de dados intervalaresSilva Filho, Telmo de Menezes e 27 February 2013 (has links)
Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-09T14:01:45Z
No. of bitstreams: 2
Dissertacao Telmo Filho_DEFINITIVA.pdf: 781380 bytes, checksum: fb398deff6f8aa856428277eb3236020 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-09T14:01:45Z (GMT). No. of bitstreams: 2
Dissertacao Telmo Filho_DEFINITIVA.pdf: 781380 bytes, checksum: fb398deff6f8aa856428277eb3236020 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-02-27 / A Análise de Dados Simbólicos lida com tipos de dados complexos, capazes de modelar a
variabilidade interna dos dados e dados imprecisos. Dados simbólicos intervalares surgem
naturalmente de valores como variação de temperatura diária, pressão sanguínea, entre
outros. Esta dissertação introduz um algoritmo de Learning Vector Quantization para
dados simbólicos intervalares, que usa uma distância Euclidiana intervalar ponderada e
generalizada para medir a distância entre instâncias de dados e protótipos.
A distância proposta tem quatro casos especiais. O primeiro caso é a distância
Euclidiana intervalar e tende a modelar classes e clusters com formas esféricas. O
segundo caso é uma distância intervalar baseada em protótipos que modela subregiões
não-esféricas e de tamanhos similares dentro das classes. O terceiro caso permite à
distância lidar com subregiões não-esféricas e de tamanhos variados dentro das classes. O
último caso permite à distância modelar classes desbalanceadas, compostas de subregiões
de várias formas e tamanhos. Experimentos são feitos para avaliar os desempenhos
do Learning Vector Quantization intervalar proposto, usando todos os quatro casos da
distância proposta. Três conjuntos de dados intervalares sintéticos e um conjunto de
dados intervalares reais são usados nesses experimentos e seus resultados mostram a
utilidade de uma distância localmente ponderada.
|
7 |
Uma abordagem adaptativa de learning vector quantization para classificação de dados intervalaresSilva Filho, Telmo de Menezes e 27 February 2013 (has links)
Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-12T17:06:49Z
No. of bitstreams: 2
Dissertacao Telmo Silva Filho.pdf: 781380 bytes, checksum: fb398deff6f8aa856428277eb3236020 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-13T13:23:59Z (GMT) No. of bitstreams: 2
Dissertacao Telmo Silva Filho.pdf: 781380 bytes, checksum: fb398deff6f8aa856428277eb3236020 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-13T13:23:59Z (GMT). No. of bitstreams: 2
Dissertacao Telmo Silva Filho.pdf: 781380 bytes, checksum: fb398deff6f8aa856428277eb3236020 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-02-27 / A Análise de Dados Simbólicos lida com tipos de dados complexos, capazes de modelar a
variabilidade interna dos dados e dados imprecisos. Dados simbólicos intervalares surgem
naturalmente de valores como variação de temperatura diária, pressão sanguínea, entre
outros. Esta dissertação introduz um algoritmo de Learning Vector Quantization para
dados simbólicos intervalares, que usa uma distância Euclidiana intervalar ponderada e
generalizada para medir a distância entre instâncias de dados e protótipos.
A distância proposta tem quatro casos especiais. O primeiro caso é a distância
Euclidiana intervalar e tende a modelar classes e clusters com formas esféricas. O
segundo caso é uma distância intervalar baseada em protótipos que modela subregiões
não-esféricas e de tamanhos similares dentro das classes. O terceiro caso permite à
distância lidar com subregiões não-esféricas e de tamanhos variados dentro das classes. O
último caso permite à distância modelar classes desbalanceadas, compostas de subregiões
de várias formas e tamanhos. Experimentos são feitos para avaliar os desempenhos
do Learning Vector Quantization intervalar proposto, usando todos os quatro casos da
distância proposta. Três conjuntos de dados intervalares sintéticos e um conjunto de
dados intervalares reais são usados nesses experimentos e seus resultados mostram a
utilidade de uma distância localmente ponderada.
|
8 |
Modelo de Regressão Elíptico Bivariado IntervalarPaula, Laura Vicuña Torres de 21 August 2015 (has links)
Submitted by Irene Nascimento (irene.kessia@ufpe.br) on 2016-02-25T15:12:18Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Laura_Torres.pdf: 863817 bytes, checksum: 8fa460a07a7a29d10e0b7a64d4674663 (MD5) / Made available in DSpace on 2016-02-25T15:12:18Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Laura_Torres.pdf: 863817 bytes, checksum: 8fa460a07a7a29d10e0b7a64d4674663 (MD5)
Previous issue date: 2015-08-21 / Facepe / A análisededadossimbólicos(ADS)éumaabordagemestatísticabastanteutili-
zada emgrandesbasesdedadosetemcomocaracterísticaagregardadosemgruposde
interesse.Essestiposdedadospodemserrepresentadosporintervalos,conjuntosdecate-
gorias, distribuiçãodefrequência,distribuiçãodeprobabilidade,entreoutrostipos.Neste
trabalho abordaremosdadossimbólicosdotipointervaloquesãocomumenteutilizados
em aplicações nanceiras,mineraçãodedados,tráfegoderedes,dadoscon denciais,etc.
Inicialmente,ummodeloderegressãoelípticobivariadointervalarqueconsideraacor-
relação entreoslimitesinferioresesuperioresdeumavariávelsimbólicaintervalarfoi
proposto.Derivamosafunção escore e amatrizdeinformaçãode Fisher. Ométodo
de máximaverossimilhançafoidesenvolvidoparaestimaçãodosparâmetrosdomodelo
proposto.EstudosdesimulaçãodeMonteCarloemqueavaliamosasensibilidadedoerro
de previsãoquantoapresençadeintervalos outliers foram apresentados.Osresultados
mostraram queomodelo tStudentbivariadointervalarémenossensívelnapresençade
intervalos outliers do queomodelonormalbivariadointervalar.Umconjuntodedados
reais foiutilizadoparailustrarametodologiaabordada / The symbolicdataanalysis(SDA)isastatisticalapproachwidelyusedinlargedata-
bases andthatischaracterizedbyaggregatedataintointerestgroups.Thesedatatypes
mayberepresentedbyintervals,setsofcategories,frequencydistribution,probabilitydis-
tribution, amongothertypes.Inthispaperwediscusssymbolicdataofintervaltypethat
are commonlyusedin nancialapplications,datamining,networktra c,con dential
data, etc.First,anintervalbivariateellipticalregressionmodelthatconsidersthecorre-
lation betweentheupperandlowerlimitsofanintervalsymbolicvariablewasproposed.
WederivethescorefunctionandtheFisherinformationmatrix.Themaximumlikelihood
methodwasdevelopedtoestimatetheparametersoftheproposedmodel.MonteCarlo
simulationstudieswasperformedtoevaluatethesensitivityofthepredictiveerrorfor
the presenceofoutliersintervals.Theresultsshowedthattheintervalbivariate t-Student
modelislesssensitiveinpresenceofoutliersintervalsthantheintervalbivariatenormal
model.Arealdatasetswasusedtoillustratethediscussedmethodology.
|
9 |
Uma solução em filtragem de informação para sistemas de recomendação baseada em análise de dados simbólicosLeite Dantas Bezerra, Byron January 2004 (has links)
Made available in DSpace on 2014-06-12T15:58:32Z (GMT). No. of bitstreams: 2
arquivo4647_1.pdf: 2182294 bytes, checksum: 356178597c2bf16867ecf53d523ac6f8 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2004 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Sistemas de Recomendação permitem que sites de Comércio
Eletrônico sugiram produtos aos consumidores provendo informações
relevantes que os ajudem no processo de compra. Para isso é necessária
a aquisição e a adequada utilização do perfil do usuário. O processo de
aquisição pode ser implícito (comprar um livro ou consultar um item em
uma loja on-line) ou explícito (dar uma nota a um filme ou recomendar um
artigo a um amigo). Já as soluções propostas para o segundo problema
podem ser classificadas em duas categorias principais com relação ao tipo
de filtragem adotada: Filtragem Baseada em Conteúdo (baseia-se na
análise da correlação entre o conteúdo dos itens com o perfil do usuário) e
Filtragem Colaborativa (baseada na correlação de perfis de usuários). Tais
técnicas possuem limitações, como escalabilidade na primeira abordagem
e latência na segunda. Contudo, elas são complementares, o que
impulsiona o surgimento de filtragens híbridas, cujo foco é aproveitar o
melhor de cada método. Todavia, as filtragens híbridas não superam
completamente os problemas principais de ambos os métodos.
A motivação deste trabalho surge do desafio de superar os
problemas principais existentes nos métodos de Filtragem Baseada em
Conteúdo. Para isso, o trabalho concentra-se no domínio de recomendação
de filmes, caracterizado por atributos complexos, como sinopse, e no qual
predomina uma aquisição explícita do perfil do usuário. Diante disso, o
presente trabalho apresenta um novo método de filtragem de informação
baseado nas teorias de Análise de Dados Simbólicos.
Na abordagem proposta o perfil é modelado através de um
conjunto de descrições simbólicas modais que sumarizam as informações
dos itens previamente avaliados. Uma função de dissimilaridade que leva
em conta as diferenças em posição e em conteúdo foi criada a fim de
possibilitar a comparação entre um novo item e o perfil do usuário. Para
avaliar o desempenho deste novo método foi modelado um ambiente
experimental baseado no EachMovie e definida uma metodologia para
avaliação dos resultados. Para fins de comparação é utilizada a filtragem
de informação por conteúdo baseado no algoritmo dos k Vizinhos Mais
Próximos (kNN).
A construção de um ambiente experimental de avaliação do
modelo permitiu diagnosticar estatisticamente o melhor desempenho da
filtragem baseada em dados simbólicos modais, tanto em velocidade
quanto em memória, com relação ao método baseado no kNN
|
10 |
Agrupamento de dados simbólicos usando abordagem PossibilisticPimentel, Bruno Almeida 25 February 2013 (has links)
Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-09T13:28:57Z
No. of bitstreams: 2
BrunoAlmeidaPimentel.pdf: 2629725 bytes, checksum: 3c61892a3e135f9ca4c87c3fa5a73068 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-09T13:28:57Z (GMT). No. of bitstreams: 2
BrunoAlmeidaPimentel.pdf: 2629725 bytes, checksum: 3c61892a3e135f9ca4c87c3fa5a73068 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-02-25 / CNPq / Este trabalho relata sobre os diferentes métodos de agrupamento presentes na literatura atual
e introduz métodos de agrupamento baseado na abordagem possibilística para dados intervalares.
Tem como objetivo estender os métodos clássicos de agrupamento possibilístico para
dados intervalares simbólicos. Além disso, é proposto uma nova abordagem possibilística em
que há um grau de pertinência diferente para cada variável e classe. A abordagem possibilística
considera a pertinência como possibilidades dos objetos a classes e a partição resultante dos
dados pode ser entendida como uma partição possibilística. O algoritmo conhecido dessa categoria
é o Possibilístic C-Means (PCM). No PCM, a otimização da função objetivo em alguns
conjuntos de dados pode ajudar a identificar outliers e dados ruidosos. A Análise de Dados
Simbólico (ADS) surgiu para lidar com variáveis simbólicas, que podem ser do tipo intervalos,
histogramas, e até mesmo funções, a fim de considerar a variabilidade e/ou a incerteza
inata aos dados. As técnicas de ADS tornam-se uma poderosa ferramenta quando usadas em
métodos de agrupamentos, o que causa um constante crescimento em pesquisas para o aprimoramento
destas técnicas usadas nos mais variados algoritmos, tais como em K-Means, Support
Vector Machine (SVM) e Kernel. Objetivando avaliar o desempenho dos métodos propostos e
os presentes na literatura, um estudo comparativo destes métodos em relação ao agrupamento
de objetos simbólicos do tipo intervalo é realizado. Foram planejados experimentos com dados
sintéticos, usando o experimento Monte Carlo, e dados reais. O índice corrigido de Rand (CR)
e a taxa de erro global de classificação (OERC) são usados para avaliar os métodos.
|
Page generated in 0.0552 seconds