Spelling suggestions: "subject:"dados simbólicos"" "subject:"dados simbolico""
1 |
Metodos de Agrupamento de Dados Simbolicos Baseados em funções de DissimilaridadesPatrícia da Silva, kelly 31 January 2008 (has links)
Made available in DSpace on 2014-06-12T15:51:50Z (GMT). No. of bitstreams: 1
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2008 / Com a crescente quantidade de informacões produzidas pelas diversas atividades humanas,
tem se tornado cada vez mais importante agregar, tratar e manipular grandes
massas de dados de modo a definir conceitos e extrair conhecimento destes dados. Esses
conceitos podem ser descritos por dados mais complexos, chamados dados simbolicos.
Nesse contexto, surge a necessidade de estender metodos exploratorios, estatisticos e representações
graficas para lidar com esse tipo de dados, em que cada variavel pode assumir
como valor um conjunto de categorias, intervalos ou distribuicões de probabilidades. A
analise de dados simbolicos e definida como a extensão dos metodos de analise de dados
classicos para tal tipo de dados. Com o intuito de estender metodos estatisticos e tecnicas
de aprendizado de maquina a esse tipo de dados, e necessario definir medidas de distância
apropriadas. Diversas medidas de distância têm sido propostas na literatura. No entanto,
ainda existe na literatura uma carência de analises comparativas dos desempenhos de
medidas de distância para dados simbolicos. A principal contribuicão desta Dissertacão
e prover uma avaliacão empirica de funções de dissimilaridade para dados simbolicos no
contexto de analise de agrupamento. Alem disso, foram propostas novas medidas de
dissimilaridade para dados simbolicos. Com o intuito de atingir esses objetivos, foi desenvolvido
um framework para agrupamento de dados simbolicos. Esse framework utiliza
funções de dissimilaridade baseadas em volume e algoritmos de agrupamento de dados
relacionais. Os experimentos foram executados com bases de dados de benchmark e duas
bases de dados artificiais com diferentes graus de dificuldade de agrupamento. Os resultados
obtidos foram avaliados atraves do indice de rand corrigido. Em seguida, foram
construidos os intervalos de confianca para comparar os desempenhos dos algoritmos de
agrupamento e das medidas de dissimilaridade
|
2 |
Classificador simbólico baseado em regiões de tipo casca convexaTupinambá D'Oliveira Júnior, Simith January 2005 (has links)
Made available in DSpace on 2014-06-12T16:01:16Z (GMT). No. of bitstreams: 2
arquivo7286_1.pdf: 1505089 bytes, checksum: dd1714eed2f544fc9d92cd54ceaddbf3 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2005 / Com os progressos recentes nas tecnologias das ciências de informacão, diferentes tecnicas
são introduzidas para sintetizar, analisar e extrair conhecimentos das informações armazenadas
em enormes bases de dados. A analise de dados simbolicos (SDA) e um
dominio na area de descoberta automatica de conhecimentos (KDD), relacionada com
analise de dados multivariados, reconhecimento de padrões, inteligência artificial e banco
de dados. SDA visa generalizar os metodos da analise exploratoria de dados e as tecnicas
estatisticas (analise fatorial, regress~ao, classificac~ao etc.) par dados simbolicos. Esses
novos dados são mais complexos do que os dados classicos, pois contêm variação interna
e são estruturados.
Este trabalho introduz um classificador para dados descritos por vetores de valores
quantitativos baseado em regi~oes de tipo casca convexa. A ideia central desta abordagem
e construir regiões que descrevem e discriminem classes de exemplos observados. Nos
classificadores para dados simbolicos baseados em regi~oes existentes na literatura de SDA,
a etapa de aprendizagem fornece a descric~ao de uma classe por uma região (ou conjunto de
regiões), definida pelo hiper-cubo formado pelos objetos pertencentes a esta classe. Esta
descricão e obtida atraves de um operador simbolico (junção) e um Grafo de Vizinhos
Mutuos. Na etapa de alocação, as novas observações são classificadas usando diferentes
funções de matching.
No classificador proposto neste trabalho, a descrição de cada classe e uma região (ou
conjunto de regiões) em Rp definida pela casca convexa formada pelos seus objetos. Esta
nova abordagem tem, como proposito, reduzir a sobre generalização que e produzida
quando a classe e descrita por uma região (ou conjunto de regiões) definida pelo hipercubo
formado pelos objetos da classe e, por isso, melhorar o desempenho do classificador.Na etapa de alocação, cada nova observação e afetada a uma classe ou grupo, de acordo
com uma função de dissimilaridade que compara a descric~ao de uma classe (uma região
ou um conjunto de regiões) com um ponto em Rp.
Diferentes conjuntos de dados reais e artificiais são usados nesta avaliacão. Para
os dados simulados, a performance do classificador proposto e avaliada pela taxa de
erro de classificação, tempo de execuc~ao e memoria utilizada, em comparac~ao com um
classificador para dados simbolicos que usa hiper-cubos para descrever as classes. Esta
performance e computada no quadro de uma simulação de tipo Monte Carlo. Para os
dados reais, a performance do classificador proposto tambem e avaliada pela taxa de
erro de classificação, tempo de execução e memoria utilizada em comparação com os
algoritmos Part e J48. A performance, para o caso real, e computada usando o 10-Fold
repetido.
Os resultados mostraram que, em termos da taxa de erro de classificação, o metodo
proposto e superior ao metodo em que as regiões são representadas por hiper-cubos, porem
o mesmo não ocorre em relação aos algoritmos Part e J48, pois, em algumas situações, o
metodo proposto e superior a esses algoritmos
|
3 |
Métodos de cluster para intervalos usando algoritmos do tipo nuvens dinâmicasMaria Cardoso Rodrigues de Souza, Renata January 2003 (has links)
Made available in DSpace on 2014-06-12T15:53:04Z (GMT). No. of bitstreams: 2
arquivo4841_1.pdf: 1339242 bytes, checksum: 436434b8efc86d7d29ed2ccfa1e7d871 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2003 / A análise de dados simbólicos (Symbolic Data Analysis) é uma nova abordagem na área de descoberta automática de conhecimentos que visa desenvolver métodos para dados descritos por varáveis onde existem conjuntos de categorias, intervalos ou distribuições de probabilidade nas células das tabelas de dados. O objetivo deste trabalho é introduzir métodos de cluster para intervalos usando algoritmos de nuvens dinâmicas. Estes algoritmos consistem em obter, simultaneamente, uma partição em classes e identificar um conjunto de representantes das classes minimizando um critério que mede a adequação entre as classes e os protótipos. Os algoritmos de nuvens dinâmicas com distâncias adaptativas também encontram uma partição e um conjunto de representantes minimizando uma função critério, mas em cada interação existe uma distância diferente para comparar cada classe com o seu protótipo. A vantagem das distâncias adaptativas é que o algoritmo de agrupamento é capaz de reconhecer classes de formas e tamanhos diferentes. Neste trabalho, foi desenvolvido um método de nuvens dinâmicas usando a distância L1 para intervalos. Além deste método, foram também introduzidos três métodos com, respectivamente, as distâncias L1 (City-Block), L2 (Euclidiana) e L¥ (Máximo) adaptativas para intervalos. Para validar os métodos, foram realizados experimentos com um conjunto de espécies de peixes e dois conjuntos de dados artificiais de intervalos com diferentes graus de dificuldade de classificação. Os resultados fornecidos pelos métodos têm sido avaliados por um índice externo na estrutura de uma experiência Monte Carlo e testes estatísticos evidenciam que o desempenho dos métodos adaptativos é superior ao dos métodos não adaptativos
|
Page generated in 0.0469 seconds