Spelling suggestions: "subject:"autoaprendizado."" "subject:"reaprendizado.""
1 |
Geração automática de Diagramas UML-RT a partir de Especificações CSPMuniz Ferreira, Patrícia January 2006 (has links)
Made available in DSpace on 2014-06-12T15:59:43Z (GMT). No. of bitstreams: 2
arquivo5506_1.pdf: 2709479 bytes, checksum: e806394a4c08eb8a4ff80d9d4f501b20 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2006 / Uma série temporal é definida como um conjunto de observações de um fenômeno
ordenadas no tempo. Existem vários problemas reais que podem ser representados por
séries temporais, como o consumo mensal de água de uma casa, registrado ao longo de
um mês; ou os valores de uma determinada aplicação financeira, medidos no decorrer
de uma semana.
A utilização da previsão de séries temporais pode ocorrer em diversas áreas,
como mercado financeiro, detecção de fraude, indústria farmacêutica, medicina, entre
outras. Existem vários modelos que podem ser utilizados para prever uma série
temporal. Com isso, selecionar o modelo mais adequado pode ser uma tarefa difícil, que
depende de fatores como o ajuste dos parâmetros dos modelos candidatos e as
características da série.
Podemos encontrar na literatura diversas abordagens que são utilizadas na
seleção de modelos de previsão. Em nosso trabalho foi utilizada uma abordagem de
Meta-Aprendizado, desenvolvida inicialmente para a seleção de algoritmos para
problemas de aprendizado e adaptada ao problema de seleção de modelos.
Diferentemente das abordagens mais comuns, a abordagem utilizada indica não apenas
o melhor modelo aplicável ao problema de entrada, mas um ranking dos modelos
candidatos baseado em critérios de desempenho fornecidos pelo usuário. Os resultados
de desempenho obtidos pelos modelos candidatos em problemas processados no
passado são utilizados na sugestão de modelos para novos problemas. Desta forma, a
solução aqui proposta é mais informativa, no sentido de possibilitar ao usuário uma
melhor percepção da relação entre os modelos candidatos. A abordagem foi investigada
em 4 estudos de caso e apresentou resultados satisfatórios
|
2 |
Seleção de modelos de previsão baseada em informações de desempenhoSANTOS, Patrícia Maforte dos January 2006 (has links)
Made available in DSpace on 2014-06-12T16:00:22Z (GMT). No. of bitstreams: 2
arquivo6445_1.pdf: 691950 bytes, checksum: 1d1d5a8d1d2f4c1729145e463fb50d46 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2006 / Uma série temporal é definida como um conjunto de observações de um fenômeno
ordenadas no tempo. Existem vários problemas reais que podem ser representados por
séries temporais, como o consumo mensal de água de uma casa, registrado ao longo de
um mês; ou os valores de uma determinada aplicação financeira, medidos no decorrer
de uma semana.
A utilização da previsão de séries temporais pode ocorrer em diversas áreas,
como mercado financeiro, detecção de fraude, indústria farmacêutica, medicina, entre
outras. Existem vários modelos que podem ser utilizados para prever uma série
temporal. Com isso, selecionar o modelo mais adequado pode ser uma tarefa difícil, que
depende de fatores como o ajuste dos parâmetros dos modelos candidatos e as
características da série.
Podemos encontrar na literatura diversas abordagens que são utilizadas na
seleção de modelos de previsão. Em nosso trabalho foi utilizada uma abordagem de
Meta-Aprendizado, desenvolvida inicialmente para a seleção de algoritmos para
problemas de aprendizado e adaptada ao problema de seleção de modelos.
Diferentemente das abordagens mais comuns, a abordagem utilizada indica não apenas
o melhor modelo aplicável ao problema de entrada, mas um ranking dos modelos
candidatos baseado em critérios de desempenho fornecidos pelo usuário. Os resultados
de desempenho obtidos pelos modelos candidatos em problemas processados no
passado são utilizados na sugestão de modelos para novos problemas. Desta forma, a
solução aqui proposta é mais informativa, no sentido de possibilitar ao usuário uma
melhor percepção da relação entre os modelos candidatos. A abordagem foi investigada
em 4 estudos de caso e apresentou resultados satisfatórios
|
3 |
Mineração de regras para seleção de técnicas de agrupamento para dados de expressão gênica de câncerNASCIMENTO, André Câmara Alves do 31 January 2009 (has links)
Made available in DSpace on 2014-06-12T15:52:33Z (GMT). No. of bitstreams: 1
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2009 / Diferentes algoritmos têm sido usados para agrupar dados de expressão gênica, porém não
há um único algoritmo que possa ser considerado o melhor independentemente dos dados a
serem analisados. Neste trabalho, aplicamos técnicas de Meta-aprendizado para relacionar
características de conjuntos de dados de expressão gênica ao desempenho de algoritmos de
agrupamento. No nosso contexto, cada meta-exemplo representa características descritivas de
uma base de dados de expressão gênica e um rótulo indicando o algoritmo de agrupamento
que obteve os melhores resultados quando aplicado aos dados. Um conjunto destes metaexemplos
é fornecido como entrada para um algoritmo de aprendizado (o meta-aprendiz), que,
por sua vez, é responsável por adquirir conhecimento relativo às características descritivas e
os melhores algoritmos. Neste trabalho, realizamos experimentos em um estudo de caso no
qual um meta-aprendiz foi utilizado para discriminar entre três algoritmos de agrupamento
candidatos, bem como para extrair conhecimento interpretável a partir dos experimentos. O
conhecimento extraído pelo meta-aprendiz foi útil para o entendimento da aplicabilidade de
cada algoritmo de agrupamento para problemas específicos
|
4 |
Meta-aprendizado para análise de desempenho de métodos de classificação multi-labelPINTO, Eduardo Ribas 31 January 2009 (has links)
Made available in DSpace on 2014-06-12T15:52:45Z (GMT). No. of bitstreams: 1
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2009 / Nos últimos anos, têm surgido diversas aplicações que utilizam algoritmos de Aprendizagem
de Máquina Supervisionada para resolver problemas de classificação envolvendo diversos
domínios. No entanto, muitas destas aplicações se restringem a utilizarem algoritmos singlelabel,
ou seja, que atribuem apenas uma classe a uma dada instância. Tais aplicações se
tornam inadequadas quando essa mesma instância, no mundo real, pertence a mais de uma
classe simultaneamente. Tal problema é denominado na literatura como Problema de Classificação
Multi-Label. Atualmente, há uma diversidade de estratégias voltadas para resolver
problemas multi-label. Algumas delas fazem parte de um grupo denominado de Métodos de
Transformação de Problemas. Essa denominação vem do fato de esse tipo de estratégia
buscar dividir um problema de classificação multi-label em vários problemas single-label de
modo a reduzir sua complexidade. Outras buscam tratar conjuntos de dados multi-label diretamente,
sendo conhecidas como Métodos de Adaptação de Algoritmos. Em decorrência
desta grande quantidade de métodos multi-label existentes, é bastante difícil escolher o mais
adequado para um dado domínio. Diante disso, a presente dissertação buscou atingir dois
objetivos: realização de um estudo comparativo entre métodos de transformação de problemas
muito utilizados na atualidade e a aplicação de duas estratégias de Meta-Aprendizado
em classificação multi-label, a fim de predizer, com base nas características descritivas de
um conjunto de dados, qual algoritmo é mais provável de obter um desempenho melhor em
relação aos demais. As abordagens de Meta-aprendizado utilizadas no nosso trabalho foram
derivadas com base em técnicas de análise de correlação e mineração de regras. O uso de
Meta-Aprendizado no contexto de classificação multi-label é original e apresentou resultados
satisfatórios nos nossos experimentos, o que aponta que este pode ser um guia inicial para
o desenvolvimento de pesquisas futuras relacionadas
|
5 |
Uso de Meta-aprendizado para a Seleção e Ordenação de Algoritmos de Agrupamento Aplicados a Dados de Expressão GênicaSOARES, Rodrigo Gabriel Ferreira 31 January 2008 (has links)
Made available in DSpace on 2014-06-12T15:54:38Z (GMT). No. of bitstreams: 2
arquivo1983_1.pdf: 1880375 bytes, checksum: 3e607e8a193587ce0ea6508c676eef4e (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2008 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / O volume de dados de expressão gênica vem crescendo exponencialmente nos ultimos
anos devido as novas tecnologias da Biologia Molecular, que permitem medir a expressão
de milhares de genes ao mesmo tempo. A analise computacional desses dados tem grande
importância na Biologia e na Medicina. Ela permite, por exemplo, a descoberta de novas
classes de câncer biologicamente e clinicamente significantes e a identificação de novas
funções dos genes. As tecnicas de Aprendizado de Maquina não-supervisionado fazem
parte da metodologia de analise usada pelos especialistas. Existem diversos algoritmos
de agrupamento de dados, cada um procurando particionar os dados de uma maneira
especifica. A escolha desse algoritmo e fundamental para a qualidade do agrupamento
e, portanto, para a analise adequada dos resultados. Propomos uma metodologia de
meta-aprendizado para a escolha dos algoritmos de agrupamento de dados no contexto de
dados de expressão gênica de celulas cancergenas. Ate o momento, o meta-aprendizado
vinha sendo utilizado apenas no contexto supervisionado. Nesta Dissertação, estendemos
esse conceito para problemas não-supervisionados. Usamos bases de dados de diferentes
experimentos com microarrays de varios estudos sobre câncer. Extraimos caracteristicas
relevantes de cada base de dados a fim de emprega-las no aprendizado de Redes Neurais, k-
Vizinhos Mais Proximos e Maquinas de Vetores Suporte, utilizados como meta-aprendizes.
Esses metodos foram usados como sistemas de aprendizado para predizer a ordem de
desempenho dos algoritmos de agrupamento, bem como selecionar o melhor algoritmo, de
acordo com essas caracteristicas. Realizamos um conjunto de experimentos para validar
o uso de cada meta-aprendiz. Nesse contexto, mostramos que, em media, os rankings
sugeridos pelas Maquinas de Vetores Suporte são significativamente mais correlacionados
com o ranking ideal do que aqueles obtidos com o ranking default. Conseguimos realizar
um estudo inovador que pode ser expandido para dados de outros contextos, servindo
como ponto de partida para novas abordagens
|
6 |
Meta-aprendizado para seleção automática de modelos de séries temporaisSOUZA, Renata Maria de 31 January 2010 (has links)
Made available in DSpace on 2014-06-12T16:00:15Z (GMT). No. of bitstreams: 2
arquivo6165_1.pdf: 1230278 bytes, checksum: 064886e8d1500344414739f1068f03b3 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2010 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Meta-Aprendizado tem crescido nos últimos anos devido ao desenvolvimento de assistentes para seleção de algoritmos, com o desafio de predizer quando um algoritmo de aprendizagem é mais adequado do que outro a partir das características dos problemas abordados. O meta-aprendizado surge originalmente para auxiliar a seleção de algoritmos em problemas de aprendizagem de máquina e mineração de dados, particularmente em classificação e regressão. Em anos recentes, meta-aprendizado tem sido extrapolado para seleção de algoritmos em outros domínios de aplicações, como sistemas de planejamento, otimização, bioinformática e previsão de séries temporais. Nesse trabalho, focamos particularmente, em meta-aprendizado no contexto de previsão de séries temporais que tem sido usado em diferentes contextos para diminuir riscos na tomada de decisão. Estudos foram realizados para seleção de modelos de previsão aplicados às séries anuais da M3-competition. Nesses estudos, diferentes algoritmos foram utilizados no meta-aprendizado como o algoritmo kNN, árvores de decisão e support vector machines. Os resultados mostraram que os algoritmos de aprendizado de fato são capazes de predizer os melhores modelos de previsão a partir das características das séries temporais
|
7 |
Seleção Ativa de Exemplos de Treinamento para Meta-AprendizadoSousa, Arthur Fernandes Minduca de 29 July 2013 (has links)
Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-10T11:54:25Z
No. of bitstreams: 2
Dissertaçao Arthur Minduca.pdf: 1331924 bytes, checksum: c5fbf43c427a68b5d9b2a75d156766cb (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-10T11:54:25Z (GMT). No. of bitstreams: 2
Dissertaçao Arthur Minduca.pdf: 1331924 bytes, checksum: c5fbf43c427a68b5d9b2a75d156766cb (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-07-29 / Várias abordagens têm sido aplicadas à tarefa de seleção de algoritmos. Nesse
contexto, Meta-Aprendizado surge como uma abordagem eficiente para predizer o
desempenho de algoritmos adotando uma estratégia supervisionada. Os exemplos de
treinamento de Meta-Aprendizado (ou meta-exemplos) são construídos a partir de um
repositório de instâncias de problemas (como, por exemplo, um repositório de bases de
dados de classificação). Cada meta-exemplo armazena características descritivas de
uma instância de problema e um rótulo indicando o melhor algoritmo para o problema
(empiricamente identificado entre um conjunto de algoritmos candidatos). Os melhores
algoritmos para novos problemas podem ser preditos se baseando apenas em suas
características descritivas, sem a necessidade de qualquer avaliação empírica
adicional dos algoritmos candidatos. Apesar dos resultados Meta-Aprendizado
requererem a implementação de um número suficiente de instâncias de problemas
para produzir um conjunto rico de meta-exemplos. Abordagens recentes para gerar
conjuntos de dados sintéticos ou manipulado foram adotados com sucesso no contexto
de Meta-Aprendizado. Essas propostas incluem a abordagem de Datasetoids, que é
uma técnica simples de manipulação de dados que permite a geração de novos
conjuntos de dados a partir de bases existentes. Apesar dessas propostas produzirem
dados relevantes para Meta-Aprendizado, eles podem eventualmente produzir
instâncias de problemas redundantes ou até mesmo irrelevantes. Meta-Aprendizado
Ativo surge nesse contexto para selecionar somente as instâncias mais informativas
para a geração de meta-exemplos. Neste trabalho, investigamos o uso de Meta-
Aprendizado Ativo combinado com Datasetoids, focando no uso do algoritmo Random
forest em Meta-Aprendizado. Para selecionar as instâncias de problemas,
implementamos um critério de incerteza baseado em entropia, específico para o
Random forest. Também investigamos o uso de uma técnica de detecção de outliers a
fim de remover a priori os problemas considerados outliers, objetivando melhorar o
desempenho dos métodos de Aprendizagem Ativa. Nossos experimentos revelaram
uma melhora no desempenho do Meta-Aprendizado e uma redução no custo
computacional para a geração de meta-exemplos.
|
8 |
Novas abordagens para configura??es autom?ticas dos par?metros de controle em comit?s de classificadoresNascimento, Diego Silveira Costa 05 December 2014 (has links)
Submitted by Automa??o e Estat?stica (sst@bczm.ufrn.br) on 2016-02-03T20:29:00Z
No. of bitstreams: 1
DiegoSilveiraCostaNascimento_TESE.pdf: 3953454 bytes, checksum: 3237fa5d0296298ccc738a2ba7eab05e (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2016-02-03T23:54:37Z (GMT) No. of bitstreams: 1
DiegoSilveiraCostaNascimento_TESE.pdf: 3953454 bytes, checksum: 3237fa5d0296298ccc738a2ba7eab05e (MD5) / Made available in DSpace on 2016-02-03T23:54:37Z (GMT). No. of bitstreams: 1
DiegoSilveiraCostaNascimento_TESE.pdf: 3953454 bytes, checksum: 3237fa5d0296298ccc738a2ba7eab05e (MD5)
Previous issue date: 2014-12-05 / Significativos avan?os v?m surgindo em pesquisas relacionadas ao tema de Comit?s de Classificadores.
Os modelos que mais recebem aten??o na literatura s?o aqueles de natureza est?tica,
ou tamb?m conhecidos por ensembles. Dos algoritmos que fazem parte dessa classe, destacam-se
os m?todos que utilizam reamostragem dos dados de treinamento: Bagging, Boosting e Multiboosting.
A escolha do tipo de arquitetura e dos componentes a serem recrutados n?o ? uma tarefa
trivial, e tem motivado, ainda mais, o surgimento de novas propostas na tentativa de se construir
tais modelos de forma autom?tica e, muitas delas, s?o baseadas em m?todos de otimiza??o.
Muitas dessas contribui??es n?o t?m apresentado resultados satisfat?rios quando aplicadas a
problemas mais complexos ou de natureza distinta. Em contrapartida, a tese aqui apresentada
prop?e tr?s novas abordagens h?bridas para constru??o autom?tica em ensembles de classificadores:
Incremento de Diversidade, Fun??o de Avalia??o Adaptativa e Meta-aprendizado para a
elabora??o de sistemas de configura??o autom?tica dos par?metros de controle para os modelos
de ensemble. Na primeira abordagem, ? proposta uma solu??o que combina diferentes t?cnicas
de diversidade em um ?nico arcabou?o conceitual, na tentativa de se alcan?ar n?veis mais elevados
de diversidade em ensemble, e com isso, melhor o desempenho de tais sistemas. J? na
segunda abordagem, ? utilizado um algoritmo gen?tico para o design autom?tico de ensembles.
A contribui??o consiste em combinar as t?cnicas de filtro e wrapper de forma adaptativa para
evoluir uma melhor distribui??o do espa?o de atributos a serem apresentados aos componentes
de um ensemble. E por fim, a ?ltima abordagem, que prop?e uma nova t?cnica de recomenda??o
de arquitetura e componentes base em ensemble, via t?cnicas de meta-aprendizado tradicional e
multirr?tulo. De forma geral os resultados s?o animadores, e corroboram com a tese de que ferramentas
h?bridas s?o uma poderosa solu??o na constru??o de ensembles eficazes em problemas
de classifica??o de padr?es / Significant advances have emerged in research related to the topic of Classifier Committees.
The models that receive the most attention in the literature are those of the static nature, also
known as ensembles. The algorithms that are part of this class, we highlight the methods that
using techniques of resampling of the training data: Bagging, Boosting and Multiboosting. The
choice of the architecture and base components to be recruited is not a trivial task and has motivated
new proposals in an attempt to build such models automatically, and many of them are
based on optimization methods. Many of these contributions have not shown satisfactory results
when applied to more complex problems with different nature. In contrast, the thesis presented
here, proposes three new hybrid approaches for automatic construction for ensembles: Increment
of Diversity, Adaptive-fitness Function and Meta-learning for the development of systems
for automatic configuration of parameters for models of ensemble. In the first one approach, we
propose a solution that combines different diversity techniques in a single conceptual framework,
in attempt to achieve higher levels of diversity in ensembles, and with it, the better the performance
of such systems. In the second one approach, using a genetic algorithm for automatic
design of ensembles. The contribution is to combine the techniques of filter and wrapper adaptively
to evolve a better distribution of the feature space to be presented for the components of
ensemble. Finally, the last one approach, which proposes new techniques for recommendation of
architecture and based components on ensemble, by techniques of traditional meta-learning and
multi-label meta-learning. In general, the results are encouraging and corroborate with the thesis
that hybrid tools are a powerful solution in building effective ensembles for pattern classification
problems.
|
9 |
Seleção e controle do viés de aprendizado ativo / Selection and control of the active learning biasSantos, Davi Pereira dos 22 February 2016 (has links)
A área de aprendizado de máquina passa por uma grande expansão em seu universo de aplicações. Algoritmos de indução de modelos preditivos têm sido responsáveis pela realização de tarefas que eram inviáveis ou consideradas exclusividade do campo de ação humano até recentemente. Contudo, ainda é necessária a supervisão humana durante a construção de conjuntos de treinamento, como é o caso da tarefa de classificação. Tal construção se dá por meio da rotulação manual de cada exemplo, atribuindo a ele pelo menos uma classe. Esse processo, por ser manual, pode ter um custo elevado se for necessário muitas vezes. Uma técnica sob investigação corrente, capaz de mitigar custos de rotulação, é o aprendizado ativo. Dado um orçamento limitado, o objetivo de uma estratégia de amostragem ativa é direcionar o esforço de treinamento para os exemplos essenciais. Existem diversas abordagens efetivas de selecionar ativamente os exemplos mais importantes para consulta ao supervisor. Entretanto, não é possível, sem incorrer em custos adicionais, testá-las de antemão quanto à sua efetividade numa dada aplicação. Ainda mais crítica é a necessidade de que seja escolhido um algoritmo de aprendizado para integrar a estratégia de aprendizado ativo antes que se disponha de um conjunto de treinamento completo. Para lidar com esses desafios, esta tese apresenta como principais contribuições: uma estratégia baseada na inibição do algoritmo de aprendizado nos momentos menos propícios ao seu funcionamento; e, a experimentação da seleção de algoritmos de aprendizado, estratégias ativas de consulta ou pares estratégia-algoritmo baseada em meta-aprendizado, visando a experimentação de formas de escolha antes e durante o processo de rotulação. A estratégia de amostragem proposta é demonstrada competitiva empiricamente. Adicionalmente, experimentos iniciais com meta-aprendizado indicam a possibilidade de sua aplicação em aprendizado ativo, embora tenha sido identificado que investigações mais extensivas e aprofundadas sejam necessárias para apurar sua real efetividade prática. Importantes contribuições metodológicas são descritas neste documento, incluindo uma análise frequentemente negligenciada pela literatura da área: o risco devido à variabilidade dos algoritmos. Por fim, são propostas as curvas e faixas de ranqueamento, capazes de sumarizar, num único gráfico, experimentos de uma grande coleção de conjuntos de dados. / The machine learning area undergoes a major expansion in its universe of applications. Algorithms for the induction of predictive models have made it possible to carry out tasks that were once considered unfeasible or restricted to be solved by humans. However, human supervision is still needed to build training sets, for instance, in the classification task. Such building is usually performed by manual labeling of each instance, providing it, at least, one class. This process has a high cost due to its manual nature. A current technique under research, able to mitigate labeling costs, is called active learning. The goal of an active learning strategy is to manage the training effort to focus on the most relevant instances, within a budget. Several effective sampling approaches having been proposed. However, when one needs to choose the proper strategy for a given problem, they are impossible to test beforehand without incurring into additional costs. Even more critical is the need to choose a learning algorithm to integrate the active learning strategy before the existence of a complete training set. This thesis presents two major contributions to cope with such challenges: a strategy based on the learning algorithm inhibition when it is prone to inaccurate predictions; and, an attempt to automatically select the learning algorithms, active querying strategies or pairs strategy-algorithm, based on meta-learning. This attempt tries to verify the feasibility of such kind of decision making before and during the learning process. The proposed sampling approach is empirically shown to be competitive. Additionally, meta-learning experiments show that it can be applied to active learning, although more a extensive investigation is still needed to assess its real practical effectivity. Important methodological contributions are made in this document, including an often neglected analysis in the literature of active learning: the risk due to the algorithms variability. A major methodological contribution, called ranking curves, is presented.
|
10 |
Noise detection in classification problems / Detecção de ruídos em problemas de classificaçãoGarcia, Luís Paulo Faina 22 June 2016 (has links)
In many areas of knowledge, considerable amounts of time have been spent to comprehend and to treat noisy data, one of the most common problems regarding information collection, transmission and storage. These noisy data, when used for training Machine Learning techniques, lead to increased complexity in the induced classification models, higher processing time and reduced predictive power. Treating them in a preprocessing step may improve the data quality and the comprehension of the problem. This Thesis aims to investigate the use of data complexity measures capable to characterize the presence of noise in datasets, to develop new efficient noise ltering techniques in such subsamples of problems of noise identification compared to the state of art and to recommend the most properly suited techniques or ensembles for a specific dataset by meta-learning. Both artificial and real problem datasets were used in the experimental part of this work. They were obtained from public data repositories and a cooperation project. The evaluation was made through the analysis of the effect of artificially generated noise and also by the feedback of a domain expert. The reported experimental results show that the investigated proposals are promising. / Em diversas áreas do conhecimento, um tempo considerável tem sido gasto na compreensão e tratamento de dados ruidosos. Trata-se de uma ocorrência comum quando nos referimos a coleta, a transmissão e ao armazenamento de informações. Esses dados ruidosos, quando utilizados na indução de classificadores por técnicas de Aprendizado de Maquina, aumentam a complexidade da hipótese obtida, bem como o aumento do seu tempo de indução, além de prejudicar sua acurácia preditiva. Trata-los na etapa de pré-processamento pode significar uma melhora da qualidade dos dados e um aumento na compreensão do problema estudado. Esta Tese investiga medidas de complexidade capazes de caracterizar a presença de ruídos em um conjunto de dados, desenvolve novos filtros que sejam mais eficientes em determinados nichos do problema de detecção e remoção de ruídos que as técnicas consideradas estado da arte e recomenda as mais apropriadas técnicas ou comitês de técnicas para um determinado conjunto de dados por meio de meta-aprendizado. As bases de dados utilizadas nos experimentos realizados neste trabalho são tanto artificiais quanto reais, coletadas de repositórios públicos e fornecidas por projetos de cooperação. A avaliação consiste tanto da adição de ruídos artificiais quanto da validação de um especialista. Experimentos realizados mostraram o potencial das propostas investigadas.
|
Page generated in 0.0511 seconds