Spelling suggestions: "subject:"aprendizagem dde máquina."" "subject:"aprendizagem dee máquina.""
81 |
Aprendizado de máquina em redes complexas / Machine learning in complex networksBreve, Fabricio Aparecido 23 August 2010 (has links)
Redes complexas é um campo de pesquisa científica recente e bastante ativo que estuda redes de larga escala com estruturas topológicas não triviais, tais como redes de computadores, redes de telecomunicações, redes de transporte, redes sociais e redes biológicas. Muitas destas redes são naturalmente divididas em comunidades ou módulos e, portanto, descobrir a estrutura dessas comunidades é um dos principais problemas abordados no estudo de redes complexas. Tal problema está relacionado com o campo de aprendizado de máquina, que tem como interesse projetar e desenvolver algoritmos e técnicas que permitem aos computadores aprender, ou melhorar seu desempenho através da experiência. Alguns dos problemas identificados nas técnicas tradicionais de aprendizado incluem: dificuldades em identificar formas irregulares no espaço de atributos; descobrir estruturas sobrepostas de grupos ou classes, que ocorre quando elementos pertencem a mais de um grupo ou classe; e a alta complexidade computacional de alguns modelos, que impedem sua aplicação em bases de dados maiores. Neste trabalho tratamos tais problemas através do desenvolvimento de novos modelos de aprendizado de máquina utilizando redes complexas e dinâmica espaço-temporal, com capacidade para tratar grupos e classes sobrepostas, além de fornecer graus de pertinência para cada elemento da rede com relação a cada cluster ou classe. Os modelos desenvolvidos tem desempenho similar ao de algoritmos do estado da arte, ao mesmo tempo em que apresentam ordem de complexidade computacional menor do que a maioria deles / Complex networks is a recent and active scientific research field, which concerns large scale networks with non-trivial topological structure, such as computer networks, telecommunication networks, transport networks, social networks and biological networks. Many of these networks are naturally divided into communities or modules and, therefore, uncovering their structure is one of the main problems related to complex networks study. This problem is related with the machine learning field, which is concerned with the design and development of algorithms and techniques which allow computers to learn, or increase their performance based on experience. Some of the problems identified in traditional learning techniques include: difficulties in identifying irregular forms in the attributes space; uncovering overlap structures of groups or classes, which occurs when elements belong to more than one group or class; and the high computational complexity of some models, which prevents their application in larger data bases. In this work, we deal with these problems through the development of new machine learning models using complex networks and space-temporal dynamics. The developed models have performance similar to those from some state-of-the-art algorithms, at the same time that they present lower computational complexity order than most of them
|
82 |
Mineração de dados em redes complexas: estrutura e dinâmica / Data mining in complex networks: structure and dynamicsArruda, Guilherme Ferraz de 02 April 2013 (has links)
A teoria das redes complexas é uma área altamente interdisciplinar que oferece recursos para o estudo dos mais variados tipos de sistemas complexos, desde o cérebro até a sociedade. Muitos problemas da natureza podem ser modelados como redes, tais como: as interações protéicas, organizações sociais, o mercado financeiro, a Internet e a World Wide Web. A organização de todos esses sistemas complexos pode ser representada por grafos, isto é, vértices conectados por arestas. Tais topologias têm uma influencia fundamental sobre muitos processos dinâmicos. Por exemplo, roteadores altamente conectados são fundamentais para manter o tráfego na Internet, enquanto pessoas que possuem um grande número de contatos sociais podem contaminar um grande número de outros indivíduos. Ao mesmo tempo, estudos têm mostrado que a estrutura do cérebro esta relacionada com doenças neurológicas, como a epilepsia, que está ligada a fenômenos de sincronização. Nesse trabalho, apresentamos como técnicas de mineração de dados podem ser usadas para estudar a relação entre topologias de redes complexas e processos dinâmicos. Tal estudo será realizado com a simulação de fenômenos de sincronização, falhas, ataques e propagação de epidemias. A estrutura das redes será caracterizada através de métodos de mineração de dados, que permitirão classificar redes de acordo com um conjunto de modelos e determinar padrões de conexões presentes na organização de diferentes tipos de sistemas complexos. As análises serão realizadas com aplicações em neurociências, biologia de sistemas, redes sociais e Internet / The theory of complex networks is a highly interdisciplinary reseach area offering resources for the study of various types of complex systems, from the brain to the society. Many problems of nature can be modeled as networks, such as protein interactions, social organizations, the financial market, the Internet and World Wide Web. The organization of all these complex systems can be represented by graphs, i.e. a set of vertices connected by edges. Such topologies have a fundamental influence on many dynamic processes. For example, highly connected routers are essential to keep traffic on the Internet, while people who have a large number of social contacts may infect many other individuals. Indeed, studies have shown that the structure of brain is related to neurological conditions such as epilepsy, which is relatad to synchronization phenomena. In this text, we present how data mining techniques data can be used to study the relation between complex network topologies and dynamic processes. This study will be conducted with the simulation of synchronization, failures, attacks and the epidemics spreading. The structure of the networks will be characterized by data mining methods, which allow classifying according to a set of theoretical models and to determine patterns of connections present in the organization of different types of complex systems. The analyzes will be performed with applications in neuroscience, systems biology, social networks and the Internet
|
83 |
Localização de danos em estruturas isotrópicas com a utilização de aprendizado de máquina /Oliveira, Daniela Cabral de January 2017 (has links)
Orientador: Vicente Lopes Júnior / Resumo: Este trabalho introduz uma nova metodologia de Monitoramento da Integridade de Estruturas (SHM, do inglês Structural Health Monitoring) utilizando algoritmos de aprendizado de máquina não-supervisionado para localização e detecção de dano. A abordagem foi testada em material isotrópico (placa de alumínio). Os dados experimentais foram cedidos por Rosa (2016). O banco de dados disponibilizado é abrangente e inclui medidas em diversas situações. Os transdutores piezelétricos foram colados na placa de alumínio com dimensões de 500 x 500 x 2mm, que atuam como sensores e atuadores ao mesmo tempo. Para manipulação dos dados foram analisados os sinais definindo o primeiro pacote do sinal (first packet), considerando apenas o intervalo de tempo igual ao tempo da força de excitação. Neste caso, na há interferência dos sinais refletidos nas bordas da estrutura. Os sinais são obtidos na situação sem dano (baseline) e, posteriormente nas diversas situações de dano. Como método de avaliação do quanto o dano interfere em cada caminho, foram implementadas as seguintes métricas: pico máximo, valor médio quadrático (RMSD), correlação entre os sinais, normas H2 e H∞ entre os sinais baseline e sinais com dano. Logo após o cálculo das métricas para as diversas situações de dano, foi implementado o algoritmo de aprendizado de máquina não-supervisionado K-Means no matlab e também testado no toolbox Weka. No algoritmo K-Means há a necessidade da pré-determinação do número de clusters e isto pode di... (Resumo completo, clicar acesso eletrônico abaixo) / Mestre
|
84 |
Uma plataforma de monitoramento inteligente de arritmia cardíaca em fluxo de tempo real / A cardiac arrhythmia monitoring intelligente plataform in real-time flowSilva, Anderson Pablo Nascimento da 27 February 2018 (has links)
Submitted by Automação e Estatística (sst@bczm.ufrn.br) on 2018-07-02T18:48:20Z
No. of bitstreams: 1
AndersonPabloNascimentoDaSilva_DISSERT.pdf: 1862430 bytes, checksum: 56232344f929e3c32bf3bf7b68861ad9 (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2018-07-04T13:02:23Z (GMT) No. of bitstreams: 1
AndersonPabloNascimentoDaSilva_DISSERT.pdf: 1862430 bytes, checksum: 56232344f929e3c32bf3bf7b68861ad9 (MD5) / Made available in DSpace on 2018-07-04T13:02:23Z (GMT). No. of bitstreams: 1
AndersonPabloNascimentoDaSilva_DISSERT.pdf: 1862430 bytes, checksum: 56232344f929e3c32bf3bf7b68861ad9 (MD5)
Previous issue date: 2018-02-27 / A arritmia afeta milhões de pessoas. Na Europa e América do Norte, desde 2014, a fibrilação
atrial afeta cerca de 2% a 3% da população. Uma das maneiras de detectar
arritmias é realizando um exame eletrocardiográfico é uma máquina de ECG que registra
a atividade elétrica do coração e exibe esses dados como um traço em um papel,
então esses dados são interpretados por um médico e assim dado o diagnóstico. Dessa
forma, pensou-se um passo adiante em auxiliar o médico com o diagnóstico automático
de arritmia cardíaca. Dessa forma, este estudo tem como propósito planejar e desenvolver
uma plataforma inteligente capaz de monitorar e identificar arritmias cardíacas
de forma automática e notificar profissionais da saúde, familiares e pacientes em fluxo
de tempo real. Portanto, neste trabalho foram utilizados classificadores bases e comitês
classificadores, como: AdaBoost, RF J48, kNN, MLP, NB e SVM. / Arrhythmia affects millions of people. In Europe and North America, since 2014,
atrial fibrillation affects about 2% to 3% of the population. One of the ways to detect
arrhythmias is by performing an electrocardiographic examination is an ECG machine
that records the electrical activity of the heart and displays this data as a trace on a
paper, then these data are interpreted by a physician and thus given the diagnosis. Thus,
it was thought a step further in assisting the physician with the automatic diagnosis of
cardiac arrhythmia. Thus, this study aims to plan and develop a smart platform capable
of automatically monitoring and identifying cardiac arrhythmias and notifying health
professionals, family members and patients in real-time flow. Therefore, we used base
classifiers and classifying committees, such as: AdaBoost, RF J48, kNN, MLP, NB and
SVM.
|
85 |
Predição de rotas metabólicas de enzimas utilizando aprendizado de máquinaAlmeida, Rodrigo de Oliveira January 2018 (has links)
Orientador: Guilherme Targino Valente / Resumo: Enzimas são uma classe de proteínas responsáveis por catalisar diversos tipos de reações químicas presentes em diferentes rotas metabólicas, sendo assim o principal foco de estudo nas áreas de engenharia metabólica e biologia sintética. Contudo, a anotação de enzimas e a identificação da rota metabólica em que atuam, são frequentemente baseados na similaridade de sequências previamente descritas. A falta e dificuldade de anotação das enzimas se devem pela diversidade funcional em sequências similares de famílias proteicas, sequências espécie-específicas e a dificuldade na definição de homologia em larga escala. De modo a auxiliar a superar tais problemas, o presente trabalho objetivou criar um classificador de rotas metabólicas de enzimas baseado inteiramente nas características da estrutura primária de enzimas e utilizando aprendizado de máquina. A ferramenta computacional criada (mAppLe - Metabolic Pathway Prediction of Enzymes) é composta por 11 preditores de rotas metabólicas de fungos, podendo assim auxiliar nas anotações dos bancos de dados e em trabalhos nas diferentes áreas de pesquisa, como biologia sintética e engenharia metabólica. As performances médias de predição foram de 94% de acurácia, 44% de taxa de falsa descoberta, 67% de F- score , 98% de sensitividade, 93% de especificidade e 0,69 para coeficiente de correlação de Matthews . Com base no desempenho dos preditores criados, constata-se que a ferramenta computacional criada pode ser aplicada com grande s... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: Enzymes are a class of proteins that are responsible for catalyzing chemical reactions in numerous metabolic pathways and are often "main targets" in metabolic engineering and synthetic biology. However, enzyme annotation and metabolic pathway identifications are often based on sequence similarities to previously well-described enzymes. Functional diversity in similar sequences of protein families, species-specificity, and difficult-to-define large-scale homologies results in difficulties and a lack of annotation. Here, we present the mAppLe (Metabolic Pathway Prediction of Enzymes), the first metabolic pathway classifier for enzymes based only on primary structure features and a machine learning approach, surpassing limitations imposed by sequence similarities. This tool is composed of 11 pathways predictors for fungi, that can help databank annotations and several type of researches like synthetic biology and metabolic engineering. Results show an average performance of 94% to accuracy, 44% false discovery rate, 67% F-score, 98% sensitivity, 93% specificity and 0.69 to Matthews coefficient correlation. Based on the performance of this predictors, the computational tool created (mAppLe) can be applied successfully to predict pathways of enzymes of the fungi, independent of sequence similarity. / Doutor
|
86 |
Métodos de mineração de dados para extração de conhecimento em bioinformática: aplicação em dados de Geminivirus e predição de novas proteínas ribossomais / Data mining methods for knowledge extraction in bioinformatics: Application on Geminivirus data and prediction of new ribosomal pro-teinsCarvalho, Thales Francisco Mota 25 July 2016 (has links)
Submitted by Reginaldo Soares de Freitas (reginaldo.freitas@ufv.br) on 2017-02-10T10:24:21Z
No. of bitstreams: 1
texto completo.pdf: 4520555 bytes, checksum: fe8d3a2da8cd19ec1afdfb3b0e97134e (MD5) / Made available in DSpace on 2017-02-10T10:24:21Z (GMT). No. of bitstreams: 1
texto completo.pdf: 4520555 bytes, checksum: fe8d3a2da8cd19ec1afdfb3b0e97134e (MD5)
Previous issue date: 2016-07-25 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A mineração de dados (DM, do inglês data mining) é um processo de des- coberta de padrões que permite extrair informação e conhecimento em grandes volumes de dados. Suas principais técnicas se baseiam em predição, classificação e agrupamento (clustering). Estas técnicas têm sido utilizadas na bioinformá- tica para classificar o perfil de expressão gênica, encontrar padrões em sequências de DNA, avaliar a estrutura do dobramento de proteínas, entre outras aplicações. Neste trabalho, avançadas técnicas de DM foram aplicadas para o desenvolvimento de um Data Warehouse específica para geminivírus (geminivirus.org), a fim de au- xiliar na organização, correção e normalização de dados referentes a geminivírus. Neste Data Warehouse também foram propostas metodologias baseadas em regras e aprendizado de máquina (ML) que classificam as sequências de DNA e seus ge- nes. A família Geminiviridae é composta por pequenos vírus de DNA circular de fita simples que infectam uma grande variedade de plantas e causam sérios danos econômicos ao redor do mundo. O aprimoramento da amplificação do DNA viral e de técnicas de sequenciamento permitiram um enorme crescimento de dados em banco de dados públicos. Simultaneamente, ocorreu o crescimento no volume de publicações relacionadas a esta família. Desta forma, numa segunda linha de tra- balho surgiu a necessidade de aplicar as técnicas de DM, seguindo o processo de KDD (knowledge-discovery in databases) para extrair informações desses dados. Além disso, técnicas de Processamento de Linguagem Natural (NLP) foram utili- zadas para extrair informação em resumos de artigos relacionados a geminivírus. Assim, o acervo científico pode ser explorado de maneira contextualizada. Final- mente, uma terceira frente de trabalho em mineração de dados foi empreendida, desta vez direcionada à descoberta de proteínas ribossomais. Pesquisas recentes têm demonstrado que plantas suprimem o mecanismo global de tradução como uma estratégia de imunidade antiviral. Entretanto, poucas proteínas ribossomais são mencionadas a integrarem vias do mecanismo de defesa das plantas. As pro- teínas ribossomais (RPs) desempenham um papel fundamental em células vivas, pois são o principal componente dos ribossomos. Além disso, estas proteínas estão envolvidas em vários processos fisiológicos e patológicos. Assim, foi desenvolvido um método de aprendizado de máquina capaz de identificar novas proteínas ri- bossomais, designado Rama. O Rama utiliza abordagens inovadoras em relação aos métodos computacionais atualmente existentes. Em experimentos in silico, o Rama obteve resultados médios de precisão, acurácia, sensitividade e especifici- dade de 0.9203, 0.9214, 0.9214 e 0.8236, respectivamente. Ademais, duas proteínas não caracterizadas foram preditas como RPs pelo Rama e experimentos in vitro confirmaram a veracidade do resultado, ao passo que as metodologias atuais não conseguem lograr o mesmo sucesso. / Data mining (DM) is a pattern discovery process that can extract information and knowledge in large volumes of data. Its main techniques are based on prediction, classification, and clustering. These techniques have been used in bioinformatics to identify gene expression profiles, find patterns in DNA sequences, evaluate protein folding structure, among other applications. In this work, advanced techniques of DM were applied to the development of a specific Data Warehouse for geminivi- ruses (geminivirus.org) to assist in organization, correction, and normalization of data related to geminivirus. In this Data Warehouse, we also propose methodo- logies based on rules and machine learning (ML) to classify DNA sequences and their genes. The Geminiviridae family consists of small circular single-stranded DNA viruses which infect a wide variety of plants and cause serious economic losses wordwide. Improvements in amplification of viral DNA and sequencing techniques have led to an enormous growth of public databases. Thus, in a second endeavor in this work, we realized the need to apply DM techniques, following the process of KDD (knowledge-discovery in databases), to extract yet-unknown information. Furthermore, natural language processing techniques (NLP) were used to extract information in abstracts of paper related to geminivirus. In this way, the scientific literature can be explored in a contextualized manner. Finally, a third effort using data mining approaches was carried out, this time directed to the identification of new ribosomal proteins. Recent research has shown that plants suppress the ove- rall mechanism of translation as a strategy for antiviral immunity. However, few ribosomal proteins are referred to integrate pathways of plant defense mechanisms. Ribosomal proteins (RPs) have a fundamental role in living cells, as they are the main component of ribosomes. Furthermore, these proteins are involved in various physiological and pathological processes. Therefore, we developed a ML method to identify new ribosomal proteins, called Rama. Rama uses innovative approaches in comparison to currently existing computational methods. In in silico experiments, Rama presented average results of precision, accuracy, sensitivity, and specificity of 0.9203, 0.9214, 0.9214, and 0.8236, respectively. In addition, two proteins not yet characterized were predicted as RPs by Rama, whereas other methods could not achieve the same success. In vitro experiments confirmed the veracity of our result.
|
87 |
Inferência de emoções em fragmentos de textos obtidos do Facebook / Inference of emotions in fragments of texts obtained from the FacebookMedeiros, Richerland Pinto [UNESP] 27 April 2017 (has links)
Submitted by Richerland Pinto Medeiros null (rick.land@gmail.com) on 2017-06-27T15:12:38Z
No. of bitstreams: 1
DISSERTACAO_RICHERLAND_MEDEIROS.pdf: 1209454 bytes, checksum: 251490a058f4248162de9508b4627e65 (MD5) / Approved for entry into archive by LUIZA DE MENEZES ROMANETTO (luizamenezes@reitoria.unesp.br) on 2017-06-27T17:04:08Z (GMT) No. of bitstreams: 1
medeiros_rp_me_bauru.pdf: 1209454 bytes, checksum: 251490a058f4248162de9508b4627e65 (MD5) / Made available in DSpace on 2017-06-27T17:04:09Z (GMT). No. of bitstreams: 1
medeiros_rp_me_bauru.pdf: 1209454 bytes, checksum: 251490a058f4248162de9508b4627e65 (MD5)
Previous issue date: 2017-04-27 / Esta pesquisa tem como objetivo analisar o uso da técnica estatística de aprendizado de máquina Maximização de Entropia, voltado para tarefas de processamento de linguagem natural na inferência de emoções em textos obtidos da rede social Facebook. Foram estudados os conceitos primordiais das tarefas de processamento de linguagem natural, os conceitos inerentes a teoria da informação, bem como o aprofundamento no conceito de um modelo entrópico como classificador de textos. Os dados utilizados na presente pesquisa foram obtidos de textos curtos, ou seja, textos com no máximo 500 caracteres. A técnica em questão foi abordada dentro do aprendizado supervisionado de máquina, logo, parte dos dados coletados foram usados como exemplos marcados dentro de um conjunto de classes predefinidas, a fim de induzir o mecanismo de aprendizado a selecionar a classe de emoção mais provável dado o exemplo analisado. O método proposto obteve índice de assertividade médio de 90%, baseado no modelo de validação cruzada. / This research aims to analyze the use of entropy maximization machine learning statistical technique, focused on natural language processing tasks in the inferencing of emotions in short texts from Facebook social network. Were studied the primary concepts of natural language processing tasks, IT intrinsic concepts, as well as deepening the concept of Entropy model as a text classifier. All data used for this research came from short texts found in social networks and had 500 characters or less. The model was used within supervised machine learning, therefore, part of the collected data was used as examples marked within a set of predefined classes in order to induce the learning mechanism to select the most probable emotion class given the analyzed sample. The method has obtained the mean accuracy rate of 90%, based on the cross-validation model.
|
88 |
Ampliando os limites do aprendizado indutivo de máquina através das abordagens construtiva e relacional. / Extending the limits of inductive machine learning through constructive and relational approaches.Maria do Carmo Nicoletti 24 June 1994 (has links)
Este trabalho investiga Aprendizado Indutivo de Máquina como função das linguagens de descrição, utilizadas para expressar instancias, conceitos e teoria do domínio. A ampliação do poder de representação do aprendizado proporcional e abordada no contexto de indução construtiva, no domínio de funções booleanas, com a proposta de uma estratégia de composição de atributos denominada root-fringe. Avaliações experimentais dessa e de outras estratégias de construção de novos atributos foram conduzidas e os resultados analisados. Dois métodos de poda, para tratamento de ruídos, em aprendizado de arvores de decisão, foram avaliados num ambiente de indução construtiva e os resultados discutidos. Devido a limitação do aprendizado proposicional, foram investigadas formas de ampliação dos limites do aprendizado, através da ampliação do poder representacional das linguagens de descrição. Foi escolhida Programação Lógica Indutiva - PLI - que e um paradigma de aprendizado indutivo que usa restrições de Lógica de Primeira Ordem como linguagens de descrição. O aprendizado em PLI só é factível quando as linguagens utilizadas estão restritas e é fortemente controlado, caso contrário, o aprendizado em PLI se torna indecidível. A pesquisa em PLI se direcionou a formas de restrição das linguagens de descrição da teoria do domínio e de hipóteses. Três algoritmos que \"traduzem\" a teoria do domínio de sua forma intencional, para extensional, são apresentados. As implementações de dois deles são discutidas. As implementações realizadas deram origem a dois ambientes experimentais de aprendizado: o ambiente proposicional experimental, do qual fazem parte o ambiente experimental construtivo, e o ambiente experimental relacional. / This work investigates Inductive Machine Learning as a function of the description languages employed to express instances, concepts and domain theory. The enlargement of the representational power of propositional learning methods is approached via constructive induction, in the domain of boolean functions, through the proposal of a bias for composing attributes, namely, the bias root-fringe. Experimental evaluation of root-fringe, as well as other biases for constructing new attributes was conducted and the results analyzed. Two pruning methods for decision trees were evaluated in an environment of constructive induction and the results discussed. Due to the limitations of propositional learning, ways of enlarging the limits of the learning process were investigated through enlarging the representational power of the description languages. It was chosen Inductive Logic Programming - ILP - that is an inductive learning paradigm that uses restrictions of First Order Logic as description languages. Learning using ILP is only feasible when the languages are restricted and are strongly controlled; otherwise, learning in ILP becomes undecidible. Research work in ILP was directed towards restricting domain theory and hypotheses description languages. Three algorithms that \"translate\" the intentional expression of a domain theory into its extensional expression are presented. The implementations of two of them are discussed. The implementations gave rise to two experimental learning environments: the propositional environment, which includes the constructive environment, and the relational environment.
|
89 |
Um filtro iterativo utilizando árvores de decisão / An Iterative Decision Tree Threshold FilterOscar Picchi Netto 24 September 2013 (has links)
Usar algoritmos de Aprendizado de Máquina é um dos modos ecientes de extrair as informações de grandes bases biológicas. Sabendo-se que a quantidade de dados que são coletados cresce a cada dia, o uso de alguma técnica de seleção de atributos eficiente é, em alguns casos, essencial não só para otimizar o tempo do algoritmo de Aprendizado da Máquina a ser aplicado posteriormente como também para reduzir os dados, de forma que possa ser possível testá-los, por exemplo, em uma bancada de laboratório em algumas situações específicas. O objetivo deste estudo é propor uma abordagem utilizando árvores de decisão em um filtro iterativo, visando auxiliar na extração de informação de grande bases biológicas. Pois, com uma base de menor dimensionalidade, um especialista humano pode entender melhor ou ainda utilizar um algoritmo de Aprendizado de Máquina de forma mais eficaz. O filtro proposto pode utilizar qualquer classificador com um seletor de atributos embutido e qualquer métrica pode ser utilizada para determinar se o atributo deve ser escolhido. Foi fixado, neste estudo, o algoritmo utilizado como J48 e a área embaixo da curva ROC (AUC) como métrica. Em experimentos utilizando diversas bases de dados biomédicas, o filtro proposto foi analisado e sua capacidade de compressão e desempenho foram avaliados em cinco diferentes paradigmas de aprendizado de máquina, utilizando dois limiares diferentes para a métrica escolhida. O melhor limiar obteve uma capacidade de compressão de cerca de 50% dos dados em geral e 99.4% em bases de baixa densidade, geralmente grandes bases. Os valores AUC obtidos pelo filtro quando comparados com cinco algoritmos de paradigmas de aprendizado diferentes mostraram um desempenho melhor em quatro das cinco situações avaliadas. O filtro proposto foi depois analisado e comparado com outros seletores de atributos da literatura e o indutor sozinho. Quanto ao tempo gasto pelo filtro em relação aos outros ele se apresentou no mesmo patamar de 3 dos 4 seletores testados. Quando comparado em relação ao AUC o filtro proposto se mostrou robusto nos cinco indutores analisados, não apresentando nenhuma diferença significativa em nenhum dos cenários testados. Em relação aos indutores, o filtro apresentou um desempenho melhor, mesmo que não significante, em 4 dos 5 indutores. / Using Machine Learning algorithms is an eficient way to extract information from large biological databases. But, in some cases, the amount of data is huge that using an eficient featured subset selection is, in some cases, essencial not only to optimize the learning time but also to reduce the amount of data, allowing, for example, a test in a laboratory workbench. The objective of this study is to propose an approach using decision trees in a iterative filter. The filter helps information extraction from large biological databases, since in a database with few dimensions a human specialist can understand it better or can use Machine Learning algorithms in a more efective way. The proposed lter can use any classier with embed featured subset selection and can use any performance metric to determine which attribute must be chosen. In this study, we have fixed the algorithm used within the filter as J48 and AUC was used as metric for performance evaluation. In experiments using biomedical databases, the proposed filter was analyzed and its compression capacity and performance were tested. In five diferent Machine Learning paradigms, using two diferent thresholds for the chosen metric. The best threshold was capable of reducing around 50% of the data using all databases and 99.4% on the small density bases, usually high dimensional databases. AUC values for the filter when compared with the five algorithm got a better performance in four of five tested situations. The proposed filter then was tested against others featured subset selectors from the literature, and against the inducer alone. Analyzing time the proposed lter is in the same level as 3 of 4 of the tested selectors. When tested for AUC the proposed selector shows itself robust in the five inducers tested, not showing any signicant diference in all tested scenarios. Against the inducers alone our filter showed a better performance, even not signicant, in 4 of the 5 inducers.
|
90 |
Agrupamento de séries temporais em fluxos contínuos de dados / Time series clustering for data streamsCássio Martini Martins Pereira 29 October 2013 (has links)
Recentemente, a área de mineração de fluxos contínuos de dados ganhou importância, a qual visa extrair informação útil a partir de conjuntos massivos e contínuos de dados que evoluem com o tempo. Uma das técnicas que mais se destaca nessa área e a de agrupamento de dados, a qual busca estruturar grandes volumes de dados em hierarquias ou partições, tais que objetos mais similares estejam em um mesmo grupo. Diversos algoritmos foram propostos nesse contexto, porém a maioria concentrou-se no agrupamento de fluxos compostos por pontos em um espaço multidimensional. Poucos trabalhos voltaram-se para o agrupamento de séries temporais, as quais se caracterizam por serem coleções de observações coletadas sequencialmente no tempo. Técnicas atuais para agrupamento de séries temporais em fluxos contínuos apresentam uma limitação na escolha da medida de similaridade, a qual na maioria dos casos e baseada em uma simples correlação, como a de Pearson. Este trabalho mostra que até para modelos clássicos de séries temporais, como os de Box e Jenkins, a correlação de Pearson não é capaz de detectar similaridade, apesar das séries serem provenientes de um mesmo modelo matemático e com mesma parametrização. Essa limitação nas técnicas atuais motivou este trabalho a considerar os modelos geradores de séries temporais, ou seja, as equações que regem sua geração, por meio de diversas medidas descritivas, tais como a Autoinformação Mútua, o Expoente de Hurst e várias outras. A hipótese considerada e que, por meio do uso de medidas descritivas, pode-se obter uma melhor caracterização do modelo gerador de séries temporais e, consequentemente, um agrupamento de maior qualidade. Nesse sentido, foi realizada uma avaliação de diversas medidas descritivas, as quais foram usadas como entrada para um novo algoritmo de agrupamento baseado em árvores, denominado TS-Stream. Experimentos com bases sintéticas compostas por diversos modelos de séries temporais foram realizados, mostrando a superioridade de TS-Stream sobre ODAC, a técnica mais popular para esta tarefa encontrada na literatura. Experimentos com séries reais provenientes de preços de ações da NYSE e NASDAQ mostraram que o uso de TS-Stream na escolha de ações, por meio da criação de uma carteira de investimentos diversificada, pode aumentar os retornos das aplicações em várias ordens de grandeza, se comparado a estratégias baseadas somente no indicador econômico Moving Average Convergence Divergence / Recently, the data streams mining area has gained importance, which aims to extract useful information from massive and continuous data sources that evolve over time. One of the most popular techniques in this area is clustering, which aims to structure large volumes of data into hierarchies or partitions, such that similar objects are placed in the same group. Several algorithms were proposed in this context, however most of them focused on the clustering of streams composed of multidimensional points. Few studies have focused on clustering streaming time series, which are characterized by being collections of observations sampled sequentially along time. Current techniques for clustering streaming time series have a limitation in the choice of the similarity measure, as most are based on a simple correlation, such as Pearson. This thesis shows that even for classic time series models, such as those from Box and Jenkins, the Pearson correlation is not capable of detecting similarity, despite dealing with series originating from the same mathematical model and the same parametrization. This limitation in current techniques motivated this work to consider time series generating models, i.e., generating equations, through the use of several descriptive measures, such as Auto Mutual Information, the Hurst Exponent and several others. The hypothesis is that through the use of several descriptive measures, a better characterization of time series generating models can be achieved, which in turn will lead to better clustering quality. In that context, several descriptive measures were evaluated and then used as input to a new tree-based clustering algorithm, entitled TS-Stream. Experiments were conducted with synthetic data sets composed of various time series models, confirming the superiority of TS-Stream when compared to ODAC, the most successful technique in the literature for this task. Experiments with real-world time series from stock market data of the NYSE and NASDAQ showed that the use of TS-Stream in the selection of stocks, by the creation of a diversified portfolio, can increase the returns of the investment in several orders of magnitude when compared to trading strategies solely based on the Moving Average Convergence Divergence financial indicator
|
Page generated in 0.1519 seconds