Spelling suggestions: "subject:"aprendizagem dde máquina"" "subject:"aprendizagem dee máquina""
41 |
Detecção de posição e quedas corporais baseado em K-means clustering eThresholdMalheiros, Larinni 07 December 2017 (has links)
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2017. / Submitted by Raquel Almeida (raquel.df13@gmail.com) on 2018-05-11T21:36:26Z
No. of bitstreams: 1
2017_LarinniMalheiros.pdf: 4570904 bytes, checksum: 1684e0b718246ba537552551bc3e22f3 (MD5) / Approved for entry into archive by Raquel Viana (raquelviana@bce.unb.br) on 2018-05-28T18:08:27Z (GMT) No. of bitstreams: 1
2017_LarinniMalheiros.pdf: 4570904 bytes, checksum: 1684e0b718246ba537552551bc3e22f3 (MD5) / Made available in DSpace on 2018-05-28T18:08:27Z (GMT). No. of bitstreams: 1
2017_LarinniMalheiros.pdf: 4570904 bytes, checksum: 1684e0b718246ba537552551bc3e22f3 (MD5)
Previous issue date: 2018-05-28 / A queda de idosos é caso de saúde pública em todo o mundo e esse assunto tem sido alvo de pesquisa e desenvolvimento tecnológico com objetivo de amenizar as consequências físicas e psicológicas para estas pessoas e seus familiares. Em 2017, 15,7% dos idosos no Brasil vivem sozinhos, de acordo com [1]. Há várias hipóteses para explicar essa tendência, entre elas, o desejo de autonomia e a dispersão e fragmentação familiar, com muitos filhos morando longe dos pais. Nesse contexto, este trabalho apresenta um dispositivo capaz de auxiliar a monitoração dos idosos em suas atividades, especialmente as domésticas. Serão apresentados os fundamentos teóricos para o desenvolvimento do dispositivo. Os fundamentos teóricos apresentados abordam todas as fases de desenvolvimento do dispositivo, abrangendo desde a instalação da parte física até o desenvolvimento dos algoritmos utilizados para processar as informações. Os desafios encontrado s ao longo desse trabalho foram: precisão e adequação. A precisão do dispositivo é dividida em sensibilidade e especificidade. Ambas são parâmetros utilizados para determinar a acurácia do sistema. O desafio relacionado a essa atividade consistiu em avaliar se a acurácia do dispositivo é suficiente para fornecer a confiabilidade necessária para aplicações de detecção de quedas e posição corporais. Além disso, o dispositivo deve se adequar as características físicas do paciente que o utiliza, pois variáveis como altura, peso e idade influenciado resultado da predição. Será avaliado o desempenho do dispositivo utilizando vários cenários e sua aplicação no mundo real. Será apresentado o comparativo de resultados entre o dispositivo criado neste trabalho de Mestrado ao trabalho de Graduação [2]. Será apresentada uma metodologia baseada em aprendizado de máquina para realizar a predição das posições estáticas (sentado, deitado e em pé) e threshold para determinação de posições dinâmicas (andar e cair). Informações sobre essas posições fornecem resultados se o paciente encontra-se em queda, sendo essa uma posição que deve ser tratada imediatamente pelo cuidador. O algoritmo de aprendizado de máquinas utilizado é o K-Means Clustering, com o qual tem-se a posição estática que está sendo realizada pelo paciente. Uma série de condições de decisão baseadas em thresholds foram utilizadas para detectar posições dinâmicas como andar e cair. Para coletar as informações, será utilizado o sensor MPU6050 e para processamento e apresentação dos dados será utilizado o RaspberryPi. Os dados serão apresentados em uma aplicação Android e Web para monitoramento dos idosos através de seus cuidadores. Como resultado desse trabalho, observou-se que a detecção de quedas e posição corporais utilizando o aprendizado de máquinas para detecção de posições estáticas apresenta resultados confiáveis para a posição deitado e inferioridade estatística para diferenciar os movimentos como sentado e em pé. Em relação aos movimentos dinâmicos, verificou-se que é possível diferenciá-los utilizando parâmetros como regressão linear e área da integral entre o ponto de maior amplitude e o valor remanescente do vetor dos dados obtidos do sensor MPU6050. / Fall Detection is a health issue in all over the world. This matter has been searched and developed in the technology field with the goal of decreased physical and phycological consequences to their families and themselves. There are some hypotheses to explain this trend, among them, the desire for independence and families dispersion and fragmentation, with sons and daughters living away from their parents. In this context, this work presents a device capable of auxiliary and monitors elderly in their activities, especially the domestic activities. This work uses machine learning approach to predict static body position (standing, lying and sitting) and threshold to identify dynamic body position (walking and falling). The machine learning algorithm used in this work to detect static positions is K-Means Clustering. A series of decision conditions based on thresholds to detect dynamic movements such as walking and fall. To collect information will be used MPU6050 and to process and present the data will be used RaspberryPi. As a result of this work, it is possible to conclude that fall and position detection using machine learning to detect static position presents reliable data to lying position and lower static data to differentiate sitting and standing positions. It is possible to differentiate dynamic movements trough linear regression and calculate the integer of the vector obtained from the MPU6050 sensor.
|
42 |
Identificação de snoRNAs usando aprendizagem de máquinaOliveira, João Victor de Araujo 29 January 2016 (has links)
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Informática, 2016. / Submitted by Albânia Cézar de Melo (albania@bce.unb.br) on 2016-08-03T13:45:05Z
No. of bitstreams: 1
2016_JoaoVictorAraujoOliveira.pdf: 3385598 bytes, checksum: 87023d9eae07bd39a3d1cb8613c3d33f (MD5) / Approved for entry into archive by Patrícia Nunes da Silva(patricia@bce.unb.br) on 2016-12-06T13:01:15Z (GMT) No. of bitstreams: 1
2016_JoaoVictorAraujoOliveira.pdf: 3385598 bytes, checksum: 87023d9eae07bd39a3d1cb8613c3d33f (MD5) / Made available in DSpace on 2016-12-06T13:01:15Z (GMT). No. of bitstreams: 1
2016_JoaoVictorAraujoOliveira.pdf: 3385598 bytes, checksum: 87023d9eae07bd39a3d1cb8613c3d33f (MD5) / Métodos de aprendizagem de máquina vêm sendo amplamente usados na identificação e
classificação de diferentes famílias de RNAs não-codificadores (ncRNAs). Muitos desses métodos são baseados na aprendizagem supervisionada, onde atributos anteriormente conhecidos, chamados features, são extraídos de uma sequência e usados em um classificador.
Nesta dissertação, apresentamos dois métodos para a identificação das duas classes principais de snoRNAs, C/D box e H/ACA box snoRNAs: snoReport 2.0, uma melhoria significativa da primeira versão do snoReport; e o snoRNA-EDeN, um novo método baseado no EDeN, que é um kernel decomposicional de grafos. O snoReport 2.0 é um método que, usando features extraídas de sequências candidatas em genomas, combina predição de estrutura secundária de ncRNAs com Máquina de Vetores de Suporte (Support Vector Machine - SVM), para identificar C/D box e H/ACA box snoRNAs. Seu classificador de H/ACA box snoRNA mostrou um F-score de 93% (uma melhoria de 10% em relação à primeira versão do snoReport), enquanto o classificador de C/D box snoRNA
obteve F-score de 94% (melhoria de 14%). Alem disso, ambos os classificadores tiveram todas as medidas de performances acima de 90%. Na fase de validação, o snoReport 2.0 identificou 67,43% dos snoRNAs de vertebrados de ambas as classes. Em Nematóides, o snoReport 2.0 identificou 29,6% dos C/D box snoRNAs e 69% dos H/ACA box snoRNAs. Para as Drosofilídeas, foram identificados 3,2% dos C/D box snoRNAs e 76,7% dos H/ACA box snoRNAs. Esses resultados mostram que o snoReport 2.0 é eficiente na identificação de snoRNAs em organismos vertebrados, e também para H/ACA box snoRNAs de organismos invertebrados. Por outro lado, em vez de usar features de uma
sequência (em geral, difíceis de identificar), uma abordagem recente de aprendizagem de máquina é descrita a seguir. Dada uma região de interesse de uma sequencia, o objetivo é gerar um vetor esparso que pode ser usado como micro-features em algum algoritmo de
aprendizado de máquina, ou pode ser usado para a criação de features poderosas. Essa
abordagem é usada no EDeN (Explicit Decomposition with Neighbourhoods), um kernel decomposicional de grafos baseado na técnica Neighborhood Subgraph Pairwise Distance Kernel (NSPDK). O EDeN transforma um grafo em um vetor esparso, decompondo-o em todos os pares de subgrafos vizinhos de raios pequenos, a distâncias crescentes. Baseado no EDeN, foi desenvolvido um método chamado snoRNA-EDeN. Na fase de testes, para C/D box snoRNAs, o snoRNA-EDeN obteve um F-score de 93,4%, enquanto que para H/ACA box snoRNAs o F-score foi de 85.12%. Na fase de validação, para C/D box snoRNA, o snoRNA-EDeN mostrou uma grande capacidade de generalização, identificando 94,61% de snoRNAs de vertebrados e 63,52% de invertebrados, um resultado significantemente melhor em comparação ao snoReport 2.0, que identificou apenas 52,92% dos vertebrados
e 14,6% dos invertebrados. Para o H/ACA box, o snoReport 2.0 identificou 79,9% dos
snoRNAs de vertebrados e 73,3% dos snoRNAs de Nematóides e Drosofilídeos, enquanto
que o snoRNA-EDeN identificou 95,4% dos vertebrados e 57.8% dos nematóides e drosofilas. Ambos os métodos estão disponíveis em: http://www.biomol.unb.br/snoreport e
http://www.biomol.unb.br/snorna_eden. ___________________________________________________________________________ ABSTRACT / Machine learning methods have been widely used to identify and classify different families of non-coding RNAs. Many of these methods are based on supervised learning, where some previous known attributes, called features, are extracted from a sequence, and then used in a classifier. In this work, we present two methods to identify the two main classes of snoRNAs, C/D box and H/ACA box: snoReport 2.0, a significant improvement of the original snoReport version; and snoRNA-EDeN, a new method based on EDeN, a decompositional graph kernel. On one hand, snoReport 2.0 is a method that, using features extracted from candidate sequences in genomes, combines secondary structure prediction with Support Vector Machine (SVM) to identify C/D box and H/ACA box
snoRNAs. H/ACA box snoRNA classifier showed a F-score of 93% (an improvement of
10% regarding to the previous version), while C/D box snoRNA classifier a F-Score of 94% (improvement of 14%). Besides, both classifiers exhibited performance measures above 90%. In the validation phase, snoReport 2.0 predicted 67.43% of vertebrate organisms for both classes. SnoReport 2.0 predicted: for Nematodes, 29.6% of C/D box and 69% of H/ACA box snoRNAs; and for Drosophilids, 3.2% of C/D box and 76.7% of H/ACA box snoRNAs. These results show that snoReport 2.0 is efficient to identify snoRNAs in vertebrates, and also H/ACA box snoRNAs in invertebrates organisms. On the other
hand, instead of using known features from a sequence (difficult to find in general), a recent approach in machine learning is described as follows. Given a region of interest of a sequence, the objective is to generate a sparse vector that can be used as micro-features in a specific machine learning algorithm, or it can be used to create powerful features.
This approach is used in EDeN (Explicit Decomposition with Neighbourhoods), a decompositional graph kernel based on Neighborhood Subgraph Pairwise Distance Kernel (NSPDK). EDeN transforms one graph in a sparse vector, decomposing it in all pairs of neighborhood subgraphs of small radius at increasing distances. Based on EDeN, we developed a method called snoRNA-EDeN. On the test phase, for C/D box snoRNAs, snoRNA-EDeN showed a F-score of 93.4%, while for H/ACA box snoRNAs, the F-score was 72%. On the validation phase, for C/D box snoRNAs, snoRNA-EDeN showed a
better capacity of generalization, predicting 94.61% of vertebrate C/D box snoRNAs and 63.52% of invertebrates, a significantly better result compared to snoReport 2.0, which predicted only 52.92% of vertebrates and 14.6% of invertebrates. For H/ACA box snoRNAs, snoReport 2.0 predicted 79.9% of vertebrate snoRNAs and 73.3% of Nematode and Drosophilid sequences, while snoRNA-EDeN predicted 95.4% of vertebrate snoRNAs and 57.8% of Nematode and Drosophilid sequences. Both methods are available at
http://www.biomol.unb.br/snoreport and http://www.biomol.unb.br/snorna_eden.
|
43 |
Classificação de intoxicação alcoólica por sinais de voz e algoritmos genéticos / Classification of alcohol intoxication by speech signals and genetic algorithmsLeoni, Gleison Marques Lemos 13 December 2016 (has links)
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2016. / Submitted by Fernanda Percia França (fernandafranca@bce.unb.br) on 2017-02-14T19:19:29Z
No. of bitstreams: 1
2016_GleisonMarquesLemosLeoni.pdf: 3276048 bytes, checksum: 8caf692b3c21c85ac800243642b3aeb7 (MD5) / Approved for entry into archive by Raquel Viana(raquelviana@bce.unb.br) on 2017-03-14T20:44:52Z (GMT) No. of bitstreams: 1
2016_GleisonMarquesLemosLeoni.pdf: 3276048 bytes, checksum: 8caf692b3c21c85ac800243642b3aeb7 (MD5) / Made available in DSpace on 2017-03-14T20:44:52Z (GMT). No. of bitstreams: 1
2016_GleisonMarquesLemosLeoni.pdf: 3276048 bytes, checksum: 8caf692b3c21c85ac800243642b3aeb7 (MD5) / Dados oficiais apontam que a intoxicação alcoólica se encontra entre as maiores causas de mortes no trânsito. A sociedade brasileira clama por uma solução, pois assiste, dia após dia, o aumento do número de acidentes envolvendo motoristas alcoolizados e/ou entorpecidos por outras drogas. O governo responde à sociedade endurecendo normativos legais e realizando campanhas de conscientização. Atualmente, o nível de alcoolemia de um motorista é obtido por meio de exame sanguí- neo ou por meio de etilômetros. A proposta deste trabalho é desenvolver um modelo, baseado em análise espectral, para possibilitar a indicação da alcoolização de uma pessoa embriagada por meio de sua fala. Sabe-se que o álcool é uma droga depressora, que atua no sistema nervoso central provocando mudanças comportamentais do indivíduo alcoolizado e efeitos físicos pela ação direta em parte do trato vocal. O resultado das sensações física e psicomotora no indivíduo embriagado traz ao ouvinte de seu discurso a impressão de escutar uma voz mais ruidosa. Esta sensação é percebida por técnicas de análise espectral. Neste trabalho foi realizada a análise espectral de tempo curto das falas de pessoas embriagadas e sóbrias por meio de GFCC (Gammatone Frequency Cepstral Coefficients). As características geradas foram selecionadas por um Algoritmo Genético (AG) com uma função de avaliação implementada com Regressão Logística. O objetivo do AG era alcançar a maior taxa de classificação com a menor quantidade de características espectrais possível. A técnica obteve taxas de classificação equivalente a 81,18% quando avaliados por meio de validação cruzada LOO (Leave One Out) e conseguiu reduzir as caraterísticas de entrada em mais de 90%. Foi também realizada a extração de características por meio de RFE (Recursive Feature Elimination). Por tal metodologia, alcançou-se uma taxa de classificação equivalente a 85,49%, tendo selecionado, contudo, 98 características. Na comunidade científica não foram encontrados estudos de classificação de vozes intoxicadas pelo álcool utilizando algoritmos genéticos nem GFCC. Além disso, as taxas de classificação alcançadas neste trabalho superam pesquisas anteriores que utilizaram somente características cepstrais da voz para realizar a classificação de falas intoxicadas pelo álcool. / Official data indicate that alcohol intoxication is currently among the leading causes of deaths in traffic. Brazilian society is clamoring for a solution, as it witnesses, day after day, the increase in the number of accidents involving drivers who are drunk and / or numb by other drugs. The government responds to society by hardening legal norms and conducting awareness campaigns. At present, the level of a driver’s blood alcohol content is obtained by blood test or by means of breathalyzer. The purpose of this work is to develop a model, based on spectral analysis, to enable the indication of the alcoholization of a drunk person through his speech. It is known that alcohol is a depressant drug, which acts on the central nervous system causing behavioral changes of the alcoholic individual and physical effects by direct action in part of the vocal tract. The result of the physical and psychomotor sensation in the drunk individual brings to the listener of his speech the impression of hearing a noisy voice. This sensation is perceived by spectral analysis techniques. In this work, the short-time spectral analysis of the speeches of intoxicated and sober people by GFCC (Gammatone Frequency Cepstral Coefficient) was performed. The generated features were selected by a Genetic Algorithm (AG) with an evaluation function implemented with Logistic Regression. The goal of GA was to achieve the highest classification rate with the least amount of spectral features possible. The technique obtained classification rates equivalent to 81.18% when evaluated through LOO cross-validation (Leave One Out) and managed to reduce input features by more than 90%. Feature extraction was also performed by RFE (Recursive Feature Elimination). By such methodology, a classification rate equivalent to 85.49% was reached, having, however, selected 98 characteristics. In the scientific community, no classification studies of alcohol intoxicated speeches were found using genetic algorithms or GFCC. In addition, the classification rates achieved in this study surpass previous studies that only used cepstral features of the speech to perform the classification of speech intoxicated by alcohol.
|
44 |
Autogating em dados de citometria de fluxo utilizando classificadores SVM para identificação de bacterioplânctonCordeiro, Elionai Moura 22 March 2018 (has links)
Submitted by Automação e Estatística (sst@bczm.ufrn.br) on 2018-07-03T13:51:51Z
No. of bitstreams: 1
ElionaiMouraCordeiro_DISSERT.pdf: 5123400 bytes, checksum: 64cad460a8333cb5f9cc23b82a4e1c1d (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2018-07-10T14:53:20Z (GMT) No. of bitstreams: 1
ElionaiMouraCordeiro_DISSERT.pdf: 5123400 bytes, checksum: 64cad460a8333cb5f9cc23b82a4e1c1d (MD5) / Made available in DSpace on 2018-07-10T14:53:20Z (GMT). No. of bitstreams: 1
ElionaiMouraCordeiro_DISSERT.pdf: 5123400 bytes, checksum: 64cad460a8333cb5f9cc23b82a4e1c1d (MD5)
Previous issue date: 2018-03-22 / Neste trabalho é apresentada a proposta de desenvolvimento de uma metodologia - juntamente
com a apresentação dos resultados de sua aplicação - que utiliza uma técnica de
aprendizagem de máquina, SVM, para análise automatizada de dados de citometria de
fluxo em amostras de ambientes aquáticos, na identificação de bacterioplâncton. As amostras
utilizadas na execução desta metodologia foram coletadas em 19 lagos de montanhas
de elevada altitude que foram classificados manualmente no Laboratório de Limnologia
do Departamento de Oceanografia e Limnologia da UFRN. Previamente, iniciou-se com
alguns testes de configuração da função kernel e uma análise quantitativa com base no
número médio de acertos na classificação automatizada, na qual percebeu-se que a taxa
de erro de predição variou entre 1,86% e 3,35%, em média. Foram realizadas duas etapas
de desenvolvimento da metodologia proposta, onde foram criados modelos de predição
e realizados uma série de testes com as bases de dados criadas a partir das informações
disponíveis. Os resultados obtidos foram expostos a uma série de análises quantitativas
e qualitativas, inclusive utilizando PCA para entender a importância de cada variável
nos conjuntos de dados das mostras. Para uma avaliação qualitativa da metodologia
proposta, foi aplicada uma análise estatística para comparar ambas estratégias de modelos
de predição, que tem por base a classificação final apontada pelo algoritmo de Support
Vector Machine. / This master tesis shows the proposal to develop a methodology - together with the
presentation of the results of its application - that uses a machine learning technique,
SVM, for automated analysis of flow cytometry data in samples of aquatic environments,
identification of bacterioplankton. The samples used in the execution of this methodology
were collected in 19 high altitude mountain lakes that were manually classified in the
Laboratory of Limnology of the Department of Oceanography and Limnology of UFRN.
Previously, it started with some tests of kernel configuration and a quantitative analysis
based on the average number of hits in the automated classification, in which it was noticed
that the prediction error rate varied between 1.86 % and 3, 35 % on average. Two stages
of development of the proposed methodology were carried out, where prediction models
were created and a series of tests were carried out with the databases created from the
available information. The results were exposed to a series of quantitative and qualitative
analyzes, including using PCA to understand the importance of each variable in the sample
data sets. For a qualitative evaluation of the proposed methodology, a statistical analysis
was applied to compare both strategies of prediction models, which is based on the final
classification indicated by the algorithm of Support Vector Machine.
|
45 |
Investigação do modelo de aprendizagem híbrido genético-baseado em instâncias.Nardin, Luciana de 05 September 2003 (has links)
Made available in DSpace on 2016-06-02T19:05:18Z (GMT). No. of bitstreams: 1
DissLDN.pdf: 2584981 bytes, checksum: a43eb8d055e14f2c3516fd94d19fc372 (MD5)
Previous issue date: 2003-09-05 / This research work investigates the contribution of genetic algorithms to
instance based learning methods, particularly k-NN, IB1 and IB2. The main focus of
the investigation is to optimize the performance of three algorithms by means of a genetic algorithm. A computational system that implements each method and its genetic variant is described. Results of experiments in some knowledge domains are presented and analised. / Este trabalho investiga a contribuição de algoritmos genéticos a métodos de aprendizado baseado em instâncias, particularmente o k-NN, IB1 e IB2. O principal objetivo da investigação é otimizar o desempenho de cada um dos três algoritmos
por meio de uma colaboração genética. É descrito um sistema computacional que implementa cada um dos métodos e sua variante genética. Os resultados de experimentos em vários domínios de conhecimento são apresentados e analisados.
|
46 |
Modelos baseados em PPM para previsão de trajetórias utilizando informações contextuais.NOBRE NETO, Francisco Dantas. 03 May 2018 (has links)
Submitted by Lucienne Costa (lucienneferreira@ufcg.edu.br) on 2018-05-03T21:26:06Z
No. of bitstreams: 1
FRANCISCO DANTAS NOBRE NETO – TESE (PPGCC) 2017.pdf: 3110801 bytes, checksum: e2803429a1a01abf91502c50bc0ea1df (MD5) / Made available in DSpace on 2018-05-03T21:26:06Z (GMT). No. of bitstreams: 1
FRANCISCO DANTAS NOBRE NETO – TESE (PPGCC) 2017.pdf: 3110801 bytes, checksum: e2803429a1a01abf91502c50bc0ea1df (MD5)
Previous issue date: 2017-05 / Com a ampla difusão de smartphones equipados com dispositivos GPS (Global Positioning System), rastrear a localização de objetos (como pessoas e veículos) tem sido uma tarefa mais factível, resultando em novas oportunidades de pesquisas em variadas áreas do conhecimento. Dentre estas oportunidades, esta pesquisa lida com o desafio da área de previsão de rotas e destinos. Saber antecipadamente o destino de um usuário assim que ele inicia um deslocamento tem muitas utilidades práticas, tais como: indicar rotas menos congestionadas ou vias mais seguras, e sugerir a visita a algum ponto de interesse (POI) antes do destino almejado. Sistemas que fornecem previsão de rota e destino estão disponíveis comercialmente, no entanto, estes podem requerer interações constantes do usuário. Para deslocamentos diários, porém, a necessidade de uma interação frequente do usuário com um aplicativo pode tornar seu uso pouco prático e pouco ubíquo. Além disso, muitos trabalhos que apresentam modelos de previsão de rotas e destinos, disponíveis na literatura, não contemplam uma importante informação contextual, que é o papel que os lugares visitados representam para um usuário (por exemplo, se é sua casa ou seu local de trabalho). Não obstante, a maioria dos preditores disponíveis não possuem a funcionalidade de prever lugares nunca visitados. Esta tese de doutorado propõe uma família de métodos de predição baseada no algoritmo de compressão de dados Prediction by Partial Matching (PPM). Ainda com relação a esta pesquisa, é proposto um mecanismo capaz de identificar que uma rota em curso está sendo realizada pela primeira vez e, portanto, ter a possibilidade de prever um destino ainda não visitado. Neste estudo, também foram implementados outros preditores consolidados na literatura, que são as Cadeias de Markov e as Cadeias Ocultas de Markov, utilizados para comparação. É importante observar que ambos os preditores são capazes de prever apenas o destino de um trajeto, ao invés da rota restante. Nos experimentos realizados, foram utilizadas as métricas de Precisão, Recall e Medida-F (F1 Score), com validação cruzada (contendo 10 partições mutuamente exclusivas), para avaliação dos modelos de previsão implementados. A base de dados utilizada nesta pesquisa é composta por mais de 1.500 rotas, coletadas por aproximadamente três meses, referentes a 21 usuários. Os preditores baseados em PPM apresentaram resultados competitivos (ou superiores) comparados aos da literatura. / Thanks to the widely diffusion of smartphones with GPS devices natively embedded, the task of tracking object locations, such as people or vehicles, is more feasible nowadays, fostering new research opportunities. Among these new opportunities, this work addresses the challenge of route and destination prediction. Knowing in advance the destination where a user might reach as soon as he or she starts to move can be useful in various situations. For instance, to suggest to users less jammed or safer routes, as well to warn about points of interest located along their route. There are commercial systems capable of predicting destination and routes, however, these systems usually require frequent user interaction. Nonetheless, such a requirement could make the application unusable for daily routines. Moreover, most existing works do not consider an important contextual information: the information about the places that the users visit, i.e., the role that the places play to the user (for instance, if the place is home or work). In addition, most predictors described in the literature are not able to predict places that users have never visited. This thesis proposes a family of algorithms based on Prediction by Partial Matching (PPM). Furthermore, this work proposes a mechanism for identifying whether a route is being performed for the first time, resulting in the feasibility for predicting a never visited place. This research also provides a comparison between our proposed predictors, and the predictors based on Markov Models and Hidden Markov Models (HMM), which have been used in related works. It is important to mention that both Markov and HMM predictors that we implemented are able to predict just the destination, instead the remaining route. For the statistical assessment of the predictors, the metrics Precision, Recall and F1 Score are used, together with the process of 10-fold cross- validation. The database contains about 1,500 routes extracted from 21 users, gathered for three months. The predictors based on PPM performed similarly (or better) than others reported in the literature.
|
47 |
Predição de RNAs não-codificadores no transcriptoma do fungo Paracoccidioides brasiliensis usando aprendizagem de máquinaArrial, Roberto Ternes 04 1900 (has links)
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Biológicas, Departamento de Biologia Celular, 2008. / Submitted by Diogo Trindade Fóis (diogo_fois@hotmail.com) on 2009-10-06T11:45:45Z
No. of bitstreams: 1
2008_RobertoTernesArrial.pdf: 1174697 bytes, checksum: deb680a64e956cb71d50d5d028a379c8 (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2009-11-03T17:27:16Z (GMT) No. of bitstreams: 1
2008_RobertoTernesArrial.pdf: 1174697 bytes, checksum: deb680a64e956cb71d50d5d028a379c8 (MD5) / Made available in DSpace on 2009-11-03T17:27:16Z (GMT). No. of bitstreams: 1
2008_RobertoTernesArrial.pdf: 1174697 bytes, checksum: deb680a64e956cb71d50d5d028a379c8 (MD5)
Previous issue date: 2008-04 / Paracoccidioides brasiliensis (Pb) é um fungo saprófito e dimórfico de importância clínica, pois seus propágulos, quando inalados por humanos, desencadeiam a doença conhecida como paracoccidioidomicose. No ano de 2005 foi publicado o transcriptoma do Pb, apontando diversos alvos potenciais de drogas, mas ainda assim uma parte significativa dos transcritos seqüenciados não possui proteínas homólogas identificadas. Esse trabalho sugere que alguns desses RNAs possam ser não-codificadores (ncRNAs), uma classe de moléculas biologicamente funcionais que no entanto não codificam para nenhum produto protéico. Para tanto foi feita uma abordagem exclusivamente computacional, utilizando exemplos conhecidos de mRNAs e ncRNAs para treinamento de dois algoritmos de aprendizado de máquina: naive Bayes (nB) e Máquinas de Vetores de Suporte (MVS). Diversos programas descritos na literatura e desenvolvidos localmente foram usados para obter propriedades dos transcritos e de seus produtos protéicos, de forma que os algoritmos de aprendizado de máquina fossem capazes de diferenciar satisfatoriamente um mRNA de um ncRNA. O uso de várias medidas de eficiência mostra que ambos algoritmos, MVS e nB, induziram classificadores que discriminam as duas classes de RNAs de forma muito eficiente, mas também indicam que o MVS possui uma vantagem significativa em relação à sua detecção de ncRNAs. Acurácia média mensurada por validação cruzada de 10 vezes para o MVS foi de 92,4%, e para o nB, 75,3%. Quando usados no transcriptoma de Pb, o MVS e o nB detectam, respectivamente, 970 e 262 ncRNAs, dos quais a maior parte é de transcritos sem anotação e singlets, duas características que apóiam a possibilidade de que esses transcritos sejam realmente ncRNAs. Comparações a programas relacionados mostram que o programa aqui descrito apresenta um ganho em velocidade computacional sem perda de acurácia. Foi desenvolvido nesse trabalho um programa computacional de análise ab initio, designado PORTRAIT, especializado em detecção de ncRNAs em transcriptomas de organismos pouco caracterizados. __________________________________________________________________________________________ ABSTRACT / Paracoccidioides brasiliensis (Pb) is a saprophytic and dimorphic fungus of clinical importance because its propagules, when inhaled by humans, cause the disease known as paracoccidioidomycosis. In the year 2005 the Pb transcriptome was published, pointing out several potential drug targets, but still a significative amount of sequenced transcripts lack identified homologous proteins. This work suggests that these RNAs may be non-coding RNAs (ncRNAs), a class of biologically functional molecules that do not code for any protein product. Aiming this, a strictly computational approach was made, using known examples of mRNAs and ncRNAs for training two machine learning algorithms: naive Bayes (nB) and Support Vector Machines (SVM). Several programs available from literature and locally developed were used to obtain properties from transcripts and its corresponding protein products, in such a way that machine learning algorithms could successfully discriminate between mRNA and ncRNA. Several efficiency measurements show that both algorithms, SVM and nB, induced classifiers able to efficiently discriminate the two classes of RNAs, and also indicate that SVM has a significative advantage regarding ncRNA detection. Mean accuracy as estimated by 10-fold cross-validation procedure was 92.4% for SVM and 75.3% for nB. When used in the Pb transcriptome, SVM and nB detect, respectively, 970 and 262 ncRNAs, of which the majority is composed of singlets and unnanotated transcripts, two characteristics that support the possibility that these transcripts are real ncRNAs. Comparison to related works indicates that the described program offers a computational speed improvement without hindering accuracy. This work describes the design of a computational program for ab initio analysis, named PORTRAIT, specialized in detection of ncRNAs in transcriptomes from poorly characterized organisms.
|
48 |
Novo método para assinatura e identificação de sinais de eletrocomunicação de peixes elétricos de campo fraco da espécie Gymnotus carapo / Novel method for signature and identification of electrocommunication signals of the weakly electric fish Gymnotus carapoPaulo Matias 22 February 2011 (has links)
Desenvolvemos um método capaz de reconhecer assinaturas de descargas do órgão elétrico de peixes de campo elétrico fraco da espécie Gymnotus carapo. A assinatura de um peixe é computada com base no espectro de frequências de suas descargas, extraído por meio de uma transformada de Fourier, ou com base em uma análise tempo-frequência das mesmas, realizada por meio de uma transformada complexa de dupla árvore de pacote wavelet. Com o auxílio de uma máquina de vetores de suporte, um método de classificação supervisionada, utilizamos essas assinaturas para identificar, com boa precisão (estimada em 96%), o peixe de origem de cada descarga de órgão elétrico recebida durante uma aquisição com dois peixes movimentando-se livremente em um mesmo aquário. / We developed a method capable of recognizing signatures of the electric organ discharges of the weakly electric fish Gymnotus carapo. The signature of a fish is computed based on the frequency spectrum of its discharges, extracted using a Fourier transform, or based on a time-frequency analysis, done using a dual-tree complex wavelet packet transform. With the aid of a support vector machine, a supervisioned classification method, we use these signatures to identify, with good precision (estimated at 96%), the source fish of each electric organ discharge received during an acquisition with two fish freely swimming in the same aquarium.
|
49 |
Extração de informação de artigos científicos: uma abordagem baseada em indução de regras de etiquetagem / Information extraction from scientific articles: an approach based on induction of tagging rulesAlberto Cáceres Álvarez 08 May 2007 (has links)
Este trabalho faz parte do projeto de uma ferramenta denominada FIP (Ferramenta Inteligente de Apoio à Pesquisa) para recuperação, organização e mineração de grandes coleções de documentos. No contexto da ferramenta FIP, diversas técnicas de Recuperação de Informação, Mineração de Dados, Visualização de Informações e, em particular, técnicas de Extração de Informações, foco deste trabalho, são usadas. Sistemas de Extração de Informação atuam sobre um conjunto de dados não estruturados e objetivam localizar informações específicas em um documento ou coleção de documentos, extraí-las e estruturá-las com o intuito de facilitar o uso dessas informações. O objetivo específico desenvolvido nesta dissertação é induzir, de forma automática, um conjunto de regras para a extração de informações de artigos científicos. O sistema de extração proposto, inicialmente, analisa e extrai informações presentes no corpo dos artigos (título, autores, a filiação, resumo, palavras chaves) e, posteriormente, foca na extração das informações de suas referências bibliográficas. A proposta para extração automática das informações das referências é uma abordagem nova, baseada no mapeamento do problema de part-of-speech tagging ao problema de extração de informação. Como produto final do processo de extração, tem-se uma base de dados com as informações extraídas e estruturadas no formato XML, disponível à ferramenta FIP ou a qualquer outra aplicação. Os resultados obtidos foram avaliados em termos das métricas precisão, cobertura e F-measure, alcançando bons resultados comparados com sistemas similares / This dissertation is part of a project of a tool named FIP (an Intelligent Tool for Research Supporting). FIP is a tool for retrieval, organization, and mining large document collections. In the context of FIP diverse techniques from Information Retrieval, Data Mining, Information Visualization, and particularly Information Extraction, focus of this work, are used. Information Extraction systems deal with unstructured data looking for specific information in a document or document collection, extracting and structuring them in order to facilitate their use. The specific objective presented in this dissertation is automatically to induce a set of rules for information extraction from scientific articles. The proposed extraction system initially analyzes and extracts information from the body of the articles (heading, authors, affiliation, abstract, and keywords) and then extracts information from each reference in its bibliographical references. The proposed approach for information extraction from references is a new technique based on the strategy of part-of-speech tagging. As the outcome of the extraction process, a database with extracted and structured information in XML format is made available for the FIP or any other application. The system has been evaluated using measures of Precision, Recall and F-measure, reaching good results compared to similar systems
|
50 |
Detecção de impressões digitais falsas usando informações extraídas da rugosidade da pelePereira, Luis Filipe Alves 14 March 2013 (has links)
Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-11T18:54:28Z
No. of bitstreams: 2
Dissertacao Luis Felipe Pereira.pdf: 2354406 bytes, checksum: 8ad9de7749fbcfc2898372b78fed37b1 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-13T13:11:27Z (GMT) No. of bitstreams: 2
Dissertacao Luis Felipe Pereira.pdf: 2354406 bytes, checksum: 8ad9de7749fbcfc2898372b78fed37b1 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-13T13:11:27Z (GMT). No. of bitstreams: 2
Dissertacao Luis Felipe Pereira.pdf: 2354406 bytes, checksum: 8ad9de7749fbcfc2898372b78fed37b1 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-03-14 / O primeiro registro oficial de uma autenticação individual realizada por um europeu, usando
os padrões gerados pelas saliências da pele encontradas nas palmas das mãos, data de 1858.
Desde então, o trabalho de muitos pesquisadores contribuiu para o desenvolvimento das técnicas
identificação de impressões digitais. Em 2009, os sistemas de reconhecimento baseados
nessa tecnologia foram responsáveis por mais de 50% da receita de todo mercado biométrico.
De fato, as aplicações dessa biometria estão presentes em muitos contextos da vida moderna,
e.g., transações em caixas automáticos, registro eletrônico de ponto em empresas e até mesmo
no processo eleitoral brasileiro. O principal método de comparação entre impressões digitais é
baseado nas posições relativas de pequenos padrões, as minúcias, das biometrias. No entanto,
estudos científicos comprovaram a possibilidade de construção de impressões digitais sintéticas,
com a cópia das minúcias de um dedo autêntico, a partir de materiais simples, e.g., massa
de modelar, silicone, cola de madeira, dentre outros. Diante do perigo iminente de fraude no
acesso a tais sistemas, uma nova linha pesquisa surgiu nesta área: a detecção de impressões
digitais falsas. Atualmente, as soluções propostas pela academia são baseadas em hardware
ou em visão computacional. A segunda metodologia, implementada inteiramente em software,
está associada a um menor custo de produção e de atualização dos dispositivos em comercialização
no mercado. O presente trabalho concentra-se na detecção de impressões digitais falsas
por meio de técnicas de visão computacional. A principal contribuição desse estudo é uma
nova técnica na qual as fraudes são detectadas a partir da análise de informações extraídas da
rugosidade da pele, a Análise Espacial de Rugosidade da Superfície (SSCA, do inglês Spatial
Surface Coarseness Analysis). Além disso, uma segunda técnica é proposta, a Análise de
Múltiplas Características (MCA, do inglês Multiple Characteristics Analysis), na qual diversas
características biométricas apresentadas no estado da arte são utilizadas. E, ainda, é apresentada
uma nova taxonomia capaz de organizar os elementos da biometria relevantes para a detecção
de fraudes. Os experimentos conduzidos mostraram que, através das técnicas propostas, é possível
alcançar uma detecção com performance 17,98% superior ao melhor resultado do estado
da arte.
|
Page generated in 0.0706 seconds