Spelling suggestions: "subject:"periodicity""
21 |
Time series data mining using complex networks / Mineração de dados em séries temporais usando redes complexasFerreira, Leonardo Nascimento 15 September 2017 (has links)
A time series is a time-ordered dataset. Due to its ubiquity, time series analysis is interesting for many scientific fields. Time series data mining is a research area that is intended to extract information from these time-related data. To achieve it, different models are used to describe series and search for patterns. One approach for modeling temporal data is by using complex networks. In this case, temporal data are mapped to a topological space that allows data exploration using network techniques. In this thesis, we present solutions for time series data mining tasks using complex networks. The primary goal was to evaluate the benefits of using network theory to extract information from temporal data. We focused on three mining tasks. (1) In the clustering task, we represented every time series by a vertex and we connected vertices that represent similar time series. We used community detection algorithms to cluster similar series. Results show that this approach presents better results than traditional clustering results. (2) In the classification task, we mapped every labeled time series in a database to a visibility graph. We performed classification by transforming an unlabeled time series to a visibility graph and comparing it to the labeled graphs using a distance function. The new label is the most frequent label in the k-nearest graphs. (3) In the periodicity detection task, we first transform a time series into a visibility graph. Local maxima in a time series are usually mapped to highly connected vertices that link two communities. We used the community structure to propose a periodicity detection algorithm in time series. This method is robust to noisy data and does not require parameters. With the methods and results presented in this thesis, we conclude that network science is beneficial to time series data mining. Moreover, this approach can provide better results than traditional methods. It is a new form of extracting information from time series and can be easily extended to other tasks. / Séries temporais são conjuntos de dados ordenados no tempo. Devido à ubiquidade desses dados, seu estudo é interessante para muitos campos da ciência. A mineração de dados temporais é uma área de pesquisa que tem como objetivo extrair informações desses dados relacionados no tempo. Para isso, modelos são usados para descrever as séries e buscar por padrões. Uma forma de modelar séries temporais é por meio de redes complexas. Nessa modelagem, um mapeamento é feito do espaço temporal para o espaço topológico, o que permite avaliar dados temporais usando técnicas de redes. Nesta tese, apresentamos soluções para tarefas de mineração de dados de séries temporais usando redes complexas. O objetivo principal foi avaliar os benefícios do uso da teoria de redes para extrair informações de dados temporais. Concentramo-nos em três tarefas de mineração. (1) Na tarefa de agrupamento, cada série temporal é representada por um vértice e as arestas são criadas entre as séries de acordo com sua similaridade. Os algoritmos de detecção de comunidades podem ser usados para agrupar séries semelhantes. Os resultados mostram que esta abordagem apresenta melhores resultados do que os resultados de agrupamento tradicional. (2) Na tarefa de classificação, cada série temporal rotulada em um banco de dados é mapeada para um gráfico de visibilidade. A classificação é realizada transformando uma série temporal não marcada em um gráfico de visibilidade e comparando-a com os gráficos rotulados usando uma função de distância. O novo rótulo é dado pelo rótulo mais frequente nos k grafos mais próximos. (3) Na tarefa de detecção de periodicidade, uma série temporal é primeiramente transformada em um gráfico de visibilidade. Máximos locais em uma série temporal geralmente são mapeados para vértices altamente conectados que ligam duas comunidades. O método proposto utiliza a estrutura de comunidades para realizar a detecção de períodos em séries temporais. Este método é robusto para dados ruidosos e não requer parâmetros. Com os métodos e resultados apresentados nesta tese, concluímos que a teoria da redes complexas é benéfica para a mineração de dados em séries temporais. Além disso, esta abordagem pode proporcionar melhores resultados do que os métodos tradicionais e é uma nova forma de extrair informações de séries temporais que pode ser facilmente estendida para outras tarefas.
|
22 |
Identificação de regiões codificantes de proteína através da transformada modificada de Morlet / Identification of Protein Coding Regions through the Modified Morlet TransformChalco, Jesus Pascual Mena 19 October 2005 (has links)
Um tópico importante na análise de seqüências biológicas é a busca de genes, ou seja, a identificação de regiões codificantes de proteínas. Esta identificação permite a posterior procura de significado, descrição ou categorização biológica do organismo analisado. Atualmente, vários métodos combinam reconhecimento de padrões com conhecimento coletado de conjuntos de treinamento ou de comparações com banco de dados genômicos. Entretanto, a acurácia desses métodos está ainda longe do satisfatório. Novos métodos de processamento de seqüências de DNA e de identificação de genes podem ser criados através da busca por conteúdo (search-by-content). O padrão periódico de DNA em regiões codificantes de proteína, denominada periodicidade de três bases, vem sendo considerado uma propriedade dessas regiões. As técnicas de processamento digital de sinais fornecem uma base robusta para a identificação de regiões com periodicidade de três bases. Nesta dissertação, são apresentados um \\pipeline, os conceitos básicos da identificação genômica, e métodos de processamento digital de sinais utilizados para a identificação de regiões codificantes de proteínas. Introduzimos um novo método para a identificação dessas regiões, baseado na transformada proposta, denominada Transformada Modificada de Morlet. Apresentamos vários resultados experimentais obtidos a partir de seqüências de DNA sintéticas e reais. As principais contribuições do trabalho consistem no desenvolvimento de um pipeline para projetos genoma e na criação de um método de identificação de regiões codificantes onde a periodicidade de três bases seja latente. O método apresenta desempenho superior e vantagens importantes em comparação ao método tradicional baseado na transformada de Fourier de tempo reduzido. / An important topic in biological sequences analysis is gene finding, i.e. the identification of protein coding regions. This identification allows the posterior research for meaning, description or biological categorization of the analyzed organism. Currently, several methods combine pattern recognition with knowledge collected from training datasets or from comparison with genomic databases. Nonetheless, the accuracy of these methods is still far from satisfactory. New methods of DNA sequences processing and genes identification can be created through search-by-content such sequences. The periodic pattern of DNA in protein coding regions, called three-base periodicity, has been considered proper of coding regions. Digital signal processing techniques supply a strong basis for regions identification with three-base periodicity. In this work, we present a bioinformatics pipeline, basic concepts of the genomic identification and digital signal processing methods used for protein coding regions identification. We introduce a new method for identification of these regions, based on a newly proposed transform, called Modified Morlet Transform. We present some obtained experimental results from synthetic and real DNA sequences. The main contributions consist of the bioinformatics pipeline development for genoma projects and the creation of a method for protein coding regions identification where the three-base periodicity is latent. The method presents superior performance and important advantages in comparison to traditional method based on the short time Fourier transform.
|
23 |
Ação de reguladores de crescimento no algodoeiro em função da ocorrência de chuvas, temperatura e adjuvante /Souza, Fábio Suano de, 1979- January 2007 (has links)
Orientador: Ciro Antonio Rosolem / Banca: João Domingos Rodrigues / Banca: Enes Furlani Junior / Banca: Celso Jamil Marur / Banca: Luiz Henrique Carvalho / Resumo: O presente trabalho teve por objetivo avaliar plantas de algodão submetidas a reguladores de crescimento em função das condições ambientais e de absorção dos produtos quando aplicados ou não com adjuvante vegetal. No primeiro experimento foram avaliadas plantas de algodão submetidas ao regulador à base de Cloreto de Mepiquat e regimes de temperatura dia/noite de 25/15, 32/22 e 39/29 °C. O delineamento experimental utilizado foi o inteiramente casualizado com cinco repetições. Foram avaliados parâmetros de crescimento, retenção de estruturas reprodutivas, fisiológicos e anatômicos. No segundo experimento os tratamentos foram constituídos de uma dose de regulador à base de Cloreto de Mepiquat e chlormequat e correspondente a 15,0 g ha1 do princípio ativo, aplicado com e sem adjuvante. As plantas foram submetidas à lâmina de chuva correspondente a 30 mm após 0; 1,5; 3; 6; 12 e 24 horas da aplicação do regulador, mais um tratamento sem chuva. O delineamento experimental foi o em blocos casualizados com quatro repetições. Foram avaliados parâmetros de crescimento, estruturas reprodutivas, reposição do regulador lavado pela chuva e concentração do regulador na planta. Além disso, foram realizados testes paralelos que visaram determinar a concentração dos produtos nas plantas e o comportamento das plantas em condições de campo submetidas à lavagem do regulador. O uso de adjuvante siliconado contribuiu de maneira significativa para a permanência e/ou absorção dos produtos pelas plantas de algodão; o melhor regime de temperatura para o desenvolvimento das plantas de algodão, bem como para que o regulador à base de Cloreto de Mepiquat possa ter sua ação expressa da melhor forma, foi a de 32/22°C e a reposição do regulador inicialmente aplicado e lavado por chuva se faz necessária para que as plantas tenham o seu crescimento controlado, o que melhora todo o sistema de produção. / Abstract: This research had as objective to evaluate cotton plants submitted to plant growth regulators as affected by environmental and uptake conditions when applied with or without adjuvant. In the first experiment, cotton plants were evaluated when they were submitted to mepiquat chloride and temperature regimes, day/night, of 25/15, 32/22 and 39/29 °C. The experimental design was the completely randomized with five replications. Growth, physiological, reproductive structure retention and anatomical parameters were evaluated related to the plant growth regulator uptake. In the second experiment, treatments were constituted by one rate of plant growth regulator mepiquat chloride and chlormequat chloride of 15 g ha-1 of the active ingredient, applied with and without adjuvant on cotton plants. Plants were submitted to simulated rainfall of 30 mm after 1; 1,5; 3; 6; 12 and 24 hours after plant growth regulators application, plus a treatment without rainfall. The experimental design was in randomized blocks with four replications. The parameters evaluated were: plant growth, reproductive structures, reposition of the plant growth regulator washed by the rainfall and concentration of the plant growth regulators in the plant. Besides, parallel tests were carried out which had as objective to determinate the concentration of the products in the plants and plant growth in field conditions submitted to plant growth regulator wash. A silicon adjuvant contributes in a significant way for the product permanence and/or uptake by the cotton plants. The most adequate temperature regime for plant development, as well as, for mepiquat chloride plant growth regulator to express its action was 32/22°C and the reapplication of the regulator rate initially applied and washed by rainfall was necessary, so the plants could have their growth controlled, what optimizes the whole production system. / Doutor
|
24 |
Estudo de um problema de coleta domiciliar urbana de resíduos sólidos. / A study of an urban household solid waste collection problem.Tamura, Adam Sussumu 18 August 2014 (has links)
O presente trabalho aborda o Problema de Coleta Domiciliar Urbana (PCDU) de resíduos sólidos, tratado no nível tático de planejamento, em que zonas de coleta são definidas para cada dia da semana e designadas aos veículos coletores, cuja frota deve ser dimensionada. O problema estudado é baseado em um caso real, o qual possui como particularidades: cada zona de coleta é formada por regiões adjacentes e será representada por um nó-semente; a demanda de cada zona deverá ser atendida dentro do período de uma semana, conforme múltiplos programas possíveis de coleta; em um turno de um dia de trabalho um veículo poderá realizar múltiplas viagens; e há uma garagem para a frota e uma estação de transbordo, a qual possibilita que o veículo seja esvaziado para realizar outras viagens. A literatura apresenta alguns métodos heurísticos para a resolução de variantes deste problema, sendo os métodos exatos utilizados somente na resolução de instâncias pequenas, dado que o problema de VRP (Vehicle Routing Problem) é classificado como NP-hard. A imposição de adjacência é uma característica particular, a qual é justificada pela possível melhoria na utilização dos veículos em posterior planejamento operacional. São propostos um modelo matemático e um método heurístico para resolver o problema, sobre os quais são realizados experimentos computacionais. O método heurístico é aplicado sobre um estudo de caso de um problema de escala real, sendo obtida solução heurística como resultado. / The present work addresses the Urban Household Solid Waste Problem (UHSWP) on a tactical planning level, wherein collection zones are assigned to every week daywork and collection vehicles, which fleet is to be sized. The studied problem is based on a real case, such peculiarities as: each collection zone is a set of adjacent areas and a seed node represents it; the demand each zone must attended within a week, according to the several possible collection schedule; on a work day shift a vehicle can be assigned to multiple trips; and there is a base depot for the fleet and a transfer station, where the vehicles are unloaded, restoring their load capacity for the next trips. Literature presents heuristic methods for the solving of its problem variants, in which exact methos are only applied to small instances, due to the VRP (Vehicle Routing Problem) NP-hard property. The adjacency imposition is a peculiar feature, which is justified by the potential improvement on vehicle usage considering a posterior operational planning. A mathematical model and a heuristic method are proposed for the problem solving and evaluated by computational experiments. A real scale problem case study is solved by the heuristic method and the results are presented.
|
25 |
Ação de reguladores de crescimento no algodoeiro em função da ocorrência de chuvas, temperatura e adjuvanteSouza, Fábio Suano de [UNESP] 23 April 2007 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:30:26Z (GMT). No. of bitstreams: 0
Previous issue date: 2007-04-23Bitstream added on 2014-06-13T19:40:05Z : No. of bitstreams: 1
souza_fs_dr_botfca.pdf: 850813 bytes, checksum: b2ea4ed97c12f6f0ca8cce6267ea054f (MD5) / Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) / O presente trabalho teve por objetivo avaliar plantas de algodão submetidas a reguladores de crescimento em função das condições ambientais e de absorção dos produtos quando aplicados ou não com adjuvante vegetal. No primeiro experimento foram avaliadas plantas de algodão submetidas ao regulador à base de Cloreto de Mepiquat e regimes de temperatura dia/noite de 25/15, 32/22 e 39/29 °C. O delineamento experimental utilizado foi o inteiramente casualizado com cinco repetições. Foram avaliados parâmetros de crescimento, retenção de estruturas reprodutivas, fisiológicos e anatômicos. No segundo experimento os tratamentos foram constituídos de uma dose de regulador à base de Cloreto de Mepiquat e chlormequat e correspondente a 15,0 g ha 1 do princípio ativo, aplicado com e sem adjuvante. As plantas foram submetidas à lâmina de chuva correspondente a 30 mm após 0; 1,5; 3; 6; 12 e 24 horas da aplicação do regulador, mais um tratamento sem chuva. O delineamento experimental foi o em blocos casualizados com quatro repetições. Foram avaliados parâmetros de crescimento, estruturas reprodutivas, reposição do regulador lavado pela chuva e concentração do regulador na planta. Além disso, foram realizados testes paralelos que visaram determinar a concentração dos produtos nas plantas e o comportamento das plantas em condições de campo submetidas à lavagem do regulador. O uso de adjuvante siliconado contribuiu de maneira significativa para a permanência e/ou absorção dos produtos pelas plantas de algodão; o melhor regime de temperatura para o desenvolvimento das plantas de algodão, bem como para que o regulador à base de Cloreto de Mepiquat possa ter sua ação expressa da melhor forma, foi a de 32/22°C e a reposição do regulador inicialmente aplicado e lavado por chuva se faz necessária para que as plantas tenham o seu crescimento controlado, o que melhora todo o sistema de produção. / This research had as objective to evaluate cotton plants submitted to plant growth regulators as affected by environmental and uptake conditions when applied with or without adjuvant. In the first experiment, cotton plants were evaluated when they were submitted to mepiquat chloride and temperature regimes, day/night, of 25/15, 32/22 and 39/29 °C. The experimental design was the completely randomized with five replications. Growth, physiological, reproductive structure retention and anatomical parameters were evaluated related to the plant growth regulator uptake. In the second experiment, treatments were constituted by one rate of plant growth regulator mepiquat chloride and chlormequat chloride of 15 g ha-1 of the active ingredient, applied with and without adjuvant on cotton plants. Plants were submitted to simulated rainfall of 30 mm after 1; 1,5; 3; 6; 12 and 24 hours after plant growth regulators application, plus a treatment without rainfall. The experimental design was in randomized blocks with four replications. The parameters evaluated were: plant growth, reproductive structures, reposition of the plant growth regulator washed by the rainfall and concentration of the plant growth regulators in the plant. Besides, parallel tests were carried out which had as objective to determinate the concentration of the products in the plants and plant growth in field conditions submitted to plant growth regulator wash. A silicon adjuvant contributes in a significant way for the product permanence and/or uptake by the cotton plants. The most adequate temperature regime for plant development, as well as, for mepiquat chloride plant growth regulator to express its action was 32/22°C and the reapplication of the regulator rate initially applied and washed by rainfall was necessary, so the plants could have their growth controlled, what optimizes the whole production system.
|
26 |
Expoente de Hurst e diagrama de fase para persistência induzida amnesticamente em processos não-markovianos. / Hurst exponent and the phase diagram for persistence induced amnestic on a non-MarkovianFerreira, Arlan da Silva 07 August 2009 (has links)
Nowadays there has been a growing interest in anomalous diffusion: the super difusive
and sub-difusive processes. The problem about normal diffusion already well established
whereas many problems still exist in anomalous diffusion. Several mathematical models and
computational techniques have been developed to model such processes. In this work we studied
a non-Markovian Random Walk (RW), in one dimension in which the development of the
process is governed by decisions taken in the distant past. We used as tool of analysis, analytical
and numerical procedures (Monte Carlo method). In this problem, the walker takes its decisions
(go right or left) at a given time t, based on the decisions taken in the past, namely in a fraction f
of the total time. As far as the decision making process is considered only the distant past is
taken into account. This loss of recent memory leads the probability density function of the
position to change from Gaussian to non-Gaussian and leads to the emergence of log-periodic
oscillations in position, besides producing a change in the behavior of non-persistent to
persistent, causing anomalous diffusion. This change is characterized by the Hurst exponent, and
is found, surprisingly, in a region where there is negative feedback. The diagram of phases
depending on the parameters f and p (fraction of old memory and feedback), shows the following
phases: classical non persistence, classical persistence, log-periodic non persistence, log-periodic
persistence, Gaussian and non Gaussian with respect to the position of the walker. / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Atualmente tem crescido o interesse por processos de difusão anômala, i.e., os super
difusivos e sub-difusivos. O problema voltado para difusão normal já é bem conhecido, enquanto
para difusões anômalas ainda existem vários problemas em abertos. Várias técnicas
computacionais e modelos matemáticos têm sido desenvolvidos para modelar tais processos.
Estudamos neste trabalho uma caminhada aleatória, não Markoviana em uma dimensão, em que
o desenvolvimento do processo é regido por decisões tomadas em relação ao passado distante.
Utilizamos como ferramenta de análise uma abordagem analítica e numérica (via método de
Monte Carlo). Nesse problema, o caminhante toma suas decisões (entre ir para a direita ou para a
esquerda), num determinado tempo t, com base nas decisões tomadas no passado, numa fração f
do tempo transcorrido. Quando f<1 o passado recente é esquecido e apenas o passado distante é
considerado. Essa perda de memória recente induz a função densidade de probabilidade da
posição a passar de um regime Gaussiano para não Gaussiano e leva ao surgimento de oscilações
log-periódicas na posição, além de produzir uma mudança no comportamento, de não persistente
para persistente, ocasionando difusão anômala. Essa mudança é caracterizada pelo expoente de
Hurst e ocorre também, surpreendentemente, numa região de feedback negativo. O diagrama de
fases em função dos parâmetros f e p (fração de memória antiga e feedback), mostra as seguintes
regiões: não persistência clássica; persistência clássica; não persistência log-periódica e
persistência log-periódica; região Gaussiana e não Gaussiana da posição.
|
27 |
Estudo de um problema de coleta domiciliar urbana de resíduos sólidos. / A study of an urban household solid waste collection problem.Adam Sussumu Tamura 18 August 2014 (has links)
O presente trabalho aborda o Problema de Coleta Domiciliar Urbana (PCDU) de resíduos sólidos, tratado no nível tático de planejamento, em que zonas de coleta são definidas para cada dia da semana e designadas aos veículos coletores, cuja frota deve ser dimensionada. O problema estudado é baseado em um caso real, o qual possui como particularidades: cada zona de coleta é formada por regiões adjacentes e será representada por um nó-semente; a demanda de cada zona deverá ser atendida dentro do período de uma semana, conforme múltiplos programas possíveis de coleta; em um turno de um dia de trabalho um veículo poderá realizar múltiplas viagens; e há uma garagem para a frota e uma estação de transbordo, a qual possibilita que o veículo seja esvaziado para realizar outras viagens. A literatura apresenta alguns métodos heurísticos para a resolução de variantes deste problema, sendo os métodos exatos utilizados somente na resolução de instâncias pequenas, dado que o problema de VRP (Vehicle Routing Problem) é classificado como NP-hard. A imposição de adjacência é uma característica particular, a qual é justificada pela possível melhoria na utilização dos veículos em posterior planejamento operacional. São propostos um modelo matemático e um método heurístico para resolver o problema, sobre os quais são realizados experimentos computacionais. O método heurístico é aplicado sobre um estudo de caso de um problema de escala real, sendo obtida solução heurística como resultado. / The present work addresses the Urban Household Solid Waste Problem (UHSWP) on a tactical planning level, wherein collection zones are assigned to every week daywork and collection vehicles, which fleet is to be sized. The studied problem is based on a real case, such peculiarities as: each collection zone is a set of adjacent areas and a seed node represents it; the demand each zone must attended within a week, according to the several possible collection schedule; on a work day shift a vehicle can be assigned to multiple trips; and there is a base depot for the fleet and a transfer station, where the vehicles are unloaded, restoring their load capacity for the next trips. Literature presents heuristic methods for the solving of its problem variants, in which exact methos are only applied to small instances, due to the VRP (Vehicle Routing Problem) NP-hard property. The adjacency imposition is a peculiar feature, which is justified by the potential improvement on vehicle usage considering a posterior operational planning. A mathematical model and a heuristic method are proposed for the problem solving and evaluated by computational experiments. A real scale problem case study is solved by the heuristic method and the results are presented.
|
28 |
Análise qualitativa de equações diferenciais abstratasCOSTA, Filipe Andrade da 15 January 2016 (has links)
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-05-30T13:29:28Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Tese Filipe Andrade.pdf: 827988 bytes, checksum: 2b48a1cdaad11619e56c67a685d04671 (MD5) / Made available in DSpace on 2017-05-30T13:29:28Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Tese Filipe Andrade.pdf: 827988 bytes, checksum: 2b48a1cdaad11619e56c67a685d04671 (MD5)
Previous issue date: 2016-01-15 / CNPQ / Nesse trabalho estaremos interessados em estudar propriedades relacionadas as soluções brandas para certos tipos de equações de evoluções. Dentre tais propriedades estudamos a existência de tais soluções assim como questões de periodicidade, para o problema de Cauchy abstrato com retardo dependendo do estado e para o problema com semigrupo exponencialmente estável. E para a equação que modela a dinâmica das estruturas flexíveis, esturademos a propriedade de Kneser. / In the present study, we focused on properties related to mild solutions to certain types of evolution equations. Among such properties, we studied the existence of these solutions as well as periodicity problems to the abstract Cauchy problem with state dependent delay and to the hyperbolic semigroup problem. In addition, for the equation that models the dynamic of flexible structures we studied the Kneser property.
|
29 |
Time series data mining using complex networks / Mineração de dados em séries temporais usando redes complexasLeonardo Nascimento Ferreira 15 September 2017 (has links)
A time series is a time-ordered dataset. Due to its ubiquity, time series analysis is interesting for many scientific fields. Time series data mining is a research area that is intended to extract information from these time-related data. To achieve it, different models are used to describe series and search for patterns. One approach for modeling temporal data is by using complex networks. In this case, temporal data are mapped to a topological space that allows data exploration using network techniques. In this thesis, we present solutions for time series data mining tasks using complex networks. The primary goal was to evaluate the benefits of using network theory to extract information from temporal data. We focused on three mining tasks. (1) In the clustering task, we represented every time series by a vertex and we connected vertices that represent similar time series. We used community detection algorithms to cluster similar series. Results show that this approach presents better results than traditional clustering results. (2) In the classification task, we mapped every labeled time series in a database to a visibility graph. We performed classification by transforming an unlabeled time series to a visibility graph and comparing it to the labeled graphs using a distance function. The new label is the most frequent label in the k-nearest graphs. (3) In the periodicity detection task, we first transform a time series into a visibility graph. Local maxima in a time series are usually mapped to highly connected vertices that link two communities. We used the community structure to propose a periodicity detection algorithm in time series. This method is robust to noisy data and does not require parameters. With the methods and results presented in this thesis, we conclude that network science is beneficial to time series data mining. Moreover, this approach can provide better results than traditional methods. It is a new form of extracting information from time series and can be easily extended to other tasks. / Séries temporais são conjuntos de dados ordenados no tempo. Devido à ubiquidade desses dados, seu estudo é interessante para muitos campos da ciência. A mineração de dados temporais é uma área de pesquisa que tem como objetivo extrair informações desses dados relacionados no tempo. Para isso, modelos são usados para descrever as séries e buscar por padrões. Uma forma de modelar séries temporais é por meio de redes complexas. Nessa modelagem, um mapeamento é feito do espaço temporal para o espaço topológico, o que permite avaliar dados temporais usando técnicas de redes. Nesta tese, apresentamos soluções para tarefas de mineração de dados de séries temporais usando redes complexas. O objetivo principal foi avaliar os benefícios do uso da teoria de redes para extrair informações de dados temporais. Concentramo-nos em três tarefas de mineração. (1) Na tarefa de agrupamento, cada série temporal é representada por um vértice e as arestas são criadas entre as séries de acordo com sua similaridade. Os algoritmos de detecção de comunidades podem ser usados para agrupar séries semelhantes. Os resultados mostram que esta abordagem apresenta melhores resultados do que os resultados de agrupamento tradicional. (2) Na tarefa de classificação, cada série temporal rotulada em um banco de dados é mapeada para um gráfico de visibilidade. A classificação é realizada transformando uma série temporal não marcada em um gráfico de visibilidade e comparando-a com os gráficos rotulados usando uma função de distância. O novo rótulo é dado pelo rótulo mais frequente nos k grafos mais próximos. (3) Na tarefa de detecção de periodicidade, uma série temporal é primeiramente transformada em um gráfico de visibilidade. Máximos locais em uma série temporal geralmente são mapeados para vértices altamente conectados que ligam duas comunidades. O método proposto utiliza a estrutura de comunidades para realizar a detecção de períodos em séries temporais. Este método é robusto para dados ruidosos e não requer parâmetros. Com os métodos e resultados apresentados nesta tese, concluímos que a teoria da redes complexas é benéfica para a mineração de dados em séries temporais. Além disso, esta abordagem pode proporcionar melhores resultados do que os métodos tradicionais e é uma nova forma de extrair informações de séries temporais que pode ser facilmente estendida para outras tarefas.
|
30 |
Identificação de regiões codificantes de proteína através da transformada modificada de Morlet / Identification of Protein Coding Regions through the Modified Morlet TransformJesus Pascual Mena Chalco 19 October 2005 (has links)
Um tópico importante na análise de seqüências biológicas é a busca de genes, ou seja, a identificação de regiões codificantes de proteínas. Esta identificação permite a posterior procura de significado, descrição ou categorização biológica do organismo analisado. Atualmente, vários métodos combinam reconhecimento de padrões com conhecimento coletado de conjuntos de treinamento ou de comparações com banco de dados genômicos. Entretanto, a acurácia desses métodos está ainda longe do satisfatório. Novos métodos de processamento de seqüências de DNA e de identificação de genes podem ser criados através da busca por conteúdo (search-by-content). O padrão periódico de DNA em regiões codificantes de proteína, denominada periodicidade de três bases, vem sendo considerado uma propriedade dessas regiões. As técnicas de processamento digital de sinais fornecem uma base robusta para a identificação de regiões com periodicidade de três bases. Nesta dissertação, são apresentados um \\pipeline, os conceitos básicos da identificação genômica, e métodos de processamento digital de sinais utilizados para a identificação de regiões codificantes de proteínas. Introduzimos um novo método para a identificação dessas regiões, baseado na transformada proposta, denominada Transformada Modificada de Morlet. Apresentamos vários resultados experimentais obtidos a partir de seqüências de DNA sintéticas e reais. As principais contribuições do trabalho consistem no desenvolvimento de um pipeline para projetos genoma e na criação de um método de identificação de regiões codificantes onde a periodicidade de três bases seja latente. O método apresenta desempenho superior e vantagens importantes em comparação ao método tradicional baseado na transformada de Fourier de tempo reduzido. / An important topic in biological sequences analysis is gene finding, i.e. the identification of protein coding regions. This identification allows the posterior research for meaning, description or biological categorization of the analyzed organism. Currently, several methods combine pattern recognition with knowledge collected from training datasets or from comparison with genomic databases. Nonetheless, the accuracy of these methods is still far from satisfactory. New methods of DNA sequences processing and genes identification can be created through search-by-content such sequences. The periodic pattern of DNA in protein coding regions, called three-base periodicity, has been considered proper of coding regions. Digital signal processing techniques supply a strong basis for regions identification with three-base periodicity. In this work, we present a bioinformatics pipeline, basic concepts of the genomic identification and digital signal processing methods used for protein coding regions identification. We introduce a new method for identification of these regions, based on a newly proposed transform, called Modified Morlet Transform. We present some obtained experimental results from synthetic and real DNA sequences. The main contributions consist of the bioinformatics pipeline development for genoma projects and the creation of a method for protein coding regions identification where the three-base periodicity is latent. The method presents superior performance and important advantages in comparison to traditional method based on the short time Fourier transform.
|
Page generated in 0.082 seconds