• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 274
  • 8
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • Tagged with
  • 296
  • 296
  • 229
  • 186
  • 167
  • 123
  • 65
  • 42
  • 35
  • 34
  • 30
  • 28
  • 28
  • 24
  • 24
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Comportamento e informação na estrutura a termo das taxas de juros do Brasil

Novy, Luiz Gustavo Guimarães 11 December 2000 (has links)
Made available in DSpace on 2010-04-20T20:54:45Z (GMT). No. of bitstreams: 0 Previous issue date: 2000-12-11T00:00:00Z / O comportamento da curva que relaciona o rendimento dos títulos de desconto negociados no sistema financeiro nacional e o seu prazo de vencimento, ou seja, da estrutura a termo das taxas de juros, é minusciosamenteestudado através da análise de componentes. principais. Através de duas equações de regressão busca-se discutir as ·informações implícitas nas taxas de juros a termo sobre as taxas de juros e prêmios esperados para o futuro.
22

Variabilidade espacial do diâmetro a altura do peito do eucalipto e das frações granulométricas do solo utilizando análise multivariada e geoestatística

Bona, Diego Antonio Ottonelli de 15 July 2014 (has links)
Made available in DSpace on 2016-08-29T15:37:07Z (GMT). No. of bitstreams: 1 tese_7839_Dissertacao_Diego_Ottonelli_Bona.pdf: 1348997 bytes, checksum: 06f558e3589af39fee6f7d00288d1564 (MD5) Previous issue date: 2014-07-15 / O gênero Eucalyptus é o mais cultivado entre as florestas plantadas no Brasil e o sucesso desses plantios florestais está diretamente relacionado com os atributos do solo. Neste sentido, o objetivo deste estudo foi estudar as frações granulométricas de um Latossolo Vermelho Amarelo e o desenvolvimento do eucalipto após três anos de cultivo utilizando as técnicas da análise multivariada e geoestatística. A amostragem de solo foi realizada em uma área de 10,02 hectares, com um total de 94 pontos georreferenciado espaçados a 33x33 metros, sendo determinadas as frações argila e areia total nas profundidades 0-0,20 e 0,20-0,40 m. Posteriormente, após três anos do plantio do eucalipto, em cada ponto amostral, foi medido o Diâmetro à Altura do Peito de cinco árvores gerando um valor médio para cada ponto georreferenciado, os quais foram submetidos a análise da variabilidade espacial. As frações granulométricas foram submetidas a análise de componentes principais e a análise geoestatística. Os dados apresentaram distribuição normal pelo teste de Kolmogorov-Smirnov e coeficiente de variação médio para as frações do solo e baixo para o DAP. A primeira componente principal explicou 77,17% da variância dos dados, tendo correlação positiva com a argila e areia total. Ajustou-se o modelo esférico para o DAP, apresentando dependência espacial forte com um alcance de 66 metros. A utilização do semivariograma cruzado para o DAP e a componente principal proporcionou maior continuidade espacial, com um alcance de 168 m. As frações do solo ajustaram-se ao modelo esférico e apresentaram dependência espacial forte, com exceção da fração argila na profundidade de 0,20-0,40 m que apresentou moderado grau de dependência espacial. O eucalipto apresentou maior crescimento em DAP nas áreas com menores cotas de altitude com maiores teores de areia total. / Eucalyptus is the most cultivated genus in Brazilian planted forests; the success of these forest plantations is directly related to the soil’s characteristics. In this sense, the objective of this study was to evaluate the granulometric fractions of a Red Yellow Latosol and the development of eucalyptus after three years of cultivation under the techniques of multivariate and geostatistical analysis. Soil sampling was conducted in an area of 10.02 hectares, with a total of 94 georeferenced points, placed 33x33 meters apart from each other; full clay and sand fractions in the depths were respectively 0- 0.20 and 0.20-0.40 m. Later, three years after the eucalyptus planting, the Diameter at Breast Height (DBH) of five trees was measured in each sample point – this generated a mean value for each georeferenced point, and they were all subjected to special variability analysis. The granulometric fractions were subjected to the analysis of main components and geostatistical analysis. The data showed normal distribution through Kolmogorov-Smirnov Test, an average coefficient of variation for soil fractions, and low coefficient of variation for DBH. The first main component is related to 77.17% of the data variance, with positive correlation with clay and total sand. We adjusted the spherical model for DBH, and found strong special dependence, with a range of 66 meters. The use of cross semivariogram for the DBH and the main component allowed higher special continuity, with a range of 168 m. The soil fractions were adjusted to the spherical model and presented strong special dependency, except for the clay fraction in the depth of 0.20-0.40 m, which presented moderate degree of special dependence. The eucalyptus presented higher growth on DBH in areas with smaller altitude quotas and higher levels of total sand.
23

Análise de componentes principais robusta em dados de poluição do ar: aplicação à otimização de uma rede de monitoramento

Cotta, Higor Henrique Aranda 30 October 2014 (has links)
Submitted by Maykon Nascimento (maykon.albani@hotmail.com) on 2016-05-17T18:15:16Z No. of bitstreams: 2 license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) Dissertacao Higor Cotta.pdf: 2521368 bytes, checksum: 52d861f2b58f881364f84b3a0a10ef45 (MD5) / Approved for entry into archive by Patricia Barros (patricia.barros@ufes.br) on 2016-06-14T18:14:39Z (GMT) No. of bitstreams: 2 license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) Dissertacao Higor Cotta.pdf: 2521368 bytes, checksum: 52d861f2b58f881364f84b3a0a10ef45 (MD5) / Made available in DSpace on 2016-06-14T18:14:39Z (GMT). No. of bitstreams: 2 license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) Dissertacao Higor Cotta.pdf: 2521368 bytes, checksum: 52d861f2b58f881364f84b3a0a10ef45 (MD5) / CAPES / Os estudos de dados de Poluição do ar originados de uma rede de monitoramento envolvem um n úmero consider ável de vari áveis e observações. Do ponto de vista de técnicas estatísticas, e possível analisar separadamente cada vari ável de interesse. Entretanto, esse tipo de analise pode não contemplar as diversas dinâmicas de relacionamento existentes entre essas variáveis. Devido a isso, faz-se necessário o uso de tecnicas estatísticas capazes de lidar, medir e analisar conjuntamente esses dados gerados. Esse ramo da Estatística e conhecido como estatística multivariada. Na área da poluição do ar destaca-se a analise de componentes principais (ACP), que constroi combinações lineares das variáveis para explicar a estrutura de variância-covariância dos dados originais. Na poluição do ar, a analise de componentes principais e utilizada para: criação de Índices de Qualidade do Ar, Identificação de fontes de poluição, Redimensionamento de uma Rede de Monitoramento, Pre-processador de vari áveis para Modelos Aditivos Generalizados , alem de outras aplicações. Neste trabalho a Analise de Componentes Principais (ACP) e utilizada no estudo do redimensionamento da Rede de Monitoramento da Qualidade do Ar da Região da Grande Vitória (RAMQAr) para o poluente PM10. A ACP assume que os dados sejam não correlacionados no tempo, característica não observada nos dados de poluição do ar. As componentes obtidas de séries temporais mantém a propriedade de ortogonalidade, entretanto, essas componentes são autocorrelacionadas e correlacionadas temporalmente. Esse resultado e demonstrado teórica e empiricamente. A segunda contribuição deste trabalho e estudar a ACP no contexto de séries temporais com outliers aditivos por meio de metodologia robusta. Como já explorado na literatura, os outliers aditivos destroem a estrutura de correlação dos dados e, como as componentes são calculadas da matriz de covariância, os outliers também afetam as propriedades das componentes. / Studies of data from air pollution originating from a network of air monitoring involve a large number of variables and observations. From the standpoint of statistical techniques, it is possible to analyze separately each variable of interest. However, this type of analysis can not contemplate the relationship dynamics between these variables. Because of this, it is necessary to use statistical techniques to handle, measure and analyze these data generated jointly. This branch of statistics known as Multivariate Statistics. One important multivariate technique in the area of air pollution is the Principal Component Analysis (PCA), which builds linear combinations of variables to explain the variance-covariance structure of the original data. Air pollution in the Principal Component Analysis is used for: creating indexes of air quality, identi cation of pollution sources, management of air quality monitoring network, preprocessor variables for generalized additive models, besides other applications. In this work PCA is used to study the management and scaling of the Network for Monitoring Air Quality in the Greater Vitoria Region. This work deals with the use of Principal Component Analysis (PCA) in time series with additive outliers. The PCA is one of the most important multivariate techniques which are linear combinations constructed to explain the variance-covariance structure of the original data. Although PCA assumes that the data are serially independent, this assumption is not found in practice situation in time series, e.g. Air Pollution data. PCs calculated from time series observations maintains their orthogonality property, but the components are found to be auto and cross-correlated, which depends on the correlation structure of the original series. These properties and their impact in the use of PCA are one of main objective of this work. Another contribution is related to the study of PCA time series under the presence of additive outliers by proposing a Robust PCA (RPCA) method. It is well known that additive outliers in time series destroys the correlation structure of the data. Since the PCs are computed by using the covariance matrix, the outliers also a ect the properties of PCs. Therefore the Robust PCA should be used in this context. The Robust PCA method proposed here is justi ed empirical and theoretically, and a real data set based on Air Pollution time serie is used to show the usefulness of the Robust PCA method in a real application.
24

Pré-processamento para a mineração de dados

Schmitt, Jeovani January 2005 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Ciência da Computação. / Made available in DSpace on 2013-07-15T23:15:02Z (GMT). No. of bitstreams: 1 223783.pdf: 989944 bytes, checksum: 5339f705a93558e2bbd0069d6c4d34b9 (MD5) / A mineração de dados em grandes bases pode requerer alto tempo computacional. Além do mais, é comum as bases de dados conterem variáveis mensuradas em diferentes níveis: intervalar, ordinal e nominal. Neste caso, técnicas desenvolvidas para variáveis quantitativas não poderiam ser aplicadas sob as variáveis originais. Como exemplo, pode-se citar a análise de agrupamentos pelo método das k-médias. Este exige que as variáveis de entradas sejam quantitativas. Este trabalho apresenta uma metodologia para a fase do pré-processamento em mineração de dados, que utiliza a análise de componentes principais (ACP) com escalonamento ótimo (EO). O pré-processamento é uma etapa fundamental que pode melhorar a performance dos algoritmos de análise, através da redução de dimensionalidade. O escalonamento ótimo permite analisar bases que contenham variáveis observadas em diferentes níveis de mensuração. Através da ACP é possível obter uma redução das variáveis originais em um número de componentes principais, gerando novas coordenadas, menor que o número de variáveis originais. As novas coordenadas podem ser utilizadas na mineração de dados propriamente dita, em tarefas como agrupamentos, classificação entre outras. Essas tarefas podem ser realizadas por métodos estatísticos ou computacionais, como redes neurais, algoritmos genéticos entre outros. A metodologia proposta foi testada em uma base de dados com 118.776 registros de pessoas, pesquisadas pelo Instituto Brasileiro de Geografia e Estatística - IBGE, contendo 13 variáveis observadas em diferentes níveis de mensuração. Através da ACP com EO, as 13 variáveis foram reduzidas a 6 componentes principais, preservando ainda 77% da variabilidade original. Sob o novo conjunto de coordenadas foi aplicada a análise de agrupamentos, utilizando o algoritmo das k-médias para a separação dos grupos, com o objetivo de ilustrar uma tarefa comum em mineração de dados, a identificação de grupos, onde foi possível descrever 6 subgrupos ou clusters.
25

Método para a seleção do número de componentes principais com base na lógica difusa

Scremin, Marcos Antônio Antonello January 2003 (has links)
Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia de Produção. / Made available in DSpace on 2012-10-20T17:34:51Z (GMT). No. of bitstreams: 0Bitstream added on 2013-07-16T19:21:38Z : No. of bitstreams: 1 191336.pdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Os problemas oriundos dos fenômenos naturais, sociais e econômicos normalmente envolvem um gran-de volume de dados. Uma eficiente transformação desses dados em informação útil possivelmente passa por uma redução de dimensionalidade. Esta redução, quando realizada por componentes principais, en-volve a decisão da seleção do número adequado de componentes principais. Os métodos freqüente-mente utilizados para esse propósito são fundamentados apenas na variância explicada pelas compo-nentes principais. Dessa forma, deixando de contemplar informações relevantes, como por exemplo, as cargas fatoriais e o conhecimento do pesquisador e/ou especialista sobre o problema em estudo. Neste trabalho desenvolve-se um método para a seleção do número de componentes principais com base na Lógica Difusa. O uso da Lógica Difusa contribui para o aperfeiçoamento do método de Análise de Com-ponentes Principais ao permitir agregar o conhecimento do pesquisador e/ou especialista, sobre o pro-blema, às informações estatísticas dos dados. Assim, possibilita fornecer subsídios importantes no apoio à tomada de decisão. Na busca da validação do método proposto realizou-se um estudo comparativo, por meio de amostras simuladas, com os métodos de Kaiser e da Porcentagem Acumulada de Variância Explicada. Neste estudo de comparação, o método proposto apresentou resultados superiores aos outros dois na seleção do número de componentes principais.
26

Análise de componentes principais aplicada à confiabilidade de sistemas complexos

Lopes, Luis Felipe Dias January 2001 (has links)
Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia de Produção / Made available in DSpace on 2012-10-19T09:54:06Z (GMT). No. of bitstreams: 0Bitstream added on 2013-07-16T18:43:17Z : No. of bitstreams: 1 181211.pdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / A confiabilidade de um produto é sem dúvida um dos aspectos mais importantes de um programa de melhoria de qualidade. Em função disso, neste trabalho, desenvolve-se uma metodologia multivariada para determinar a confiabilidade e o tempo médio de falha de um produto, cujos componentes tenham seus tempos de vida correlacionados. Para isso, utiliza-se a análise de componentes principais, buscando soluções para os problemas de especificações de um produto, bem como a utilização de técnicas paramétricas e não-paramétricas para a estimação das funções de confiabilidade, a fim de determinar a eficiência. Na aplicação apresentada, foi possível reduzir um grande número de variáveis (80 peças originais) para um grupo de apenas três variáveis (componentes principais), no qual se chegou a conclusão de que bastaria usar o primeiro componente. Observou-se que a diferença entre a confiabilidade do primeiro componente principal e a média das confiabilidades das peças originais para três percentis (P10, P50 e P90) pôde ser considerada muito pequena, encontrando-se na faixa de -0,2% a 0,1%. Quanto à análise de custo-benefício, a técnica proposta poderá ser tratada como uma atividade de apoio melhorada, ou seja, uma atividade que não gera aumento nos custos, e sim uma melhoria nos benefícios de implementação, pois a coleta do tempo de vida das peças é inevitável.
27

Indicador multivariado policórico: proposta de indicador para o diagnóstico da aprendizagem organizacional

Ribeiro Junior, Hugo José [UNESP] 18 February 2013 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:35:41Z (GMT). No. of bitstreams: 0 Previous issue date: 2013-02-18Bitstream added on 2014-06-13T19:25:06Z : No. of bitstreams: 1 ribeirojunior_hj_dr_guara.pdf: 1554252 bytes, checksum: d8fa739e14c8db4e22ebb20424cf9e0f (MD5) / Este trabalho propõe o desenvolvimento, validação e teste de um indicador multivariado para o diagnóstico de práticas da Aprendizagem Organizacional (AO) nas organizações, com vistas ao planejamento da Gestão do Conhecimento (GC). Este indicador, construído a partir da Análise de Componentes Principais (ACP), estende a aplicação do Índice Global Multivariado (IGM) de Paiva et al. (2010) para dados ordinais, com a extração de escores de componentes principais realizada a partir da matriz de correlação policórica. Este novo indicador, denominado “Indicador Multivariado Policórico (IMP)”, fornece uma forma mais robusta de análise da estrutura de correlação e covariância de variáveis aleatórias discretas que se adéquam à distribuição de probabilidade Multinomial, característica dos protocolos estabelecidos com base em escalas ordinais do tipo Likert. Assim, para desenvolver a proposta, foi utilizada uma adaptação do protocolo Organizational Learning Survey de Goh e Richards (1997), que permitiu uma série de simulações para verificar a adequação e a sensibilidade do indicador frente a diferentes cenários. Como forma de validação e teste, o protocolo foi aplicado no Laboratório Nacional de Astrofísica (LNA), onde se obteve o diagnóstico da AO. A principal constatação desta tese foi a correlação positiva detectada entre o viés da média e IMP e o aumento da correlação dos questionários, o que implicada em diagnósticos ora subestimados, ora superestimados. Além de diagnósticos enviesados pela utilização da média, constatou-se também a alta correlação positiva observada entre o segundo autovalor da matriz de correlação policórica e o alfa de Cronbach, o que mostra como o indicador pode sugerir também o nível de confiabilidade interna dos questionários. Diferenças significativas também foram... / This study proposes the development, validation and test of a multivariate indicator for the diagnostic of Organizational Learning (OL) practices in the organizations in order to contribute to the planning of Knowledge Management (KM). This indicator was built from the Principal Component Analysis (PCA) ), extends the application of the Global Multivariate Index (GMI) for ordinal data, with the extraction of principal component scores taken from the polychoric correlation matrix. This new indicator, called Multivariate Polychoric Indicator (MPI), provides a more robust analysis of covariance and correlation structure of discrete random variables that fit the Multinomial probability distribution, characteristic of established protocols based on the ordinal scales Likert. Thus, to develop the proposal, we used an adaptation of the Goh and Richards' Organizational Learning Survey protocol, which allowed a series of simulations to verify the appropriateness and sensitivity of the indicator against different scenarios. As a form of validation and testing, the protocol was applied in the National Astrophysical Laboratory (LNA), which revealed the diagnosis of OL. The main finding of this thesis was the detected positive correlation among the average bias and MPI and the increased correlation of the questionnaires, which sometimes involved in diagnostics under or overestimated. Besides diagnostics skewed by the use of the average, there was also a high positive correlation observed between the second eigenvalue of the polychoric correlation matrix and Cronbach's alpha, which shows how the indicator can also suggest the level of internal reliability of the questionnaires. Significant differences were also observed in relation to the extraction of components based on the Pearson's correlation r matrix, observed both on simulated data as in the... (Complete abstract click electronic access below)
28

Extração de feições retas e cálculo de entidades pontuais a partir de dados LASER para o ajustamento relativo de faixas

Santos, Renato César dos [UNESP] 23 February 2015 (has links) (PDF)
Made available in DSpace on 2015-09-17T15:25:16Z (GMT). No. of bitstreams: 0 Previous issue date: 2015-02-23. Added 1 bitstream(s) on 2015-09-17T15:49:03Z : No. of bitstreams: 1 000843705.pdf: 2956856 bytes, checksum: cb0e595f096e918c0efbac822e2f99aa (MD5) / Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) / Essa dissertação tem por objetivo principal propor uma metodologia para obtenção de entidades pontuais a partir da intersecção de retas concorrentes extraídas a partir de dados LiDAR (Light Detection And Ranging) obtidos por sistemas de varredura LASER (Light Amplification by Estimulated Emission of Radiation), e utilização dos pontos extraídos no ajustamento relativo de faixas LASER. Para tal propósito, será apresentada uma revisão de conceitos relativos à classificação de pontos 3D, extração de segmentos de retas e entidades pontuais, e os modelos matemáticos utilizados para minimizar as discrepâncias entre faixas LASER. O procedimento apresentado nesse trabalho pode ser dividido em três principais fases: extração das feições de interesse, determinação das feições correspondentes e estimação dos parâmetros que modelam as discrepâncias. As entidades pontuais são obtidas a partir da intersecção de segmentos de retas concorrentes, extraídos sobre o conjunto de dados LASER por meio do conceito da análise de componentes principais e do método dos mínimos quadrados (MMQ)... / The main objective of this dissertation is to propose a methodology to obtaining point entities from the intersection of concurrent lines, and use of these points at the relative adjustment of LASER strips. For such purpose, it will be presented a review of concepts about 3D point classification, extraction of line segments and point entities, and the mathematical models used to minimize the discrepancies between LASER strips. The procedure presented in this work can be divided into three main stages: extraction of features of interest, determining the corresponding features and estimation of the parameters that model the discrepancies. The point entities are derived from the intersection of concurrent lines segments, which are extracted from LASER data set through the concept of principal component analysis (PCA) and least squares method (LSM). The correspondence among the point entities is established by the ICP method (Iterative Closest Point), while the parameters are estimated using the LSM...
29

Distinguishing long non-coding RNAs from protein coding transcripts based on machine learning techniques

Schneider, Hugo Wruck 28 September 2017 (has links)
Tese (doutorado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2017. / Submitted by Raquel Almeida (raquel.df13@gmail.com) on 2017-12-18T16:34:15Z No. of bitstreams: 1 2017_HugoWruckSchneider.pdf: 2108041 bytes, checksum: 6be494b560adf8d5114b2439b4b025c0 (MD5) / Approved for entry into archive by Raquel Viana (raquelviana@bce.unb.br) on 2018-02-20T20:23:11Z (GMT) No. of bitstreams: 1 2017_HugoWruckSchneider.pdf: 2108041 bytes, checksum: 6be494b560adf8d5114b2439b4b025c0 (MD5) / Made available in DSpace on 2018-02-20T20:23:11Z (GMT). No. of bitstreams: 1 2017_HugoWruckSchneider.pdf: 2108041 bytes, checksum: 6be494b560adf8d5114b2439b4b025c0 (MD5) Previous issue date: 2018-02-20 / Dentre as análises que devem ser realizadas nos projetos de sequenciamento, um problema importante é a distinção entre transcritos codificadores de proteinas (PCTs) e RNAs nãocodificadores longos (lncRNAs). Esse trabalho investiga potenciais características dos lncRNAs e propõe dois métodos para distinção dessas duas classes de transcritos (PCTs e lncRNAs). O primeiro método foi proposto com base em máquinas de vetores de suporte (SVM), enquanto o segundo utilizou técnicas de aprendizado semi-supervisionado. O mé- todo utilizando SVM obteve excelentes resultados, quando comparados a outras propostas existentes na literatura. Esse método foi treinado e testado com dados de humanos, camundongos e peixe-zebra, tendo atingido uma acurácia de ≈ 98% com dados de humanos e camundongos, e de ≈ 96% para os dados do peixe-zebra. Ainda, foram criados modelos utilizando várias espécies, que mostraram classificações melhores para outras espécies diferentes daquelas do treinamento, ou seja, mostraram boa capacidade de generalização. Para validar esse método, foram utilizados dados de ratos, porcos e drosófilas, além de dados de RNA-seq de humanos, gorilas e macacos. Essa validação atingiu uma acurácia de mais de 85%, em todos os casos. Por fim, esse método foi capaz de identificar duas sequências dentro do Swiss-Prot que puderam ser reanotadas. O método baseado em aprendizado semi-supervisionado foi treinado e testado com dados de humanos, camundongos, ornitorrincos, galinhas, gambás, orangotangos e rãs, tendo sido utilizadas cinco técnicas de aprendizado semi-supervisionado. A contribuição desse método foi que ele permitiu a redução do tamanho do conjunto de dados classificados, utilizados no treinamento. No melhor caso, somente 2 sequências bem anotadas foram usadas no treinamento, o que, comparado com outras ferramentas disponíveis na literatura, indica um ganho expressivo. A acurácia obtida pelo método nos melhores casos foram de ≈ 95% para dados de humanos e camundongos, ≈ 90% para dados de galinhas, gambás e orangutangos, e ≈ 80% para dados de ornitorrincos e rãs. Dados de RNA-seq foram utilizados para teste, tendo sido obtida acurácia de mais de 95%. Esses dados foram utilizados para treinamento dos modelos de orangotango e de rã, que também apresentaram acurácias excelentes. / Among the analyses that have to be performed in sequencing projects, an important problem to be addressed is the distinction of protein coding transcripts (PCTs) and long non-coding RNAs (lncRNA). This work investigates potential characteristics of the lncRNAs and proposes two methods for distinguishing these two classes of transcripts (PCTs and lncRNAs). The first methods was based on Support Vector Machine (SVM), while the second one used semi-supervised learning techniques. The SVM based method obtained excellent results when compared to other methods in the literature. This method was trained and tested with data from human, mouse and zebrafish, and reached accuracy of ≈ 98% for human and mouse data, and ≈ 96% for zebrafish data. Besides, models with multiple species were created, which improved the classification for species different from those used in the training phase, i.e., these models could also be used in the classification of species different from those that were used in the training phase. To validate this method, data from rat, pig and drosophila, and RNA-seq data from humans, gorillas and macaque were used. This validation reached an accuracy of more than 85% for all the species. Finally, this method was able to identify two sequences within the Swiss-Prot database that were reannotated. The semi-supervised based method was trained and tested with data from human, mouse, platypus, chicken, opossum, orangutan and xenopus, in five semi-supervised learning techniques. The contribution of this method was the reduction of the size of the classified training data set. In the best scenario, only two annotated sequences were used in the training phase, which is an expressive gain when compared to other tools available in the literature. Accuracies obtained by the method in the best cases were ≈ 95% for human and mouse datasets, ≈ 90% for chicken, opossum and orangutan datasets, and ≈ 80% for data platypus and xenopus datasets. RNA-seq data were used for testing, having obtained more than 95% of accuracy. This data was used to train the orangutan and xenopus models, also leading to an excellent accuracy.
30

Extração de feições retas e cálculo de entidades pontuais a partir de dados LASER para o ajustamento relativo de faixas /

Santos, Renato César dos. January 2015 (has links)
Orientador: Mauricio Galo / Banca: Edson Aparecido Mitishita / Banca: Aluir Porfirio Dal Poz / Resumo: Essa dissertação tem por objetivo principal propor uma metodologia para obtenção de entidades pontuais a partir da intersecção de retas concorrentes extraídas a partir de dados LiDAR (Light Detection And Ranging) obtidos por sistemas de varredura LASER (Light Amplification by Estimulated Emission of Radiation), e utilização dos pontos extraídos no ajustamento relativo de faixas LASER. Para tal propósito, será apresentada uma revisão de conceitos relativos à classificação de pontos 3D, extração de segmentos de retas e entidades pontuais, e os modelos matemáticos utilizados para minimizar as discrepâncias entre faixas LASER. O procedimento apresentado nesse trabalho pode ser dividido em três principais fases: extração das feições de interesse, determinação das feições correspondentes e estimação dos parâmetros que modelam as discrepâncias. As entidades pontuais são obtidas a partir da intersecção de segmentos de retas concorrentes, extraídos sobre o conjunto de dados LASER por meio do conceito da análise de componentes principais e do método dos mínimos quadrados (MMQ)... / Abstract: The main objective of this dissertation is to propose a methodology to obtaining point entities from the intersection of concurrent lines, and use of these points at the relative adjustment of LASER strips. For such purpose, it will be presented a review of concepts about 3D point classification, extraction of line segments and point entities, and the mathematical models used to minimize the discrepancies between LASER strips. The procedure presented in this work can be divided into three main stages: extraction of features of interest, determining the corresponding features and estimation of the parameters that model the discrepancies. The point entities are derived from the intersection of concurrent lines segments, which are extracted from LASER data set through the concept of principal component analysis (PCA) and least squares method (LSM). The correspondence among the point entities is established by the ICP method (Iterative Closest Point), while the parameters are estimated using the LSM... / Mestre

Page generated in 0.0812 seconds