• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 318
  • 28
  • 10
  • Tagged with
  • 357
  • 237
  • 57
  • 43
  • 41
  • 41
  • 35
  • 34
  • 31
  • 30
  • 29
  • 29
  • 27
  • 25
  • 24
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
151

Ação gênica e estimação de parâmetros genéticos em cruzamentos de arroz irrigado / Genetic action and estimation of genetic parameters in crosses of irrigated rice.

Aguiar, Gabriel Almeida 02 April 2018 (has links)
Submitted by Gabriela Lopes (gmachadolopesufpel@gmail.com) on 2018-11-22T14:30:47Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Gabriel Almeida Aguiar.pdf: 1098486 bytes, checksum: ba1c248551913ef68ad1a6ac02eb80bf (MD5) / Approved for entry into archive by Aline Batista (alinehb.ufpel@gmail.com) on 2018-11-23T18:49:42Z (GMT) No. of bitstreams: 2 Gabriel Almeida Aguiar.pdf: 1098486 bytes, checksum: ba1c248551913ef68ad1a6ac02eb80bf (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2018-11-23T18:49:42Z (GMT). No. of bitstreams: 2 Gabriel Almeida Aguiar.pdf: 1098486 bytes, checksum: ba1c248551913ef68ad1a6ac02eb80bf (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2018-04-02 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / O melhoramento genético tem desempenhado um importante papel na evolução da cultura do arroz. Assim, os melhoristas de plantas têm usado a análise de gerações para obter estimativas dos parâmetros genéticos, potencializando o entendimento das bases genéticas de caracteres de importância agronômica, consequentemente maior eficiência na condução do programa de melhoramento. Logo, esse trabalho teve o objetivo de determinar os parâmetros genéticos e o modo de ação gênica predominante para os caracteres: teor de compostos fenólicos totais (TCFT), variáveis da cor (luminosidade da cor (L), coordenada a* da cor (a*), coordenada b* da cor (b*), tonalidade da cor (°Hue) e da saturação da cor (Croma)) do pericarpo, número de panículas por planta (NPP), peso de panícula (PP), comprimento de panícula (CP) e altura de planta (AP) em populações segregantes de arroz. Dessa forma, foram realizados cruzamentos entre os genitores, obtendo assim as gerações P1, P2, F1, F2, RC1 (F1 x P1) e RC2 (F1 x P2) que foram avaliadas em um mesmo ambiente de cultivo. O cruzamento entre os genitores BRS Pampa e SCS 120 Ônix, assim como o cruzamento recíproco, foram executados a fim de estimar os parâmetros genéticos e modo de ação gênica para os caracteres TCFT, L, a*, b*, °Hue e Croma. Já o cruzamento entre os genitores BRS AG e Arbório, bem como o cruzamento recíproco, foram realizados para estimar os parâmetros genéticos e modo de ação gênica para os caracteres NPP, PP e CP. Já para AP, foram os cruzamentos BRS AG x Arbório, BRS Querência x BRS Pampa e BRS Pampa x SCS 120 Ônix. A partir da análise de variância das gerações, foram obtidos os seguintes componentes e parâmetros de variância fenotípica, variância de ambiente, variância genotípica, variância genética aditiva, variância genética de dominância, herdabilidade no sentido amplo e herdabilidade no sentido restrito. Sendo utilizados para a predição de ganhos por seleção e grau médio de dominância. A análise de ação gênica foi através do modelo completo e do modelo aditivo-dominante. As estimativas dos componentes e parâmetros genéticos de todos os caracteres analisados indicam que há variabilidade genética significativa, proporcionando ganhos genéticos em ciclos adicionais de seleção com base no fenótipo. Os caracteres analisados apresentam herança genética quantitativa e o efeito gênico mais importante na determinação dos caracteres é o efeito gênico aditivo. Ocorre ação gênica de dominância parcial para os caracteres TCFT, L, b*, °Hue, Croma, NPP, PP e CP. Já para o caráter a*, a ação gênica é de sobredominância. Para AP, o tipo de ação gênica é influenciado conforme os genitores analisados, sendo detectado ação gênica de dominância parcial e sobredominância. Não ocorre efeito materno para os caracteres analisados. Essas informações podem ser utilizadas a fim de possibilitar a definição de procedimentos técnicos e estratégias eficientes que proporcionaram o desenvolvimento e lançamento de novas cultivares de arroz. / The genetic improvement has played an important role in the evolution of rice crop. Thus, plant breeders have used the analysis of generations to obtain estimates of genetic parameters, potentializing the understanding of the genetic bases of characters of agronomic importance, consequently greater efficiency in the conduct of the breeding program. Therefore, this work had the objective of determining the genetic parameters and the mode of predominant genetic action for the characters: content of total phenolic compounds (CTPC), color variables (color luminosity (L), color coordinate a* (a*), color coordinate b* (b*), color tonality (°Hue) and color saturation (Chroma)) of pericarp, number of panicles per plant (NPP), panicle weight (PW),panicle length (PL) and plant height (PH) in rice-segregating populations. For this reason, were done cross breeding between the parents thus obtaining the generations P1, P2, F1, F2, BC1 (F1 x P1) e BC2 (F1 x P2) which were evaluated in the same culture environment. The cross between the parents BRS Pampa e SCS 120 Ônix, as reciprocal crossing, were performed in order to estimate the genetic parameters, and mode of genetic action for the characters CTPC, L, a*, b*, °Hue and Croma. Already the cross between the parents BRS AG and Arbório, as reciprocal crossing, were performed to estimate the genetic parameters and mode of genetic action for the characters NPP, PW and PL. Already for PH, were the crossings BRS AG x Arbório, BRS Querência x BRS Pampa and BRS Pampa x SCS 120 Ônix. As from analysis of variance of the generations, the following components and parameters of phenotypic variance, variance of environment, genotypic variance, additive genetic variance, genetic variance of dominance, heritability in the broad sense and heritability in the narrow sense were obtained. Being used for the prediction of earnings by selection and average degree of dominance. The analysis of genetic action was through the complete model and the additive-dominant model. The estimates of the components and genetic parameters of all traits analyzed indicate that there is significant genetic variability, providing genetic gains in additional cycles of selection based on the phenotype. The analyzed characters present quantitative genetic inheritance and the most important gene effect in determining the characters is the additive gene effect. Genetic action of partial dominance occurs for the characters CTPC, L, b*, °Hue, Chroma, NPP, PW and PL. Already for the character a*, the genetic action is over dominance. For PH, the type of genetic action is influenced according to the parents analyzed, being detected partial dominance and over dominance genetic action. There is no maternal effect for the characters analyzed. This information can be used to enable the definition of technical procedures and efficient strategies that provided the development and launch of new rice cultivars.
152

The Use of Computational Intelligence for Precision Spraying of Plant Protection Products / Utilizando a Inteligência Computacional para a Pulverização Precisa de Produtos Fitofarmacêuticos

Bruno Squizato Faiçal 19 December 2016 (has links)
Protection management with the aid of plant protection products makes it possible to carry out pest control programs in agricultural environments and make them less hazardous for the cultivation of products on a large scale. However, when these programs are put into effect, only a small proportion of the sprayed products is really deposited on the target area while much of it is carried to neighboring regions. The scientific literature includes studies on the use of mathematical techniques to calculate the physical transformation and movement and provide a deposition estimate of the product. On the basis of this prediction, it is possible to configure a system which can allow the spraying to be carried out in normal weather conditions in the region for a satisfactory performance, although these conditions can undergo changes and make any statistical configuration unreliable. An alternative way of overcoming this problem, is to adapt the spray elements to the meteorological conditions while the protection management is being undertaken. However, the current techniques are operationally expensive in computational terms, which makes them unsuitable for situations where a short operational time is required. This thesis can be characterized as descriptive and seeks to allow deposition predictions to be made in a rapid and precise way. Thus it is hoped that the new approaches can enable the spray element to be adapted to the weather conditions while the protection management is being carried out. The study begins by attempting to reduce costs through a computational model of the environment that can speed up its execution. Subsequently, this computational model is used for predicting the rate of deposition as a fitness function in meta-heuristic algorithms and ensure that the mechanical behavior of the spray element can be adapted to the weather conditions while the management is put into effect. The results of this approach show that it can be adapted to environments with low variability. At the same time, it has a poor performance in environments with a high variability of weather conditions. A second approach is investigated and analyzed for this scenario, where the adaptation requires a reduced execution time. In this second approach, a trained machine learning technique is employed together with the results obtained from the first approach in different scenarios. These results show that this approach allows the spray element to be adapted in a way that is compatible with what was provided by the previous approach in less space of time. / O manejo de proteção com uso de produtos fitofarmacêuticos possibilita o controle de pragas em ambientes agrícolas, tornando-o menos nocivo para o desenvolvimento da cultura e com produção em grande escala. Porém, apenas uma pequena parte do produto pulverizado realmente é depositado na área alvo enquanto a maior parte do produto sofre deriva para regiões vizinhas. A literatura científica possui trabalhos com o uso de técnicas matemáticas para calcular a transformação física e movimento para estimar a deposição do produto. Com base nessa predição é possível configurar o sistema de pulverização para realizar a pulverização sob uma condição meteorológica comum na região para um desempenho satisfatório, mas as condições meteorológicas podem sofrer alterações e tornar qualquer configuração estática ineficiente. Uma alternativa para esse problema é realizar a adaptação da atuação do elemento pulverizador às condições meteorológicas durante a execução do manejo de proteção. Contudo, as técnicas existentes são computacionalmente custosas para serem executadas, tornando-as inadequadas para situações em que é requerido baixo tempo de execução. Esta tese se concentra no contexto descrito com objetivo de permitir a predição da deposição de forma rápida e precisa. Assim, espera-se que as novas abordagens sejam capazes de possibilitar a adaptação do elemento pulverizador às condições meteorológicas durante a realização do manejo de proteção. Este trabalho inicia com o processo de redução do custo de execução de um modelo computacional do ambiente, tornando sua execução mais rápida. Posteriormente, utiliza-se este modelo computacional para predição da deposição como função Fitness em algoritmos de meta-heurística para adaptar o comportamento do elemento pulverizador às condições meteorológicas durante a realização do manejo. Os resultados desta abordagem demonstram que é possível utilizá-la para realizar a adaptação em ambientes com baixa variabilidade. Por outro lado, pode apresentar baixo desempenho em ambientes com alta variabilidade nas condições meteorológicas. Uma segunda abordagem é investigada e analisada para este cenário, onde o processo de adaptação requer um tempo de execução reduzido. Nesta segunda abordagem é utilizado uma técnica de Aprendizado de Máquina treinada com os resultados gerados pela primeira abordagem em diferentes cenários. Os resultados obtidos demonstram que essa abordagem possibilita realizar a adaptação do elemento pulverizador compatível com a proporcionada pela abordagem anterior em um menor espaço de tempo.
153

Predição de links em redes complexas utilizando informações de estruturas de comunidades / Link prediction in complex networks using community structure information

Jorge Carlos Valverde Rebaza 27 March 2013 (has links)
Diferentes sistemas do mundo real podem ser representados por redes. As redes são estruturas nas quais seus vértices (nós) representam entidades e links representam relações entre essas entidades. Além disso, as redes caracterizam-se por ser estruturas dinâmicas, o que implica na rápida aparição e desaparição de entidades e seus relacionamentos. Nesse cenário, um dos problemas importantes a serem enfrentados no contexto das redes, é da predição de links, isto é, prever a ocorrência futura de um link ainda não existente entre dois vértices com base nas informações já existentes. A importância da predição de links deve-se ao fato de ter aplicações na recuperação de informação, identificação de interações espúrias e, ainda, na avaliação de mecanismos de evolução das redes. Para enfrentar o problema da predição de links, a maioria dos métodos utiliza informações da vizinhança topológica das redes para atribuir um valor que represente a probabilidade de conexão futura entre um par de vértices analisados. No entanto, recentemente têm aparecido métodos híbridos, caracterizados por usar outras informações além da vizinhança topológica, sendo as informações das comunidades as normalmente usadas, isso, devido ao fato que, ao serem grupos de vértices densamente ligados entre si e esparsamente ligados com vértices de outros grupos, fornecem informações que podem ser úteis para determinar o comportamento futuro das redes. Assim, neste trabalho são apresentadas duas propostas na linha dos métodos baseados nas informações das comunidades para predição de links. A primeira proposta consiste em um novo índice de similaridade que usa as informações dos vértices pertencentes a mesma comunidade na vizinhança de um par de vértices analisados, bem como as informações dos vértices pertencentes a diferentes comunidades nessa mesma vizinhança. A segunda proposta consiste de um conjunto de índices obtidos a partir da reformulação de algumas propostas já existentes, porém, inserindo neles informações dos vértices pertencentes unicamente à mesma comunidade na vizinhança topológica de um par de vértices analisados. Experimentos realizados em dez redes complexas de diferentes domínios demonstraram que, em geral, os índices propostos obtiveram desempenho superior às abordagens usuais / Different real-world systems can be represented as networks. Networks are structures in which vertices (nodes) represent entities and links represent relationships between these entities. Moreover, networks are dynamic structures, which implies rapid appearance and disappearance of entities and their relationships. In this scenario, the link prediction problem attempts to predict the future existence of a link between a pair of vertices considering existing information. The link prediction importance is due to the fact of having different applications in areas such as information retrieval, identification of spurious interactions, as well as for understanding mechanisms of network evolution. To address the link prediction problem, many proposals use topological information to assign a value that represents the likelihood of a future connection between a pair of vertices. However, hybrid methods have appeared recently. These methods use additional information such as community information. Communities are groups of vertices densely connected among them and sparsely connected to vertices from other groups, providing useful information to determinate the future behavior of networks. So, this research presents two proposals for link prediction based on communities information. The first proposal consists of a new similarity index that uses information about the communities that the vertices in the neighborhood of a analyzed pair of vertices belong. The second proposal is a set of indices obtained from the reformulation of various existing proposals, however, using only the information from vertices belonging to the same community in the neighborhood of a pair of vertices analyzed. Experiments conducted in ten complex networks of different fields show the proposals outperform traditional approaches
154

Analysis of microRNA precursors in multiple species by data mining techniques / Análise de precursores de microRNA em múltiplas espécies utilizando técnicas de mineração de dados

Ivani de Oliveira Negrão Lopes 18 June 2014 (has links)
RNA Sequencing has recently emerged as a breakthrough technology for microRNA (miRNA) discovery. This technology has allowed the discovery of thousands of miRNAs in a large number of species. However, despite the benefits of this technology, it also carries its own limitations, including the need for sequencing read libraries and of the genome. Differently, ab initio computational methods need only the genome as input to search for genonic locus likely to give rise to novel miRNAs. In the core of most of these methods, there are predictive models induced by using data mining techniques able to distinguish between real (positive) and pseudo (negative) miRNA precursors (pre-miRNA). Nevertheless, the applicability of current literature ab initio methods have been compromised by high false detection rates and/or by other computational difficulties. In this work, we investigated how the main aspects involved in the induction of predictive models for pre-miRNA affect the predictive performance. Particularly, we evaluate the discriminant power of feature sets proposed in the literature, whose computational costs and composition vary widely. The computational experiments were carried out using sequence data from 45 species, which covered species from eight phyla. The predictive performance of the classification models induced using large training set sizes (≥ 1; 608) composed of instances extracted from real and pseudo human pre-miRNA sequences did not differ significantly among the feature sets that lead to the maximal accuracies. Moreover, the differences in the predictive performances obtained by these models, due to the learning algorithms, were neglectable. Inspired by these results, we obtained a feature set which can be computed 34 times faster than the less costly among those feature sets, producing the maximal accuracies, albeit the proposed feature set has achieved accuracy within 0.1% of the maximal accuracies. When classification models using the elements previously discussed were induced using small training sets (120) from 45 species, we showed that the feature sets that produced the highest accuracies in the classification of human sequences were also more likely to produce higher accuracies for other species. Nevertheless, we showed that the learning complexity of pre-miRNAs vary strongly among species, even among those from the same phylum. These results showed that the existence of specie specific features indicated in previous studies may be correlated with the learning complexity. As a consequence, the predictive accuracies of models induced with different species and same features and instances spaces vary largely. In our results, we show that the use of training examples from species phylogenetically more complex may increase the predictive performances for less complex species. Finally, by using ensembles of computationally less costly feature sets, we showed alternative ways to increase the predictive performance for many species while keeping the computational costs of the analysis lower than those using the feature sets from the literature. Since in miRNA discovery the number of putative miRNA loci is in the order of millions, the analysis of putative miRNAs using a computationally expensive feature set and or inaccurate models would be wasteful or even unfeasible for large genomes. In this work, we explore most of the learning aspects implemented in current ab initio pre-miRNA prediction tools, which may lead to the development of new efficient ab initio pre-miRNA discovery tools / O sequenciamento de pequenos RNAs surgiu recentemente como uma tecnologia inovadora na descoberta de microRNAs (miRNA). Essa tecnologia tem facilitado a descoberta de milhares de miRNAs em um grande número de espécies. No entanto, apesar dos benefícios dessa tecnologia, ela apresenta desafios, como a necessidade de construir uma biblioteca de pequenos RNAs, além do genoma. Diferentemente, métodos computacionais ab initio buscam diretamente no genoma regiões prováveis de conter miRNAs. A maioria desses métodos usam modelos preditivos capazes de distinguir entre os verdadeiros (positivos) e pseudo precursores de miRNA - pre-miRNA - (negativos), os quais são induzidos utilizando técnicas de mineração de dados. No entanto, a aplicabilidade de métodos ab initio da literatura atual é limitada pelas altas taxas de falsos positivos e/ou por outras dificuldades computacionais, como o elevado tempo necessário para calcular um conjunto de atributos. Neste trabalho, investigamos como os principais aspectos envolvidos na indução de modelos preditivos de pre-miRNA afetam o desempenho preditivo. Particularmente, avaliamos a capacidade discriminatória de conjuntos de atributos propostos na literatura, cujos custos computacionais e a composição variam amplamente. Os experimentos computacionais foram realizados utilizando dados de sequências positivas e negativas de 45 espécies, cobrindo espécies de oito filos. Os resultados mostraram que o desempenho preditivo de classificadores induzidos utilizando conjuntos de treinamento com 1608 ou mais vetores de atributos calculados de sequências humanas não diferiram significativamente, entre os conjuntos de atributos que produziram as maiores acurácias. Além disso, as diferenças entre os desempenhos preditivos de classificadores induzidos por diferentes algoritmos de aprendizado, utilizando um mesmo conjunto de atributos, foram pequenas ou não significantes. Esses resultados inspiraram a obtenção de um conjunto de atributos menor e que pode ser calculado até 34 vezes mais rapidamente do que o conjunto de atributos menos custoso produzindo máxima acurácia, embora a acurácia produzida pelo conjunto proposto não difere em mais de 0.1% das acurácias máximas. Quando esses experimentos foram executados utilizando vetores de atributos calculados de sequências de outras 44 espécies, os resultados mostraram que os conjuntos de atributos que produziram modelos com as maiores acurácias utilizando vetores calculados de sequências humanas também produziram as maiores acurácias quando pequenos conjuntos de treinamento (120) calculados de exemplos de outras espécies foram utilizadas. No entanto, a análise destes modelos mostrou que a complexidade de aprendizado varia amplamente entre as espécies, mesmo entre aquelas pertencentes a um mesmo filo. Esses resultados mostram que a existência de características espécificas em pre-miRNAs de certas espécies sugerida em estudos anteriores pode estar correlacionada com a complexidade de aprendizado. Consequentemente, a acurácia de modelos induzidos utilizando um mesmo conjunto de atributos e um mesmo algoritmo de aprendizado varia amplamente entre as espécies. i Os resultados também mostraram que o uso de exemplos de espécies filogeneticamente mais complexas pode aumentar o desempenho preditivo de espécies menos complexas. Por último, experimentos computacionais utilizando técnicas de ensemble mostraram estratégias alternativas para o desenvolvimento de novos modelos para predição de pre-miRNA com maior probabilidade de obter maior desempenho preditivo do que estratégias atuais, embora o custo computacional dos atributos seja inferior. Uma vez que a descoberta de miRNAs envolve a análise de milhares de regiões genômicas, a aplicação prática de modelos preditivos de baixa acurácia e/ou que dependem de atributos computacionalmente custosos pode ser inviável em análises de grandes genomas. Neste trabalho, apresentamos e discutimos os resultados de experimentos computacionais investigando o potencial de diversas estratégias utilizadas na indução de modelos preditivos para predição ab initio de pre-miRNAs, que podem levar ao desenvolvimento de ferramentas ab initio de maior aplicabilidade prática
155

Uma abordagem de predição de falhas de software no contexto de desenvolvimento ágil / A fault prediction approach in the contexto of agile development

Ricardo Fontão Verhaeg 24 March 2016 (has links)
A atividade de teste é essencial para a garantia de qualidade do software e deveria ser empregada durante todo o processo de desenvolvimento. Entretanto, o esforço para a sua aplicação e o alto custo envolvido, comprometem sua utilização de maneira adequada. Durante o processo de desenvolvimento ágil, onde o tempo é um fator crítico, otimizar a atividade de testes sem afetar a qualidade é uma tarefa desafiadora. Apesar do crescente interesse em pesquisas sobre testes no contexto de métodos ágeis, poucas evidências são encontradas sobre avaliação do esforço para elaboração, evolução e manutenção dos testes nesse contexto. Este trabalho propõe uma abordagem para predição de defeitos desenvolvida para o contexto do desenvolvimento ágil e, portanto, considerando as características deste processo de desenvolvimento. Essa abordagem pode ser aplicada quando se considera ou não o desenvolvimento dirigido a testes. A abordagem permite priorizar a execução dos testes com base em uma lista de arquivos que apresentam maior probabilidade de apresentarem defeitos. A abordagem proposta foi avaliada por meio de um estudo de caso conduzido em um ambiente real de desenvolvimento. Como resultado obtido, observou-se que a abordagem melhorou a qualidade do projeto desenvolvido, sem aumentar o esforço durante a atividade de teste de software. / The testing activity is essential to ensure the software quality and should be applied during all steps of the developing process. However the required effort to do this and the high cost involved, compromises its proper usage. During the agile development process, in which time is a critical factor, optimizing the testing activity without affecting quality is a challenge. Despite the growing interest in research based agile method testing, few works are found on the evaluation of the effort to prepare, develop and maintain test cases in this context. This paper proposes an approach for fault prediction in the context of agile development and therefore considering the characteristics of this development process. This approach can be applied both when considering test-driven development or not. It allows prioritizing the execution of tests based on a list containing files most likely to fail. The proposed approach was evaluated by a case study conducted in a real development environment. The results indicate that the approach can improve the quality of the projects without increasing the effort during the testing activity.
156

Avaliação do desempenho de modelos preditivos no contexto de análise de sobrevivência / Evaluation of predictive models in survival analysis.

Tiago Mendonça dos Santos 17 May 2013 (has links)
Modelos estatísticos com objetivos preditivos são frequentemente aplicados como ferramentas no processo de tomadas de decisão em diversas áreas. Uma classe importante de modelos estatísticos é composta por modelos de análise de sobrevivência. Duas quantidades são de interesse nessa classe: o tempo até o instante do evento de interesse ou o status para um determinado instante de tempo fixado. Aplicações importantes desses modelos incluem a identificação de novos marcadores para certas doenças e definição de qual terapia será mais adequada de acordo com o paciente. Os marcadores utilizados podem ser dados por biomarcadores, assim como por marcadores baseados em modelos de regressão. Um exemplo de marcador baseado em modelos de regressão é dado pelo preditor linear. Ainda que a utilização de modelos de sobrevivência com objetivos preditivos seja de suma importância, a literatura nesse assunto é muito esparsa e não há consenso na forma de se avaliar o desempenho preditivo desses. Esse trabalho pretende reunir e comparar diferentes abordagens de se avaliar o desempenho preditivo de modelos de sobrevivência. Essa avaliação é feita principalmente utilizando-se funções de perda para o tempo de sobrevivência e quantidades associadas a diferentes definições de curva ROC para o status. Para a comparação dessas diferentes metodologias foi feito um estudo de simulação e no final aplicou-se essas técnicas em um conjunto de dados de um estudo do Instituto do Câncer de São Paulo. / In many fields, predictive models are often applied as a helpful tool in the decision making process. An important class of predictive models is composed by survival models. Two quantities of special interest in these class are: time until the occurrence of a specified event and survival status for a fixed moment of time. Important applications of these models include new markers identification for certain diseases, as well as defining which therapy is the most appropriated for a patient. Markers can be given by biomarkers, but they can also be derived from regression models. An example of regression models based markers is the linear predictor. Despite the importance of survival models applications with predictive goals, literature is this subject is very sparse and there is no agreement on the best methodology to evaluate predictive performance of these models. In this work we intend to assemble and to compare different methodologies for assessing the predictive performance of survival models. This assessment is made mainly with loss functions for the survival time and ROC curve associated quantities for status. An simulation study was done in order to compare these different methodologies, which were also applied to a study about survival of patients at ICU of ICESP (Instituto do Câncer de São Paulo)
157

MYOP: um arcabouço para predição de genes ab initio\" / MYOP: A framework for building ab initio gene predictors

Andre Yoshiaki Kashiwabara 23 March 2007 (has links)
A demanda por abordagens eficientes para o problema de reconhecer a estrutura de cada gene numa sequência genômica motivou a implementação de um grande número de programas preditores de genes. Fizemos uma análise dos programas de sucesso com abordagem probabilística e reconhecemos semelhanças na implementação dos mesmos. A maior parte desses programas utiliza a cadeia oculta generalizada de Markov (GHMM - generalized hiddenMarkov model) como um modelo de gene. Percebemos que muitos preditores têm a arquitetura da GHMM fixada no código-fonte, dificultando a investigação de novas abordagens. Devido a essa dificuldade e pelas semelhanças entre os programas atuais, implementamos o sistema MYOP (Make Your Own Predictor) que tem como objetivo fornecer um ambiente flexível o qual permite avaliar rapidamente cada modelo de gene. Mostramos a utilidade da ferramenta através da implementação e avaliação de 96 modelos de genes em que cada modelo é formado por um conjunto de estados e cada estado tem uma distribuição de duração e um outro modelo probabilístico. Verificamos que nem sempre um modelo probabilísticomais sofisticado fornece um preditor melhor, mostrando a relevância das experimentações e a importância de um sistema como o MYOP. / The demand for efficient approaches for the gene structure prediction has motivated the implementation of different programs. In this work, we have analyzed successful programs that apply the probabilistic approach. We have observed similarities between different implementations, the same mathematical framework called generalized hidden Markov chain (GHMM) is applied. One problem with these implementations is that they maintain fixed GHMM architectures that are hard-coded. Due to this problem and similarities between the programs, we have implemented the MYOP framework (Make Your Own Predictor) with the objective of providing a flexible environment that allows the rapid evaluation of each gene model. We have demonstrated the utility of this tool through the implementation and evaluation of 96 gene models in which each model has a set of states and each state has a duration distribution and a probabilistic model. We have shown that a sophisticated probabilisticmodel is not sufficient to obtain better predictor, showing the experimentation relevance and the importance of a system as MYOP.
158

Cross-project defect prediction with meta-Learning / Predição de defeitos cruzada entre projetos apoiado por meta-aprendizado

Porto, Faimison Rodrigues 29 September 2017 (has links)
Defect prediction models assist tester practitioners on prioritizing the most defect-prone parts of the software. The approach called Cross-Project Defect Prediction (CPDP) refers to the use of known external projects to compose the training set. This approach is useful when the amount of historical defect data of a company to compose the training set is inappropriate or insufficient. Although the principle is attractive, the predictive performance is a limiting factor. In recent years, several methods were proposed aiming at improving the predictive performance of CPDP models. However, to the best of our knowledge, there is no evidence of which CPDP methods typically perform best. Moreover, there is no evidence on which CPDP methods perform better for a specific application domain. In fact, there is no machine learning algorithm suitable for all domains. The decision task of selecting an appropriate algorithm for a given application domain is investigated in the meta-learning literature. A meta-learning model is characterized by its capacity of learning from previous experiences and adapting its inductive bias dynamically according to the target domain. In this work, we investigate the feasibility of using meta-learning for the recommendation of CPDP methods. In this thesis, three main goals were pursued. First, we provide an experimental analysis to investigate the feasibility of using Feature Selection (FS) methods as an internal procedure to improve the performance of two specific CPDP methods. Second, we investigate which CPDP methods present typically best performances. We also investigate whether the typically best methods perform best for the same project datasets. The results reveal that the most suitable CPDP method for a project can vary according to the project characteristics, which leads to the third investigation of this work. We investigate the several particularities inherent to the CPDP context and propose a meta-learning solution able to learn from previous experiences and recommend a suitable CDPD method according to the characteristics of the project being predicted. We evaluate the learning capacity of the proposed solution and its performance in relation to the typically best CPDP methods. / Modelos de predição de defeitos auxiliam profissionais de teste na priorização de partes do software mais propensas a conter defeitos. A abordagem de predição de defeitos cruzada entre projetos (CPDP) refere-se à utilização de projetos externos já conhecidos para compor o conjunto de treinamento. Essa abordagem é útil quando a quantidade de dados históricos de defeitos é inapropriada ou insuficiente para compor o conjunto de treinamento. Embora o princípio seja atrativo, o desempenho de predição é um fator limitante nessa abordagem. Nos últimos anos, vários métodos foram propostos com o intuito de melhorar o desempenho de predição de modelos CPDP. Contudo, na literatura, existe uma carência de estudos comparativos que apontam quais métodos CPDP apresentam melhores desempenhos. Além disso, não há evidências sobre quais métodos CPDP apresentam melhor desempenho para um domínio de aplicação específico. De fato, não existe um algoritmo de aprendizado de máquina que seja apropriado para todos os domínios de aplicação. A tarefa de decisão sobre qual algoritmo é mais adequado a um determinado domínio de aplicação é investigado na literatura de meta-aprendizado. Um modelo de meta-aprendizado é caracterizado pela sua capacidade de aprender a partir de experiências anteriores e adaptar seu viés de indução dinamicamente de acordo com o domínio alvo. Neste trabalho, nós investigamos a viabilidade de usar meta-aprendizado para a recomendação de métodos CPDP. Nesta tese são almejados três principais objetivos. Primeiro, é conduzida uma análise experimental para investigar a viabilidade de usar métodos de seleção de atributos como procedimento interno de dois métodos CPDP, com o intuito de melhorar o desempenho de predição. Segundo, são investigados quais métodos CPDP apresentam um melhor desempenho em um contexto geral. Nesse contexto, também é investigado se os métodos com melhor desempenho geral apresentam melhor desempenho para os mesmos conjuntos de dados (ou projetos de software). Os resultados revelam que os métodos CPDP mais adequados para um projeto podem variar de acordo com as características do projeto sendo predito. Essa constatação conduz à terceira investigação realizada neste trabalho. Foram investigadas as várias particularidades inerentes ao contexto CPDP a fim de propor uma solução de meta-aprendizado capaz de aprender com experiências anteriores e recomendar métodos CPDP adequados, de acordo com as características do software. Foram avaliados a capacidade de meta-aprendizado da solução proposta e a sua performance em relação aos métodos base que apresentaram melhor desempenho geral.
159

Transcriptoma, sítios de ligação para fatores de transcrição e região promotora de cana-de-açúcar / Transcriptome, transcription factors binding sites, and sugarcane promoter region

Oliveira, Mauro de Medeiros 26 September 2018 (has links)
O Brasil tem a maior produção de cana-de-açúcar do mundo. O cultivo de cana-de-açúcar no Brasil está voltado principalmente para a produção de açúcar ou Etanol e nos últimos anos para a produção de bioeletricidade através da utilização da biomassa do bagaço e da palha. Apesar da importância econômica e do potencial sustentável que a cana-de-açúcar apresenta, o genoma de referência para esta cultura ainda não está disponível na literatura. A principal justificativa para isso está na complexidade do mesmo, em especial pela alopoliploidia e autopoliploidia. De fato esta característica é a principal barreira para o desenvolvimento de novas variedades comerciais. Na literatura há diferentes estratégias que visam contribuir com o conhecimento genômico de cana-de-açúcar sendo mais prevalente dados de transcriptoma e pouca informação sobre o processo de regulação gênica. Além disso, diferente do que é observado em outras culturas comerciais, em cana-de-açúcar não há trabalhos associados com a caracterização in silico da região Promotora, assim como na identificação de sítios de ligação para Fatores de Transcrição (TFBSs). Por esta razão, o nosso trabalho foi direcionado para a caracterização in silico de regiões regulatórias em cana-de-açúcar. Para esta tarefa nós realizamos apenas a rotulação de sequências de DNA não codificante que estavam a upstream de cada gene anotado em cana-de-açúcar. Todos os genes foram selecionados de dados de transcriptoma e a sequência de DNA da região Promotora foi isolada do Genespace de cana-de-açúcar SP80-3280 gerado pelo projeto de sequenciamento do genoma de referência do nosso grupo. A rotulação da região regulatória em cana-de-açúcar foi executada em duas subsequências: Core Promoter e Promotor Proximal. Na região Core Promoter nós realizamos a identificação do sítio de inicio de transcrição (TSS), a estimativa do tamanho da região 5\' UTR e a classificação da região Core Promoter em TATA-box ou TATA-less. Todos os processos foram realizados através da ferramenta TSSPlant. A utilização da ferramenta TSSPlant motivou o desenvolvimento de uma nova ferramenta para predição do sinal de TSS que aqui chamamos de TSSFinder. A ferramenta TSSinder apresentou resultados de predição do sinal de TSS superior aos seus pares, além disso esta ferramenta foi bem sucedida em diferentes organismos como Arabidopsis thaliana, Gallus gallus e Saccharomyces cerevisiae. Na região Promotora Proximal nós realizamos a identificação de TFBSs através de duas metodologias: predição de novo e mapeamento de matrizes de TFBS (PSSM). O processo de predição de novo foi realizada por meio de dois modelos: Maximização da expectativa e Gibbs Sampler e esse processo foi executado apenas para o subgrupo de genes co-expressos ou apenas para o conjunto de sequências homeólogas de cada gene de cana-de-açúcar selecionado. Para o restante das sequências foi realizado apenas o mapeamento das matrizes de TFBSs identificadas durante o processo de predição de novo. Em paralelo todos TFBSs identificados no nosso trabalho foram comparados com o banco de TFBS para plantas. Através desse procedimento foi possível estimar qual classe de Fator de Transcrição está interagindo com o TFBS identificado na região Promotora Proximal dos genes Scdr1, ScSuSy, ScPAL. Com este trabalho, nós cobrimos parte da lacuna observada em estudos in silico paras regiões regulatórias de cana-de-açúcar. Além disso, nós aperfeiçoamos o processo de identificação do sinal de TSS para diferentes organismos; inclusive para plantas Dicotiledôneas e Monocotiledôneas. / Brazil has the highest production of sugarcane in the world. Its cultivation in Brazil is aimed at producing of sugar or ethanol and in recent years, biomass for bioenergy from bagasse and straw. Despite the economic importance and the sustainable potential that sugarcane presents, a reference genome for this crop is not yet available in the literature. One justification for this absence lies in the sugarcane genome complexity, allopolyploidy and autopolyploidy. In fact these characteristics are the main barrier for the development of new commercial varieties. In the literature different strategies aimed at contributing to genomic sugarcane mostly on the transcriptome and little information on the process of gene regulation. Furthermore, unlike other commercial crops, sugarcane has no reported in silico characterization of its promoter regions and identification of Transcription Factor binding sites. For this reason, our work was directed to an in silico characterization of regulatory regions in sugarcane. For this task we performed the labeling of non-coding DNA sequences that were upstream of each gene annotated in sugarcane. All genes were using from transcriptome data and the promoter region DNA sequence was isolated from Genespace of the SP80-3280 reference genome obtained of our group. The labeling of the regulatory region in sugarcane was carried out in two subsections: Core Promoter and Proximal Promoter. In the Core Promoter region we performed the identification of the TSS signal, the estimation of the size of the 5\' UTR region and the classification of the Core Promoter region in TATA-box or TATA-less. All processes were performed using the TSSPlant tool. The use of the TSSPlant tool motivated the development of a new tool to predict the TSS signal that we call TSSFinder. The TSSinder tool presented TSS signal prediction results superior to its peers, moreover this tool was successful in different organisms - Arabidopsis thaliana, Gallus gallus and Saccharomyces cerevisiae. In the Proximal Promoter region we performed the identification of TFBSs through two methodologies: de novo prediction and mapping of TFBS matrices (PSSM). The de novo prediction process was performed using two models: Expectancy Maximization and Gibbs Sampler and this process was performed only for subgroups of coexpressed genes or only for the set of homeologues sequences from each sugarcane gene. For the rest of the sequences only the mapping of the matrices of TFBSs identified during the de novo prediction process was conducted. In parallel all TFBSs identified in our work were compared with the TFBS database for plants. Through this procedure it was estimated which class of Transcription Factor is interacting with the TFBS identified in the Proximal Promoter region of the Scdr1, ScSuSy, ScPAL genes.With this work, we cover part of the gap observed in in silico studies for the regulatory region of sugarcane. In addition, we improved the process of identification the TSS signal for different organisms including dicotyledonous and monocotyledonous plants.
160

Cross-project defect prediction with meta-Learning / Predição de defeitos cruzada entre projetos apoiado por meta-aprendizado

Faimison Rodrigues Porto 29 September 2017 (has links)
Defect prediction models assist tester practitioners on prioritizing the most defect-prone parts of the software. The approach called Cross-Project Defect Prediction (CPDP) refers to the use of known external projects to compose the training set. This approach is useful when the amount of historical defect data of a company to compose the training set is inappropriate or insufficient. Although the principle is attractive, the predictive performance is a limiting factor. In recent years, several methods were proposed aiming at improving the predictive performance of CPDP models. However, to the best of our knowledge, there is no evidence of which CPDP methods typically perform best. Moreover, there is no evidence on which CPDP methods perform better for a specific application domain. In fact, there is no machine learning algorithm suitable for all domains. The decision task of selecting an appropriate algorithm for a given application domain is investigated in the meta-learning literature. A meta-learning model is characterized by its capacity of learning from previous experiences and adapting its inductive bias dynamically according to the target domain. In this work, we investigate the feasibility of using meta-learning for the recommendation of CPDP methods. In this thesis, three main goals were pursued. First, we provide an experimental analysis to investigate the feasibility of using Feature Selection (FS) methods as an internal procedure to improve the performance of two specific CPDP methods. Second, we investigate which CPDP methods present typically best performances. We also investigate whether the typically best methods perform best for the same project datasets. The results reveal that the most suitable CPDP method for a project can vary according to the project characteristics, which leads to the third investigation of this work. We investigate the several particularities inherent to the CPDP context and propose a meta-learning solution able to learn from previous experiences and recommend a suitable CDPD method according to the characteristics of the project being predicted. We evaluate the learning capacity of the proposed solution and its performance in relation to the typically best CPDP methods. / Modelos de predição de defeitos auxiliam profissionais de teste na priorização de partes do software mais propensas a conter defeitos. A abordagem de predição de defeitos cruzada entre projetos (CPDP) refere-se à utilização de projetos externos já conhecidos para compor o conjunto de treinamento. Essa abordagem é útil quando a quantidade de dados históricos de defeitos é inapropriada ou insuficiente para compor o conjunto de treinamento. Embora o princípio seja atrativo, o desempenho de predição é um fator limitante nessa abordagem. Nos últimos anos, vários métodos foram propostos com o intuito de melhorar o desempenho de predição de modelos CPDP. Contudo, na literatura, existe uma carência de estudos comparativos que apontam quais métodos CPDP apresentam melhores desempenhos. Além disso, não há evidências sobre quais métodos CPDP apresentam melhor desempenho para um domínio de aplicação específico. De fato, não existe um algoritmo de aprendizado de máquina que seja apropriado para todos os domínios de aplicação. A tarefa de decisão sobre qual algoritmo é mais adequado a um determinado domínio de aplicação é investigado na literatura de meta-aprendizado. Um modelo de meta-aprendizado é caracterizado pela sua capacidade de aprender a partir de experiências anteriores e adaptar seu viés de indução dinamicamente de acordo com o domínio alvo. Neste trabalho, nós investigamos a viabilidade de usar meta-aprendizado para a recomendação de métodos CPDP. Nesta tese são almejados três principais objetivos. Primeiro, é conduzida uma análise experimental para investigar a viabilidade de usar métodos de seleção de atributos como procedimento interno de dois métodos CPDP, com o intuito de melhorar o desempenho de predição. Segundo, são investigados quais métodos CPDP apresentam um melhor desempenho em um contexto geral. Nesse contexto, também é investigado se os métodos com melhor desempenho geral apresentam melhor desempenho para os mesmos conjuntos de dados (ou projetos de software). Os resultados revelam que os métodos CPDP mais adequados para um projeto podem variar de acordo com as características do projeto sendo predito. Essa constatação conduz à terceira investigação realizada neste trabalho. Foram investigadas as várias particularidades inerentes ao contexto CPDP a fim de propor uma solução de meta-aprendizado capaz de aprender com experiências anteriores e recomendar métodos CPDP adequados, de acordo com as características do software. Foram avaliados a capacidade de meta-aprendizado da solução proposta e a sua performance em relação aos métodos base que apresentaram melhor desempenho geral.

Page generated in 0.043 seconds