• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 80
  • 2
  • 1
  • Tagged with
  • 83
  • 66
  • 18
  • 16
  • 15
  • 15
  • 15
  • 13
  • 13
  • 12
  • 11
  • 11
  • 10
  • 9
  • 9
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Anotação de pessoas e eventos em fotografias digitais. / Annotation of people and events in digital photographs.

FIGUEIRÊDO, Hugo Feitosa de. 03 August 2018 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-08-03T18:20:10Z No. of bitstreams: 1 HUGO FEITOSA DE FIGUEIRÊDO - TESE PPGCC 2013..pdf: 25169239 bytes, checksum: afd902c581d26c2a612f6887c44fab6a (MD5) / Made available in DSpace on 2018-08-03T18:20:10Z (GMT). No. of bitstreams: 1 HUGO FEITOSA DE FIGUEIRÊDO - TESE PPGCC 2013..pdf: 25169239 bytes, checksum: afd902c581d26c2a612f6887c44fab6a (MD5) Previous issue date: 2013-11-01 / CNPq / Capes / A popularidade das câmeras digitais tem gerado um novo problema: como armazenar e recuperar de forma eficiente um grande número de fotografias digitais capturadas e caoticamente armazenadas em múltiplas localizações sem qualquer anotação. Em algumas pesquisas, mostra-se que a anotação de informações relacionadas ao contexto no qual uma determinada fotografia foi capturada auxilia na busca das fotografias, sendo as informações mais relevantes para uma pessoa recordar de uma fotografia: a identificação das pessoas que estão presentes na fotografia (Quem); a localização geográfica (Onde); e informações temporais (Quando). Para anotar essas informações, podem ser utilizados mecanismos manuais, automáticos e semiautomáticos. Os mecanismos manuais não possuem muitos adeptos devido ao processo oneroso e tedioso. Os mecanismos automáticos utilizam os algoritmos de análise de conteúdo, sendo o reconhecimento de faces a principal estratégia, a qual só possui bons resultados com faces frontais e sem oclusões. Já os mecanismos de anotação semiautomática, utilizam algoritmos de recomendação de anotações para auxiliar o usuário. Nesta pesquisa, propõem-se algoritmos para a anotação automática e semiautomática de pessoas e eventos em fotografias. Para a anotação de pessoas, utiliza-se o reconhecimento de faces para a anotação automática e informações de contexto mais conteúdo para a geração de listas de sugestões de pessoas para a anotação semiautomática. Para a anotação de eventos, propõe-se um método para a detecção de eventos em coleções pessoais de fotografias e um método para detecção de eventos compartilhados, nos quais as fotografias são capturadas por usuários distintos em um mesmo evento. A partir do método de detecção de eventos compartilhados proposto, pretende-se melhorar a busca de fotografias de um evento em uma rede social, a realização de anotação cruzada e a detecção de inconsistências nas anotações de fotografias. Nos resultados, comprova-se que a ponderação e a filtragem de estimadores para os algoritmos de anotação semiautomática de pessoas presentes nas fotografias baseados em estimadores melhoram os resultados desses algoritmos. Além disso, é possível fazer a detecção de eventos compartilhados em uma rede social utilizando informações de quem, onde e quando das fotografias. / The popularity of digital cameras has created a new problem: how to store and retrieve efficiently a large number of captured and chaotically stored digital photos in multiple locations without annotation. The photo context assists in search of photographs. The most relevant information for a person remember a photograph are: who are present, where and when was captured. To annotate this information, manual, automatic and semiautomatic mechanisms can be used. The manuals mechanisms did not have many fans due to the costly and tedious process. Content analysis and face recognition are the main strategy to automatic mechanisms, which has only front faces with good results and without occlusions. In the semiautomatic annotation, recommendation of annotations are used to assist the user. In this research, we propose algorithms for the automatic and semiautomatic annotation of people and events in photos. For the annotation of people, we use face recognition for automatic annotation and content and context information for generate suggestions from people for semi-automatic annotation. For the annotation of events, we propose a method for detecting events in personal photo collections and a method for detection of shared events, in which the photographs are captured by different users in the same event. The method to detect shared events aims to improve the search of photographs of an event in a social network, conducting cross-annotation and detection of inconsistencies in the annotations of photographs. The results prove that the weighting and filtering algorithms estimators for semi-automatic annotation of persons in photographs based estimators improve the results of these algorithms. Furthermore, it is possible to detect shared events in a social network using information of who, where and when of the photos.
12

Anotação automática de dados geográficos baseada em bancos de dados abertos e interligados. / Automatic annotation of spatial data based on open and interconnected databases.

HENRIQUES, Hamon Barros. 07 May 2018 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-05-07T16:21:38Z No. of bitstreams: 1 HAMON BARROS HENRIQUES - DISSERTAÇÃO PPGCC 2015..pdf: 3136584 bytes, checksum: a73ddf1f3aa24a230079e12abc8cee00 (MD5) / Made available in DSpace on 2018-05-07T16:21:38Z (GMT). No. of bitstreams: 1 HAMON BARROS HENRIQUES - DISSERTAÇÃO PPGCC 2015..pdf: 3136584 bytes, checksum: a73ddf1f3aa24a230079e12abc8cee00 (MD5) Previous issue date: 2015-08-31 / Recentemente, infraestruturas de dados espaciais (IDE) têm se popularizado como uma importante solução para facilitar a interoperabilidade de dados geográficos oferecidos por diferentes organizações. Um importante desafio que precisa ser superado por estas infraestruturas consiste em permitir que seus clientes possam localizar facilmente os dados e serviços que se encontram disponíveis. Atualmente, esta tarefa é implementada a partir de serviços de catálogo. Embora tais serviços tenham representado um importante avanço para a recuperação de dados geográficos, estes ainda possuem limitações importantes. Algumas destas limitações surgem porque os serviços de catálogo resolvem suas consultas com base nas informações contidas em seus registros de metadados, que normalmente descrevem as características do serviço como um todo. Além disso, muitos catálogos atuais resolvem consultas com restrições temáticas apenas com base em palavras-chaves, e não possuem meios formais para descrever a semântica dos recursos disponíveis. Para resolver a falta de semântica, esta dissertação apresenta uma solução para a anotação semântica automática das camadas e dos seus respectivos atributos disponibilizados em uma IDE. Com isso, motores de busca, que utilizam ontologias como insumo para a resolução de suas consultas, irão encontrar os dados geográficosqueestãorelacionadossemanticamenteaumdeterminadotema pesquisado. Também foi descrita nesta pesquisa uma avaliação do desempenho da solução proposta sobre uma amostra de serviços Web Feature Service. / Recently, Spatial Data Infrastructure (SDI) has become popular as an important solution for easing the interoperability if geographic data offered by different organizations. An important challenge that must be overcome by such infrastructures consists in allowing their users to easily locating the available data and services. Presently, this task is implemented by means of catalog services. Although such services represent an important advance for retrieval of geographic data, they still have serious limitations. Some of these limitations arise because the catalog service resolves their queries based on information contained in their metadata records, which normally describes the characteristics of the service as a whole. In addition, many current catalogs solve queries with thematic restrictions based only on keywords, and have no formal means for describing the semantics of available resources. To resolve the lack of semantics, this dissertation presents a solution for automatic semantic annotation of feature types and their attributes available in an IDE.With this, search engines, which use ontologies as input for solving their queries will find the geographic data that are semantically related to a particular topic searched. Also has described in this research an evaluation of the performance of the proposed solution on a sample of Web Feature Service services.
13

Modelagem computacional de famílias de proteínas microbianas relevantes para produção de bioenergia / Computational modeling of microbial protein families relevants to bioenergy production process.

Rego, Fernanda Orpinelli Ramos do 17 August 2015 (has links)
Modelos ocultos de Markov (HMMs - hidden Markov models) são ferramentas essenciais para anotação automática de proteínas. Por muitos anos, bancos de dados de famílias de proteínas baseados em HMMs têm sido disponibilizados para a comunidade científica (e.g. TIGRfams). Muitos esforços também têm sido dedicados à geração automática de HMMs de famílias de proteínas (e.g. PANTHER). No entanto, HMMs manualmente curados de famílias de proteínas permanecem como o padrão-ouro para anotação de genomas. Neste contexto, este trabalho teve como principal objetivo a geração de cerca de 80 famílias de proteínas microbianas relevantes para produção de bioenergia, baseadas em HMMs. Para gerar os HMMs, seguimos um protocolo de curadoria manual, gerado neste trabalho. Partimos de uma proteína que tenha função experimentalmente comprovada, esteja associada a uma publicação e tenha sido manualmente anotada com termos da Gene Ontology, criados pelo projeto MENGO¹ (Microbial ENergy Gene Ontology). Os próximos passos consistiram na (1) definição de um critério de seleção para inclusão de membros à família; (2) busca por membros via BLAST; (3) geração do alinhamento múltiplo (MUSCLE 3.7) e do HMM (HMMER 3.0); (4) análise dos resultados e iteração do processo, com o HMM preliminar usado nas buscas adicionais; (5) definição de uma nota de corte (cutoff) para o HMM final; (6) validação individual dos modelos. As principais contribuições deste trabalho são 74 HMMs (manualmente curados) disponibilizados via web (http://mengofams.lbi.iq.usp.br/), onde é possível fazer buscas e o download dos modelos, um protocolo detalhado sobre a curadoria manual de HMMs para famílias de proteínas e uma lista com proteínas candidatas a reanotação. / Hidden Markov Models (HMMs) are essential tools for automated annotation of protein sequences. For many years now protein family resources based on HMMs have been made available to the scientific community (e.g. TIGRfams). Much effort has also been devoted to the automated generation of protein family HMMs (e.g Panther). However, manually curated protein family HMMs remain the gold standard for use in genome annotation. In this context, this work had as main objectives the generation of appoximately 80 protein families based on HMMs. We follow a standard protocol, that was generated in this work, to create the HMMs. At first, we start from a protein with experimentally proven function, associated to a publication and that was manually annotated with new terms from Gene Ontology provided by MENGO¹ (Microbial ENergy Gene Ontology). The next steps consists of (1) definition of selection criteria to capture members of the family; (2) search for members via BLAST; (3) generation of multiple alignment (MUSCLE 3.7) and the HMM (HMMER 3.0); (4) result analysis and iteration of the process, using the preliminary HMM; (5) cutoff definition to the final HMM; (6) individual validation of the models using tests against NCBIs NR database. The main deliverables of this work are 74 HMMs manually curated available in the site project (mengofams.lbi.iq.usp.br) that allows browsing and download of all HMMs curated so far, a standard protocol manual curation of protein families, a list with proteins that need to be reviewed.
14

Expansão de recursos para análise de sentimentos usando aprendizado semi-supervisionado / Extending sentiment analysis resources using semi-supervised learning

Brum, Henrico Bertini 23 March 2018 (has links)
O grande volume de dados que temos disponíveis em ambientes virtuais pode ser excelente fonte de novos recursos para estudos em diversas tarefas de Processamento de Linguagem Natural, como a Análise de Sentimentos. Infelizmente é elevado o custo de anotação de novos córpus, que envolve desde investimentos financeiros até demorados processos de revisão. Nossa pesquisa propõe uma abordagem de anotação semissupervisionada, ou seja, anotação automática de um grande córpus não anotado partindo de um conjunto de dados anotados manualmente. Para tal, introduzimos o TweetSentBR, um córpus de tweets no domínio de programas televisivos que possui anotação em três classes e revisões parciais feitas por até sete anotadores. O córpus representa um importante recurso linguístico de português brasileiro, e fica entre os maiores córpus anotados na literatura para classificação de polaridades. Além da anotação manual do córpus, realizamos a implementação de um framework de aprendizado semissupervisionado que faz uso de dados anotados e, de maneira iterativa, expande o mesmo usando dados não anotados. O TweetSentBR, que possui 15:000 tweets anotados é assim expandido cerca de oito vezes. Para a expansão, foram treinados modelos de classificação usando seis classificadores de polaridades, assim como foram avaliados diferentes parâmetros e representações a fim de obter um córpus confiável. Realizamos experimentos gerando córpus expandidos por cada classificador, tanto para a classificação em três polaridades (positiva, neutra e negativa) quanto para classificação binária. Avaliamos os córpus gerados usando um conjunto de held-out e comparamos a FMeasure da classificação usando como treinamento os córpus anotados manualmente e semiautomaticamente. O córpus semissupervisionado que obteve os melhores resultados para a classificação em três polaridades atingiu 62;14% de F-Measure média, superando a média obtida com as avaliações no córpus anotado manualmente (61;02%). Na classificação binária, o melhor córpus expandido obteve 83;11% de F1-Measure média, superando a média obtida na avaliação do córpus anotado manualmente (79;80%). Além disso, simulamos nossa expansão em córpus anotados da literatura, medindo o quão corretas são as etiquetas anotadas semi-automaticamente. Nosso melhor resultado foi na expansão de um córpus de reviews de produtos que obteve FMeasure de 93;15% com dados binários. Por fim, comparamos um córpus da literatura obtido por meio de supervisão distante e nosso framework semissupervisionado superou o primeiro na classificação de polaridades binária em cross-domain. / The high volume of data available in the Internet can be a good resource for studies of several tasks in Natural Language Processing as in Sentiment Analysis. Unfortunately there is a high cost for the annotation of new corpora, involving financial support and long revision processes. Our work proposes an approach for semi-supervised labeling, an automatic annotation of a large unlabeled set of documents starting from a manually annotated corpus. In order to achieve that, we introduced TweetSentBR, a tweet corpora on TV show programs domain with annotation for 3-point (positive, neutral and negative) sentiment classification partially reviewed by up to seven annotators. The corpus is an important linguistic resource for Brazilian Portuguese language and it stands between the biggest annotated corpora for polarity classification. Beyond the manual annotation, we implemented a semi-supervised learning based framework that uses this labeled data and extends it using unlabeled data. TweetSentBR corpus, containing 15:000 documents, had its size augmented in eight times. For the extending process, we trained classification models using six polarity classifiers, evaluated different parameters and representation schemes in order to obtain the most reliable corpora. We ran experiments generating extended corpora for each classifier, both for 3-point and binary classification. We evaluated the generated corpora using a held-out subset and compared the obtained F-Measure values with the manually and the semi-supervised annotated corpora. The semi-supervised corpus that obtained the best values for 3-point classification achieved 62;14% on average F-Measure, overcoming the results obtained by the same classification with the manually annotated corpus (61;02%). On binary classification, the best extended corpus achieved 83;11% on average F-Measure, overcoming the results on the manually corpora (79;80%). Furthermore, we simulated the extension of labeled corpora in literature, measuring how well the semi-supervised annotation works. Our best results were in the extension of a product review corpora, achieving 93;15% on F1-Measure. Finally, we compared a literature corpus which was labeled by using distant supervision with our semi-supervised corpus, and this overcame the first in binary polarity classification on cross-domain data.
15

Análise computacional do genoma e transcritoma de Plasmodium vivax: contribuições da bioinformática para o estudo da malária / Computational analysis of the Plasmodium vivax transcriptome and genome: bioinformatics contributions for the malaria investigation

Corrêa, Bruna Renata Silva 02 April 2012 (has links)
Plasmodium vivax é o parasita causador de malária humana com maior distribuição global, responsável pela redução da qualidade de vida de milhões de pessoas ao redor do mundo. O objetivo geral do trabalho foi contribuir, através de metodologias estatísticas e de bioinformática, para o entendimento do mecanismo de escape da eliminação pelo baço do hospedeiro utilizado por P. vivax. Para isso, primeiramente realizou-se a análise estatística de um experimento de transcritômica, através de microarrays. Esse experimento foi conduzido previamente pelo grupo de colaboradores do presente estudo, utilizando um modelo animal, Aotus lemurinus griseimembra, com o objetivo de identificar genes de P. vivax expressos somente em parasitas retirados de macacos que possuíam o baço intacto. Em uma segunda fase, foi projetado um tiling array contendo todos os éxons e as regiões 5UTR e 3UTR disponíveis do genoma de P. vivax, que será utilizado para a realização de mais investigações a respeito da influência da presença do baço na expressão gênica de P. vivax. Na última etapa, foi conduzida uma melhoria na anotação funcional do genoma de P. vivax, através de uma metodologia automática, com o objetivo de adicionar informações para auxiliar na interpretação biológica dos resultados obtidos anteriormente e em estudos futuros. / Plasmodium vivax is the parasite that causes the human malaria type with the largest global distribution and it is responsible for quality of life impairment of millions of people around the world. The general purpose of this study was contribute to understand the mechanism used by P. vivax to scape from the host spleen elimination, through statistical methodologies and bioinformatics. First of all, we carried out statistical analysis of a microarray experiment conducted earlier by the collaborators of this study, using Aotus lemurinus griseimembra as model organism, in order to identify genes of P. vivax expressed only in parasites extracted from monkeys with intact spleen. In the second step, we designed a tiling array containing 5\'UTR, 3\'UTR and all the exons of the P. vivax genome, which will be used to perform more experiments to investigate the role of the spleen on the parasite gene expression. In the last step, we add information to the functional annotation of P. vivax genome, through an automated methodology, to improve the biological interpretation of the results previously obtained and in future studies.
16

Análise e anotação do genoma de Epicoccum nigrum e metabolismo secundário. / Analysis and annotation of Epicoccum nigrum genome and secondary metabolism.

Ferreira, Almir José 06 July 2016 (has links)
O fungo endofítico Epicoccum nigrum atua no biocontrole de fitopatógenos e produz uma série de compostos com de interesse biotecnológico como antimicrobianos. Neste trabalho, foi utilizado um conjunto de sequências genômicas previamente montadas. As sequências foram anotadas para compreensão funcional utilizando a plataforma EGene2 incluindo alguns componentes específicos desenvolvido neste trabalho. Foram estimados 10.320 genes codificadores de proteínas, além de tRNAs, rRNAs e ncRNAs. As proteínas preditas foram comparadas aos proteomas de outros fungos e comparadas filogeneticamente. Além disso, foi desenvolvido Synteny Clusters, um programa que compara clusters de genes de metabólitos secundários aos de outros fungos. E. nigrum apresenta grande similaridade com outros fungos com estilo de vida distinto. Foram identificados três clusters de genes relacionados a doenças que estão presentes em fitopatógenos e ausentes em E. nigrum. Os resultados sugerem que as diferenças entre endófitos e fitopatógenos pode estar relacionada a um pequeno número de genes. / The endophytic fungus Epicoccum nigrum has been used for plant pathogen biocontrol in different host plants, since it produces a series of secondary metabolites of biotechnological interest, including antimicrobials. In this regard, we used assembled 454 sequencing dataset was used to perform a comprehensive functional annotation using the EGene2 platform, including some specific components developed in this work. We found 10,320 protein coding genes as well as tRNAs, rRNAs and ncRNAs. The predicted proteins were compared to proteomes of other fungi and used in phylogenetic analyses. In addition, we developed Synteny Clusters, a program that compares gene clusters with others fungi. E. nigrum presents a genome very similar to others fungi with distinct lifestyles. Finally, we identified three disease-related gene clusters that are absent in E. nigrum and present in most plant pathogenic fungi. This result suggests that the lifestyle differences observed between endophytic and pathogenic fungi may rely on a relatively low number of genes.
17

Proposta de uma ferramenta de anotação semântica para publicação de dados estruturados na Web

Calegari, Newton Juniano 02 April 2016 (has links)
Submitted by Filipe dos Santos (fsantos@pucsp.br) on 2016-09-02T14:31:38Z No. of bitstreams: 1 Newton Juniano Calegari.pdf: 2853517 bytes, checksum: e1eda2a1325986c6284a5054d724a19f (MD5) / Made available in DSpace on 2016-09-02T14:31:38Z (GMT). No. of bitstreams: 1 Newton Juniano Calegari.pdf: 2853517 bytes, checksum: e1eda2a1325986c6284a5054d724a19f (MD5) Previous issue date: 2016-04-02 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Pontifícia Universidade Católica de São Paulo / The tool proposed in this research aims at bringing together the Semantic Web technologies and content publishers, this way enabling the latter to contribute to creating structured data and metadata about texts and information they may make available on the Web. The general goal is to investigate the technical feasibility of developing a semantic annotation tool that enables content publishers to contribute to the Semantic Web ecosystem. Based on (BERNERS-LEE et al., 2001; ALESSO; SMITH, 2006; RODRÍGUEZ-ROCHA et al., 2015; GUIZZARDI, 2005; ISOTANI; BITTENCOURT, 2015), the Semantic Web is presented according to its technological stack. Considering the importance of the ontologies and vocabularies used to create Semantic Web applications, the essential subjects of the conceptual modelling and the ontology language used on the Web are presented. In order to provide the necessary concepts to use semantic annotations, this dissertation presents both the way annotations are used (manual, semi-automatic, and automatic) as well as the way these annotations are integrated with resources available on the Web. The state-of-the-art chapter describes recent projects and related work on the use of Semantic Web within Web-content publishing context. The methodology adopted by this research is based on (SANTAELLA; VIEIRA, 2008; GIL, 2002), in compliance with the exploratory approach for research. This research presents the proposal and the architecture of the semantic annotation tool, which uses shared vocabulary in order to create structured data based on textual content. In conclusion, this dissertation addresses the possibilities of future work, both in terms of the implementation of the tool in a real use case as well as in new scientific research / A proposta apresentada nesta pesquisa busca aproximar as tecnologias de Web Semântica dos usuários publicadores de conteúdo na Web, permitindo que estes contribuam com a geração de dados estruturados e metadados sobre textos e informações que venham disponibilizar na Web. O objetivo geral deste trabalho é investigar a viabilidade técnica de desenvolvimento de uma ferramenta de anotação semântica que permita aos usuários publicadores de conteúdo contribuírem para o ecossistema de Web Semântica. Com suporte de (BERNERS-LEE et al., 2001; ALESSO; SMITH, 2006; RODRÍGUEZ-ROCHA et al., 2015; GUIZZARDI, 2005; ISOTANI; BITTENCOURT, 2015) apresenta-se o tópico de Web Semântica de acordo com a pilha tecnológica que mostra o conjunto de tecnologias proposto para a sua realização. Considerando a importância de ontologias e vocabulários para a construção de aplicações de Web Semântica, são apresentados então os tópicos fundamentais de modelagem conceitual e a linguagem de ontologias para Web. Para fornecer a base necessária para a utilização de anotações semânticas são apresentados, além da definição, os modos de uso de anotações (manual, semi-automático e automático) e as formas de integrar essas anotações com recursos disponíveis nas tecnologias da Web Semântica. O estado da arte contempla trabalhos e projetos recentes sobre o uso de Web Semântica no contexto de publicação de conteúdo na Web. A metodologia é baseada na proposta apresentada por SANTAELLA; VIEIRA (2008), seguindo uma abordagem exploratória para a condução da pesquisa. É apresentada a proposta e os componentes de uma ferramenta de anotação semântica que utiliza vocabulários compartilhados para geração de dados estruturados a partir de conteúdo textual. Concluindo o trabalho, são apresentadas as possibilidades futuras, tanto da implementação da ferramenta em um cenário real, atestando sua viabilidade técnica, quanto novos trabalhos encaminhados a partir desta pesquisa
18

Propagação semi-automática de termos Gene Ontology a proteínas com potencial biotecnológico para a produção de bioenergia / Semi-automatic propagation of Gene Ontology terms to proteins with biotechnology potential for bioenergy production

Taniguti, Lucas Mitsuo 18 November 2014 (has links)
O aumento no volume de dados biológicos, oriundos principalmente do surgimento de sequenciadores de segunda geração, configura um desafio para a manutenção dos bancos de dados, que devem armazenar, disponibilizar e, no caso de bancos secundários, propagar informações biológicas para sequências sem caracterização experimental. Tal propagação é crucial , pois o fluxo com que novas sequências são depositadas é muito superior ao que proteínas são experimentalmente caracterizadas. De forma análoga ao EC number (Enzyme Commission number), a organização de proteínas em famílias visa organizar e facilitar operações automáticas nos bancos de dados. Dentro desse contexto este trabalho teve como objetivos a geração de modelos computacionais para famílias de proteínas envolvidas em processos microbianos biotecnologicamente interessantes para a produção de bioenergia. Para a geração dos modelos estatísticos foram escolhidas proteínas referência analisadas a priori em colaboração com o projeto MENGO1 . A partir da proteína referência foram realizadas buscas no UniProtKB com o objetivo de encontrar proteínas representativas para cada família e descrições de função com base na literatura científica. Com a coleção de sequências primárias das proteínas selecionadas foram realizados alinhamentos múltiplos de sequências com o programa MUSCLE 3.7 e posteriormente com o programa HMMER foram gerados os modelos computacionais (perfis de cadeia oculta de Markov). Os modelos passaram por consecutivas revisões para serem utilizados na propagação dos termos do Gene Ontology com confiança.Um total de 1.233 proteínas puderam receber os termos GO. Dessas proteínas 79% não apresentavam os termos GO disponibilizados no banco de dados UniProtKB. Uma comparação dos perfis-HMM com a utilização de redes de similaridade a um E-value de 10-14 confirmou a utilidade dos modelos na propagação adequada dos termos. Uma segunda validação utilizando um banco de dados construído com sequências aleatórias com base nos modelos e na frequência de codons das proteínas anotadas do SwisProt permitiu verificar a sensibilidade da estratégia quanto a recuperar membros não pertencentes aos modelos gerados. / The increase of biological data produced mainly by the second generation technologies stands as a challenge for the biological databases, that needs to adress issues like storage, data availability and, in the case of secondary databases, to propagate biological information to sequences with no experimental characterization. The propagation is important since the flow that new sequences are submited into databases is much higher than proteins having their function described by experiments. Similarly to the EC. number (Enzyme Commission number), an organization of protein families aims to organize and help automatic processes in databases. In this context this work had as goals the generation of computational models for protein families related to microbial processes with biotechnology potential for production of bioenergy. Several proteins annotated by MENGO2, a project in collaboration, were used as seeds to the statistic models. Alignments were made on UniProtKB, querying the seeds proteins, looking for representatives for each family generated and the existence of function descriptions referenced on the cientific literature. Multiple sequence alignment were made on each collection of seeds proteins, representatives of the families, thorough the MUSCLE 3.7 program, and after were generated the computational models (profile Hidden Markov Models) with the HMMER package. The models were consecutively reviewed until the curator consider it reliable for propagation of Gene Ontology terms. A set of 1,233 proteins from UniProtKB were classified in our families, suggesting that they could be annotated by the GO terms using MENGOfams families. From those proteins, 79% were not annotated by the MENGO specific GO terms. To compare the results that would be obtained using only BLAST similarity measures and using pHMMs we generated similarity networks, using an Evaue cutoff of 10-14. The results showed that the classification results of pHMMs are valuable for biological annotation propagation because it identifies precisely members of each family. A second analysis was applied for each family, using the respective pHMMs to query a collection of sequences generated by a null model. For null model were assumed that all sequences were not homologous and could be represented just by the aminoacid frequencies observed in the SwissProt database. No non-homologous proteins were classified as members by the MENGOfams models, suggesting that they were sensitive to identify only true member sequences.
19

Square: uma plataforma gráfica e intuitiva para anotação de genomas bacterianos / Square: a graphical and intuitive platform for annotation of bacterial genomes

Eslabão, Marcus Redü 29 February 2016 (has links)
Submitted by Maria Beatriz Vieira (mbeatriz.vieira@gmail.com) on 2017-10-18T11:53:11Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) tese_marcus_redu_eslabao.pdf: 2744083 bytes, checksum: 5950b0ffa159bbf193a91d88276a5e49 (MD5) / Approved for entry into archive by Aline Batista (alinehb.ufpel@gmail.com) on 2017-10-23T11:08:52Z (GMT) No. of bitstreams: 2 tese_marcus_redu_eslabao.pdf: 2744083 bytes, checksum: 5950b0ffa159bbf193a91d88276a5e49 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Aline Batista (alinehb.ufpel@gmail.com) on 2017-10-23T11:09:03Z (GMT) No. of bitstreams: 2 tese_marcus_redu_eslabao.pdf: 2744083 bytes, checksum: 5950b0ffa159bbf193a91d88276a5e49 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-10-23T11:09:12Z (GMT). No. of bitstreams: 2 tese_marcus_redu_eslabao.pdf: 2744083 bytes, checksum: 5950b0ffa159bbf193a91d88276a5e49 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2016-02-29 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / O sequenciamento de DNA é uma técnica que fornece uma fonte vasta de informações sobre diversos organismos. Atualmente, novas metodologias de sequenciamento conhecidas como Next-Generation Sequencing, estão fazendo com que esta técnica fique inúmeras vezes mais rápida, precisa e economicamente acessível, tornando-se popular e disseminada no meio científico. Com a popularização do sequenciamento de genomas, laboratórios que não possuem ênfase em sequenciamento de DNA, utilizam desta abordagem para complementar seus estudos. Porém, a facilidade em obter a sequência do DNA contrasta com a dificuldade em processar, analisar e anotar o genoma, para que então seja possível obter informações biológicas relevantes sobre aquele organismo. Para auxiliar os pesquisadores que se utilizam desta técnica, alguns softwares estão disponíveis, porém, geralmente são pagos, não realizam toda a tarefa ou são de difícil utilização, neste último caso, por serem em sua grande maioria executados através de terminais de comando, que não contam com um ambiente gráfico para guiar os usuários. Com base nesta problemática, o presente trabalho teve por objetivo criar um software de anotação de genomas de fácil utilização e com interface gráfica amigável, gratuito e que anote com as informações necessárias para submissão ao GenBank. Para implementação do software, denominado Square, as linguagens de programação Python e Object Pascal foram utilizadas. Os algoritmos Prodigal, NCBI BLAST e tRNAscan-SE também foram integrados no software. Ao final da etapa de desenvolvimento, o Square foi testado com três genomas e comparado com dois anotadores populares: o RAST e o BASys. O resultado mostrou que o Square possui maior precisão que os dois outros anotadores, por se aproximar mais do resultado depositado no NCBI, e mais rápido, por ser executado localmente com rapidez. O Square demonstrou-se uma boa alternativa para usuários que não estão acostumados com o terminal de comando Linux e está disponível no endereço http://sourceforge.net/projects/sqgenome/. / DNA sequencing is a technique that provides a vast source of information on various organisms. Currently, new sequencing methods known as Next-Generation Sequencing, are making this technique many times more rapid, accurate and affordable, making it popular and widespread in the scientific community. With the popularization of genome sequencing, laboratories that do not have an emphasis on DNA sequencing, are using this approach to complement their studies. However, the ease in obtaining a DNA sequence contrasts with the difficulty to process, analyze and annotate the genome, in order to obtain relevant biological information. To assist researchers who use this technique, several programs are available, however, they are generally not free, do not perform all the necessary analysis or are difficult to use, mainly because a considerable number of them make use of command line to be executed, which is not intuitive. The objective of this study was to create a genome annotation software easy to use, with a user friendly interface, free and able to provide all the necessary information for the annotated genome to be submitted to GenBank. For software implementation named Square, Python and Object Pascal programming languages were used. The Prodigal algorithms, NCBI BLAST and tRNAscan-SE were also integrated in the software. At the end of the development stage, Square was tested with three genomes and compared to two popular annotators: RAST and BASYS. The result showed that the Square has higher accuracy than the other two annotator programs, as the results are similar to what is deposited in NCBI, and produce the result in a shorter time, as it runs locally. The Square proved to be a good alternative for users not familiar with the Linux command terminal and is available in http://sourceforge.net/projects/sqgenome/ address.
20

Anotação automática de papéis semânticos de textos jornalísticos e de opinião sobre árvores sintáticas não revisadas / Automatic semantic role labeling on non-revised syntactic trees of journalistic and opinion texts

Hartmann, Nathan Siegle 25 June 2015 (has links)
Contexto: A Anotação de Papéis Semânticos (APS) é uma tarefa da área de Processamento de Línguas Naturais (PLN) que permite detectar os eventos descritos nas sentenças e os participantes destes eventos (Palmer et al., 2010). A APS responde perguntas como Quem?, Quando?, Onde?, O quê?, e Por quê?, dentre outras e, sendo assim, é importante para várias aplicações de PLN. Para anotar automaticamente um texto com papéis semânticos, a maioria dos sistemas atuais emprega técnicas de Aprendizagem de Máquina (AM). Porém, alguns papéis semânticos são previsíveis e, portanto, não necessitam ser tratados via AM. Além disso, a grande maioria das pesquisas desenvolvidas em APS tem dado foco ao inglês, considerando as particularidades gramaticais e semânticas dessa língua, o que impede que essas ferramentas e resultados sejam diretamente transportados para outras línguas. Revisão da Literatura: Para o português do Brasil, há três trabalhos finalizados recentemente que lidam com textos jornalísticos, porém com performance inferior ao estado da arte para o inglês. O primeiro (Alva- Manchego, 2013) obteve 79,6 de F1 na APS sobre o córpus PropBank.Br; o segundo (Fonseca, 2013), sem fazer uso de um treebank para treinamento, obteve 68,0 de F1 sobre o córpus PropBank.Br; o terceiro (Sequeira et al., 2012) realizou anotação apenas dos papéis Arg0 (sujeito prototípico) e Arg1 (paciente prototípico) no córpus CETEMPúblico, com performance de 31,3 pontos de F1 para o primeiro papel e de 19,0 de F1 para o segundo. Objetivos: O objetivo desse trabalho de mestrado é avançar o estado da arte na APS do português brasileiro no gênero jornalístico, avaliando o desempenho de um sistema de APS treinado com árvores sintáticas geradas por um parser automático (Bick, 2000), sem revisão humana, usando uma amostragem do córpus PLN-Br. Como objetivo adicional, foi avaliada a robustez da tarefa de APS frente a gêneros diferentes, testando o sistema de APS, treinado no gênero jornalístico, em uma amostra de revisões de produtos da web. Esse gênero não foi explorado até então na área de APS e poucas de suas características foram formalizadas. Resultados: Foi compilado o primeiro córpus de opiniões sobre produtos da web, o córpus Buscapé (Hartmann et al., 2014). A diferença de performance entre um sistema treinado sobre árvores revisadas e outro sobre árvores não revisadas ambos no gênero jornalístico foi de 10,48 pontos de F1. A troca de gênero entre as fases de treinamento e teste, em APS, é possível, com perda de performance de 3,78 pontos de F1 (córpus PLN-Br e Buscapé, respectivamente). Foi desenvolvido um sistema de inserção de sujeitos não expressos no texto, com precisão de 87,8% no córpus PLN-Br e de 94,5% no córpus Buscapé. Foi desenvolvido um sistema, baseado em regras, para anotar verbos auxiliares com papéis semânticos modificadores, com confiança de 96,76% no córpus PLN-Br. Conclusões: Foi mostrado que o sistema de Alva-Manchego (2013), baseado em árvores sintáticas, desempenha melhor APS do que o sistema de Fonseca (2013), independente de árvores sintáticas. Foi mostrado que sistemas de APS treinados sobre árvores sintáticas não revisadas desempenham melhor APS sobre árvores não revisadas do que um sistema treinado sobre dados gold-standard. Mostramos que a explicitação de sujeitos não expressos nos textos do Buscapé, um córpus do gênero de opinião de produtos na web, melhora a performance da sua APS. Também mostramos que é possível anotar verbos auxiliares com papéis semânticos modificadores, utilizando um sistema baseado em regras, com alta confiança. Por fim, mostramos que o uso do sentido do verbo, como feature de AM, para APS, não melhora a perfomance dos sistemas treinados sobre o PLN-Br e o Buscapé, por serem córpus pequenos. / Background: Semantic Role Labeling (SRL) is a Natural Language Processing (NLP) task that enables the detection of events described in sentences and the participants of these events (Palmer et al., 2010). SRL answers questions such as Who?, When?, Where?, What? and Why? (and others), that are important for several NLP applications. In order to automatically annotate a text with semantic roles, most current systems use Machine Learning (ML) techniques. However, some semantic roles are predictable, and therefore, do not need to be classified through ML. In spite of SRL being well advanced in English, there are grammatical and semantic particularities that prevents full reuse of tools and results in other languages. Related work: For Brazilian Portuguese, there are three studies recently concluded that performs SRL in journalistic texts. The first one (Alva-Manchego, 2013) obtained 79.6 of F1 on the SRL of the PropBank.Br corpus; the second one (Fonseca, 2013), without using a treebank for training, obtained 68.0 of F1 for the same corpus; and the third one (Sequeira et al., 2012) annotated only the Arg0 (prototypical agent) and Arg1 (prototypical patient) roles on the CETEMPúblico corpus, with a perfomance of 31.3 of F1 for the first semantic role and 19.0 for the second one. None of them, however, reached the state of the art of the English language. Purpose: The goal of this masters dissertation was to advance the state of the art of SRL in Brazilian Portuguese. The training corpus used is from the journalistic genre, as previous works, but the SRL annotation is performed on non-revised syntactic trees, i.e., generated by an automatic parser (Bick, 2000) without human revision, using a sampling of the corpus PLN-Br. To evaluate the resulting SRL classifier in another text genre, a sample of product reviews from web was used. Until now, product reviews was a genre not explored in SRL research, and few of its characteristics are formalized. Results: The first corpus of web product reviews, the Buscapé corpus (Hartmann et al., 2014), was compiled. It is shown that the difference in the performance of a system trained on revised syntactic trees and another trained on non-revised trees both from the journalistic genre was of 10.48 of F1. The change of genres during the training and testing steps in SRL is possible, with a performance loss of 3.78 of F1 (corpus PLN-Br and Buscapé, respectively). A system to insert unexpressed subjects reached 87.8% of precision on the PLN-Br corpus and a 94.5% of precision on the Buscapé corpus. A rule-based system was developed to annotated auxiliary verbs with semantic roles of modifiers (ArgMs), achieving 96.76% confidence on the PLN-Br corpus. Conclusions: First we have shown that Alva-Manchego (2013) SRL system, that is based on syntactic trees, performs better annotation than Fonseca (2013)s system, that is nondependent on syntactic trees. Second the SRL system trained on non-revised syntactic trees performs better over non-revised trees than a system trained on gold-standard data. Third, the explicitation of unexpressed subjects on the Buscapé texts improves their SRL performance. Additionally, we show it is possible to annotate auxiliary verbs with semantic roles of modifiers, using a rule-based system. Last, we have shown that the use of the verb sense as a feature of ML, for SRL, does not improve the performance of the systems trained over PLN-Br and Buscapé corpus, since they are small.

Page generated in 0.0345 seconds