Global ETD Search

51	Desenvolvimento e validação de protocolos para a anotação automática de sequências ORESTES de Eimeria spp. de galinha doméstica. / Development and validation of protocols for automated annotation of ORESTES sequences of Eimeria spp. of domestic fowl. Ferro, Milene 08 December 2008 (has links) A coccidiose aviária é uma doença entérica causada por protozoários parasitas do gênero Eimeria. Visando uma maior compreensão dos mecanismos moleculares envolvidos na regulação do ciclo de vida dos parasitas, foram geradas 15.000 seqüências expressas (ORESTES) para cada uma das três espécies mais importantes: E. tenella, E. maxima e E. acervulina. O presente trabalho consistiu no desenvolvimento de componentes de anotação automática de seqüências para o sistema EGene, plataforma previamente desenvolvida pelo nosso grupo (Durham et al. Bioinformatics 21: 2812-2813, 2005) para a construção de processamentos encadeados (pipelines). Estes componentes foram utilizados para a construção de pipelines de anotação automática de seqüências-consenso obtidas a partir da montagem dos ORESTES de Eimeria spp. A anotação consistiu na identificação dos genes e atribuição da função dos respectivos produtos protéicos, baseando-se em um conjunto de evidências. As seqüências também foram classificadas e quantificadas utilizando-se um vocabulário controlado de termos de ontologia gênica (GO). / Avian coccidiosis is an enteric disease caused by protozoan parasites of the genus Eimeria. Aiming at obtaining a better understanding of the molecular mechanisms that regulate the life cycle of the parasites, our group generated 15,000 expressed sequences (ORESTES) for each one of the three most important species: E. tenella, E. maxima and E. acervulina. In the present work, we report the development of a set of components for the automated sequence annotation through EGene, a platform for pipeline construction previously described by our group (Durham et al. Bioinformatics 21: 2812-2813, 2005). These components were used to construct pipelines for the automated annotation of assembled sequences of ORESTES of Eimeria spp. The annotation process consisted in the identification of genes and the corresponding protein function based on a set of evidences. The sequences were also mapped and quantified using a controlled vocabulary of gene ontology (GO) terms. Eimeria spp. Eimeria spp. Pipeline Anotação de sequências biológicas Bioinformática Bioinformatics DNA sequences Etiquetas de seqüencias expressas Expressed sequences tags Processo encadeado Sequence annotation Seqüência de DNA
52	Elaboração textual via definição de entidades mencionadas e de perguntas relacionadas aos verbos em textos simplificados do português / Text elaboration through named entities definition and questions related to verbs in simplified portuguese texts Amancio, Marcelo Adriano 15 June 2011 (has links) Esta pesquisa aborda o tema da Elaboração Textual para um público alvo que tem letramento nos níveis básicos e rudimentar, de acordo com a classificação do Indicador Nacional de Alfabetismo Funcional (INAF, 2009). A Elaboração Textual é definida como um conjunto de técnicas que acrescentam material redundante em textos, sendo tradicionalmente usadas a adição de definições, sinônimos, antônimos, ou qualquer informação externa com o objetivo de auxiliar na compreensão do texto. O objetivo deste projeto de mestrado foi a proposta de dois métodos originais de elaboração textual: (1) via definição das entidades mencionadas que aparecem em um texto e (2) via definições de perguntas elaboradas direcionadas aos verbos das orações de um texto. Para a primeira tarefa, usou-se um sistema de reconhecimento de entidades mencionadas da literatura, o Rembrandt, e definições curtas da enciclopédia Wikipédia, sendo este método incorporado no sistema Web FACILITA EDUCATIVO, uma das ferramentas desenvolvidas no projeto PorSimples. O método foi avaliado de forma preliminar com um pequeno grupo de leitores com baixo nível de letramento e a avaliação foi positiva, indicando que este auxílio facilitou a leitura dos usuários da avaliação. O método de geração de perguntas elaboradas aos verbos de uma oração é uma tarefa nova que foi definida, estudada, implementada e avaliada neste mestrado. A avaliação não foi realizada junto ao público alvo e sim com especialistas em processamento de língua natural que avaliaram positivamente o método e indicaram quais erros influenciam negativamente na qualidade das perguntas geradas automaticamente. Existem boas indicações de que os métodos de elaboração desenvolvidos podem ser úteis na melhoria da compreensão da leitura para o público alvo em questão, as pessoas com baixo nível de letramento / This research addresses the topic of Textual Elaboration for low-literacy readers, i.e. people at the rudimentary and basic literacy levels according to the National Indicator of Functional Literacy (INAF, 2009). Text Elaboration consists of a set of techniques that adds extra material in texts using, traditionally, definitions, synonyms, antonyms, or any external information to assist in text understanding. The main goal of this research was the proposal of two methods of Textual Elaboration: (1) the use of short definitions for Named Entities in texts and (2) assignment of wh-questions related to verbs in text. The first task used the Rembrandt named entity recognition system and short definitions of Wikipedia. It was implemented in PorSimples web Educational Facilita tool. This method was preliminarily evaluated with a small group of low-literacy readers. The evaluation results were positive, what indicates that the tool was useful for improving the text understanding. The assignment of wh-questions related to verbs task was defined, studied, implemented and assessed during this research. Its evaluation was conducted with NLP researches instead of with low-literacy readers. There are good evidences that the text elaboration methods and resources developed here are useful in helping text understanding for low-literacy readers Elaboração textual Entidades mencionadas Named entities Natural language processing Processamento de lingua natural Semantic role labeling Textual elaboration
53	Investigação de modelos de coerência local para sumários multidocumento / Investigation of local coherence models for multri-document summaries Dias, Márcio de Souza 10 May 2016 (has links) A sumarização multidocumento consiste na tarefa de produzir automaticamente um único sumário a partir de um conjunto de textos derivados de um mesmo assunto. É imprescindível que seja feito o tratamento de fenômenos que ocorrem neste cenário, tais como: (i) a redundância, a complementaridade e a contradição de informações; (ii) a uniformização de estilos de escrita; (iii) tratamento de expressões referenciais; (iv) a manutenção de focos e perspectivas diferentes nos textos; (v) e a ordenação temporal das informações no sumário. O tratamento de tais fenômenos contribui significativamente para que seja produzido ao final um sumário informativo e coerente, características difíceis de serem garantidas ainda que por um humano. Um tipo particular de coerência estudado nesta tese é a coerência local, a qual é definida por meio de relações entre enunciados (unidades menores) em uma sequência de sentenças, de modo a garantir que os relacionamentos contribuirão para a construção do sentido do texto em sua totalidade. Partindo do pressuposto de que o uso de conhecimento discursivo pode melhorar a avaliação da coerência local, o presente trabalho propõe-se a investigar o uso de relações discursivas para elaborar modelos de coerência local, os quais são capazes de distinguir automaticamente sumários coerentes dos incoerentes. Além disso, um estudo sobre os erros que afetam a Qualidade Linguística dos sumários foi realizado com o propósito de verificar quais são os erros que afetam a coerência local dos sumários, se os modelos de coerência podem identificar tais erros e se há alguma relação entre os modelos de coerência e a informatividade dos sumários. Para a realização desta pesquisa foi necessário fazer o uso das informações semântico-discursivas dos modelos CST (Cross-document Structure Theory) e RST (Rhetorical Structure Theory) anotadas no córpus, de ferramentas automáticas, como o parser Palavras e de algoritmos que extraíram informações do córpus. Os resultados mostraram que o uso de informações semântico-discursivas foi bem sucedido na distinção dos sumários coerentes dos incoerentes e que os modelos de coerência implementados nesta tese podem ser usados na identificação de erros da qualidade linguística que afetam a coerência local. / Multi-document summarization is the task of automatically producing a single summary from a collection of texts derived from the same subject. It is essential to treat many phenomena, such as: (i) redundancy, complementarity and contradiction of information; (ii) writing styles standardization; (iii) treatment of referential expressions; (iv) text focus and different perspectives; (v) and temporal ordering of information in the summary. The treatment of these phenomena contributes to the informativeness and coherence of the final summary. A particular type of coherence studied in this thesis is the local coherence, which is defined by the relationship between statements (smallest units) in a sequence of sentences. The local coherence contributes to the construction of textual meaning in its totality. Assuming that the use of discursive knowledge can improve the evaluation of the local coherence, this thesis proposes to investigate the use of discursive relations to develop local coherence models, which are able to automatically distinguish coherent summaries from incoherent ones. In addition, a study on the errors that affect the Linguistic Quality of the summaries was conducted in order to verify what are the errors that affect the local coherence of summaries, as well as if the coherence models can identify such errors, and whether there is any relationship between coherence models and informativenessof summaries. For thisresearch, it wasnecessary theuseof semantic-discursive information of CST models (Cross-document Structure Theory) and RST (Rhetorical Structure Theory) annoted in the corpora, automatic tools, parser as Palavras, and algorithms that extract information from the corpus. The results showed that the use of semantic-discursive information was successful on the distinction between coherent and incoherent summaries, and that the information about coherence can be used in error detection of linguistic quality that affect the local coherence. Anotação de córpus. Avaliação da coerência local Corpus annotation. Erros de qualidade linguística Evaluation of the local coherence Linguistic quality errors Multi-document summarization Sumarização multidocumento
54	Elaboração textual via definição de entidades mencionadas e de perguntas relacionadas aos verbos em textos simplificados do português / Text elaboration through named entities definition and questions related to verbs in simplified portuguese texts Marcelo Adriano Amancio 15 June 2011 (has links) Esta pesquisa aborda o tema da Elaboração Textual para um público alvo que tem letramento nos níveis básicos e rudimentar, de acordo com a classificação do Indicador Nacional de Alfabetismo Funcional (INAF, 2009). A Elaboração Textual é definida como um conjunto de técnicas que acrescentam material redundante em textos, sendo tradicionalmente usadas a adição de definições, sinônimos, antônimos, ou qualquer informação externa com o objetivo de auxiliar na compreensão do texto. O objetivo deste projeto de mestrado foi a proposta de dois métodos originais de elaboração textual: (1) via definição das entidades mencionadas que aparecem em um texto e (2) via definições de perguntas elaboradas direcionadas aos verbos das orações de um texto. Para a primeira tarefa, usou-se um sistema de reconhecimento de entidades mencionadas da literatura, o Rembrandt, e definições curtas da enciclopédia Wikipédia, sendo este método incorporado no sistema Web FACILITA EDUCATIVO, uma das ferramentas desenvolvidas no projeto PorSimples. O método foi avaliado de forma preliminar com um pequeno grupo de leitores com baixo nível de letramento e a avaliação foi positiva, indicando que este auxílio facilitou a leitura dos usuários da avaliação. O método de geração de perguntas elaboradas aos verbos de uma oração é uma tarefa nova que foi definida, estudada, implementada e avaliada neste mestrado. A avaliação não foi realizada junto ao público alvo e sim com especialistas em processamento de língua natural que avaliaram positivamente o método e indicaram quais erros influenciam negativamente na qualidade das perguntas geradas automaticamente. Existem boas indicações de que os métodos de elaboração desenvolvidos podem ser úteis na melhoria da compreensão da leitura para o público alvo em questão, as pessoas com baixo nível de letramento / This research addresses the topic of Textual Elaboration for low-literacy readers, i.e. people at the rudimentary and basic literacy levels according to the National Indicator of Functional Literacy (INAF, 2009). Text Elaboration consists of a set of techniques that adds extra material in texts using, traditionally, definitions, synonyms, antonyms, or any external information to assist in text understanding. The main goal of this research was the proposal of two methods of Textual Elaboration: (1) the use of short definitions for Named Entities in texts and (2) assignment of wh-questions related to verbs in text. The first task used the Rembrandt named entity recognition system and short definitions of Wikipedia. It was implemented in PorSimples web Educational Facilita tool. This method was preliminarily evaluated with a small group of low-literacy readers. The evaluation results were positive, what indicates that the tool was useful for improving the text understanding. The assignment of wh-questions related to verbs task was defined, studied, implemented and assessed during this research. Its evaluation was conducted with NLP researches instead of with low-literacy readers. There are good evidences that the text elaboration methods and resources developed here are useful in helping text understanding for low-literacy readers Elaboração textual Entidades mencionadas Processamento de lingua natural Named entities Natural language processing Semantic role labeling Textual elaboration
55	Análise genômica de Streptomyces olindensis DAUFPE 5622 e de suas vias crípticas para a obtenção de novos metabólicos secundários de interesse biotecnológico. / Analysis of Streptomyces olindensis DAUFPE 5622 genome and its cryptic pathways to obtain new secondary metabolites of biotechnological interest. Torres, Maria Alejandra Ferreira 08 December 2015 (has links) Os compostos de origem microbiana tem readquirido interesse pela biodisponibilidade, especificidade de alvo e diversidade química, mas as vias biosintéticas permanecem crípticas em condições de cultura. Uma estratégia para expressa-las é a super-expressão de genes ativadores. O laboratório de Bio-Produtos no ICB na USP tem trabalhado com Streptomyces olindensis produtor da Cosmomicina D uma molécula com atividade antitumoral de interesse devido ao padrão de glicosilação. O genoma de S. olindensis foi sequenciado e submetido ao NCBI (JJOH00000000) e utilizando o software antiSMASH foram identificados 33 clusters envolvidos na produção de metabolitos secundários. Encontraram-se clusters gênicos para a produção de metabolitos como Melanina, Geosmina, entre outros. Além, foi realizada uma analise de genômica comparativa para caracterizar e anotar as 22 vias biossintéticas desconhecidas em S. olindensis. Finalmente, escolheram-se a via do aminociclitol e um Policetídeo Tipo I para a super-expressão de genes reguladores levando a detecção do composto sob condições de cultura. / Microbial metabolites regain interest due to its bioavailability, target specificity and chemical diversity, but the biosynthetic pathways remain silenced under culture conditions. A strategy to obtain them is the over expression of regulatory genes. Bio-products laboratory at USP has been working with Streptomyces olindensis, products of Cosmomycin D, an antitumoral molecule with a distinctive glycosylation pattern. S. olindensis genome was sequenced and submitted to NCBI (JJOH00000000) and employing antiSMASH server 33 secondary metabolite related clusters were identified. Known pathways were found such as genes for melanin production, Geosmin and others. Additionally, a comparative genomic approach was used to characterize the 22 biosynthetic unknown pathways described in S. olindensis. Subsequently, Aminocyclitol and Polyketide Type I were chosen to evaluated, over expressing the regulatory genes, leading to the compound detection in regular culture conditions. Cluster biosintético Streptomyces Streptomyces Anotação de genoma Biosynthetic Cluster Cosmomicina D Cosmomycin D Genome annotation Genome mining Genome mining Overexpression of regulator genes Super-expressão de genes reguladores
56	Análise, via RNAseq, do transcritoma do feijoeiro e identificação de genes expressos em resposta à infecção pelo nematoide das galhas / RNA-Seq based transcriptome analysis and identification of common bean genes expressed in response to root-knot nematode infection Santini, Luciane 01 September 2014 (has links) O feijão-comum (Phaseolus vulgaris) é atacado por uma gama de patógenos que afetam a produtividade das lavouras e a qualidade dos grãos. Dentre os patógenos de importância econômica para a cultura no Brasil, destaca-se o nematoide das galhas (Meloidogyne incognita). Embora haja relatos sobre a avaliação de cultivares na presença de M. incognita, as fontes de resistência tem se mostrado pouco efetivas. Por isso, pesquisas que possibilitem um melhor entendimento sobre a interação planta-nematoide são de extrema valia e devem nortear novas estratégias para o melhoramento do feijoeiro. Assim, no presente estudo, 18 cultivares de P. vulgaris foram avaliadas quanto à resistência a M. incognita raça 3, sendo que quatro comportaram-se como pouco suscetíveis, 11 como moderadamente suscetíveis e três altamente suscetíveis. A cultivar IPR Saracura mostrou menor grau de suscetibilidade e foi, então, usada na construção de 12 bibliotecas de RNAseq, visando à identificação dos genes envolvidos na reposta à infecção pelo nematoide. Foram adotados dois tratamentos, 4 e 10 DAI (dias após inoculação), compostos de plantas inoculadas e controles. Primeiramente, realizou-se o mapeamento dos transcritos de cada biblioteca, tomando como referência o genoma de P. vulgaris (G19833), o que resultou na identificação de 27.195 unigenes. Em seguida, foi realizada a quantificação da expressão dos transcritos mapeados e genes diferencialmente expressos foram identificados. No total, 191 genes do hospedeiro apresentaram expressão diferencial, considerando-se: i) o tratamento inoculado em relação ao controle; ii) a razão de expressão (Fold Change - FC) mínima absoluta igual a 4; iii) o nível de significância ? = 0,05. Do total, 120 genes foram identificados aos 4 DAI e 71 aos 10 DAI. As sequências mapeadas foram contrastadas àquelas dos bancos de dados NCBI e TAIR, usando a ferramenta BLASTx e, posteriormente, anotadas usando os softwares Blast2GO e MapMan. Detectou-se similaridade com genes codificadores de proteínas conhecidas para 90% (24.604/27.195) dos unigenes, sendo que 69% (16.991/24.604) deles foram anotados. Quanto à expressão diferencial, 98% (188/191) dos transcritos mostraram similaridade com proteínas conhecidas e 67% (127/188) puderam ser anotados. Os transcritos foram atribuídos a diferentes categorias funcionais putativas, predominando o termo ontológico \'processos metabólicos\', em ambas as plataformas. A anotação dos genes na plataforma MapMan mostrou abundância das categorias da via de resposta a estresse, com predominância de genes de defesa superexpressos aos 4 DAI e reprimidos aos 10 DAI. Por fim, 10 genes mostraram expressão diferencial tanto aos 4 como aos 10 DAI: sete deles foram estáveis, sendo superexpressos nas plantas inoculadas, e três apresentaram comportamentos opostos nos momentos avaliados. Ênfase foi dada a um gene que codifica uma \'probable inactive ADP-ribosyltransferase\' e a quatro genes de resposta a ferimento. / The common bean (Phaseolus vulgaris) is attacked by a range of pathogens, which affect crop yield and the quality of grains. Among the pathogens of economic significance to the crop in Brazil, the root-knot nematodes (Meloidogyne incognita) deserve attention. Though there are some reports on cultivar evaluation in presence of M. incognita, the resistance sources have not being effective. Therefore, it is of valuable importance research projects that could lead to a better understanding of plant-nematode interaction and to indicate new strategies for common bean breeding. In the present study, 18 cultivars of P. vulgaris were evaluated in regard to their resistance to M. incognita race 3; four were less susceptible, 11 moderately susceptible, and three were highly susceptible. \'IPR Saracura\' behaved as the less susceptible cultivar and then was selected for the construction of 12 RNAseq libraries, aiming at the identification of genes differentially expressed in response to nematode infection. Two treatments were adopted, 4 and 10 days after inoculation (DAI), each comprised of inoculated and control plants. Firstly, the transcripts were mapped to the reference genome of P. vulgaris (G19833), resulting in the identification of 27,195 unigenes. Then, the mapped transcript\'s expression was quantified and differentially expressed genes were identified. In total, 191 genes of the host plant showed differential expression taking into consideration: i) the inoculated treatments in relation to their control; ii) an absolute fold change (FC) >= 4; iii) a level of significance ? = 0,05. Of the total, 120 genes were detected at 4 DAI and 71 at 10 DAI. The mapped sequences were compared against those deposited in NCBI and TAIR databanks using BLASTx and subsequently annotated using Blast2GO and MapMan softwares. Similarity to known proteins was detected for 90% of the unigenes (24,604/27,195) and 69% (16,991/24,604) of them were annotated. Regarding assessing differential expression, 98% (188/191) of the transcripts showed similarity to known proteins and 67% (127/188) were annotated. Transcripts were attributed to different putative functional categories and the ontological term \'metabolic process\' was predominant within both platforms. Gene annotation within MapMan platform showed predominance of stress-related pathway categories, with prevalence of defense genes overexpressed at 4 DAI and repressed at 10 DAI. Finally, 10 genes showed differential expression at both 4 and 10 DAI: seven were stably overexpressed in the inoculated plants, and three showed an opposite behavior regarding the evaluation periods. Attention was given to a gene encoding a probable inactive ADP-ribosyltransferase and four genes related to wound response. Meloidogyne incognita Meloidogyne incognita Phaseolus vulgaris Phaseolus vulgaris Anotação funcional Differential gene expression Expressão diferencial de genes Functional annotation Genes de defesa vegetal Interactome Interatoma Plant defense genes RNAseq RNAseq
57	Sumarização multidocumento com base em aspectos informativos / Multidocument summarization based on information aspects Garay, Alessandro Yovan Bokan 20 August 2015 (has links) A sumarização multidocumento consiste na produção de um sumário/resumo a partir de uma coleção de textos sobre um mesmo assunto. Devido à grande quantidade de informação disponível na Web, esta tarefa é de grande relevância já que pode facilitar a leitura dos usuários. Os aspectos informativos representam as unidades básicas de informação presentes nos textos. Por exemplo, em textos jornalísticos em que se relata um fato/acontecimento, os aspectos podem representar a seguintes informações: o que aconteceu, onde aconteceu, quando aconteceu, como aconteceu, e por que aconteceu. Conhecendo-se esses aspectos e as estratégias de produção e organização de sumários, é possível automatizar a tarefa de sumarização. No entanto, para o Português do Brasil, não há pesquisa feita sobre sumarização com base em aspectos. Portanto, neste trabalho de mestrado, investigaram-se métodos de sumarização multidocumento com base em aspectos informativos, pertencente à abordagem profunda para a sumarização, em que se busca interpretar o texto para se produzir sumários mais informativos. Em particular, implementaram-se duas etapas relacionadas: (i) identificação automática de aspectos os aspectos informativos e (ii) desenvolvimento e avaliação de dois métodos de sumarização com base em padrões de aspectos (ou templates) em sumários. Na etapa (i), criaram-se classificadores de aspectos com base em anotador de papéis semânticos, reconhecedor de entidades mencionadas, regras manuais e técnicas de aprendizado de máquina. Avaliaram-se os classificadores sobre o córpus CSTNews (Rassi et al., 2013; Felippo et al., 2014). Os resultados foram satisfatórios, demostrando que alguns aspectos podem ser identificados automaticamente em textos jornalísticos com um desempenho razoável. Já na etapa (ii), elaboraram-se dois métodos inéditos de sumarização multidocumento com base em aspectos. Os resultados obtidos mostram que os métodos propostos neste trabalho são competitivos com os métodos da literatura. Salienta-se que esta abordagem para sumarização tem recebido grande destaque ultimamente. Além disso, é inédita nos trabalhos desenvolvidos no Brasil, podendo trazer contribuições importantes para a área. / Multi-document summarization is the task of automatically producing a unique summary from a group of texts on the same topic. With the huge amount of available information in the web, this task is very relevant because it can facilitate the reading of the users. Informative aspects, in particular, represent the basic information units in texts and summaries, e.g., in news texts there should be the following information: what happened, when it happened, where it happened, how it happened and why it happened. Knowing these aspects and the strategies to produce and organize summaries, it is possible to automate the aspect-based summarization. However, there is no research about aspect-based multi-document summarization for Brazilian Portuguese. This research work investigates multi-document summarization methods based on informative aspects, which follows the deep approach for summarization, in which it aims at interpreting the texts to produce more informative summaries. In particular, two main stages are developed: (i) the automatic identification of informative aspects and (ii) and the development and evaluation of two summarization methods based on aspects patterns (or templates). In the step (i) classifiers were created based on semantic role labeling, named entity recognition, handcrafted rules and machine learning techniques. Classifiers were evaluated on the CSTNews annotated corpus (Rassi et al., 2013; Felippo et al., 2014). The results were satisfactory, demonstrating that some aspects can be automatically identified in the news with a reasonable performance. In the step (ii) two novels aspect-based multi-document summarization methods are elaborated. The results show that the proposed methods in this work are competitive with the classical methods. It should be noted that this approach has lately received a lot of attention. Furthermore, it is unprecedented in the summarization task developed in Brazil, with the potential to bring important contributions to the area. Annotation semantic desktop Anotação de papéis semânticos Aprendizado de máquina Aspectos informativos Aspects informational Learning machine Natural language processing Processamento de língua natural Sumarização automática multidocumento Sumarization automatic multidocument
58	Uma nova abordagem para identificação da provável origem de genes exclusivos de bactérias / A new approach to identify the probable origin of bacteria exclusive genes Priscilla Koch Wagner 26 March 2018 (has links) A comparação de genomas, genes ou até sequências de nucleotídeos não condificantes é uma importante tarefa na qual a bioinformática pode ser aplicada, uma vez que ela auxiliar em diversas atividades, por exemplo, análises filogenéticas. Análise filogenética, por sua vez, busca analisar a relação evolutiva de cada espécie, considerando suas características genéticas. Esses processos e as técnicas que os implementam se baseiam em sequências de nucleotídeos sequenciadas e armazenadas em bancos de dados de genomas públicos. Com análise filogenética também é possível identificar possíveis origens de um gene. Essa tarefa é de grande importância, pois auxilia na identificação da origem de genes patogênicos, podendo auxiliar no combate e prevenção do surgimento de doenças. Um problema potencial dessas sequências é a possibilidade de haver erros nas anotações (marcações de sequências como genes). Esses erros são pouco explorados por pesquisadores atualmente. Outro tema pouco explorado é a análise filogenética de genes exclusivos, que são genes que se manifestam em apenas uma espécie, considerando um grupo de espécies próximas. A identificação de genes exclusivos de alguma espécie pode servir para a correta identificação de, por exemplo, a espécie que causa uma doença, de forma a permitir o uso do tratamento mais específico e adequado. A importância da descoberta de filogenias de genes exclusivos e a dificuldade de garantir a consistência nas anotações genéticas motivaram este trabalho, que teve como objetivo implementar ferramentas para interpretar dados de comparação genética, identificando potenciais erros em anotação de genes exclusivos e criando estratégias para identificar a origem desses genes. As origens de genes exclusivos exploradas neste trabalho envolvem a possibilidade dos genes exclusivos terem derivado de outras famílias de genes do próprio organismo, ou, os genes exclusivos se diferenciaram muito dos genes ancestrais. Essas hipóteses, juntamente com a hipótese da existência de erros de anotação, foram exploradas em experimentos utilizando as ferramentas desenvolvidas. Os experimentos visaram a analisar a aplicabilidade da estratégia desenvolvida. Foram utilizados genomas de bactérias do gênero Xanthomonas, que contém um grande grupo de bactérias que causam doenças em plantas. Os resultados obtidos demonstram que existe uma quantidade considerável de potenciais erros de anotação nos genomas considerados, provando a hipótese de que a inconsistência nas anotações genômicas possui grande influência para a dificuldade na identificação de filogenias (tanto de genes exclusivos como para não exclusivos). Os resultados também demonstraram que boa parte dos genes exclusivos possivelmente se originaram de outras famílias de genes do próprio genoma. Ou ainda, que esses genes sofreram modificações em relação aos genes ancestrais, mas ainda possuem certas semelhanças com sequências de nucleotídeos que não codificam genes em outras espécies mais distantes. Por fim, a estratégia desenvolvida se mostrou útil na análise filogenética das bactérias estudadas, sendo este um forte indício de que a mesma abordagem pode ser utilizada para problemas similares com outras espécies de seres vivos / Comparison of genomes, genes or even non-coding nucleotide sequences is an important task in which bioinformatics can be applied, since it allows the application of phylogenetic analyses. Phylogenetic analysis, in its turn, seeks to analyze the evolutionary relation of each species, considering its genetic characteristics. These processes and the techniques that implement them are based on nucleotide sequences sequenced and stores in databases of public genomes. With phylogenetic analysis it is also possible to identify possible origins of a gene. This task has a great importance, because it allows the identification of the origin of pathogenic genes, which may help to combat or prevent deseases. A potencial problem of these sequences is the possibility of having annotation errors (sequences marking as genes). These errors are little explored by researchers nowadays. Another unexplored topic is the phylogenetic analysis of exclusive genes, which are genes thaht manifest in only one species, considering a group of nearby species. The identification of exclusive genes of a species may serve to correctly identify, for example, a desease, in order to allow the use of a more especific and appropriate treatment. The importance of discovering phylogenies of exclusive genes and the difficulty of guaranteeing the consistency of genetic annotations motivated this work, whose objective was to implement tools to interpret data of genetic comparison, identifying annotation errors in exclusive genes and creating strategies to identify the origin of these genes.The origins of exclusive genes explored in this work involve the possibility of the exclusive genes have derived of other gene families of the organism itself, or, the exclusive genes differed a lot from the ancestral genes. Theses hypotheses, with the hypotesis of the existance of annotation errors, were explored in experiments using the developed tools. The experiments aimed to analyse the applicability of the developed strategy. Genomes of bacteria of the genus Xanthomonas were used, which contains a large group of bacteria that cause diseases in plants. The results show that there is a considerable amount of annotation errors on the genomes, proving the hypothesis that the inconsistency in genomic annotations has a great influence on the difficulty in identifying phylogenies (both exclusive and non-exclusive genes). The results also show that much of exclusive genes possibly originated from other gene families of the genome itself. Furthermore, these genes may have sufferedmodifications in relation to the ancestral genes, but still have certain similarities with nucleotide sequences that don\'t encode genes in other more distant species. Finally, the strategy developed proved useful on phylogenetic analysis of the studied bacteria, which is a strong indication that the same approach can be used for similar problems with other species of living beings Análise filogenética Anotação de genes Bioinformática Comparação de genes Filogenia Genes exclusivos Genômica Bioinformatics Exclusive genes Gene comparison Genes annotation Genomic Phylogenetic analysis Phylogeny
59	GEOFIER: um sistema de anotação geográfica de textos com o uso de classificadores de aprendizagem de máquina. / GEOFIER: a geotagging system based on machine learning text classifiers. Eduardo Marcel Maçan 13 August 2015 (has links) A anotação geográfica de documentos consiste na adoção de metadados para a identificação de nomes de locais e a posição de suas ocorrências no texto. Esta informação é útil, por exemplo, para mecanismos de busca. A partir dos topônimos mencionados no texto é possível identificar o contexto espacial em que o assunto do texto está inserido, o que permite agrupar documentos que se refiram a um mesmo contexto, atribuindo ao documento um escopo geográfico. Esta Dissertação de Mestrado apresenta um novo método, batizado de Geofier, para determinação do escopo geográfico de documentos. A novidade apresentada pelo Geofier é a possibilidade da identificação do escopo geográfico de um documento por meio de classificadores de aprendizagem de máquina treinados sem o uso de um gazetteer e sem premissas quanto à língua dos textos analisados. A Wikipédia foi utilizada como fonte de um conjunto de documentos anotados geograficamente para o treinamento de uma hierarquia de Classificadores Naive Bayes e Support Vector Machines (SVMs). Uma comparação de desempenho entre o Geofier e uma reimplementação do sistema Web-a-Where foi realizada em relação à determinação do escopo geográfico dos textos da Wikipédia. A hierarquia do Geofier foi treinada e avaliada de duas formas: usando topônimos do mesmo gazetteer que o Web-a-Where e usando n-gramas extraídos dos documentos de treinamento. Como resultado, o Geofier manteve desempenho superior ao obtido pela reimplementação do Web-a-Where. / Automatic text geotagging is the process by which mentions of place names and their positions in text are identified as metadata, allowing this information to be used by specialized applications, like Search Engines. It is possible to identify the geographic scope of a document by analysing the toponyms it mentions and then group documents by their geographic context, effectively adding a geographic scope to the documents. This dissertation presents a new method to identify the geographic scope of text, named Geofier. The novelty in Geofier is that it uses machine learning text classifiers, trained without the need of a gazetteer and without making assumptions regarding the language in which the documents are written. Wikipedia was used as the source for a geotagged text dataset in order to train a hierarchy of Naive Bayes and Support Vector Machine (SVM) classifiers. The Geofier hierarchy was then trained and evaluated, first using toponyms from the same gazetteer as Web-a-Where and then using n-grams extracted from the training samples as attributes. Geofier performed significantly better when compared to a Web-a-Where implementation. Anotação geográfica Aprendizagem computacional Classificação automática de texto Gazetteers Geotagging Hierarquias de classificadores de texto Inteligência artificial Mineração de dados Topônímia Automatic text classifiers Gazetteers Geotagging Hierarchy of text classifiers Toponym ambiguity
60	Aprimorando a visualização e composição de regras SWRL na Web / Improving visualization and composition of SWRL rules in the Web Silva, Adriano Rivolli da 16 January 2012 (has links) A Web Semântica tem como meta fazer com que os conteúdos disponibilizados na Web tenham significado não apenas para pessoas, mas também que possam ser processados por máquinas. Essa meta está sendo realizada com o desenvolvimento e uso de ontologias para criar dados anotados semanticamente. Entre as distintas formas de anotação semântica, a Semantic Web Rule Language (SWRL) torna possível criar anotações no formato de regras que combinam regras com conceitos definidos em ontologias, especificadas em Web Ontology Language (OWL), para representar conhecimento sobre dados por meio de afirmações condicionais. Todavia, à medida que o número dessas regras crescem, seus desenvolvedores podem enfrentar dificuldades para gerenciá-las adequadamente. Um grande conjunto de regras torna-se difícil de entender e propício a erros, principalmente quando usado e mantido de forma colaborativa. Neste trabalho é apresentado um conjunto de soluções para aprimorar o uso e gerenciamento de regras SWRL, que compreendem o desenvolvimento de novas representações visuais, técnicas de classificação de regras e ferramenta de detecção de erros. Essas soluções resultaram no SWRL Editor, uma ferramenta Web de visualização e composição de regras que roda como um plug-in para o Web Protégé. Como estudo de caso, foi utilizada a Autism Phenologue Rules, uma ontologia para caracterizar fenótipos de autismo, para exemplificar um conjunto grande e complexo de regras SWRL. A partir desse estudo, uma nova representação visual específica para as regras dessa ontologia foi elaborada, permitindo que um especialista em autismo, sem grandes conhecimentos computacionais, seja capaz de ver e editar regras sem ter de se preocupar com a sintaxe da linguagem SWRL. Os resultados obtidos indicam que o SWRL Editor é uma ferramenta clara e intuitiva, contribuindo para um melhor entendimento, criação e gerenciamento de regras SWRL. / The Semantic Web aims to make web content available not only to people but also to computers using machine-readable formats. This goal is being realized with the development and use of ontologies to create semantically annotated data. Among the different ways to annotate data, the Semantic Web Rule Language (SWRL) enables rule-based annotation that combines rules with ontology concepts, defined using the Web Ontology Language (OWL), to represent knowledge about data as conditional assertions. However, as the number of these rule-base annotations grows, developers face problems when trying to manage them. A large rule set becomes difficult to understand and prone to errors, especially when it is collaboratively maintained. This work presents solutions to improve SWRL rule use and management that include the development of new visual representations, classification techniques and error detection tools. These solutions resulted in the SWRL Editor, a webbased visualization and composition tool for SWRL rules that runs as a Web Protégé plug-in. As a case study, we used the Autism Phenologue Rules, an ontology to characterize autism phenotypes, to exemplify a large and complex SWRL rule set. From this study, a new visual representation, specific for this ontologys rules, has been developed, allowing an expert in autism, without a lot of computational knowledge, to be able to view and edit the rules without having to worry about SWRL syntax. The results obtained indicate that the SWRL Editor is a clear and intuitive tool, contributing for a better understanding and easing the creation and management of SWRL rule sets Anotação de dados Composição de regras Editor de regras Regras SWRL Rule composition Rule systemeditors Rule visualization Semantic Ddata annotation Semantic Web SWRL rules Visualização de regras Web semântica

Search results