Global ETD Search

21	Desenvolvimento e uso do corazon: ferramenta para normalização e agrupamento de dados de expressão gênica Ramos, Thaís de Almeida Ratis 11 May 2018 (has links) Submitted by Automação e Estatística (sst@bczm.ufrn.br) on 2018-07-03T15:32:36Z No. of bitstreams: 1 ThaisDeAlmeidaRatisRamos_DISSERT.pdf: 5907109 bytes, checksum: 89a190289f7aa32aedb29f2dff662907 (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2018-07-11T13:58:20Z (GMT) No. of bitstreams: 1 ThaisDeAlmeidaRatisRamos_DISSERT.pdf: 5907109 bytes, checksum: 89a190289f7aa32aedb29f2dff662907 (MD5) / Made available in DSpace on 2018-07-11T13:58:20Z (GMT). No. of bitstreams: 1 ThaisDeAlmeidaRatisRamos_DISSERT.pdf: 5907109 bytes, checksum: 89a190289f7aa32aedb29f2dff662907 (MD5) Previous issue date: 2018-05-11 / A criação de enciclopédias de expressão gênica possibilita a compreensão de grupos de genes que são co-expressos em diferentes tecidos e o entendimento de grupos gênicos conforme suas funções e origem. Devido à enorme quantidade de dados em larga escala, gerados em projetos de transcriptômica, houve uma demanda intensa em usar técnicas fornecidas pela inteligência artificial, que tornou-se amplamente utilizada na bioinformática. A aprendizagem não supervisionada é a tarefa de aprendizagem de máquina que analisa os dados fornecidos e determina os objetos que podem ser agrupados. Foi construída uma ferramenta amigável chamada CORAZON (Correlation Analyses Zipper Online), que implementa 3 algoritmos de aprendizagem de máquina não supervisionada (mean shift, k-means e hierárquico), 6 metodologias de normalização (Fragments Per Kilobase Million (FPKM), Transcripts Per Million (TPM), Counts Per Million (CPM), log base-2, normalização pela soma dos valores da instância e normalização pelo maior valor de atributo para cada instância) e uma estratégia para observar a influência dos atributos, para agrupamento de dados de expressão gênica. Os desempenhos dos algoritmos foram avaliados através de 5 modelos comumente usados para validar metodologias de agrupamento, cada um composto por 50 conjuntos de dados gerados aleatoriamente. Os algoritmos apresentaram acurácia variando entre 92-100%. Em seguida, a ferramenta foi aplicada para agrupar tecidos, obter conhecimentos evolutivos e funcionais dos genes, com base no enriquecimento de processos biológicos, e associar com fatores de transcrição. Para selecionar o melhor número de clusters para o k-means e o hierárquico, foram utilizados o critério de informação bayesiana (BIC), seguido da derivada da função discreta e a Silhueta. No hierárquico foi adotado o método do Ward. No total, 3 bases de dados (Uhlen, Encode e Fantom) foram analisadas e, em relação aos tecidos, foram observados grupos relacionados a glândulas, tecidos cardíacos, musculares, relacionados ao sistema reprodutivo e grupos com um único tecido, como testículo, cérebro e medula óssea. Em relação aos grupos de genes, foram obtidos vários grupos com especificidades em suas funções: detecção de estímulos envolvidos na percepção sensorial, reprodução, sinalização sináptica, sistema nervoso, sistema imunológico, desenvolvimento de sistemas e metabólicos. Também foi observado que geralmente grupos com mais de 80% de genes não codificantes, mais de 40% dos seus genes codificantes são recentes, originados em Mammalia e a minoria é do clado Eukaryota. Por outro lado, grupos com mais de 90% de genes codificantes, mais de 40% deles apareceram em Eukaryota e a minoria em Mammalia. Estes resultados mostram o potencial dos métodos do CORAZON, que podem ajudar na análise de grande quantidade de dados genômicos, possibilitando associações dos processos biológicos com RNAs não codificantes e codificantes agrupados juntos, bem como a possibilidade do estudo da história evolutiva. CORAZON está disponível gratuitamente em http://biodados.icb.ufmg.br/corazon ou http://corazon.integrativebioinformatics.me. / The creation of gene expression encyclopedias possibilities the understanding of gene groups that are co-expressed in different tissues and comprehend gene clusters according to their functions and origin. Due to the huge amount of data generated in large-scale transcriptomics projects, an intense demand to use techniques provided by artificial intelligence became widely used in bioinformatics. Unsupervised learning is the machine learning task that analyzes the data provided and tries to determine if some objects can be grouped in some way, forming clusters. We developed an online tool called CORAZON (Correlation Analyses Zipper Online), which implements three unsupervised machine learning algorithms (mean shift, k-means and hierarchical) to cluster gene expression datasets, six normalization methodologies (Fragments Per Kilobase Million (FPKM), Transcripts Per Million (TPM), Counts per million (CPM), base-2 log, normalization by the sum of the instance's values and normalization by the highest attribute value for each instance), and a strategy to observe the attributes influence, all in a friendly environment. The algorithms performances were evaluated through five models commonly used to validate clustering methodologies, each one composed by fifty randomly generated datasets. The algorithms presented accuracies ranging between 92-100%. Next, we applied our tool to cluster tissues, obtain gene’s evolutionarily knowledgement and functional insights, based on the Gene Ontology enrichment, and connect with transcription factors. To select the best number of clusters for k-means and hierarchical algorithms we used Bayesian information criterion (BIC), followed by the derivative of the discrete function and Silhouette. In the hierarchical, we adopted the Ward’s method. In total, we analyzed three databases (Uhlen, Encode and Fantom) and in relation to tissues we can observe groups related to glands, cardiac tissues, muscular tissues, tissues related to the reproductive system and in all three groups are observed with a single tissue, such as testis, brain and bone-narrow. In relation to the genes clusters, we obtained several clusters that have specificities in their functions: detection of stimulus involved in sensory perception, reproduction, synaptic signaling, nervous system, immunological system, system development, and metabolics. We also observed that clusters with more than 80% of noncodings, more than 40% of their coding genes are recents appearing in mammalian class and the minority are from eukaryota class. Otherwise, clusters with more than 90% of coding genes, have more than 40% of them appeared in eukaryota and the minority from mammalian. These results illustrate the potential of the methods in CORAZON tool, which can help in the large quantities analysis of genomic data, possibiliting the potential associations analyzes between non-coding RNAs and the biological processes of clustered together coding genes, as well as the possibility of evolutionary history study. CORAZON is freely available at http://biodados.icb.ufmg.br/corazon or http://corazon.integrativebioinformatics.me. CNPQ::OUTROS: BIOINFORMÁTICA Expressão gênica Aprendizagem de máquina Agrupamento
22	Identificação de espécies arbóreas apoiada por reconhecimento de padrões de textura no tronco usando inteligência computacional / Arboreal species identification supported by texture pattern recognition in trunk using computational intelligence Bressane, Adriano [UNESP] 31 March 2017 (has links) Submitted by ADRIANO BRESSANE null (adrianobressane@ymail.com) on 2017-04-06T11:45:45Z No. of bitstreams: 1 3.pdf: 38954890 bytes, checksum: acc45aa06079de5294c6da5f275e4318 (MD5) / Approved for entry into archive by Luiz Galeffi (luizgaleffi@gmail.com) on 2017-04-12T18:48:05Z (GMT) No. of bitstreams: 1 bressane_a_dr_soro.pdf: 38954890 bytes, checksum: acc45aa06079de5294c6da5f275e4318 (MD5) / Made available in DSpace on 2017-04-12T18:48:05Z (GMT). No. of bitstreams: 1 bressane_a_dr_soro.pdf: 38954890 bytes, checksum: acc45aa06079de5294c6da5f275e4318 (MD5) Previous issue date: 2017-03-31 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Embora fundamental para diversas finalidades, a identificação de espécies arbóreas pode ser complexa e até mesmo inviável em determinadas condições, motivando o desenvolvimento de métodos assistidos por inteligência computacional. Nesse sentido, estudos têm se concentrado na avaliação de características extraídas a partir de imagens da folha e, apesar dos avanços, não são aplicáveis a espécies caducifólias em determinadas épocas do ano. Logo, o uso de características baseadas na textura em imagens do tronco poderia ser uma alternativa, mas ainda há poucos resultados reportados na literatura. Portanto, a partir da revisão de trabalhos anteriores, foram realizados experimentos para avaliar o uso de métodos de inteligência computacional no reconhecimento de padrões de textura em imagens do tronco arbóreo. Para tanto, foram consideradas espécies arbóreas caducifólias nativas da flora brasileira. As primeiras análises experimentais focaram na avaliação de padrões. Como resultado, verificou-se que a melhor capacidade de generalização é alcançada combinando o uso de estatísticas de primeira e segunda ordem. Contudo, o aumento de variáveis preditoras demandou uma abordagem capaz de lidar com informação redundante. Entre as técnicas avaliadas para essa finalidade, a análise fatorial exploratória proporcionou redução na taxa de erros durante o aprendizado de máquina e aumento da acurácia durante a validação com dados de teste. Por fim, constatando que a variabilidade natural da textura no tronco arbóreo causa uma ambiguidade no reconhecimento de padrões, o uso da modelagem fuzzy foi avaliado. Em comparação com outros algoritmos de aprendizagem de máquina, a abordagem fuzzy proporcionou resultados competitivos e, assim, pode ser considerada uma alternativa promissora para novos avanços no apoio a identificação de espécies arbóreas usando inteligência computacional. / Although the arboreal identification is mandatory for several purposes, it can be complex and infeasible under certain conditions, motivating the development of computer-aided methods. In this sense, studies have focused on the assessment of features extracted from leaf images and, despite advancements, they are not applicable for deciduous species in some periods of year. Therefore, the usage of features based on texture in trunk images could be an alternative, but there are still few outcomes reported in the literature. Thus, from the review on previous studies, experiments have been performed for evaluating the use of computational intelligence methods for texture patterns recognition in trunk images. For that, native species from the deciduous Brazilian forest were considered. Firstly, the experimental analyzes focused on the evaluation of patterns. As a result, it was noted that the best generalization ability is reached using the first-order statistics in combination with second-order descriptors. Nevertheless, the increase of predictor variables required an approach capable of dealing with redundant information. Among the techniques assessed for this purpose, the exploratory factor analysis provided an error rate reduction during the machine learning, and an accuracy improvement in the validation over testing dataset. Finally, taking into account that the natural variability of texture in arboreal trunk causes an ambiguity in the pattern recognition, the usage of fuzzy modeling has been evaluated. In comparison with other machine learning algorithms, the fuzzy approach afforded competitive results, and hence it can be a promising alternative for further progress in the arboreal identification supported by computational intelligence. Bioinformática Processamento de imagens Aprendizagem de máquina Machine learning Bioinformatics Image processing
23	Resolução de correferências em língua portuguesa: pessoa, local e organização Fonseca, Evandro Brasil January 2014 (has links) Made available in DSpace on 2014-06-25T02:02:05Z (GMT). No. of bitstreams: 1 000458767-Texto+Completo-0.pdf: 3173862 bytes, checksum: 0f4ea1ec0b9741e176522697d0d4dd1d (MD5) Previous issue date: 2014 / Coreference resolution is a process that consists in identifying the several forms that a specific named entity may assume on certain text. In other words, this process consists in identifying certain terms and expressions that refer certain named entity. The automatic textual coreference resolution is in a very important context in the Natural Language Processing (NLP) area, because several systems need itstasks, such as the relation extraction between named entities. The linguistic processing level depends on the knowledgeabout the world, and this is a challenge for thisarea, mainly for the Portuguese language. The growing necessity of NLP tools and the lack of open source resources for Portuguese have inspired the research on this language, and they became the focus of this dissertation. The present work aims at building an open source tool for the Coreference resolution in Portuguese, focusing on the Person, Location and Organization domains.These three categories were chosen given their relevance for most NLP tasks, because they represent more specifically entities of common interest. Furthermore, they are the most explored categories in the related works. The choice for working only with open source resourcesis because most of related works forPortuguese usesprivate software, which limits his availability and his usability. The methodology is based on supervised machine learning. For this task, the use of features that help on the correct classification of noun phrase pairs as coreferent or non-coreferent are essential for grouping them later, thus building coreference chains. Although there are still many challenges to be overcome, the results of the system described in this dissertationare encouraging when compared indirectly, by using the same metric,to the current state of the art. / Resolução de correferências é um processo que consiste em identificar as diversas formas que uma mesma entidade nomeada pode assumir em um determinado texto. Em outras palavras, esse processo consiste em identificar determinados termos e expressões que remetem a uma mesma entidade. A resolução automática de correferência textual está inserida num contexto muito importante na área de Processamento da Linguagem Natural (PLN), pois vários sistemas necessitam dessa tarefa, como, por exemplo, a extração de relação entre entidades nomeadas. O nível de processamento linguístico depende do conhecimento de mundo, e isso ainda é um desafio para a área. A necessidade crescente por ferramentas de PLN e a escassez de recursos livres para a língua portuguesa motivaram trabalhar com essa língua nesta dissertação de mestrado. O presente trabalho teve por objetivo desenvolver uma ferramenta open source para a resolução de correferências em língua portuguesa, tendo como foco as categorias de entidades nomeadas Pessoa, Local e Organização.Optou-se por essas três categorias por essas serem as mais relevantes para a maioria das tarefas de PLN, pelo fato de tratarem entidades mais específicas e de interesse comum. Além disso, são as categorias mais exploradas em trabalhos voltados à resolução de correferência. Escolheu-se trabalhar apenas com recursos open source pelo fato de a maioria dos trabalhos para a língua portuguesa utilizar recursos proprietários. Isso acaba limitando a disponibilidade da ferramenta e, consequentemente, o seu uso. A metodologia utilizada é baseada em aprendizado de máquina supervisionado. Para tal, o uso de features que auxiliem na correta classificação de pares de sintagmas como correferentes ou não-correferentes é fundamental para,posteriormente,agrupá-los, gerando cadeias de correferência. Embora ainda existam muitos desafios a serem resolvidos, os resultados do sistema descrito nesta dissertação são animadores, quando comparados indiretamente, por meio de uma mesma métrica, ao atual estado da arte. INFORMÁTICA PROCESSAMENTO DA LINGUAGEM NATURAL LINGUÍSTICA COMPUTACIONAL APRENDIZAGEM DE MÁQUINA
24	Avaliação de Aprendizagem de Agentes Baseados em Sistemas Classificadores Para Jogos Digitais FARIAS, Denys Lins de 04 September 2014 (has links) Submitted by Lucelia Lucena (lucelia.lucena@ufpe.br) on 2015-03-06T19:46:46Z No. of bitstreams: 2 DISSERTAÇÃO Denys Lins de Farias.pdf: 1587908 bytes, checksum: 56b81933533aed8f8d9f5f11c66976e1 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-06T19:46:47Z (GMT). No. of bitstreams: 2 DISSERTAÇÃO Denys Lins de Farias.pdf: 1587908 bytes, checksum: 56b81933533aed8f8d9f5f11c66976e1 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2014-09-04 / A diversão dos jogos digitais está relacionada com a proposição de níveis adequados de desafios, para que o jogador não se frustre com desafios muito difíceis, nem fique entediado com desafios muito fáceis. As soluções propostas na literatura para este problema, chamado de Ajuste Dinâmico de Dificuldade (Dynamic Difficulty Adjustment, DDA), utilizam agentes adaptativos que buscam adequar seu comportamento às capacidades do jogador humano contra quem jogam. Algumas técnicas (aprendizagem por reforço, algoritmos genéticos, Dynamic Scripting) podem ser adaptadas para que o agente atue de forma sub-ótima, isto é, que ele jogue menos bem diante de um jogador humano pouco experiente ou pouco habilidoso. Porém, quando se enfrenta jogadores muito experientes ou habilidosos, tais agentes não conseguem atuar no nível do jogador. Estas técnicas podem ser vistas, simplificadamente, como sistemas de regras condição-ação em que se pode aprender os pesos de tais regras ou criar novas regras. Nessa estrutura, existe uma classe de algoritmos de aprendizagem online, os chamados Sistemas Classificadores (SCs), que permite tanto aprender pesos de regras quanto criar novas regras, mas que, até onde sabemos, ainda não foi utilizada em DDA. Diante deste cenário, o objetivo deste trabalho foi de avaliar a aplicabilidade de SC a DDA. Como sabemos que SC, a exemplo de Dynamic Scripting, pode ser facilmente adaptada para ter um desempenho subótimo, nós nos focamos em avaliar se SC poderia ter uma competência melhor do que os outros, em particular do que aprendizagem por reforço, a melhor das técnicas em avaliação anterior. Para tanto, tivemos de enfrentar o conhecido problema da parametrização dos SCs, e o fizemos utilizando a técnica de otimização F-Race, o que gerou dois agentes baseados em SCs com parâmetros diferentes. Como caso de estudo, adotamos o jogo de luta em tempo real Knock’em, utilizado em outros trabalhos. Conduzimos um experimento para avaliar a competência entre os agentes baseados em SCs e um baseado em Q-Learning, contra agentes de comportamento aleatório e previsível. Os resultados indicaram que o agente parametrizado pelo F-Race obteve melhor desempenho que o agente de referência contra oponente previsível, perdendo contra o agente de comportamento aleatório. Verificamos a viabilidade do uso de SCs em DDA, em uma série de partidas, na qual o agente operou no nível dos oponentes, mas apresentou razoável variação nos resultados. Realizamos mais um experimento entre o agente proposto parametrizado pelo F-Race e o baseado em Q-Learning, contando com avaliação quantitativa e qualitativa. Ambos agentes apresentaram bons resultados, com o agente de referência obtendo maior vantagem inicial, porém os jogadores foram capazes de reverter a situação ao longo do experimento. Sistemas Classificadores Agentes Adaptativos Aprendizagem de Máquina F-Race
25	Spatial Entropy Analisys (SEnA): uma técnica para detecção de impressões digitais falsas Silva, José Júnior de Oliveira 14 August 2014 (has links) Submitted by Lucelia Lucena (lucelia.lucena@ufpe.br) on 2015-03-09T18:27:51Z No. of bitstreams: 2 DISSERTAÇÃO José Júnior de Oliveira Silva.pdf: 7518081 bytes, checksum: c3a81782a7579fd5842fb797b1cdfd76 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-09T18:27:51Z (GMT). No. of bitstreams: 2 DISSERTAÇÃO José Júnior de Oliveira Silva.pdf: 7518081 bytes, checksum: c3a81782a7579fd5842fb797b1cdfd76 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2014-08-14 / Impressões digitais fornecem uma alternativa para autenticação pessoal diferente dos meios tradicionais, tais como: senhas, cartões, PIN, entre outros, que podem ser facilmente esquecidos ou perdidos. Uma impressão digital é uma característica presente na palma das mãos e nas solas dos pés dos seres humanos que são únicas para cada pessoa. Seu uso pode e vem substituindo os meios tradicionais de autenticação pessoal em sistemas informatizados ou físicos, no entanto, a segurança nesses ambientes pode ser comprometida, caso seja apresentado ao sistema um dedo falso, confeccionado com algum material sintético como: silicone, gelatina, látex, entre outros. Diversas técnicas têm sido propostas para detecção de impressões digitais falsas ou spoof detection. No entanto, esse problema ainda não está resolvido. O presente trabalho propõe uma nova técnica de extração de características: Spatial Entropy Analisys (SEnA) e a aplica à detecção de impressões digitais falsas. SEnA baseia-se na análise da entropia de Shannon em regiões de uma imagem. Neste trabalho, cada imagem de um dado conjunto de treinamento é dividida em regiões e para cada região, computa-se a entropia, formando um vetor com os valores obtidos. Os vetores são usados para treinar um classificador, que, após o treinamento, faz a distinção entre imagens de dedos verdadeiros e falsificações. SEnA foi testado nas bases das três versões da Liveness Detection Competition (LivDet) realizadas em 2009, em 2011 e em 2013. Os experimentos mostram que a técnica proposta consegue resultados promissores, em especial nas bases da competição LivDet 2011, em que a técnica proposta supera todas as demais técnicas do estado da arte comparadas. Biometria Reconhecimento de padrões Aprendizagem de máquina
26	Predição da resposta de pacientes a terapias anti-HIV através de aprendizagem de máquina SANTOS, Rafael Henrique da Silva 08 1900 (has links) Submitted by Luiz Felipe Barbosa (luiz.fbabreu2@ufpe.br) on 2015-03-10T17:10:16Z No. of bitstreams: 2 DISSERTAÇÃO Rafael Henrique da Silva Santos.pdf: 2107062 bytes, checksum: e753b1fdcb1bd51bc05ca43bd216612c (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-11T17:34:53Z (GMT). No. of bitstreams: 2 DISSERTAÇÃO Rafael Henrique da Silva Santos.pdf: 2107062 bytes, checksum: e753b1fdcb1bd51bc05ca43bd216612c (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2014-08 / O Vírus da Imunodeficiência Humana (HIV) vem causando a morte de milhões de vítimas todos os anos. Trata-se de um retrovírus capaz de alterar o material genético das células hospedeiras, utilizando-as para produzir cópias de si. Nesse processo de replicação, podem ocorrer falhas no pareamento das bases nitrogenadas, resultando em mutações do HIV. Essas mutações são as responsáveis pela resistência aos medicamentos antirretrovirais e fazem com que o sistema imunológico do hospedeiro não reconheça mais o vírus. Assim, identificar as mutações no HIV que levam à resistência do vírus a certos medicamentos e predizer se o paciente terá uma resposta satisfatória a terapia antes mesmo dela ser iniciada, é de fundamental importância para o sucesso do tratamento. Muitos métodos estatísticos e de aprendizagem de máquina têm sido aplicados para tentar solucionar esse problema. Nesse trabalho, dados de indivíduos com HIV foram utilizados para desenvolver modelos responsáveis por predizer a resposta dos pacientes ao tratamento antirretroviral. Informações clínicas (carga viral e quantidade de células T-CD4+) juntamente com sequências de RNA do vírus (transcriptase reversa e protease) foram empregadas no treinamento dos classificadores Perceptron Multicamadas, Função de Base Radial, e Máquinas de Vetor Suporte. O algoritmo SMOTE foi aplicado para lidar com a enorme diferença entre o número de amostras de casos e controles, o que foi crucial para a precisão dos modelos. Os resultados mostram que o modelo SVM é mais preciso do que os outros dois, com uma área de curva ROC de 0,9398. Dos 1000 pacientes, 646 foram preditos corretamente por todos os modelos, ao passo que 69 foram classificados incorretamente na mesma situação. Analisando esses dados mais atentamente, foram identificados códons e propriedades importantes na diferenciação desses dois grupos de pacientes. Entre os códons identificados, alguns tem respaldo na literatura e outros são novos. A análise empregada oferece várias informações que podem ser muito úteis na predição da resposta de pacientes ao tratamento antirretroviral. HIV Mutação Resistência Tratamento antirretroviral Predição Aprendizagem de máquina
27	Comparação de Desempenho de Classificadores One-class e Classificadores Convencionais Aplicados Ao Problema da Detecção de Falhas Em Módulo de Software Costa Neto, João Rufino da 28 August 2013 (has links) Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-11T13:57:54Z No. of bitstreams: 2 Dissertacao Joao R. Costa Neto.pdf: 2286439 bytes, checksum: 8ba0c06a689f69782d27721c95ca5055 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-13T12:59:50Z (GMT) No. of bitstreams: 2 Dissertacao Joao R. Costa Neto.pdf: 2286439 bytes, checksum: 8ba0c06a689f69782d27721c95ca5055 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-13T12:59:50Z (GMT). No. of bitstreams: 2 Dissertacao Joao R. Costa Neto.pdf: 2286439 bytes, checksum: 8ba0c06a689f69782d27721c95ca5055 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2013-08-28 / É difícil assegurar a qualidade de um software sem focar nas atividades de teste, que apresentam elevado custo ao seu processo de desenvolvimento. Com o intuito de reduzir os custos desse processo de teste, algumas técnicas de inteligência artificial foram aplicadas, como a classificação. Além disso, é importante observar que a maioria das bases de dados referentes a módulos propensos a falha apresentam um alto grau de desbalanceamento. Portanto, é essencial o uso de classificadores que lidem da melhor forma com esse desbalanceamento dos dados. O principal objetivo desse trabalho é avaliar e comparar performances dos classificadores one-class e classificadores convencionais aplicados ao problema de detecção de módulos de software que tendem a apresentar falhas, otimizando-os de acordo com o algoritmo de Colônia Artificial de Abelhas (Artificial Bee Colony – ABC, em inglês). teste de software detecção de defeito classificação oneclass algoritmos de otimização aprendizagem de máquina
28	Class-test: classificação automática de testes para auxíio à criação de suítes de teste de Souza Lima, Leonardo 31 January 2009 (has links) Made available in DSpace on 2014-06-12T15:53:09Z (GMT). No. of bitstreams: 2 arquivo1903_1.pdf: 918157 bytes, checksum: 0dfd55458968c90c309a4c7e189c25fe (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2009 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Este trabalho apresenta o Class-Test, uma ferramenta idealizada para auxiliar os profissionais de testes na criação de suítes de testes extensas. Em geral, as suítes de testes devem conter um determinado número de testes de cada tipo (e.g., testes negativos, testes de fronteira, testes de interação, etc), número este fixado pelo engenheiros/designers de testes da empresa. Um dos maiores problemas enfrentados pelos testadores para montar essas suítes é o tempo gasto na categorização manual dos testes pré-selecionados para compor suítes extensas (com 1.000 testes, por exemplo). O Class-Test é uma ferramenta para classificação automática de casos de testes, que visa diminuir o esforço e o tempo gasto no processo de categorização dos testes. A ferramenta foi construída com base em técnicas de Aprendizagem de Máquina, em particular, da área de Categorização de Texto. Três classificadores automáticos foram construídos utilizando-se um corpus composto por 879 casos de testes, com a distribuição de 191 casos de testes do tipo Fronteira (Test Boundary), 338 do tipo Negativo (Test Negative), e 350 do tipo interação (Test Interaction). Cada classificador é especializado em apenas um desses três tipos de teste. Foi necessário criar três classificadores porque alguns casos de teste podem ser associados a mais de uma classe de teste ao mesmo tempo. Foram realizados dois estudos de casos. O primeiro estudo teve como objetivo avaliar, dentre os quatro algoritmos de aprendizagem selecionados, qual apresentava melhor precisão para o corpus em questão. O algoritmo SVM Máquina de Vetores de Suporte apresentou melhor desempenho nesse estudo. O segundo estudo de caso visou comparar a precisão da categorização automática versus a categorização manual, este experimento será mostrado com mais detalhes no capítulo 5. Este trabalho é parte do projeto Test Research Project do CIn/BTC, que está sendo desenvolvido em uma parceria entre o CIn-UFPE e a Motorola. O propósito geral desse projeto é automatizar a geração, seleção e avaliação de casos de teste para aplicações de telefonia móvel Engenharia de Software Teste de software Aprendizagem de Máquina Categorização de texto
29	Busca e recuperação de componentes de software utilizando agrupamento de componentes Veras, Ronaldo Cisneiros 31 January 2008 (has links) Made available in DSpace on 2014-06-12T15:54:38Z (GMT). No. of bitstreams: 2 arquivo1985_1.pdf: 1669122 bytes, checksum: d80eb6d9d156dc4d5fea44c91a40a019 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2008 / O desenvolvimento de software com reuso é uma abordagem que pode ser utilizada para alcançar dois benefícios principais: 1) incremento de produtividade nos projetos de software e 2) melhorias na qualidade final dos projetos. A abordagem de reuso de software pode ser instanciada através da estratégia de desenvolvimento de software baseada em componentes. De acordo com essa estratégia, grandes aplicações de software podem ser desenvolvidas a partir de partes reutilizáveis e pré-existentes, que devem estabelecer uma colaboração entre elas para prover as funcionalidade requeridas pela aplicação. Os locais onde esses componentes são armazenados (repositórios), e os processos para a busca e recuperação dos mesmos, são considerados pontos de constante pesquisa e discussão. Em um outro contexto, soluções baseadas em aprendizagem de máquina e inteligência artificial começam a produzir contribuições relevantes para problemas pertencentes ao ciclo de desenvolvimento de projetos de software, compreendendo campos como a estimativa de esforço de projetos de software e a predição de falhas, por exemplo. Esse trabalho possui o objetivo de investigar a utilização de técnicas de agrupamento de dados (clustering) (que fazem parte das técnicas de aprendizagem de máquina) ao problema do reuso de software. Para esse trabalho foram analisadas as técnicas de agrupamento por mapas auto-organizáveis (SOM), mapas autoorganizáveis que crescem hierarquicamente (GHSOM) e o agrupamento por árvores de sufixos (STC). É importante ressaltar que a aplicação de STC a este problema foi feita originalmente no nosso trabalho. Nesse cenário, a solução proposta foi implementada, gerando uma ferramenta web para busca e recuperação de componentes de software. A ferramenta Cluco (Clustering of Components) apresenta os resultados de uma busca por componentes, que satisfazem os critérios de uma consulta, na forma de grupos de componentes similares, onde esses grupos são gerados pelo algoritmo STC. Essa característica pode ser considerada uma contribuição relevante, pois o grande esforço manual em busca de similaridades, que deveria ser realizado pelos usuários, é executado automaticamente pelo sistema, à medida que os resultados de uma busca tornam-se disponíveis. Esta dissertação apresenta avaliações qualitativas e quantitativas da solução proposta. Vários usuários com vários níveis de experiência em engenharia de software avaliaram a ferramenta, através de realização de buscas e respondendo a um questionário contendo perguntas relativas à usabilidade e à qualidade da solução. Métricas para a avaliação de sistemas de recuperação de informação como, por exemplo, as métricas recall e precision foram utilizadas para fornecer validações quantitativas sobre a solução. Uma análise de desempenho comparando as técnicas investigadas nesse trabalho foi realizada. Esta análise mostrou a superioridade da técnica STC no problema de agrupamento dos componentes de software utilizados nesse trabalho (componentes Java). Considerando todos os resultados obtidos, pode ser concluído que a solução proposta contribui de forma positiva e relevante para o problema de busca e recuperação de componentes de software Software Reuso de Software Aprendizagem de Máquina Agrupamento Inteligência Artificial Engenharia de Software
30	Um sistema de extração de informação em referências bibliográficas baseado em aprendizagem e máquina Fraga do Amaral e Silva, Eduardo January 2004 (has links) Made available in DSpace on 2014-06-12T15:58:49Z (GMT). No. of bitstreams: 2 arquivo4727_1.pdf: 1069518 bytes, checksum: f7d66b889164069c63fdfafe11edf163 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2004 / Existe atualmente uma gigantesca quantidade de informações disponibilizada em formato de texto na Internet e nas redes das grandes corporações. Essas informações encontram-se em um formato não estruturado, dificilmente manipulável por programas de computador. A Extração de Informação (EI) tem como objetivo transformar documentos textuais em um formato estruturado, mapeando a informação contida em um documento em uma estrutura tabular. Tal estrutura é mais facilmente tratável por programas de computador, possibilitando assim a sua utilização por variadas aplicações inteligentes . Dentro da Inteligência Artificial, vemos duas abordagens para tratar o problema da EI: os sistemas baseados em conhecimento e a aprendizagem automática. O trabalho apresentado tem como objetivo a construção de um sistema para extrair informações a partir de textos contendo citações científicas (ou referências bibliográficas) através de uma abordagem baseada em aprendizagem automática. Dentre as diversas técnicas existentes, escolhemos tratar o problema através de uma abordagem híbrida, que combina o uso de técnicas de classificação de textos com os Modelos de Markov Escondidos (HMM). Esta combinação mostrou resultados superiores aos obtidos usando exclusivamente as técnicas de classificação e sua idéia básica é gerar com o uso das técnicas de classificação de textos para EI uma saída inicial para o sistema e refiná-la depois por meio de um HMM. Experimentos realizados com um conjunto de teste contendo 3000 referências resultaram em uma precisão de 87,48%.

Search results