Spelling suggestions: "subject:"aprendizagem dde máquina"" "subject:"aprendizagem dee máquina""
21 |
Desenvolvimento e uso do corazon: ferramenta para normalização e agrupamento de dados de expressão gênicaRamos, Thaís de Almeida Ratis 11 May 2018 (has links)
Submitted by Automação e Estatística (sst@bczm.ufrn.br) on 2018-07-03T15:32:36Z
No. of bitstreams: 1
ThaisDeAlmeidaRatisRamos_DISSERT.pdf: 5907109 bytes, checksum: 89a190289f7aa32aedb29f2dff662907 (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2018-07-11T13:58:20Z (GMT) No. of bitstreams: 1
ThaisDeAlmeidaRatisRamos_DISSERT.pdf: 5907109 bytes, checksum: 89a190289f7aa32aedb29f2dff662907 (MD5) / Made available in DSpace on 2018-07-11T13:58:20Z (GMT). No. of bitstreams: 1
ThaisDeAlmeidaRatisRamos_DISSERT.pdf: 5907109 bytes, checksum: 89a190289f7aa32aedb29f2dff662907 (MD5)
Previous issue date: 2018-05-11 / A criação de enciclopédias de expressão gênica possibilita a compreensão de grupos de genes
que são co-expressos em diferentes tecidos e o entendimento de grupos gênicos conforme
suas funções e origem. Devido à enorme quantidade de dados em larga escala, gerados em
projetos de transcriptômica, houve uma demanda intensa em usar técnicas fornecidas pela
inteligência artificial, que tornou-se amplamente utilizada na bioinformática. A aprendizagem
não supervisionada é a tarefa de aprendizagem de máquina que analisa os dados fornecidos e
determina os objetos que podem ser agrupados. Foi construída uma ferramenta amigável
chamada CORAZON (Correlation Analyses Zipper Online), que implementa 3 algoritmos de
aprendizagem de máquina não supervisionada (mean shift, k-means e hierárquico), 6
metodologias de normalização (Fragments Per Kilobase Million (FPKM), Transcripts Per
Million (TPM), Counts Per Million (CPM), log base-2, normalização pela soma dos valores
da instância e normalização pelo maior valor de atributo para cada instância) e uma estratégia
para observar a influência dos atributos, para agrupamento de dados de expressão gênica. Os
desempenhos dos algoritmos foram avaliados através de 5 modelos comumente usados para
validar metodologias de agrupamento, cada um composto por 50 conjuntos de dados gerados
aleatoriamente. Os algoritmos apresentaram acurácia variando entre 92-100%. Em seguida, a
ferramenta foi aplicada para agrupar tecidos, obter conhecimentos evolutivos e funcionais dos
genes, com base no enriquecimento de processos biológicos, e associar com fatores de
transcrição. Para selecionar o melhor número de clusters para o k-means e o hierárquico,
foram utilizados o critério de informação bayesiana (BIC), seguido da derivada da função
discreta e a Silhueta. No hierárquico foi adotado o método do Ward. No total, 3 bases de
dados (Uhlen, Encode e Fantom) foram analisadas e, em relação aos tecidos, foram
observados grupos relacionados a glândulas, tecidos cardíacos, musculares, relacionados ao
sistema reprodutivo e grupos com um único tecido, como testículo, cérebro e medula óssea.
Em relação aos grupos de genes, foram obtidos vários grupos com especificidades em suas
funções: detecção de estímulos envolvidos na percepção sensorial, reprodução, sinalização
sináptica, sistema nervoso, sistema imunológico, desenvolvimento de sistemas e metabólicos.
Também foi observado que geralmente grupos com mais de 80% de genes não codificantes,
mais de 40% dos seus genes codificantes são recentes, originados em Mammalia e a minoria é
do clado Eukaryota. Por outro lado, grupos com mais de 90% de genes codificantes, mais de
40% deles apareceram em Eukaryota e a minoria em Mammalia. Estes resultados mostram o
potencial dos métodos do CORAZON, que podem ajudar na análise de grande quantidade de
dados genômicos, possibilitando associações dos processos biológicos com RNAs não
codificantes e codificantes agrupados juntos, bem como a possibilidade do estudo da história
evolutiva. CORAZON está disponível gratuitamente em http://biodados.icb.ufmg.br/corazon
ou http://corazon.integrativebioinformatics.me. / The creation of gene expression encyclopedias possibilities the understanding of gene groups
that are co-expressed in different tissues and comprehend gene clusters according to their
functions and origin. Due to the huge amount of data generated in large-scale transcriptomics
projects, an intense demand to use techniques provided by artificial intelligence became
widely used in bioinformatics. Unsupervised learning is the machine learning task that
analyzes the data provided and tries to determine if some objects can be grouped in some way,
forming clusters. We developed an online tool called CORAZON (Correlation Analyses
Zipper Online), which implements three unsupervised machine learning algorithms (mean
shift, k-means and hierarchical) to cluster gene expression datasets, six normalization
methodologies (Fragments Per Kilobase Million (FPKM), Transcripts Per Million (TPM),
Counts per million (CPM), base-2 log, normalization by the sum of the instance's values and
normalization by the highest attribute value for each instance), and a strategy to observe the
attributes influence, all in a friendly environment. The algorithms performances were
evaluated through five models commonly used to validate clustering methodologies, each one
composed by fifty randomly generated datasets. The algorithms presented accuracies ranging
between 92-100%. Next, we applied our tool to cluster tissues, obtain gene’s evolutionarily
knowledgement and functional insights, based on the Gene Ontology enrichment, and connect
with transcription factors. To select the best number of clusters for k-means and hierarchical
algorithms we used Bayesian information criterion (BIC), followed by the derivative of the
discrete function and Silhouette. In the hierarchical, we adopted the Ward’s method. In total,
we analyzed three databases (Uhlen, Encode and Fantom) and in relation to tissues we can
observe groups related to glands, cardiac tissues, muscular tissues, tissues related to the
reproductive system and in all three groups are observed with a single tissue, such as testis,
brain and bone-narrow. In relation to the genes clusters, we obtained several clusters that have
specificities in their functions: detection of stimulus involved in sensory perception,
reproduction, synaptic signaling, nervous system, immunological system, system
development, and metabolics. We also observed that clusters with more than 80% of noncodings,
more than 40% of their coding genes are recents appearing in mammalian class and
the minority are from eukaryota class. Otherwise, clusters with more than 90% of coding
genes, have more than 40% of them appeared in eukaryota and the minority from mammalian.
These results illustrate the potential of the methods in CORAZON tool, which can help in the
large quantities analysis of genomic data, possibiliting the potential associations analyzes
between non-coding RNAs and the biological processes of clustered together coding genes, as
well as the possibility of evolutionary history study. CORAZON is freely available at
http://biodados.icb.ufmg.br/corazon or http://corazon.integrativebioinformatics.me.
|
22 |
Identificação de espécies arbóreas apoiada por reconhecimento de padrões de textura no tronco usando inteligência computacional / Arboreal species identification supported by texture pattern recognition in trunk using computational intelligenceBressane, Adriano [UNESP] 31 March 2017 (has links)
Submitted by ADRIANO BRESSANE null (adrianobressane@ymail.com) on 2017-04-06T11:45:45Z
No. of bitstreams: 1
3.pdf: 38954890 bytes, checksum: acc45aa06079de5294c6da5f275e4318 (MD5) / Approved for entry into archive by Luiz Galeffi (luizgaleffi@gmail.com) on 2017-04-12T18:48:05Z (GMT) No. of bitstreams: 1
bressane_a_dr_soro.pdf: 38954890 bytes, checksum: acc45aa06079de5294c6da5f275e4318 (MD5) / Made available in DSpace on 2017-04-12T18:48:05Z (GMT). No. of bitstreams: 1
bressane_a_dr_soro.pdf: 38954890 bytes, checksum: acc45aa06079de5294c6da5f275e4318 (MD5)
Previous issue date: 2017-03-31 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Embora fundamental para diversas finalidades, a identificação de espécies arbóreas pode ser complexa e até mesmo inviável em determinadas condições, motivando o desenvolvimento de métodos assistidos por inteligência computacional. Nesse sentido, estudos têm se concentrado na avaliação de características extraídas a partir de imagens da folha e, apesar dos avanços, não são aplicáveis a espécies caducifólias em determinadas épocas do ano. Logo, o uso de características baseadas na textura em imagens do tronco poderia ser uma alternativa, mas ainda há poucos resultados reportados na literatura. Portanto, a partir da revisão de trabalhos anteriores, foram realizados experimentos para avaliar o uso de métodos de inteligência computacional no reconhecimento de padrões de textura em imagens do tronco arbóreo. Para tanto, foram consideradas espécies arbóreas caducifólias nativas da flora brasileira. As primeiras análises experimentais focaram na avaliação de padrões. Como resultado, verificou-se que a melhor capacidade de generalização é alcançada combinando o uso de estatísticas de primeira e segunda ordem. Contudo, o aumento de variáveis preditoras demandou uma abordagem capaz de lidar com informação redundante. Entre as técnicas avaliadas para essa finalidade, a análise fatorial exploratória proporcionou redução na taxa de erros durante o aprendizado de máquina e aumento da acurácia durante a validação com dados de teste. Por fim, constatando que a variabilidade natural da textura no tronco arbóreo causa uma ambiguidade no reconhecimento de padrões, o uso da modelagem fuzzy foi avaliado. Em comparação com outros algoritmos de aprendizagem de máquina, a abordagem fuzzy proporcionou resultados competitivos e, assim, pode ser considerada uma alternativa promissora para novos avanços no apoio a identificação de espécies arbóreas usando inteligência computacional. / Although the arboreal identification is mandatory for several purposes, it can be complex and infeasible under certain conditions, motivating the development of computer-aided methods. In this sense, studies have focused on the assessment of features extracted from leaf images and, despite advancements, they are not applicable for deciduous species in some periods of year. Therefore, the usage of features based on texture in trunk images could be an alternative, but there are still few outcomes reported in the literature. Thus, from the review on previous studies, experiments have been performed for evaluating the use of computational intelligence methods for texture patterns recognition in trunk images. For that, native species from the deciduous Brazilian forest were considered. Firstly, the experimental analyzes focused on the evaluation of patterns. As a result, it was noted that the best generalization ability is reached using the first-order statistics in combination with second-order descriptors. Nevertheless, the increase of predictor variables required an approach capable of dealing with redundant information. Among the techniques assessed for this purpose, the exploratory factor analysis provided an error rate reduction during the machine learning, and an accuracy improvement in the validation over testing dataset. Finally, taking into account that the natural variability of texture in arboreal trunk causes an ambiguity in the pattern recognition, the usage of fuzzy modeling has been evaluated. In comparison with other machine learning algorithms, the fuzzy approach afforded competitive results, and hence it can be a promising alternative for further progress in the arboreal identification supported by computational intelligence.
|
23 |
Resolução de correferências em língua portuguesa: pessoa, local e organizaçãoFonseca, Evandro Brasil January 2014 (has links)
Made available in DSpace on 2014-06-25T02:02:05Z (GMT). No. of bitstreams: 1
000458767-Texto+Completo-0.pdf: 3173862 bytes, checksum: 0f4ea1ec0b9741e176522697d0d4dd1d (MD5)
Previous issue date: 2014 / Coreference resolution is a process that consists in identifying the several forms that a specific named entity may assume on certain text. In other words, this process consists in identifying certain terms and expressions that refer certain named entity. The automatic textual coreference resolution is in a very important context in the Natural Language Processing (NLP) area, because several systems need itstasks, such as the relation extraction between named entities. The linguistic processing level depends on the knowledgeabout the world, and this is a challenge for thisarea, mainly for the Portuguese language. The growing necessity of NLP tools and the lack of open source resources for Portuguese have inspired the research on this language, and they became the focus of this dissertation. The present work aims at building an open source tool for the Coreference resolution in Portuguese, focusing on the Person, Location and Organization domains.These three categories were chosen given their relevance for most NLP tasks, because they represent more specifically entities of common interest. Furthermore, they are the most explored categories in the related works. The choice for working only with open source resourcesis because most of related works forPortuguese usesprivate software, which limits his availability and his usability. The methodology is based on supervised machine learning. For this task, the use of features that help on the correct classification of noun phrase pairs as coreferent or non-coreferent are essential for grouping them later, thus building coreference chains. Although there are still many challenges to be overcome, the results of the system described in this dissertationare encouraging when compared indirectly, by using the same metric,to the current state of the art. / Resolução de correferências é um processo que consiste em identificar as diversas formas que uma mesma entidade nomeada pode assumir em um determinado texto. Em outras palavras, esse processo consiste em identificar determinados termos e expressões que remetem a uma mesma entidade. A resolução automática de correferência textual está inserida num contexto muito importante na área de Processamento da Linguagem Natural (PLN), pois vários sistemas necessitam dessa tarefa, como, por exemplo, a extração de relação entre entidades nomeadas. O nível de processamento linguístico depende do conhecimento de mundo, e isso ainda é um desafio para a área. A necessidade crescente por ferramentas de PLN e a escassez de recursos livres para a língua portuguesa motivaram trabalhar com essa língua nesta dissertação de mestrado. O presente trabalho teve por objetivo desenvolver uma ferramenta open source para a resolução de correferências em língua portuguesa, tendo como foco as categorias de entidades nomeadas Pessoa, Local e Organização.Optou-se por essas três categorias por essas serem as mais relevantes para a maioria das tarefas de PLN, pelo fato de tratarem entidades mais específicas e de interesse comum. Além disso, são as categorias mais exploradas em trabalhos voltados à resolução de correferência. Escolheu-se trabalhar apenas com recursos open source pelo fato de a maioria dos trabalhos para a língua portuguesa utilizar recursos proprietários. Isso acaba limitando a disponibilidade da ferramenta e, consequentemente, o seu uso. A metodologia utilizada é baseada em aprendizado de máquina supervisionado. Para tal, o uso de features que auxiliem na correta classificação de pares de sintagmas como correferentes ou não-correferentes é fundamental para,posteriormente,agrupá-los, gerando cadeias de correferência. Embora ainda existam muitos desafios a serem resolvidos, os resultados do sistema descrito nesta dissertação são animadores, quando comparados indiretamente, por meio de uma mesma métrica, ao atual estado da arte.
|
24 |
Avaliação de Aprendizagem de Agentes Baseados em Sistemas Classificadores Para Jogos DigitaisFARIAS, Denys Lins de 04 September 2014 (has links)
Submitted by Lucelia Lucena (lucelia.lucena@ufpe.br) on 2015-03-06T19:46:46Z
No. of bitstreams: 2
DISSERTAÇÃO Denys Lins de Farias.pdf: 1587908 bytes, checksum: 56b81933533aed8f8d9f5f11c66976e1 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-06T19:46:47Z (GMT). No. of bitstreams: 2
DISSERTAÇÃO Denys Lins de Farias.pdf: 1587908 bytes, checksum: 56b81933533aed8f8d9f5f11c66976e1 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2014-09-04 / A diversão dos jogos digitais está relacionada com a proposição de níveis adequados
de desafios, para que o jogador não se frustre com desafios muito difíceis, nem fique entediado
com desafios muito fáceis. As soluções propostas na literatura para este problema, chamado
de Ajuste Dinâmico de Dificuldade (Dynamic Difficulty Adjustment, DDA), utilizam agentes
adaptativos que buscam adequar seu comportamento às capacidades do jogador humano contra
quem jogam. Algumas técnicas (aprendizagem por reforço, algoritmos genéticos, Dynamic
Scripting) podem ser adaptadas para que o agente atue de forma sub-ótima, isto é, que ele
jogue menos bem diante de um jogador humano pouco experiente ou pouco habilidoso. Porém,
quando se enfrenta jogadores muito experientes ou habilidosos, tais agentes não conseguem
atuar no nível do jogador. Estas técnicas podem ser vistas, simplificadamente, como sistemas
de regras condição-ação em que se pode aprender os pesos de tais regras ou criar novas regras.
Nessa estrutura, existe uma classe de algoritmos de aprendizagem online, os chamados Sistemas
Classificadores (SCs), que permite tanto aprender pesos de regras quanto criar novas regras, mas
que, até onde sabemos, ainda não foi utilizada em DDA.
Diante deste cenário, o objetivo deste trabalho foi de avaliar a aplicabilidade de SC a DDA.
Como sabemos que SC, a exemplo de Dynamic Scripting, pode ser facilmente adaptada para
ter um desempenho subótimo, nós nos focamos em avaliar se SC poderia ter uma competência
melhor do que os outros, em particular do que aprendizagem por reforço, a melhor das técnicas
em avaliação anterior. Para tanto, tivemos de enfrentar o conhecido problema da parametrização
dos SCs, e o fizemos utilizando a técnica de otimização F-Race, o que gerou dois agentes
baseados em SCs com parâmetros diferentes.
Como caso de estudo, adotamos o jogo de luta em tempo real Knock’em, utilizado em
outros trabalhos. Conduzimos um experimento para avaliar a competência entre os agentes
baseados em SCs e um baseado em Q-Learning, contra agentes de comportamento aleatório
e previsível. Os resultados indicaram que o agente parametrizado pelo F-Race obteve melhor
desempenho que o agente de referência contra oponente previsível, perdendo contra o agente
de comportamento aleatório. Verificamos a viabilidade do uso de SCs em DDA, em uma série
de partidas, na qual o agente operou no nível dos oponentes, mas apresentou razoável variação
nos resultados. Realizamos mais um experimento entre o agente proposto parametrizado pelo
F-Race e o baseado em Q-Learning, contando com avaliação quantitativa e qualitativa. Ambos
agentes apresentaram bons resultados, com o agente de referência obtendo maior vantagem
inicial, porém os jogadores foram capazes de reverter a situação ao longo do experimento.
|
25 |
Spatial Entropy Analisys (SEnA): uma técnica para detecção de impressões digitais falsasSilva, José Júnior de Oliveira 14 August 2014 (has links)
Submitted by Lucelia Lucena (lucelia.lucena@ufpe.br) on 2015-03-09T18:27:51Z
No. of bitstreams: 2
DISSERTAÇÃO José Júnior de Oliveira Silva.pdf: 7518081 bytes, checksum: c3a81782a7579fd5842fb797b1cdfd76 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-09T18:27:51Z (GMT). No. of bitstreams: 2
DISSERTAÇÃO José Júnior de Oliveira Silva.pdf: 7518081 bytes, checksum: c3a81782a7579fd5842fb797b1cdfd76 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2014-08-14 / Impressões digitais fornecem uma alternativa para autenticação pessoal diferente dos meios tradicionais, tais como: senhas, cartões, PIN, entre outros, que podem ser facilmente esquecidos ou perdidos. Uma impressão digital é uma característica presente na palma das mãos e nas solas dos pés dos seres humanos que são únicas para cada pessoa. Seu uso pode e vem substituindo os meios tradicionais de autenticação pessoal em sistemas informatizados ou físicos, no entanto, a segurança nesses ambientes pode ser comprometida, caso seja apresentado ao sistema um dedo falso, confeccionado com algum material sintético como: silicone, gelatina, látex, entre outros. Diversas técnicas têm sido propostas para detecção de impressões digitais falsas ou spoof detection. No entanto, esse problema ainda não está resolvido. O presente trabalho propõe uma nova técnica de extração de características: Spatial Entropy Analisys (SEnA) e a aplica à detecção de impressões digitais falsas. SEnA baseia-se na análise da entropia de Shannon em regiões de uma imagem. Neste trabalho, cada imagem de um dado conjunto de treinamento é dividida em regiões e para cada região, computa-se a entropia, formando um vetor com os valores obtidos. Os vetores são usados para treinar um classificador, que, após o treinamento, faz a distinção entre imagens de dedos verdadeiros e falsificações. SEnA foi testado nas bases das três versões da Liveness Detection Competition (LivDet) realizadas em 2009, em 2011 e em 2013. Os experimentos mostram que a técnica proposta consegue resultados promissores,
em especial nas bases da competição LivDet 2011, em que a técnica proposta supera todas as demais técnicas do estado da arte comparadas.
|
26 |
Predição da resposta de pacientes a terapias anti-HIV através de aprendizagem de máquinaSANTOS, Rafael Henrique da Silva 08 1900 (has links)
Submitted by Luiz Felipe Barbosa (luiz.fbabreu2@ufpe.br) on 2015-03-10T17:10:16Z
No. of bitstreams: 2
DISSERTAÇÃO Rafael Henrique da Silva Santos.pdf: 2107062 bytes, checksum: e753b1fdcb1bd51bc05ca43bd216612c (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-11T17:34:53Z (GMT). No. of bitstreams: 2
DISSERTAÇÃO Rafael Henrique da Silva Santos.pdf: 2107062 bytes, checksum: e753b1fdcb1bd51bc05ca43bd216612c (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2014-08 / O Vírus da Imunodeficiência Humana (HIV) vem causando a morte de milhões de vítimas todos os anos. Trata-se de um retrovírus capaz de alterar o material genético das células hospedeiras, utilizando-as para produzir cópias de si. Nesse processo de replicação, podem ocorrer falhas no pareamento das bases nitrogenadas, resultando em mutações do HIV. Essas mutações são as responsáveis pela resistência aos medicamentos antirretrovirais e fazem com que o sistema imunológico do hospedeiro não reconheça mais o vírus. Assim, identificar as mutações no HIV que levam à resistência do vírus a certos medicamentos e predizer se o paciente terá uma resposta satisfatória a terapia antes mesmo dela ser iniciada, é de fundamental importância para o sucesso do tratamento. Muitos métodos estatísticos e de aprendizagem de máquina têm sido aplicados para tentar solucionar esse problema.
Nesse trabalho, dados de indivíduos com HIV foram utilizados para desenvolver modelos responsáveis por predizer a resposta dos pacientes ao tratamento antirretroviral. Informações clínicas (carga viral e quantidade de células T-CD4+) juntamente com sequências de RNA do vírus (transcriptase reversa e protease) foram empregadas no treinamento dos classificadores Perceptron Multicamadas, Função de Base Radial, e Máquinas de Vetor Suporte. O algoritmo SMOTE foi aplicado para lidar com a enorme diferença entre o número de amostras de casos e controles, o que foi crucial para a precisão dos modelos. Os resultados mostram que o modelo SVM é mais preciso do que os outros dois, com uma área de curva ROC de 0,9398. Dos 1000 pacientes, 646 foram preditos corretamente por todos os modelos, ao passo que 69 foram classificados incorretamente na mesma situação. Analisando esses dados mais atentamente, foram identificados códons e propriedades importantes na diferenciação desses dois grupos de pacientes. Entre os códons identificados, alguns tem respaldo na literatura e outros são novos. A análise empregada oferece várias informações que podem ser muito úteis na predição da resposta de pacientes ao tratamento antirretroviral.
|
27 |
Comparação de Desempenho de Classificadores One-class e Classificadores Convencionais Aplicados Ao Problema da Detecção de Falhas Em Módulo de SoftwareCosta Neto, João Rufino da 28 August 2013 (has links)
Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-11T13:57:54Z
No. of bitstreams: 2
Dissertacao Joao R. Costa Neto.pdf: 2286439 bytes, checksum: 8ba0c06a689f69782d27721c95ca5055 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-13T12:59:50Z (GMT) No. of bitstreams: 2
Dissertacao Joao R. Costa Neto.pdf: 2286439 bytes, checksum: 8ba0c06a689f69782d27721c95ca5055 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-13T12:59:50Z (GMT). No. of bitstreams: 2
Dissertacao Joao R. Costa Neto.pdf: 2286439 bytes, checksum: 8ba0c06a689f69782d27721c95ca5055 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-08-28 / É difícil assegurar a qualidade de um software sem focar nas
atividades de teste, que apresentam elevado custo ao seu processo
de desenvolvimento. Com o intuito de reduzir os custos desse
processo de teste, algumas técnicas de inteligência artificial foram aplicadas,
como a classificação. Além disso, é importante observar que a maioria das
bases de dados referentes a módulos propensos a falha apresentam um alto
grau de desbalanceamento. Portanto, é essencial o uso de classificadores
que lidem da melhor forma com esse desbalanceamento dos dados. O
principal objetivo desse trabalho é avaliar e comparar performances dos
classificadores one-class e classificadores convencionais aplicados ao
problema de detecção de módulos de software que tendem a apresentar
falhas, otimizando-os de acordo com o algoritmo de Colônia Artificial de
Abelhas (Artificial Bee Colony – ABC, em inglês).
|
28 |
Class-test: classificação automática de testes para auxíio à criação de suítes de testede Souza Lima, Leonardo 31 January 2009 (has links)
Made available in DSpace on 2014-06-12T15:53:09Z (GMT). No. of bitstreams: 2
arquivo1903_1.pdf: 918157 bytes, checksum: 0dfd55458968c90c309a4c7e189c25fe (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2009 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Este trabalho apresenta o Class-Test, uma ferramenta idealizada para auxiliar os
profissionais de testes na criação de suítes de testes extensas. Em geral, as suítes de testes
devem conter um determinado número de testes de cada tipo (e.g., testes negativos, testes
de fronteira, testes de interação, etc), número este fixado pelo engenheiros/designers de
testes da empresa. Um dos maiores problemas enfrentados pelos testadores para montar
essas suítes é o tempo gasto na categorização manual dos testes pré-selecionados para
compor suítes extensas (com 1.000 testes, por exemplo).
O Class-Test é uma ferramenta para classificação automática de casos de testes,
que visa diminuir o esforço e o tempo gasto no processo de categorização dos testes. A
ferramenta foi construída com base em técnicas de Aprendizagem de Máquina, em
particular, da área de Categorização de Texto. Três classificadores automáticos foram
construídos utilizando-se um corpus composto por 879 casos de testes, com a distribuição
de 191 casos de testes do tipo Fronteira (Test Boundary), 338 do tipo Negativo (Test
Negative), e 350 do tipo interação (Test Interaction). Cada classificador é especializado
em apenas um desses três tipos de teste. Foi necessário criar três classificadores porque
alguns casos de teste podem ser associados a mais de uma classe de teste ao mesmo
tempo. Foram realizados dois estudos de casos. O primeiro estudo teve como objetivo
avaliar, dentre os quatro algoritmos de aprendizagem selecionados, qual apresentava
melhor precisão para o corpus em questão. O algoritmo SVM Máquina de Vetores de
Suporte apresentou melhor desempenho nesse estudo. O segundo estudo de caso visou
comparar a precisão da categorização automática versus a categorização manual, este
experimento será mostrado com mais detalhes no capítulo 5.
Este trabalho é parte do projeto Test Research Project do CIn/BTC, que está
sendo desenvolvido em uma parceria entre o CIn-UFPE e a Motorola. O propósito geral
desse projeto é automatizar a geração, seleção e avaliação de casos de teste para
aplicações de telefonia móvel
|
29 |
Busca e recuperação de componentes de software utilizando agrupamento de componentesVeras, Ronaldo Cisneiros 31 January 2008 (has links)
Made available in DSpace on 2014-06-12T15:54:38Z (GMT). No. of bitstreams: 2
arquivo1985_1.pdf: 1669122 bytes, checksum: d80eb6d9d156dc4d5fea44c91a40a019 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2008 / O desenvolvimento de software com reuso é uma abordagem que pode ser utilizada para alcançar
dois benefícios principais: 1) incremento de produtividade nos projetos de software e 2)
melhorias na qualidade final dos projetos. A abordagem de reuso de software pode ser instanciada
através da estratégia de desenvolvimento de software baseada em componentes. De acordo
com essa estratégia, grandes aplicações de software podem ser desenvolvidas a partir de partes
reutilizáveis e pré-existentes, que devem estabelecer uma colaboração entre elas para prover as
funcionalidade requeridas pela aplicação. Os locais onde esses componentes são armazenados
(repositórios), e os processos para a busca e recuperação dos mesmos, são considerados pontos
de constante pesquisa e discussão.
Em um outro contexto, soluções baseadas em aprendizagem de máquina e inteligência artificial
começam a produzir contribuições relevantes para problemas pertencentes ao ciclo de
desenvolvimento de projetos de software, compreendendo campos como a estimativa de esforço
de projetos de software e a predição de falhas, por exemplo. Esse trabalho possui o objetivo de
investigar a utilização de técnicas de agrupamento de dados (clustering) (que fazem parte das
técnicas de aprendizagem de máquina) ao problema do reuso de software. Para esse trabalho
foram analisadas as técnicas de agrupamento por mapas auto-organizáveis (SOM), mapas autoorganizáveis
que crescem hierarquicamente (GHSOM) e o agrupamento por árvores de sufixos
(STC). É importante ressaltar que a aplicação de STC a este problema foi feita originalmente
no nosso trabalho.
Nesse cenário, a solução proposta foi implementada, gerando uma ferramenta web para
busca e recuperação de componentes de software. A ferramenta Cluco (Clustering of Components)
apresenta os resultados de uma busca por componentes, que satisfazem os critérios de
uma consulta, na forma de grupos de componentes similares, onde esses grupos são gerados
pelo algoritmo STC. Essa característica pode ser considerada uma contribuição relevante, pois
o grande esforço manual em busca de similaridades, que deveria ser realizado pelos usuários, é
executado automaticamente pelo sistema, à medida que os resultados de uma busca tornam-se
disponíveis.
Esta dissertação apresenta avaliações qualitativas e quantitativas da solução proposta. Vários
usuários com vários níveis de experiência em engenharia de software avaliaram a ferramenta,
através de realização de buscas e respondendo a um questionário contendo perguntas relativas
à usabilidade e à qualidade da solução. Métricas para a avaliação de sistemas de recuperação
de informação como, por exemplo, as métricas recall e precision foram utilizadas para fornecer
validações quantitativas sobre a solução. Uma análise de desempenho comparando as técnicas
investigadas nesse trabalho foi realizada. Esta análise mostrou a superioridade da técnica STC
no problema de agrupamento dos componentes de software utilizados nesse trabalho (componentes Java). Considerando todos os resultados obtidos, pode ser concluído que a solução
proposta contribui de forma positiva e relevante para o problema de busca e recuperação de
componentes de software
|
30 |
Um sistema de extração de informação em referências bibliográficas baseado em aprendizagem e máquinaFraga do Amaral e Silva, Eduardo January 2004 (has links)
Made available in DSpace on 2014-06-12T15:58:49Z (GMT). No. of bitstreams: 2
arquivo4727_1.pdf: 1069518 bytes, checksum: f7d66b889164069c63fdfafe11edf163 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2004 / Existe atualmente uma gigantesca quantidade de informações disponibilizada em
formato de texto na Internet e nas redes das grandes corporações. Essas informações
encontram-se em um formato não estruturado, dificilmente manipulável por programas
de computador.
A Extração de Informação (EI) tem como objetivo transformar documentos
textuais em um formato estruturado, mapeando a informação contida em um documento
em uma estrutura tabular. Tal estrutura é mais facilmente tratável por programas de
computador, possibilitando assim a sua utilização por variadas aplicações inteligentes .
Dentro da Inteligência Artificial, vemos duas abordagens para tratar o problema da EI:
os sistemas baseados em conhecimento e a aprendizagem automática.
O trabalho apresentado tem como objetivo a construção de um sistema para
extrair informações a partir de textos contendo citações científicas (ou referências
bibliográficas) através de uma abordagem baseada em aprendizagem automática. Dentre
as diversas técnicas existentes, escolhemos tratar o problema através de uma abordagem
híbrida, que combina o uso de técnicas de classificação de textos com os Modelos de
Markov Escondidos (HMM). Esta combinação mostrou resultados superiores aos
obtidos usando exclusivamente as técnicas de classificação e sua idéia básica é gerar
com o uso das técnicas de classificação de textos para EI uma saída inicial para o
sistema e refiná-la depois por meio de um HMM. Experimentos realizados com um
conjunto de teste contendo 3000 referências resultaram em uma precisão de 87,48%.
|
Page generated in 0.0581 seconds