• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 264
  • 20
  • 2
  • Tagged with
  • 287
  • 236
  • 78
  • 70
  • 55
  • 50
  • 45
  • 37
  • 35
  • 33
  • 33
  • 30
  • 29
  • 28
  • 27
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
121

Inclusão de diversidade em consultas aos vizinhos mais próximos usando descritores distintos para similaridade e diversidade

Cardoso, Ana Claudia 18 April 2017 (has links)
Submitted by Aelson Maciera (aelsoncm@terra.com.br) on 2017-09-13T18:11:26Z No. of bitstreams: 1 DissACC.pdf: 1668214 bytes, checksum: 82bf6ff6918613ce74cc691a951a22b0 (MD5) / Approved for entry into archive by Ronildo Prado (bco.producao.intelectual@gmail.com) on 2018-01-25T17:53:52Z (GMT) No. of bitstreams: 1 DissACC.pdf: 1668214 bytes, checksum: 82bf6ff6918613ce74cc691a951a22b0 (MD5) / Approved for entry into archive by Ronildo Prado (bco.producao.intelectual@gmail.com) on 2018-01-25T17:54:04Z (GMT) No. of bitstreams: 1 DissACC.pdf: 1668214 bytes, checksum: 82bf6ff6918613ce74cc691a951a22b0 (MD5) / Made available in DSpace on 2018-01-25T18:00:35Z (GMT). No. of bitstreams: 1 DissACC.pdf: 1668214 bytes, checksum: 82bf6ff6918613ce74cc691a951a22b0 (MD5) Previous issue date: 2017-04-18 / Não recebi financiamento / One of the ways to recover images in a database is through similarity queries. Using characteristics extracted from these images, such as color, shape or texture, this work seeks to identify similarities to a central query element. However, the results may be very similar to each other, which is not always the expected result. In addition to the redundancy in the results, the problem of the ’semantic gap’, which is a divergence in the evaluation of similarity between images performed by the computer considering its numerical representation (low level characteristics) and the human perception about the image (high level characteristics). In order to improve the quality of the results, we sought to minimize the issue of redundancy and the ’semantic gap’ through the use of more than one descriptor in queries for similarity. We sought to explore the inclusion of diversity using one descriptor to treat similarity and another descriptor to treat diversity, more generally a metric space for similarity and another for diversity. For the implementation of the query by similarity was used the consultation to several neighbors closer. Considering that the descriptors may be distinct and one of them may have greater numerical representativeness, it was necessary to do the normalization, considering the methods of normalization by the greater distance and normalization by the greater approximate distance with balancing by the intrinsic dimension. An exhaustive search algorithm was used to perform the tests. The experiments were carried out in a classified database. To evaluate the semantic quality of the results, a measure was proposed that evaluates the inclusion of diversity considering the diversity present in the query only considering the similarity and the maximum diversity that can be included. A comparison was made between the result obtained and the considered ideal, which refers to the value of l defined by the user himself. By comparing the results obtained with the results obtained in the queries for a single descriptor, the evaluation of the included diversity followed the trend of l, which allows to say that normalization and balancing is necessary. In addition, it is intended in the future to study new ways of normalizing. / Uma das formas para se recuperar imagens em banco de dados, é através de consultas por similaridade. Utilizando características extraídas dessas imagens, como cor, forma ou textura, busca-se identificar semelhanças a um elemento central de consulta. No entanto, os resultados nas consultas podem ser muito semelhantes entre si, o que nem sempre é o resultado esperado. Além da redundância nos resultados, deve-se destacar o problema do ‘gap semântico’, que é a divergência na avaliação da similaridade entre imagens realizada pelo computador considerando a sua representação numérica (características de baixo nível) e a percepção humana sobre a imagem (características de alto nível). Com o objetivo de melhorar a qualidade dos resultados nas consultas buscou-se minimizar a questão da redundância e do ‘gap semântico’ através da utilização de mais de um descritor nas consultas por similaridade. Buscou-se explorar a inclusão de diversidade utilizando-se um descritor para tratar a similaridade e outro descritor para tratar a diversidade, mais genericamente, um espaço métrico para similaridade e outro para a diversidade. Para a implementação da consulta por similaridade utilizou-se a consulta aos vizinhos diversos mais próximos. Considerando-se que os descritores utilizados podem ser distintos e que um deles possa ter maior representatividade numérica do que o outro, foi necessário fazer a normalização, sendo considerados os métodos da normalização pela maior distância e normalização pela maior distancia aproximada com balanceamento pela dimensão intrínseca. Para a realização dos testes utilizou-se um algoritmo de busca exaustiva. Os experimentos foram realizados em uma base de dados classificada. Para avaliar a qualidade semântica dos resultados foi proposta uma medida que avalia a inclusão de diversidade considerando a diversidade presente na consulta apenas considerando a similaridade e a diversidade máxima que pode ser incluída. Foi feita uma comparação entre o resultado obtido e o considerado ideal, que refere-se ao valor de l definido pelo próprio usuário. Comparando-se os resultados alcançados com os resultados obtidos nas consultas para um único descritor, a avaliação da diversidade incluída acompanhou a tendência de l, o que permite dizer que a normalização e balanceamento é necessário. Além disso, pretende-se futuramente estudar novas formas de normalizar.
122

Uma abordagem para identificação de domínios de aplicação em ambiente de convergência digital

Venceslau, Amanda Drielly Pires 23 July 2013 (has links)
Made available in DSpace on 2015-05-14T12:36:40Z (GMT). No. of bitstreams: 1 arquivototal.pdf: 3026129 bytes, checksum: adbee1eaf596c14b444cb5c0d0379353 (MD5) Previous issue date: 2013-07-23 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The emergence of the Interactive Digital Television provided, as well as advantages gain quality and optimization of the transmission, the addition of new features and services available to the user. With the advent of digital convergence between TV and Web platforms, new proposals of semantic organization of content are developed. Moreover, it was possible to introduce concepts of the Semantic Web and knowledge representation that allow semantically describe the metadata of content through ontologies. In this context, this work proposes an approach to identifying of domain of application in digital convergence environment based on the Semantic Web concepts and analysis of lexical and semantic similarity. One component integrated with Knowledge TV platform, was implemented to validate the approach. / O surgimento da Televisão Digital Interativa proporciona além de ganho de qualidade na transmissão, a adição de novos recursos e serviços disponíveis ao usuário. Com o advento da convergência digital entre as plataformas de TV e Web, novas propostas de organização semântica de conteúdo estão sendo desenvolvidas. Além disso, foi possível introduzir conceitos da Web Semântica e de representação do conhecimento que permitem descrever semanticamente os metadados de conteúdo através de ontologias. Nesse contexto, esse trabalho propõe uma abordagem para identificação de domínios de aplicação no ambiente de convergência digital baseada em conceitos da Web Semântica e nas análises de similaridade léxica e semântica. Um componente integrado a plataforma Knowledge TV, foi implementado para validar a abordagem.
123

Uma medida de similaridade híbrida para correspondência aproximada de múltiplos padrões / A hybrid similarity measure for multiple approximate pattern matching

Dezembro, Denise Gazotto 07 March 2019 (has links)
A busca aproximada por múltiplos padrões similares é um problema encontrado em diversas áreas de pesquisa, tais como biologia computacional, processamento de sinais e recuperação de informação. Na maioria das vezes, padrões não possuem uma correspondência exata e, portanto, buscam-se padrões aproximados, de acordo com um modelo de erro. Em geral, o modelo de erro utiliza uma função de distância para determinar o quanto dois padrões são diferentes. As funções de distância são baseadas em medidas de similaridade, que são classificadas em medidas de similaridade baseadas em distância de edição, medidas de similaridade baseadas em token e medidas de similaridade híbridas. Algumas dessas medidas extraem um vetor de características de todos os termos que constituem o padrão. A similaridade entre os vetores pode ser calculada pela distância entre cossenos ou pela distância euclidiana, por exemplo. Essas medidas apresentam alguns problemas: tornam-se inviáveis conforme o tamanho do padrão aumenta, não realizam a correção ortográfica ou apresentam problemas de normalização. Neste projeto de pesquisa propõe-se uma nova medida de similaridade híbrida que combina TF-IDF Weighting e uma medida de similaridade baseada em distância de edição para estimar a importância de um termo dentro de um padrão na tarefa de busca textual. A medida DGD não descarta completamente os termos que não fazem parte do padrão, mas atribui um peso baseando-se na alta similaridade deste termo com outro que está no padrão e com a média de TF-IDF Weighting do termo na coleção. Alguns experimentos foram conduzidos mostrando o comportamento da medida proposta comparada com as outras existentes na literatura. Tem-se como recomendação geral o limiar de {tf-idf+cosseno, Jaccard, Soft tf-idf} 0,60 e {Jaro, Jaro-Winkler, Monge-Elkan} 0,90 para detecção de padrões similares. A medida de similaridade proposta neste trabalho (DGD+cosseno) apresentou um melhor desempenho quando comparada com tf idf+cosseno e Soft tf-idf na identificação de padrões similares e um melhor desempenho do que as medidas baseadas em distância de edição (Jaro e JaroWinkler) na identificação de padrões não similares. Atuando como classificador, em geral, a medida de similaridade híbrida proposta neste trabalho (DGD+cosseno) apresentou um melhor desempenho (embora não sinificativamente) do que todas as outras medidas de similaridade analisadas, o que se mostra como um resultado promissor. Além disso, é possível concluir que o melhor valor de a ser usado, onde corresponde ao limiar do valor da medida de similaridade secundária baseada em distância de edição entre os termos do padrão, corresponde a 0,875. / Multiple approximate pattern matching is a challenge found in many research areas, such as computational biology, signal processing and information retrieval. Most of the time, a pattern does not have an exact match in the text, and therefore an error model becomes necessary to search for an approximate pattern match. In general, the error model uses a distance function to determine how different two patterns are. Distance functions use similarity measures which can be classified in token-based, edit distance based and hybrid measures. Some of these measures extract a vector of characteristics from all terms in the pattern. Then, the similarity between vectors can be calculated by cosine distance or by euclidean distance, for instance. These measures present some problems: they become infeasible as the size of the pattern increases, do not perform the orthographic correction or present problems of normalization. In this research, we propose a new hybrid similarity metric, named DGD, that combines TF-IDF Weighting and a edit distance based measure to estimate the importance of a term within patterns. The DGD measure doesnt completely rule out terms that are not part of the pattern, but assigns a weight based on the high similarity of this term to another that is in the pattern and with the TF-IDF Weighting mean of the term in the collection. Experiment were conducted showing the soundness of the proposed metric compared to others in the literature. The general recommendation is the threshold of {tf-idf+cosseno, Jaccard, Soft tf-idf} 0.60 and {Jaro, Jaro-Winkler, Monge-Elkan} 0.90 for detection of similar patterns. The similarity measure proposed in this work (DGD + cosine) presented a better performance when compared with tf-idf+cosine and Soft tf-idf in the identification of similar patterns and a better performance than the edit distance based measures (Jaro and Jaro-Winkler) in identifying non-similar patterns. As a classifier, in general, the hybrid similarity measure proposed in this work (DGD+cosine) performed better (although not significantly) than all other similarity measures analyzed, which is shown as a promising result . In addition, it is possible to conclude that the best value of to be used, where is the theshold of the value of the secondary similarity measure based on edit distance between the terms of the pattern, corresponds to 0.875.
124

Agrupamento de dados complexos para apoiar consultas por similaridade com tratamento de restrições / Clustering complex data for processing constrained similarity queries

Souza, Jessica Andressa de 21 November 2018 (has links)
Devido aos avanços tecnológicos ocorridos nos últimos anos, houve um aumento na quantidade e complexidade de dados gerados. Assim, aprofundou-se a necessidade do desenvolvimento de estratégias eficientes que permitam o armazenamento, a recuperação e a representação resumida desses tipos de dados complexos. Dentre as estratégias exploradas pelos pesquisadores da área para atender a esses propósitos estão os Métodos de Acesso. Esses métodos têm como objetivo indexar os dados de maneira eficaz para reduzir o tempo de consulta. Além disso, eles têm sido aplicados para apoiar o processamento de técnicas de Mineração de Dados, como a Detecção de Agrupamentos. Dentre os métodos de acesso, as estruturas de indexação métrica são construídas usando apenas o critério baseado na distância entre os elementos do conjunto de dados em questão, i.e. operações de similaridade sobre as características intrínsecas dos dados. Desse modo, nem sempre os resultados correspondem ao contexto desejado pelo usuário. Este trabalho explorou o desenvolvimento de algoritmos que permitam aos métodos de acesso métrico processarem detecção de agrupamento de dados para auxiliar o processamento de consultas com maior carga semântica; visando contribuir no tratamento da questão da eficiência de abordagens que envolvam operações por similaridade (por exemplo, técnicas de mineração de dados e consultas por similaridade). Diante deste contexto, foram desenvolvidas três abordagens, a primeira apresenta o método clusMAM (Unsupervised Clustering using Metric Access Methods), o qual tem como objetivo apresentar um agrupamento dos dados com a aplicação de um Método de Acesso Métrico a partir de um conjunto resumido dos dados. A segunda abordagem apresenta a abordagem CCkNN (Class-Constraint k-NN) para lidar com o problema de restrições de múltiplas classes sobre o espaço de busca. Por fim, a terceira abordagem apresenta o método CfQ (Clustering for Querying) realizando a integração das técnicas clusMAM com CCkNN, empregando os pontos positivos de cada estratégia adotada pelos algoritmos. No geral, os experimentos realizados mostram que os métodos propostos contribuem de maneira efetiva na redução de medidas de similaridade requiridas durante um processamento de técnicas que são baseadas em computações de distância. / Due to the technological advances over the last years, both the amount and variety of data available have been increased at a fast pace. Thus, this scenario has influenced the development of effective strategies for the processing, summarizing, as well as to provide fast and automatic understanding of such data. The Access Methods are strategies that have been explored by researchers in the area to aid these purposes. These methods aim to effectively index data to reduce the time required for processing similarity querying. In addition, they have been applied to aid the processing of Data Mining techniques, such as Clustering Detection. Among the access methods, the metric structures are constructed applying only the criterion based on the distance computation between the elements of the dataset, i.e. similarity operations on the intrinsic characteristics of the dataset. Thus, the results do not always correspond to the context desired by users. This work explored the development of algorithms that allow metric access methods to process queries with a higher semantic load, aimed at contributing to the treatment of the quality question on the results of approaches that involve similarity operation (for example, data mining techniques and similarity queries). In this context, three approaches have been developed: the first approach presents the method clusMAM (Unsupervised Clustering using Metric Access Methods), which aims to display a clustering from a dataset with the application of a Metric Access Method from a summarized set. The second approach presents the CCkNN approach to dealing with the problem of multi-class constraints on the search space. Finally, the third proposal presents the method CfQ (Clustering for Querying) by integrating the techniques clusMAM with CCkNN, using the positive points of each strategy applied by the algorithms. In general, the experiments carried out showed that the proposed methods can contribute to an effective way of reducing similarity computations, which is required during a processing of techniques that are based on distance computations.
125

The Similarity-aware Relational Division Database Operator / Divisão Relacional por Similaridade em Banco de Dados

Gonzaga, André dos Santos 01 September 2017 (has links)
In Relational Algebra, the operator Division (÷) is an intuitive tool used to write queries with the concept of for all, and thus, it is constantly required in real applications. However, as we demonstrate in this MSc work, the division does not support many of the needs common to modern applications, particularly those that involve complex data analysis, such as processing images, audio, genetic data, large graphs, fingerprints, and many other non-traditional data types. The main issue is the existence of intrinsic comparisons of attribute values in the operator, which, by definition, are always performed by identity (=), despite the fact that complex data must be compared by similarity. Recent works focus on supporting similarity comparison in relational operators, but no one treats the division. MSc work proposes the new Similarity-aware Division (÷) operator. Our novel operator is naturally well suited to answer queries with an idea of candidate elements and exigencies to be performed on complex data from real applications of high-impact. For example, it is potentially useful to support agriculture, genetic analyses, digital library search, and even to help controlling the quality of manufactured products and identifying new clients in industry. We validate our proposal by studying the first two of these applications. / O operador de Divisão (÷) da Álgebra Relacional permite representar de forma simples consultas com o conceito de para todos, e por isso é requerido em diversas aplicações reais. Entretanto, evidencia-se neste trabalho de mestrado que a divisão não atende às necessidades de diversas aplicações atuais, principalmente quando estas analisam dados complexos, como imagens, áudio, textos longos, impressões digitais, entre outros. Analisando o problema verifica-se que a principal limitação é a existência de comparações de valores de atributos intrínsecas à Divisão Relacional, que, por definição, são efetuadas sempre por identidade (=), enquanto objetos complexos devem geralmente ser comparados por similaridade. Hoje, encontram-se na literatura propostas de operadores relacionais com suporte à similaridade de objetos complexos, entretanto, nenhuma trata a Divisão Relacional. Este trabalho de mestrado propõe investigar e estender o operador de Divisão da Álgebra Relacional para melhor adequá-lo às demandas de aplicações atuais, por meio de suporte a comparações de valores de atributos por similaridade. Mostra-se aqui que a Divisão por Similaridade é naturalmente adequada a responder consultas diversas com um conceito de elementos candidatos e exigências descrito na monografia, envolvendo dados complexos de aplicações reais de alto impacto, com potencial por exemplo, para apoiar a agricultura, análises de dados genéticos, buscas em bibliotecas digitais, e até mesmo para controlar a qualidade de produtos manufaturados e a identificação de novos clientes em indústrias. Para validar a proposta, propõe-se estudar as duas primeiras aplicações citadas.
126

Segmentação geomorfométrica associada com tipos de solos via geotecnologias / Geomorphometric segmentation associated with soils types via geotechnologies

Marques, Karina Patricia Prazeres 03 February 2017 (has links)
Os solos são vitais para todos os ecossistemas terrestres e deles depende a maior parte dos recursos para a manutenção dos seres vivos. Seu uso é importante para a agricultura e, para assim serem usados, é necessário conhecê-los, tanto como são como onde estão na paisagem. Esse conhecimento pode ser adquirido através de levantamentos de solos para os quais existem muitas limitações, como alta demanda financeira, elevado tempo para sua execução e subjetividade associada ao conhecimento tácito dos pedólogos. Por isso, são necessárias novas estratégias que auxiliem a execução de mapas de solos. Uma abordagem promissora é a identificação de unidades naturais do relevo em nível de detalhe, uma vez que é possível predizer a ocorrência de atributos e tipos de solos na paisagem quando associando as feições dos seus perfis com as de sua superfície. Diante disto, este trabalho objetiva testar procedimentos digitais para segmentação detalhada de elementos das encostas e relacioná-los com os atributos e classes taxonômicas de solos. Em uma área de estudo de 2.500 ha, situada na região de Piracicaba (SP), parâmetros geomorfométricos organizados hierarquicamente em regras em uma árvore de decisão foram utilizados para classificar, em escala detalhada (1:10.000), os cinco elementos da encosta (topo, ombro, meia-encosta, sopé coluvial e sopé colúvio-aluvial). Avaliou-se uma estratégia de análise de similaridade visando à identificação de agrupamentos de amostras de solos da mesma classe, a partir de diferentes conjuntos de variáveis. Essa segmentação digital mostrou que é possível explicitar a localização de cada um dos elementos da encosta e que neles dominam perfis de solos que se assemelham. Na maioria dos casos, essa semelhança pode ser comprovada com o uso tanto de análises convencionais como espectrais das amostras de solo coletadas até 1 m de profundidade. Essa classificação digital dos elementos da encosta pode auxiliar no mapeamento de solos detalhados e ultradetalhados (escalas 20.000 ou maiores). / Soils are vital for all terrestrial ecosystems and the majority of resources for maintenance of human beings depend on them. Their use is important for agriculture and, in order to be used in this manner, it is essential to know them, as well as how they are and where they are located in the landscape. This knowledge can be acquired through soil surveys, that have several limitations, such as high financial demand, time-consuming execution and subjectivity associated with the pedologists tacit knowledge. Considering this, new strategies are needed to support the elaboration of soil maps. One promising approach is the identification of detailed natural units of relief, since it is possible to predict the occurrence of attributes and types of soils in the landscape when associating the features of their profiles with those of their surface. Therefore, this research aims to test digital procedures for detailed segmentation of hillslope elements and to relate them to soil attributes and taxonomic classes. In a study area of 2,500 ha located in the Piracicaba (SP) region, geomorphometric parameters hierarchically organized into rules in a decision tree were used in order to classify, in a detailed scale (1:10,000), five hillslope elements (summit, shoulder, backslope, footslope and toeslope). A similarity analysis strategy was used to identify groupings of soil samples from the same class, from different sets of variables. This digital segmentation showed that it is possible to make explicit the location of each one of the hillslope elements, where similar soil profiles are dominant. In most cases, this similarity can be verified with the use of both conventional and spectral analyses of soil samples collected up to a depth of 1 m. This digital classification of hillslope elements can support 1st and 2nd order soil survey (scales 1:36,680 or greater).
127

Isolamento de microssatélites e análise genética de ararinha-azul (Cyanopsitta spixii, Aves, Psittaciformes) / Isolation of microsatelites and genetic analysis of Spix\'s macaw (Cyanopsitta spixii, Psitaciformes, Aves)

Monteiro, Rafaella Sávia 19 June 2015 (has links)
A ararinha-azul (Cyanopsitta spixii) é uma das aves mais ameaçadas do mundo e está extinta na natureza. Estudos estão sendo realizados para o manejo e conservação em cativeiro para futura reintrodução. Microssatélites são marcadores moleculares úteis para estimar parentesco entre indivíduos. Esse dado pode ser utilizado para minimizar os efeitos deletérios da endogamia e a perda de diversidade genética do plantel do programa de reprodução em cativeiro, recomendando pares reprodutivos. O presente estudo teve como objetivos identificar microssatélites polimórficos específicos para acessar o nível de diversidade genética da espécie e estimar o parentesco entre pares de aves para auxiliar o manejo genético da população. O genoma de um indivíduo foi parcialmente sequenciado na plataforma 454 GS FLX (Roche). Foram desenhados 25 pares de primers, sendo 20 para dinucleotídeos e cinco para tetranucleotídeos. Dezenove microssatélites puderam ser amplificados e foram testados quanto ao nível de polimorfismo em 12 indivíduos selecionados. Desses, 14 microssatélites foram polimórficos. Também foram usados dados de microssatélites heterólogos nas análises. Dois microssatélites apresentaram desvio do equilíbrio de Hardy-Wenberg e cinco microssatélites foram excluídos devido à presença de desequilíbrio de ligação. A probabilidade de exclusão de paternidade quando um parental é conhecido foi de 94,8% e a probabilidade de identidade foi de 0,00000793. A riqueza alélica média foi de 2,49 alelos por microssatélite, confirmando a baixa diversidade genética da espécie. Alguns alelos já foram perdidos no plantel atual em cativeiro. A população tem valor de índice de parentesco médio similar àquela de, no mínimo, primos de primeiro grau e alguns dos fundadores são muito aparentados. Alguns potenciais casais com baixo índice de parentesco r podem vir a ser importantes para o programa de reprodução em cativeiro. / Spix\'s macaw (Cyanopsitta spixii) is one of the most endangered birds of the world and is extinct in the wild. Several coordinated studies are being conducted for its management and conservation in captivity for future reintroduction. Microsatellites are useful markers to estimate relatedness between individuals. This information can be used to minimize the deleterious effects of inbreeding and loss of genetic diversity of captive birds, recommending less closely related pairs for the breeding program. The present study aims to identify specific polymorphic microsatellites to assess the levels of genetic variability of the species and the genetic relatedness among birds for the genetic management of the population. The partial genome of an individual was sequenced on a 454 GS FLX (Roche) platform. Twenty-five pairs of primers were designed, being 20 for di- and five tetra-nucleotide microsatellites. Nineteen microsatellites were amplified and tested in 12 selected individuals. Fourteen microsatellites were polymorphic. Heterologous microsatellites were also used in the analyses. Two microsatellites were not in Hardy-Weinberg equilibrium and five presented linkage disequilibrium. Exclusion paternity probability when one parental is known was 94.8% and identity probability was 0.00000793. Mean allele richness was 2.49 alleles per microsatellite, confirming the low genetic diversity of the species. The current captive population has lost some alleles. The mean relatedness among individuals was, at least, similar to the one between first cousins and some founders are very closely related. Based on the relatedness index, some unrelated potential couples can become important for the captive program.
128

Ensemble de agrupamentos para sistemas de recomendação baseados em conteúdo / Cluster ensemble to content-based recommender systems

Costa, Fernando Henrique da Silva 05 November 2018 (has links)
O crescimento acelerado da internet proporcionou uma quantidade grande de informações acessíveis aos usuários. Ainda que tal quantidade possua algumas vantagens, os usuários que possuem pouca ou nenhuma experiência para escolher uma alternativa dentre as várias apresentadas terão dificuldades em encontrar informações (ou itens, considerando o escopo deste trabalho) úteis e que atendam às suas necessidades. Devido a esse contexto, os sistemas de recomendação foram desenvolvidos para auxiliar os usuários a encontrar itens relevantes e personalizados. Tais sistemas são divididos em diversas arquiteturas. Como exemplo estão as arquiteturas baseadas em: conteúdo, filtro colaborativo e conhecimento. Para este trabalho, a primeira arquitetura foi explorada. A arquitetura baseada em conteúdo recomenda itens ao usuário com base na similaridade desses aos itens que o usuário mostrou interesse no passado. Por consequência, essa arquitetura possui a limitação de, geralmente, realizar recomendações com baixa serendipidade, uma vez que os itens recomendados tendem a ser semelhantes àqueles observados pelo o usuário e, portanto, não apresentam novidade ou surpresa. Diante desta limitação, o aspecto de serendipidade tem destaque nas discussões apresentadas neste trabalho. Assim, o objetivo deste trabalho é minimizar o problema da baixa serendipidade das recomendações por meio da utilização da análise de similaridades parciais implementada usando ensemble de agrupamentos. Para alcançar este objetivo, estratégias de recomendação baseadas em conteúdo implementadas usando agrupamento e ensemble de agrupamento foram propostas e avaliadas neste trabalho. A avaliação contou com análises qualitativas sobre as recomendações produzidas e com um estudo com usuários. Nesse estudo, quatro estratégias de recomendação de notícias foram avaliadas, incluindo as duas propostas neste trabalhos, uma estratégia baseada em recomendação aleatória, e uma estratégia baseada em coagrupamento. As avaliações consideraram aspectos de relevância, surpresa e serendipidade de recomendações. Esse último aspecto é descrito como itens que apresentam tanto surpresa quanto relevância ao usuário. Os resultados de ambas análises mostraram a viabilidade da utilização de agrupamento como base de recomendação, uma vez que o ensemble de agrupamentos obteve resultados satisfatórios em todos os aspectos, principalmente em surpresa, enquanto a estratégia baseada em agrupamento simples obteve os melhores resultados em relevância e serendipidade / The accelerated growth of the internet has provided a large amount of information accessible to users. Although this amount of information has some advantages, users who have little or no experience in choosing one of several alternatives will find it difficulty to find useful information (or items, considering the scope of this work) that meets their needs. Due to this context, recommender systems have been developed to help users find relevant and personalized items. Such systems are divided into several architectures as content-based, collaborative filtering and knowledge-based. The first architecture was explored in this work. The content-based architecture recommends items to the user based on their similarity to items that the user has shown interest in the past. Consequently, this architecture has the limitation of generally making recommendations with low serendipity, since the recommended items tend to be similar to those observed by the user and, therefore, do not present novelty or surprise. Given this limitation, the aspect of serendipity is highlighted in the discussions presented in this work. Thus, the objective of this work is to minimize the problem of the low serendipity of the recommendations through the use of the partial similarity analysis implemented using cluster ensemble. To achieve this goal, content-based recommendation strategies implemented using clustering and cluster ensemble were proposed and evaluated. The evaluation involved qualitative analysis of the recommendations and a study with users. In such a study, four news recommendation strategies were evaluated including the two strategies proposed in this work, a strategy based on random recommendation, and a strategy based on co-clustering. The evaluations considered aspects of relevance, surprise and serendipity of recommendations. This last aspect is described as items that present both surprise and relevance to the user. The results of both analyzes showed the feasibility of using clustering as the basis of recommendation, since cluster ensemble had satisfactory results in all aspects, mainly in surprise, whereas the simple clustering-based strategy obtained the best results in relevance and serendipity
129

Seleção de características por meio de algoritmos genéticos para aprimoramento de rankings e de modelos de classificação / Feature selection by genetic algorithms to improve ranking and classification models

Silva, Sérgio Francisco da 25 April 2011 (has links)
Sistemas de recuperação de imagens por conteúdo (Content-based image retrieval { CBIR) e de classificação dependem fortemente de vetores de características que são extraídos das imagens considerando critérios visuais específicos. É comum que o tamanho dos vetores de características seja da ordem de centenas de elementos. Conforme se aumenta o tamanho (dimensionalidade) do vetor de características, também se aumentam os graus de irrelevâncias e redundâncias, levando ao problema da \"maldição da dimensionalidade\". Desse modo, a seleção das características relevantes é um passo primordial para o bom funcionamento de sistemas CBIR e de classificação. Nesta tese são apresentados novos métodos de seleção de características baseados em algoritmos genéticos (do inglês genetic algorithms - GA), visando o aprimoramento de consultas por similaridade e modelos de classificação. A família Fc (\"Fitness coach\") de funções de avaliação proposta vale-se de funções de avaliação de ranking, para desenvolver uma nova abordagem de seleção de características baseada em GA que visa aprimorar a acurácia de sistemas CBIR. A habilidade de busca de GA considerando os critérios de avaliação propostos (família Fc) trouxe uma melhora de precisão de consultas por similaridade de até 22% quando comparado com métodos wrapper tradicionais para seleção de características baseados em decision-trees (C4.5), naive bayes, support vector machine, 1-nearest neighbor e mineração de regras de associação. Outras contribuições desta tese são dois métodos de seleção de características baseados em filtragem, com aplicações em classificação de imagens, que utilizam o cálculo supervisionado da estatística de silhueta simplificada como função de avaliação: o silhouette-based greedy search (SiGS) e o silhouette-based genetic algorithm search (SiGAS). Os métodos propostos superaram os métodos concorrentes na literatura (CFS, FCBF, ReliefF, entre outros). É importante também ressaltar que o ganho em acurácia obtido pela família Fc, e pelos métodos SiGS e SiGAS propostos proporcionam também um decréscimo significativo no tamanho do vetor de características, de até 90% / Content-based image retrieval (CBIR) and classification systems rely on feature vectors extracted from images considering specific visual criteria. It is common that the size of a feature vector is of the order of hundreds of elements. When the size (dimensionality) of the feature vector is increased, a higher degree of redundancy and irrelevancy can be observed, leading to the \"curse of dimensionality\" problem. Thus, the selection of relevant features is a key aspect in a CBIR or classification system. This thesis presents new methods based on genetic algorithms (GA) to perform feature selection. The Fc (\"Fitness coach\") family of fitness functions proposed takes advantage of single valued ranking evaluation functions, in order to develop a new method of genetic feature selection tailored to improve the accuracy of CBIR systems. The ability of the genetic algorithms to boost feature selection by employing evaluation criteria (fitness functions) improves up to 22% the precision of the query answers in the analyzed databases when compared to traditional wrapper feature selection methods based on decision-tree (C4.5), naive bayes, support vector machine, 1-nearest neighbor and association rule mining. Other contributions of this thesis are two filter-based feature selection algorithms for classification purposes, which calculate the simplified silhouette statistic as evaluation function: the silhouette-based greedy search (SiGS) and the silhouette-based genetic algorithm search (SiGAS). The proposed algorithms overcome the state-of-the-art ones (CFS, FCBF and ReliefF, among others). It is important to stress that the gain in accuracy of the proposed methods family Fc, SiGS and SIGAS is allied to a significant decrease in the feature vector size, what can reach up to 90%
130

O uso de método de relacionamento de dados (record linkage) para integração de informação em sistemas heterogêneos de saúde: estudo de aplicabilidade entre níveis primário e terciário / The use of record linkage method for integration heterogeneous information systems in health: a study of applicability between primary and tertiary

Suzuki, Katia Mitiko Firmino 21 September 2012 (has links)
O relacionamento de dados record linkage, originou-se na área da saúde pública e atualmente é aplicado em várias outras áreas como: epidemiologia, pesquisa médica, criação de ensaios clínicos, na área de marketing, gestão de relacionamento com o cliente, detecção de fraude, aplicação da lei e na administração do governo. A técnica consiste no processo de comparação entre dois ou mais registros em diferentes bases de dados e as principais estratégias de record linkage são: manual, deterministic record linkage (DRL) e probabilistic record linkage (PRL). Este estudoteve como objetivo aplicar o record linkage em bases de dados heterogêneas, utilizadas pela rede de atenção à saúde do município de Ribeirão Preto e identificar entre elas a melhor estratégia a ser adotada para a integração de bases de dados na área da saúde. As bases de dados da secretaria Municipal de Saúde de Ribeirão Preto (SMS-RP) e do Hospital das Clínicas da Faculdade de Medicina de Ribeirão Preto (HCFMRP/USP) foram objeto deste estudo, tendo como critério de inclusão apenas os registros de pacientes em que o município de residência informado correspondia ao município de Ribeirão Preto e o atendimento tivesse ocorrido na Unidade Básica Distrital e de Saúde (UDBS) - Centro Saúde Escola Joel Domingos Machado\" (CSE-Sumarezinho) nos anos de janeiro de 2006 a agosto de 2008 e no HCFMRP/USP. Foi selecionada uma amostra aleatória simples resultando em um conjunto de 1.100 registros de pacientes na base de dados do CSE-Sumarezinho e de 370.375 registros na base de dados do HCFMRP/USP. Foram, então, selecionadas quatro variáveis de relacionamento (nome, nome da mãe, sexo e data de nascimento). As estratégias adotadas foram: DRL exato, DRL com discordância em uma variável de relacionamento, e baseada em funções de similaridades (Dice, Levenshtein, Jaro e Jaro-Winkler) e, por fim, PRL. A estratégia DRL exato resultou em 334 registros pareados e na abordagem com discordância de uma variável foram 335, 343, 383 e 495, sendo as variáveis discordantes sexo, data de nascimento, nome e nome da mãe respectivamente. Quanto ao uso das funções de similaridades, as que mais se destacaram foram Jaro-Winkler e Jaro. Quanto à acurácia dos métodos aplicados, o PRL (sensibilidade = 97,75% (CI 95% 96,298,8) e especificidade = 98,55% (CI 95% 97,0-99,4)) obteve melhor sensibilidade e especificidade, seguido do DRL com as funções de similaridade Jaro-Winkler sensibilidade = 91,3% (CI 95% 88,793,4) e especificidade = 99% (CI 95% 97,6-99,7)) e Jaro (sensibilidade = 73,1% (CI 95% 69,476,6) e especificidade = 99,6% (CI 95% 98,5-99,9)). Quanto à avaliação da área sob a curva ROC do PRL, observou-se que há diferença estatisticamente significativa (p = 0,0001) quando comparada com os métodos DRL com discordância da variável nome da mãe, Jaro-Winkler e Jaro. Os resultados obtidos permitem concluir que o método PRL é mais preciso dentre as técnicas avaliadas. Mas as técnicas com a função de similaridade de Jaro-Winkler e Jaro também são alternativas viáveis interessantes devido à facilidade de utilização apesar de apresentarem o valor de sensibilidade ligeiramente menor que o PRL. / The record linkage originated in the area of public health and is currently applied in several other areas such as epidemiology, medical research, establishment of clinical trials, in the area of marketing, manager customer relationships, fraud detection, law enforcement and government administration. The technique consists on the comparison between two or more records in different databases and their key strategies are: manual comparison, Deterministic Record Linkage (DRL), and Probabilistic Record Linkage (PRL).This study aimed to apply the record linkage in heterogeneous databases, used by the network of health care in Ribeirão Preto and identify the best strategy to be adopted for the integration of databases in health care. The databases that were evaluated in this study were of the Municipal Health Department of Ribeirão Preto (SMS-RP) and of the Clinical Hospital of the School of Medicine of Ribeirao Preto (HCFMRP/USP) having as inclusion criterion only the records of patients in the county of residence reported corresponded to the city of Ribeirão Preto and care had taken place in the Basic District Health Unit (UDBS) - School Health Center \"Joel Domingos Machado\" (CSE-Sumarezinho) included in the years from January 2006 to August 2008 and in the HCFMRP/USP. Held to select a simple random sample resulted in a set of 1,100 patient records in the database of the CSE-Sumarezinho and 370,375 records in the database of HCFMRP/USP. Then there was the selection of four linking variables (name, mother\'s name, gender and birth date). The strategies adopted were: the exact DRL, DRL with one variable where the linking is disagreement, applied with similarity functions (Dice, Levenshtein, Jaro, and Jaro-Winkler), and, finally, PRL. The strategy of the exact DRL resulted in 334 matched records and strategy in dealing with disagreement of one variable were 335, 343, 383 and 495, to the following variables discordant gender, birth date, name and mother\'s name, respectively. Regarding the use of similarity functions which most stood out were Jaro and Jaro-Winkler. Regarding the accuracy of the methods applied, the PRL obtained better sensitivity and specificity (sensitivity = 97,75% (CI 95% 96,298,8) and specificity = 98.55% (95% CI 97.0 to 99.4)), followed by the DRL with the similarity functions Jaro-Winkler (sensitivity = 91.3% (95% CI 88.7 to 93.4) and specificity = 99% (95% CI 97.6 to 99, 7)) and then by Jaro (sensitivity = 73.1% (95% CI 69.4 to 76.6) = 99.6% and specificity (95% CI 98.5 to 99.9)). The evaluation of the area under the ROC curve in the PRL, was observed that there is statistically significant difference (p = 0.0001) if it is compared with the DRL methods when there is disagreement in the variable mother\'s name, as well as for Jaro and for Jaro-Winkler. The results indicate that the PRL method is most accurate among the techniques evaluated. Although the techniques with the similarity function of Jaro-Winkler and Jaro were also interesting viable options due to the ease of use, although having the sensitivity value slightly smaller than the PRL.

Page generated in 0.0474 seconds