Devido aos avanços tecnológicos ocorridos nos últimos anos, houve um aumento na quantidade e complexidade de dados gerados. Assim, aprofundou-se a necessidade do desenvolvimento de estratégias eficientes que permitam o armazenamento, a recuperação e a representação resumida desses tipos de dados complexos. Dentre as estratégias exploradas pelos pesquisadores da área para atender a esses propósitos estão os Métodos de Acesso. Esses métodos têm como objetivo indexar os dados de maneira eficaz para reduzir o tempo de consulta. Além disso, eles têm sido aplicados para apoiar o processamento de técnicas de Mineração de Dados, como a Detecção de Agrupamentos. Dentre os métodos de acesso, as estruturas de indexação métrica são construídas usando apenas o critério baseado na distância entre os elementos do conjunto de dados em questão, i.e. operações de similaridade sobre as características intrínsecas dos dados. Desse modo, nem sempre os resultados correspondem ao contexto desejado pelo usuário. Este trabalho explorou o desenvolvimento de algoritmos que permitam aos métodos de acesso métrico processarem detecção de agrupamento de dados para auxiliar o processamento de consultas com maior carga semântica; visando contribuir no tratamento da questão da eficiência de abordagens que envolvam operações por similaridade (por exemplo, técnicas de mineração de dados e consultas por similaridade). Diante deste contexto, foram desenvolvidas três abordagens, a primeira apresenta o método clusMAM (Unsupervised Clustering using Metric Access Methods), o qual tem como objetivo apresentar um agrupamento dos dados com a aplicação de um Método de Acesso Métrico a partir de um conjunto resumido dos dados. A segunda abordagem apresenta a abordagem CCkNN (Class-Constraint k-NN) para lidar com o problema de restrições de múltiplas classes sobre o espaço de busca. Por fim, a terceira abordagem apresenta o método CfQ (Clustering for Querying) realizando a integração das técnicas clusMAM com CCkNN, empregando os pontos positivos de cada estratégia adotada pelos algoritmos. No geral, os experimentos realizados mostram que os métodos propostos contribuem de maneira efetiva na redução de medidas de similaridade requiridas durante um processamento de técnicas que são baseadas em computações de distância. / Due to the technological advances over the last years, both the amount and variety of data available have been increased at a fast pace. Thus, this scenario has influenced the development of effective strategies for the processing, summarizing, as well as to provide fast and automatic understanding of such data. The Access Methods are strategies that have been explored by researchers in the area to aid these purposes. These methods aim to effectively index data to reduce the time required for processing similarity querying. In addition, they have been applied to aid the processing of Data Mining techniques, such as Clustering Detection. Among the access methods, the metric structures are constructed applying only the criterion based on the distance computation between the elements of the dataset, i.e. similarity operations on the intrinsic characteristics of the dataset. Thus, the results do not always correspond to the context desired by users. This work explored the development of algorithms that allow metric access methods to process queries with a higher semantic load, aimed at contributing to the treatment of the quality question on the results of approaches that involve similarity operation (for example, data mining techniques and similarity queries). In this context, three approaches have been developed: the first approach presents the method clusMAM (Unsupervised Clustering using Metric Access Methods), which aims to display a clustering from a dataset with the application of a Metric Access Method from a summarized set. The second approach presents the CCkNN approach to dealing with the problem of multi-class constraints on the search space. Finally, the third proposal presents the method CfQ (Clustering for Querying) by integrating the techniques clusMAM with CCkNN, using the positive points of each strategy applied by the algorithms. In general, the experiments carried out showed that the proposed methods can contribute to an effective way of reducing similarity computations, which is required during a processing of techniques that are based on distance computations.
Identifer | oai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-25032019-095147 |
Date | 21 November 2018 |
Creators | Souza, Jessica Andressa de |
Contributors | Traina, Agma Juci Machado |
Publisher | Biblioteca Digitais de Teses e Dissertações da USP |
Source Sets | Universidade de São Paulo |
Language | Portuguese |
Detected Language | English |
Type | Tese de Doutorado |
Format | application/pdf |
Rights | Liberar o conteúdo para acesso público. |
Page generated in 0.002 seconds