Global ETD Search

691	Operadores físicos binários para consultas por similaridade em SGBDR / Physical binary operators for similarity queries in RDBMS Carvalho, Luiz Olmes 26 March 2018 (has links) O operador de Junção é um operador importante da Álgebra Relacional que combina os pares de tuplas que atendem a uma dada condição de comparação entre os valores dos atributos de duas relações. Quando a comparação avalia a similaridade entre pares de valores, o operador é chamado Junção por Similaridade. Esse operador tem aplicações em diversos contextos, tais como o suporte de tarefas de mineração e análise de dados em geral, e a detecção de quase-duplicatas, limpeza de dados e casamento de cadeias de caracteres em especial. Dentre os operadores de junção por similaridade existentes, a Junção por Abrangência (range join) é a mais explorada na literatura. Contudo, ela apresenta limitações, tal como a dificuldade para se encontrar um limiar de similaridade adequado. Nesse contexto, a Junção por k-vizinhos mais próximos (knearest neighbor join kNN join) é considerada mais intuitiva, e portanto mais útil que o range join. Entretanto, executar um kNN join é computacionalmente mais caro, o que demanda por abordagens baseadas na técnica de laço aninhado, e as técnicas existentes para a otimização do algoritmo são restritas a um domínio de dados em particular. Visando agilizar e generalizar a execução do kNN join, a primeira contribuição desta tese foi o desenvolvimento do algoritmo QuickNearest, baseado na técnica de divisão e conquista, que é independente do domínio dos dados, independente da função de distância utilizada, e que computa kNNjoins de maneira muito eficiente. Os experimentos realizados apontam que o QuickNearest chega a ser 4 ordens de magnitude mais rápido que os métodos atuais. Além disso, o uso de operadores de junção por similaridade em ambientes relacionais é problemático, principalmente por dois motivos: (i)emgeral o resultado tem cardinalidade muito maior do que o realmente necessário ou esperado pela maioria das aplicações de análise de dados; e (ii) as consultas que os utilizam envolvem também operações de ordenação, embora a ordem seja um conceito não associado à teoria relacional. A segunda contribuição da tese aborda esses dois problemas, tratando os operadores de junção por similaridade existentes como casos particulares de um conjunto mais amplo de operadores binários, para o qual foi definido o conceito de Wide-joins. Os operadores wide-joins recuperam os pares mais similares em geral e incorporam a ordenação como uma operação interna ao processamento, de forma compatível com a teoria relacional e que permite restringir a cardinalidade dos resultados a tuplas de maior interesse para as aplicações. Os experimentos realizados mostram que os wide-joins são rápidos o suficiente para serem usados em aplicações reais, retornam resultados de qualidade melhor do que os métodos concorrentes e são mais adequados para execução num ambiente relacional do que os operadores de junção por similaridade tradicionais. / Joins are important Relational Algebra operators. They pair tuples from two relations that meet a given comparison condition between the attribute values. When the evaluation compares the similarity among the values, the operator is called a Similarity Join. This operator has application to a variety of contexts, such as supporting data mining tasks and data analysis in general, and near-duplicate detection, data cleaning and string matching in particular. Among the existing types of similarity joins, the range join is the most explored one in the literature. However, it has several shortcomings, such as the diculty to find adequate similarity thresholds. In such context, the k-nearest neighbors join (kNN join) is considered more intuitive, and therefore more useful than the range join. However, the kNN join execution is computationally well more expensive, thus demanding implementations either based on nested loop techniques, which are generic, or on optimizing techniques but that are specific data given domains. In order to accelerate and generalize kNN join execution, the first contribution of this thesis was the development of the QuickNearest algorithm, based on the divide and conquest approach that is independent of the data domain, independent of the distance function used, and that computes kNN joins very eciently. Experiments performed with the QuickNearest algorithm show that it is up to four orders of magnitude faster than current methods. Nevertheless, using similarity join operators in relational environments remains generally troublesome, due to two main reasons: (i) the result often has a cardinality much larger than what is actually needed or expected by most of the data analysis applications; and (ii) queries that use them almost always also require sorting operations, but order concept is not present in the relational theory. The second contribution of the thesis addresses these two problems through the definition of the concept of Wide-joins, which turns the existing similarity join operators just as particular cases of a more powerful set of binary operators. Awide-join operator retrieves the pairs most similar in general and already incorporates ordering as an internal operation to its processing, what makes it fully compatible with the relational theory. The concept also provides powerful ways to restrict the result cardinality just to tuples really meaningful for the applications. In fact, the experiments have also shown that wide-joins are fast enough to be useful for real applications, they return results of better quality than competing methods, and are more suitable for execution in a relational environment than the traditional similarity join operators. Junção por similaridade kNN kNN Operadores relacionais QuickNearest QuickNearest Relational operators Similarity join Wide-join Wide-join
692	Explorando conceitos da teoria de espaços métricos em consultas por similaridade sobre dados complexos / Exploring concepts of metric space theory in similarity queries over complex data Pola, Ives Renê Venturini 25 August 2010 (has links) Estruturas de indexação para domínios métricos são úteis para agilizar consultas por similaridade sobre dados complexos, tais como imagens, onde o custo computacional da comparação de dois itens de dados geralmente é alto. O estado da arte para executar consultas por similaridade está centrado na utilização dos chamados \"Métodos de Acesso Métrico\" (MAM). Tais métodos consideram os dados como elementos de um espaço métrico, onde apenas valem as propriedades fundamentais para que um espaço seja considerado métrico, onde a única informação que os MAMs utilizam é a medida de similaridade entre pares de elementos do domínio. No campo teórico, espaços métricos são extensamente estudados e servem de base para diversas áreas da Matemática. No entanto, a maioria dos trabalhos que têm sido desenvolvidos em Computação se restringem a utilizar as definições básicas desses espaços, e não foram encontrados estudos que explorem em mais profundidade os muitos conceitos teóricos existentes. Assim, este trabalho aplica conceitos teóricos importantes da Teoria de Espaços Métricos para desenvolver técnicas que auxiliem o tratamento e a manipulação dos diversos dados complexos, visando principalmente o desenvolvimento de métodos de indexação mais eficientes. É desenvolvida uma técnica para realizar um mapeamento de espaços métricos que leva à atenuação do efeito da maldição da dimensionalidade, a partir de uma aplicação lipschitziana real baseada em uma função de deformação do espaço das distâncias entre os elementos do conjunto. Foi mostrado que uma função do tipo exponecial deforma as distâncias de modo a diminuir os efeitos da maldição da dimensionalidade, melhorando assim o desempenho nas consultas. Uma segunda contribuição é o desenvolvimento de uma técnica para a imersão de espaços métricos, realizada de maneira a preservar a ordem das distâncias, possibilitando a utilização de propriedades no espaço de imersão. A imersão de espaços métricos no \' R POT. n\' possibilita a utilização da lei dos cossenos e assim viabiliza o cálculo de distâncias entre elementos e um hiperplano métrico, permitindo aumentar a agilidade à consultas por similaridade. O uso do hiperplano métrico foi exemplificado construindo uma árvore binária métrica, e também foi aplicado em um método de acesso métrico, a família MMH de métodos de acesso métrico, melhorando o particionamento do espaço dos dados / The access methods designed for metric domains are useful to answer similarity queries on any type of data, being specially useful to index complex data, such as images, where the computacional cost of comparison are high. The main mecanism used up to now to perform similarity queries is centered on \"Metric Acess Methods\" (MAM). Such methods consider data as elements that belong to a metric space, where only hold the properties that define the metric space. Therefore, the only information that a MAM can use is the similarity measure between pairs of elements in the domain. Metric spaces are extremelly well studied and is the basis for many mathematics areas. However, most researches from computer science are restrained to use the basic properties of metric spaces, not exploring the various existing theorical concepts. This work apply theoretical concepts of metric spaces to develop techniques aiding the treatment and manipulation of diverse complex data, aiming at developing more efficient indexing methods. A technique of mapping spaces was developed in order to ease the dimensionality curse effects, basing on a real lipschitz application that uses a stretching function that changes the distance space of elements. It was shown that an exponential function changes the distances space reducing the dimensionality curse effects, improving query operations. A second contribution is the developing of a technique based on metric space immersion, preserving the distances order between pairs of elements, allowing the usage of immersion space properties. The immersion of metric spaces into \'R POT. n\' allow the usage of the cossine law leading to the determination of distances between elements and a hiperplane, forming metric hiperplanes. The use of the metric hiperplanes lead to an improvement of query operations performance. The metric hiperplane itself formed the binary metric tree, and when applied to a metric access method, lead the formation of a family of metric access methods that improves the metric space particioning achieving faster similarity queries Consultas por similaridade Espaços métricos Imersões de espaços Método de acesso métrico Metric access methods Metric spaces Similarity queries Space immersions
693	Delimitação de espécies do complexo Aspidosperma pyrifolium Mart. & Zucc. (Apocynaceae) Messias, Patrícia January 2019 (has links) Orientador: Ingrid Koch / Resumo: Aspidosperma pyrifolium Mart. & Zucc. é uma espécie com distribuição ampla e disjunta, variação morfológica e taxonomia complexa. Neste estudo é tratada como um complexo de espécies, e utilizada como modelo para delimitação de espécies através de múltiplos critérios operacionais (genéticos, morfológicos e ecológicos). Consideramos que espécies são segmentos de linhagens de uma metapopulação evoluindo separadamente, pois este é um conceito universal que diminuiu as visões conflitantes do que é considerado espécie. Realizamos análises filogenéticas com dados concatenados (ITS e rpl32-trnL) e de coalescência para testar o monofiletismo do complexo e seus grupos. Desenvolvemos marcadores microssatélites polimórficos para A. pyrifolium usados na avaliação da diversidade genética e estruturação de cinco populações naturais. Analisamos a morfologia através de morfometria, incluindo características quantitativas, tanto vegetativas quanto reprodutivas. As análises ecológicas, incluíram modelagem e testes de similaridade de nicho ecológico. Nossos resultados recuperaram o complexo A. pyrifolium como monofilético, com 3 subclados relacionados a regiões geográficas e vegetações específicas, resultados também corroborados na árvore de espécies. O clado 1 ocorre na Caatinga no Nordeste do Brasil, o clado 2 nas manchas de Floresta Estacional na região Centro-Oeste no Brasil e clado 3 na vegetação chaqueana no Mato grosso do Sul, Paraguai e Bolívia. Todas as análises de estrutura populaciona... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: Aspidosperma pyrifolium Mart. & Zucc. is a species with wide distribution and disjunct, morphological variation and complex taxonomy. In this study, we treated it as a species complex, and used as a model for species delimitation using multiple operational criteria (genetic, morphological and ecological). We consider species as segments of separately evolving metapopulation lineages, since this is a universal concept that diminished the conflicting visions of what is considered species. For this, we performed phylogenetic with concatenated data (ITS and rpl32-trnL) and coalescence analyzes to test the monophyly of the complex and its groups. We developed polymorphic microsatellites for complex A. pyrifolium for evaluated the genetic diversity and structure of five natural population. We analyzed morphology through morphometry, including quantitative characteristics, both vegetative and reproductive. The ecological analyzes included modeling and testing of ecological niche similarity. Our results recovered Aspidosperma pyrifolium complex as monophyletic, with 3 subclades related to geographic regions and specific vegetation, results also corroborated in the species tree. Clade 1 occurs in the Caatinga in Northeast Brazil, clade 2 in the Seasonal Forest patches in the Center-West region of Brazil and clade 3 in the Chaqueana vegetation in Mato Grosso do Sul, Paraguay and Bolivia. All analyzes of population structure suggested the formation of two genetic groups, one with the po... (Complete abstract click electronic access below) / Doutor Filogenia. Coalescência Análise morfométrica Modelagem de nicho ecológico Similaridade de nicho Phylogeny Coalescence Morphometric analysis Ecological niche modeling Niche similarity
694	Incluindo funções de distância e extratores de características para suporte a consultas por similaridade / Including distance functions and features extractors to support similarity queries Bêdo, Marcos Vinícius Naves 20 September 2013 (has links) Sistemas Gerenciadores de Bases de Dados Relacionais (SGBDR) são capazes de lidar com um alto volume de dados. As consultas nestes sistemas são realizados a partir da relação de ordem total, domínio sob o qual estão definidos dados simples como números ou strings, por exemplo. No caso de dados complexos, como imagens médicas, áudio ou séries-temporais financeiras que não obedecem as propriedade da relação acima citada e necessária uma abordagem que seja capaz de realizar a recuperação por conteúdo destes dados em tempo hábil e com semântica adequada. Nesse sentido, a literatura nos apresenta, como paradigma consolidado, as consultas por similaridade. Esse paradigma e a base para o funcionamento de muitos aplicativos de auxílio a tomada de decisão pelo especialista como Recuperação de Imagens Médicas por Conteúdo (CBMIR) e Recuperação de Áudio por Conteúdo (CBAR) e inclui diversas sub-áreas de pesquisa tais como extratores de características, funções de distância e métodos de acesso métrico. O desenvolvimento de novos métodos extratores de características e novas funções de distância são de fundamental importância para a diminuição do gap semântico entre os aplicativos e usuários, enquanto os métodos de acesso métricos são os reponsáveis diretos pela rápida resposta dos sistemas. Integrar todas essas funcionalidades em um framework de suporte a consultas por similaridade dentro de um SGBDR permanece um grande desafio. Esse trabalho objetiva estender uma proposta inicial dos recursos disponíveis no SIREN, inserindo novos extratores de características e funções de distância para imagens médicas e séries-temporais financeiras transformando-o em um framework, de forma que seus componentes possam ser utilizados via comandos Structured Query Language (SQL). Os resultados poderão ser diretamente utilizados por aplicativos de auxílio a tomada de decisão pelo especialista / Database Management Systems (DBMS) can deal with large amount of data. The queries on those systems obey the total order relation (TOR), domain where simple data such as numbers or strings are defined. In the case of complex data (e.g.: medical images, audio or temporal time-series) which does not obey the TOR properties, it\'s mandatory a new approach that can retrieve complex data by content with time skilful and proper semantics. To do so, the literature presents us, as consolidated paradigm, the similarity queries. This paradigm is the base of many computer aided applications (e.g.: Content-Based Medical Image Retrieval (CBMIR) and Content-Based Audio Retrieval (CBAR)) and include several research areas such as features extraction, distance functions and metrical access methods (MAM). Developing new features extractors methods and new distance functions (and combine them) are crucial to reduce the semantic gap between the content-based applications and the users. The MAM are responsible to provide fast and scalable answer to the systems. Integrate all those functionalities in one framework that can provide support to similarity queries inside a DBMS remains a huge challenge. The main objective of this work is extend the initial resources of the system SIREN, inserting new features extractor methods and distance functions to medical images, audio and financial time-series, turning it into a framework. All components may be used by extended Structured Query Language (SQL) commands. The SQL can be directly used by computer-aided applications CBMIR CBMIR Consultas por similaridade Distance functions Extended SQL Extratores de características Features extractors Funções de distância Similarity queries SQL estendido
695	Large scale similarity-based time series mining / Mineração de séries temporais por similaridade em larga escala Silva, Diego Furtado 25 September 2017 (has links) Time series are ubiquitous in the day-by-day of human beings. A diversity of application domains generate data arranged in time, such as medicine, biology, economics, and signal processing. Due to the great interest in time series, a large variety of methods for mining temporal data has been proposed in recent decades. Several of these methods have one characteristic in common: in their cores, there is a (dis)similarity function used to compare the time series. Dynamic Time Warping (DTW) is arguably the most relevant, studied and applied distance measure for time series analysis. The main drawback of DTW is its computational complexity. At the same time, there are a significant number of data mining tasks, such as motif discovery, which requires a quadratic number of distance computations. These tasks are time intensive even for less expensive distance measures, like the Euclidean Distance. This thesis focus on developing fast algorithms that allow large-scale analysis of temporal data, using similarity-based methods for time series data mining. The contributions of this work have implications in several data mining tasks, such as classification, clustering and motif discovery. Specifically, the main contributions of this thesis are the following: (i) an algorithm to speed up the exact DTW calculation and its embedding into the similarity search procedure; (ii) a novel DTW-based spurious prefix and suffix invariant distance; (iii) a music similarity representation with implications on several music mining tasks, and a fast algorithm to compute it, and; (iv) an efficient and anytime method to find motifs and discords under the proposed prefix and suffix invariant DTW. / Séries temporais são ubíquas no dia-a-dia do ser humano. Dados organizados no tempo são gerados em uma infinidade de domínios de aplicação, como medicina, biologia, economia e processamento de sinais. Devido ao grande interesse nesse tipo de dados, diversos métodos de mineração de dados temporais foram propostos nas últimas décadas. Muitos desses métodos possuem uma característica em comum: em seu núcleo, há uma função de (dis)similaridade utilizada para comparar as séries. Dynamic Time Warping (DTW) é indiscutivelmente a medida de distância mais relevante na análise de séries temporais. A principal dificuldade em se utilizar a DTW é seu alto custo computacional. Ao mesmo tempo, algumas tarefas de mineração de séries temporais, como descoberta de motifs, requerem um alto número de cálculos de distância. Essas tarefas despendem um grande tempo de execução, mesmo utilizando-se medidas de distância menos custosas, como a distância Euclidiana. Esta tese se concentra no desenvolvimento de algoritmos eficientes que permitem a análise de dados temporais em larga escala, utilizando métodos baseados em similaridade. As contribuições desta tese têm implicações em variadas tarefas de mineração de dados, como classificação, agrupamento e descoberta de padrões frequentes. Especificamente, as principais contribuições desta tese são: (i) um algoritmo para acelerar o cálculo exato da distância DTW e sua incorporação ao processo de busca por similaridade; (ii) um novo algoritmo baseado em DTW para prover invariância a prefixos e sufixos espúrios no cálculo da distância; (iii) uma representação de similaridade musical com implicações em diferentes tarefas de mineração de dados musicais e um algoritmo eficiente para computá-la; (iv) um método eficiente e anytime para encontrar motifs e discords baseado na medida DTW invariante a prefixos e sufixos. Data mining Dynamic Time Warping Dynamic Time Warping Medidas de similaridade Mineração de dados Séries temporais Similarity measures Time series
696	Uma abordagem visual para apoio ao aprendizado multi-instâncias / A visual approach for support to multi-instances learning Quispe, Sonia Castelo 14 August 2015 (has links) Aprendizado múltipla instância (MIL) é um paradigma de aprendizado de máquina que tem o objetivo de classificar um conjunto (bags) de objetos (instâncias), atribuindo rótulos só para os bags. Em MIL apenas os rótulos dos bags estão disponíveis para treinamento, enquanto os rótulos das instâncias são desconhecidos. Este problema é frequentemente abordado através da seleção de uma instância para representar cada bag, transformando um problema MIL em um problema de aprendizado supervisionado padrão. No entanto, não se conhecem abordagens que apoiem o usuário na realização desse processo. Neste trabalho, propomos uma visualização baseada em árvore multi-escala chamada MILTree que ajuda os usuários na realização de tarefas relacionadas com MIL, e também dois novos métodos de seleção de instâncias, chamados MILTree-SI e MILTree-Med, para melhorar os modelos MIL. MILTree é um layout de árvore de dois níveis, sendo que o primeiro projeta os bags, e o segundo nível projeta as instâncias pertencentes a cada bag, permitindo que o usuário explore e analise os dados multi-instância de uma forma intuitiva. Já os métodos de seleção de instãncias objetivam definir uma instância protótipo para cada bag, etapa crucial para a obtenção de uma alta precisão na classificação de dados multi-instância. Ambos os métodos utilizam o layout MILTree para atualizar visualmente as instâncias protótipo, e são capazes de lidar com conjuntos de dados binários e multi-classe. Para realizar a classificação dos bags, usamos um classificador SVM (Support Vector Machine). Além disso, com o apoio do layout MILTree também pode-se atualizar os modelos de classificação, alterando o conjunto de treinamento, a fim de obter uma melhor classificação. Os resultados experimentais validam a eficácia da nossa abordagem, mostrando que a mineração visual através da MILTree pode ajudar os usuários em cenários de classificação multi-instância. / Multiple-instance learning (MIL) is a paradigm of machine learning that aims at classifying a set (bags) of objects (instances), assigning labels only to the bags. In MIL, only the labels of bags are available for training while the labels of instances in bags are unknown. This problem is often addressed by selecting an instance to represent each bag, transforming a MIL problem into a standard supervised learning. However, there is no user support to assess this process. In this work, we propose a multi-scale tree-based visualization called MILTree that supports users in tasks related to MIL, and also two new instance selection methods called MILTree-SI and MILTree-Med to improve MIL models. MILTree is a two-level tree layout, where the first level projects bags, and the second level projects the instances belonging to each bag, allowing the user to understand the data multi-instance in an intuitive way. The developed selection methods define instance prototypes of each bag, which is important to achieve high accuracy in multi-instance classification. Both methods use the MILTree layout to visually update instance prototypes and can handle binary and multiple-class datasets. In order to classify the bags we use a SVM classifier. Moreover, with support of MILTree layout one can also update the classification model by changing the training set in order to obtain a better classifier. Experimental results validate the effectiveness of our approach, showing that visual mining by MILTree can help the users in MIL classification scenarios. Aprendizado múltipla instância Árvore de similaridade Classificação visual de dados Data mining Mineração de dados Multiple instance learning Similarity tree Visual data classification
697	SNIF TOOL - Sniffing for Patterns in Continuous Streams MUKHERJI, ABHISHEK 11 February 2008 (has links) Recent technological advances in sensor networks and mobile devices give rise to new challenges in processing of live streams. In particular, time-series sequence matching, namely, the similarity matching of live streams against a set of predefined pattern sequence queries, is an important technology for a broad range of domains that include monitoring the spread of hazardous waste and administering network traffic. In this thesis, I use the time critical application of monitoring of fire growth in an intelligent building as my motivating example. Various measures and algorithms have been established in the current literature for similarity of static time-series data. Matching continuous data poses the following new challenges: 1) fluctuations in stream characteristics, 2) real-time requirements of the application, 3) limited system resources, and, 4) noisy data. Thus the matching techniques proposed for static time-series are mostly not applicable for live stream matching. In this thesis, I propose a new generic framework, henceforth referred to as the n-Snippet Indices Framework (in short, SNIF), for discovering the similarity between a live stream and pattern sequences. The framework is composed of two key phases: (1.) Off-line preprocessing phase: where the pattern sequences are processed offline and stored into an approximate 2-level index structure; and (2.) On-line live stream matching phase: streaming time-series (or the live stream) is on-the-fly matched against the indexed pattern sequences. I introduce the concept of n-Snippets for numeric data as the unit for matching. The insight is to match small snippets of the live stream against prefixes of the patterns and maintain them in succession. Longer the pattern prefixes identified to be similar to the live stream, better the confirmation of the match. Thus, the live stream matching is performed in two levels of matching: bag matching for matching snippets and order checking for maintaining the lengths of the match. I propose four variations of matching algorithms that allow the user the capability to choose between the two conflicting characteristics of result accuracy versus response time. The effectiveness of SNIF to detect patterns has been thoroughly tested through extensive experimental evaluations using the continuous query engine CAPE as platform. The evaluations made use of real datasets from multiple domains, including fire monitoring, chlorine monitoring and sensor networks. Moreover, SNIF is demonstrated to be tolerant to noisy datasets. continuous queries streaming time-series similarity queries pattern matching Sequential pattern mining Fire growth Computer simulation
698	Agrupamento de dados complexos para apoiar consultas por similaridade com tratamento de restrições / Clustering complex data for processing constrained similarity queries Jessica Andressa de Souza 21 November 2018 (has links) Devido aos avanços tecnológicos ocorridos nos últimos anos, houve um aumento na quantidade e complexidade de dados gerados. Assim, aprofundou-se a necessidade do desenvolvimento de estratégias eficientes que permitam o armazenamento, a recuperação e a representação resumida desses tipos de dados complexos. Dentre as estratégias exploradas pelos pesquisadores da área para atender a esses propósitos estão os Métodos de Acesso. Esses métodos têm como objetivo indexar os dados de maneira eficaz para reduzir o tempo de consulta. Além disso, eles têm sido aplicados para apoiar o processamento de técnicas de Mineração de Dados, como a Detecção de Agrupamentos. Dentre os métodos de acesso, as estruturas de indexação métrica são construídas usando apenas o critério baseado na distância entre os elementos do conjunto de dados em questão, i.e. operações de similaridade sobre as características intrínsecas dos dados. Desse modo, nem sempre os resultados correspondem ao contexto desejado pelo usuário. Este trabalho explorou o desenvolvimento de algoritmos que permitam aos métodos de acesso métrico processarem detecção de agrupamento de dados para auxiliar o processamento de consultas com maior carga semântica; visando contribuir no tratamento da questão da eficiência de abordagens que envolvam operações por similaridade (por exemplo, técnicas de mineração de dados e consultas por similaridade). Diante deste contexto, foram desenvolvidas três abordagens, a primeira apresenta o método clusMAM (Unsupervised Clustering using Metric Access Methods), o qual tem como objetivo apresentar um agrupamento dos dados com a aplicação de um Método de Acesso Métrico a partir de um conjunto resumido dos dados. A segunda abordagem apresenta a abordagem CCkNN (Class-Constraint k-NN) para lidar com o problema de restrições de múltiplas classes sobre o espaço de busca. Por fim, a terceira abordagem apresenta o método CfQ (Clustering for Querying) realizando a integração das técnicas clusMAM com CCkNN, empregando os pontos positivos de cada estratégia adotada pelos algoritmos. No geral, os experimentos realizados mostram que os métodos propostos contribuem de maneira efetiva na redução de medidas de similaridade requiridas durante um processamento de técnicas que são baseadas em computações de distância. / Due to the technological advances over the last years, both the amount and variety of data available have been increased at a fast pace. Thus, this scenario has influenced the development of effective strategies for the processing, summarizing, as well as to provide fast and automatic understanding of such data. The Access Methods are strategies that have been explored by researchers in the area to aid these purposes. These methods aim to effectively index data to reduce the time required for processing similarity querying. In addition, they have been applied to aid the processing of Data Mining techniques, such as Clustering Detection. Among the access methods, the metric structures are constructed applying only the criterion based on the distance computation between the elements of the dataset, i.e. similarity operations on the intrinsic characteristics of the dataset. Thus, the results do not always correspond to the context desired by users. This work explored the development of algorithms that allow metric access methods to process queries with a higher semantic load, aimed at contributing to the treatment of the quality question on the results of approaches that involve similarity operation (for example, data mining techniques and similarity queries). In this context, three approaches have been developed: the first approach presents the method clusMAM (Unsupervised Clustering using Metric Access Methods), which aims to display a clustering from a dataset with the application of a Metric Access Method from a summarized set. The second approach presents the CCkNN approach to dealing with the problem of multi-class constraints on the search space. Finally, the third proposal presents the method CfQ (Clustering for Querying) by integrating the techniques clusMAM with CCkNN, using the positive points of each strategy applied by the algorithms. In general, the experiments carried out showed that the proposed methods can contribute to an effective way of reducing similarity computations, which is required during a processing of techniques that are based on distance computations. Consultas por similaridade restritas Detecção de agrupamento de dados Métodos de acesso métrico Clustering detectation Constrained similarity queries Metric access methods
699	DIVERSIDADE GENÉTICA EM MILHO CRIOULO ATRAVÉS DOS MARCADORES MOLECULARES RAPD, MICROSSATÉLITE E AFLP Molin, Dayane 23 February 2012 (has links) Made available in DSpace on 2017-07-21T19:59:51Z (GMT). No. of bitstreams: 1 Dayane Molin.pdf: 2944692 bytes, checksum: a8d299024aefbd42062cb84bd7720a9d (MD5) Previous issue date: 2012-02-23 / Fundação Araucária de Apoio ao Desenvolvimento Científico e Tecnológico do Paraná / The wide variability in corn is due to the numerous landraces, important genotypes for breeding programs, because they constitute a source of genetic variability in the exploration of new genes of economic interest. The objectives were to analyze the genetic diversity between landraces from Rio Grande do Sul and Paraná through the analysis of polymorphism generated by RAPD, microsatellite (SSR) and AFLP markers; cluster these genotypes through estimates of genetic similarity and establish possible relationships between genetic similarity and the sampling sites of the landraces. PCR reactions for each marker were optimized through specific protocols being used: 30 RAPD primers, 47 SSR primers pairs and 25 combinations of primers for the EcoRI + MseI for the AFLP marker. The amplified fragments (RAPD and SSR) were visualized in agarose gel at 2 and 3 %, respectively, through horizontal electrophoresis run for approximately 4 h at 80 V. The AFLP amplification products were resolved on a polyacrylamide gel (6 %) submitted to a vertical electrophoresis run for 3 h 30 min at 80 W (1500 V). Genotyping of the varieties of corn with the RAPD marker amplified 409 fragments with a polymorphism average rate of 81.9 %. The SSR generated 134 fragments with 78.3 % of polymorphism. On the other hand, the AFLP amplified 1889 fragments with a polymorphism average rate of only 40.3 %. The polymorphic fragments were submitted to analysis of genetic similarity using the Jaccard coefficient and UPGMA clustering method individually and jointly for all markers. The coefficient mean of similarity was 57 % for RAPD, 56 % for SSR, 74 % for the AFLP and 69 % for the joint analysis. The dendrograms obtained from RAPD and SSR showed 8 different groups, while the dendrogram obtained from AFLP and the joint analysis formed six and seven groups, respectively. In general, the correlations between the similarity matrices were low, but between the AFLP and combined analysis was 96 %. Results revealed a wide genetic variability among landraces. The RAPD and SSR had the highest average rates of polymorphism and AFLP showed the highest rates of genetic similarity among landraces. In general, the markers used were effective tools for sampling the genetic diversity and cluster varieties according to the sampling sites, although they have differential capacity to reveal polymorphism as well as to cluster the landraces. / A ampla variabilidade existente em milho deve-se às inúmeras variedades crioulas, genótipos importantes para o melhoramento, pois constituem fonte de variabilidade genética na prospecção de novos genes de interesse econômico. Os objetivos deste trabalho foram analisar a diversidade genética existente entre acessos de milho crioulo oriundos do Rio Grande do Sul e do Paraná a partir da análise do polimorfismo gerado pelos marcadores RAPD, microssatélite (SSR) e AFLP; realizar o agrupamento destes genótipos através das estimativas da similaridade genética e estabelecer possíveis relações entre a similaridade genética e os locais de coleta das variedades crioulas. As reações de PCR para cada marcador foram otimizadas através de protocolos específicos, sendo utilizados: 30 primers RAPD, 47 pares de primers SSR e 25 combinações de primers EcoRI + MseI para o marcador AFLP. Os fragmentos amplificados (RAPD e SSR) foram visualizados em gel de agarose a 2 e 3 %, respectivamente, através de corrida eletroforética horizontal por aproximadamente 4 h a 80 V. Os produtos da amplificação do AFLP foram resolvidos em gel de poliacrilamida (6 %) submetidos à corrida eletroforética vertical por 3 h e 30 minutos a 80 W (1500 V). A genotipagem das variedades de milho com o marcador RAPD amplificou 409 fragmentos com índice médio de polimorfismo de 81,9 %. O SSR gerou 134 fragmentos com 78,3 % de polimorfismo. Por outro lado, o AFLP amplificou 1889 fragmentos com índice médio de polimorfismo de apenas 40,3 %. Os fragmentos polimórficos foram submetidos às análises de similaridade genética através do coeficiente de Jaccard e de agrupamento pelo método UPGMA individualmente e conjuntamente para os marcadores. O coeficiente médio de similaridade foi de 57 % para o RAPD; 56 % para o SSR; 74 % para o AFLP e 69 % para a análise conjunta. Os dendogramas obtidos a partir do RAPD e SSR mostraram 8 grupos distintos, enquanto que o dendograma obtido a partir do AFLP e da análise conjunta formaram 6 e 7 grupos, respectivamente. De maneira geral, as correlações entre as matrizes de similaridade foram baixas, porém entre o AFLP e a análise conjunta foi de 96 %. Os resultados revelaram ampla variabilidade genética entre os acessos de milho crioulo. Os marcadores RAPD e SSR apresentaram os maiores índices médios de polimorfismo e o AFLP demonstrou maiores índices de similaridade genética entre os acessos crioulos. De maneira geral, os marcadores utilizados foram ferramentas eficientes para amostrar a diversidade genética e agrupar as variedades de acordo com os locais de coleta, embora possuam capacidade diferencial de revelar polimorfismo bem como para agrupar os acessos crioulos de milho. variabilidade genética variedades crioulas polimorfismo similaridade genética genetic variability landraces polymorphism genetic similarity
700	MÉTODO DE COMPARAÇÕES VISUAIS ENTRE MEDIDAS DE SEGMENTOS COMO FACILITADOR DA APRENDIZAGEM DE CONCEITOS TRIGONOMÉTRICOS Gonçalves, José Sinval Soares 23 February 2017 (has links) Made available in DSpace on 2017-07-21T20:56:30Z (GMT). No. of bitstreams: 1 Jose Sinval Soares.pdf: 9600283 bytes, checksum: f7492874195cb7828a5be1c775a62374 (MD5) Previous issue date: 2017-02-23 / It is well the great difficulty presented by the students with respect to the trigonometry. Base on this fact, we understand that any tool that can help in the teaching of this content will always be welcome. The aim of this work is to present a pedagogical proposal that consists of applying a apparently simple method to call a Method of Visual Comparisons. This method consists of obtaining values generated by ratios between measurements of similar figures or even the value of the PI number without having the necessity of measuring and divide using standardized measurement units. Look at the lengths of the segments that represent the sides of triangles, a rectified circumference and your diameter, among others and compare. This comparison starts to check if the measure of a length is greater than, less than or equal to the measure of another length and a more refined, comparison with the fractionation of one of the segments. The main idea is to try to estimate a value, if the measures are equal, if the smaller measure is worth half or perhaps seventy-five percent (three quarters) of the larger, or if the larger is worth two, three, or who knows once and half the smaller measure, only with the look, without dividing numerical values. We believe it's worth measuring, comparing,drawing in scale and measure the scale designed to estimate, because these activities and procedures help in a better understanding of the results that will be demonstrated later / Sabendo das grandes dificuldades apresentadas pelos alunos com relação à trigonometria, entendemos que toda ferramenta que possa auxiliar no ensino deste conteúdo sempre será bem vinda. O objetivo desse trabalho é apresentar uma proposta pedagógica que consiste na utilização de um método aparentemente simples que denominamos Método de Comparações Visuais. Este método consiste em obter valores gerados por razões entre medidas de figuras semelhantes ou mesmo o valor do número PI sem a necessidade de medir e dividir usando unidades padronizadas de medição. Basta observar os comprimentos dos segmentos que representam os lados de triângulos, uma circunferência retificada e seu diâmetro, entre outros e comparar. Esta comparação começa em verificar se a medida de um comprimento é maior, menor ou igual que a medida de outro comprimento e vai até uma comparação mais refinada,com o fracionamento de um dos segmentos. A idéia principal é tentar estimar um valor, se as medidas são iguais, se a medida menor vale metade ou talvez setenta e cinco por cento (três quartos) da maior, ou se a maior vale duas, três, ou quem sabe uma vez e meia a medida menor, apenas com o olhar, sem dividir valores numéricos. Acreditamos ser válida a mensuração, comparação, desenhar em escala e medir na escala desenhada para fazer estimativas, pois estas atividades e procedimentos auxiliam na compreensão dos resultados que serão demonstrados posteriormente. Trigonometria Semelhança PI, Comparações entre medidas Trigonometry Similarity PI Comparisons between measurements

Search results