Spelling suggestions: "subject:"[een] SIMILARITY"" "subject:"[enn] SIMILARITY""
111 |
Operadores binários para consulta de similaridade em banco de dados multimídia / Binary operators in multimidia data baseSeraphim, Enzo 18 January 2006 (has links)
Os atuais gerenciadores de banco de dados não são adequados para manipulação de dados complexos; e entre eles destacamos os dados multimídia que, para agilizar as consultas usam a operação de igualdade sobre as estruturas de indexação.Operações de igualdade são pouco utilizadas em operações que envolvem dados complexos, uma vez que, a existência de dois elementos extremamente iguais é rara. Uma classe de operadores que se adequa melhor para manipulação desses dados são os operadores por similaridade. Exemplo de operadores de seleção por similaridade são a consulta por abrangência (range queries) e consulta aos vizinhos mais próximos. Exemplificando, o operador de seleção aos vizinhos mais próximos responde a consultas como, ?selecione as cinco proteínas mais parecidas pelo alinhamento da proteína Sparc (responsável pelo câncer de pele)?. Existem muitos trabalhos desenvolvidos no sentido de prover operadores de seleção por similaridade envolvendo estruturas baseadas em árvores. Entretanto, poucos estudos têm sido realizados envolvendo a utilização de operadores diferentes da seleção, por exemplo, a junção. Um operador de junção compara pares de objetos de elementos pertencentes ao domínio dos dados, ao passo que um operador de seleção recebe uma constante para a comparação dos elementos. Podemos ter assim, três operadores de junção por similaridade: operadores de junção por abrangência, por vizinhos mais próximos e sobre os pares de vizinhos mais próximos. Exemplificando, uma consulta utilizando junção por abrangência responde a consultas do tipo: ?Selecione as proteínas contidas no vírus da Hepatite B que diferem em até duas unidades de alinhamento das contidas no vírus da Hepatite C?. Este trabalho apresenta um novo método de acesso métrico em extrema quantidade de dados bem como, formas de implementação das formas de junção em estruturas métricas / The present databases managers are not adequated for complex data manipulation and among them we point out the multimedia data that to speed up the query use the equality operation on the index structure. Equality operations are not much used in operations that involve complex data sence the presence of two elements extremely equal is rare. An operator class that better manipulates these data are the similarity operators. Selection operators by similarity are the range query and the nearest neighbors query. For example, the selection operator to the nearest neighbors answers the queries like: ?select five proteins more similar by the alignment of the Sparc protein (responsible for the skin cancer)?. There are many works developed to provide similarity by selection operators envvolving structures based in trees. However, few studies have been done involving the use of different operators selection, for example, the join. A join operator compares pairs of objects of the elements belonging to the domain of the data, whereas a selection operator receives a constant to make the comparison of the elements. We can have three similarity join operators: the range join operators, the nearest neighbor and the closest neighbors pair. For instance, a query using the range join answers these kind of queries: ?Select the proteins restrained in the Hepatitis B virus that differ up to two unities from the alignment of the protein found in the Heapatitis C virus?. This work presents a new metric access method with an extreme amount of data as well as implementations forms of the join in metric structures
|
112 |
Operadores binários para consulta de similaridade em banco de dados multimídia / Binary operators in multimidia data baseEnzo Seraphim 18 January 2006 (has links)
Os atuais gerenciadores de banco de dados não são adequados para manipulação de dados complexos; e entre eles destacamos os dados multimídia que, para agilizar as consultas usam a operação de igualdade sobre as estruturas de indexação.Operações de igualdade são pouco utilizadas em operações que envolvem dados complexos, uma vez que, a existência de dois elementos extremamente iguais é rara. Uma classe de operadores que se adequa melhor para manipulação desses dados são os operadores por similaridade. Exemplo de operadores de seleção por similaridade são a consulta por abrangência (range queries) e consulta aos vizinhos mais próximos. Exemplificando, o operador de seleção aos vizinhos mais próximos responde a consultas como, ?selecione as cinco proteínas mais parecidas pelo alinhamento da proteína Sparc (responsável pelo câncer de pele)?. Existem muitos trabalhos desenvolvidos no sentido de prover operadores de seleção por similaridade envolvendo estruturas baseadas em árvores. Entretanto, poucos estudos têm sido realizados envolvendo a utilização de operadores diferentes da seleção, por exemplo, a junção. Um operador de junção compara pares de objetos de elementos pertencentes ao domínio dos dados, ao passo que um operador de seleção recebe uma constante para a comparação dos elementos. Podemos ter assim, três operadores de junção por similaridade: operadores de junção por abrangência, por vizinhos mais próximos e sobre os pares de vizinhos mais próximos. Exemplificando, uma consulta utilizando junção por abrangência responde a consultas do tipo: ?Selecione as proteínas contidas no vírus da Hepatite B que diferem em até duas unidades de alinhamento das contidas no vírus da Hepatite C?. Este trabalho apresenta um novo método de acesso métrico em extrema quantidade de dados bem como, formas de implementação das formas de junção em estruturas métricas / The present databases managers are not adequated for complex data manipulation and among them we point out the multimedia data that to speed up the query use the equality operation on the index structure. Equality operations are not much used in operations that involve complex data sence the presence of two elements extremely equal is rare. An operator class that better manipulates these data are the similarity operators. Selection operators by similarity are the range query and the nearest neighbors query. For example, the selection operator to the nearest neighbors answers the queries like: ?select five proteins more similar by the alignment of the Sparc protein (responsible for the skin cancer)?. There are many works developed to provide similarity by selection operators envvolving structures based in trees. However, few studies have been done involving the use of different operators selection, for example, the join. A join operator compares pairs of objects of the elements belonging to the domain of the data, whereas a selection operator receives a constant to make the comparison of the elements. We can have three similarity join operators: the range join operators, the nearest neighbor and the closest neighbors pair. For instance, a query using the range join answers these kind of queries: ?Select the proteins restrained in the Hepatitis B virus that differ up to two unities from the alignment of the protein found in the Heapatitis C virus?. This work presents a new metric access method with an extreme amount of data as well as implementations forms of the join in metric structures
|
113 |
Análise da produtividade da soja associada a fatores agrometeorológicos, por meio de estatística espacial de área na Região Oeste do Estado do Paraná.Araújo, Everton Coimbra de 01 December 2012 (has links)
Made available in DSpace on 2017-05-12T14:46:51Z (GMT). No. of bitstreams: 1
Everton.pdf: 4714138 bytes, checksum: a59b9d4eb09d8201b1cddd3c78f52e24 (MD5)
Previous issue date: 2012-12-01 / This paper aimed to present methods to be applied in the area of spatial statistics on soybean yield and agrometeorological factors in Western Paraná state. The data used, related to crop years from 2000/2001 to 2007/2008, are the following variables: soybean yield (t ha-1) and agrometeorological factors, such as rainfall (mm), average temperature (oC) and solar global radiation average (W m-2). In the first phase,it was used indices of spatial autocorrelation (Moran Global and Local) and presented multiple spatial regression models, with performance evaluations. The estimation of parameters occurred when using the Maximum Likelihood method and the performance evaluation of the models was based on the coefficient of determination (R2), the maximum value of the function of the logarithm of the maximum value of the likelihood function logarithm and the Bayesian information criterion of Schwarz. In a second step, cluster analysis was performed using spatial statistical multivariate associations, seeking to identify the same set of variables, but with a larger number of crop years. Finally, the data from one crop year were utilized in an approach based on fuzzy clustering, through the Fuzzy C-Means algorithm and the similarity measure by defining an index for this purpose. The first phase of the study showed the correlation between spatial autocorrelation and soybean yield and agrometeorological elements, through the analysis of spatial area, using techniques such as index Global Moran's I and Local univariate and bivariate and significance tests. It was possible to demonstrate, through the performance indicators used, that the SAR and CAR models offered better results than the classical multiple regression model. In the second phase, it was possible to present the formation of groups of cities using the similarities of the variables under analysis. Cluster analysis is a useful tool for better management of production activities in agriculture, since, with the grouping, it was possible to establish similarities parameters that provide better management of production processes that bring quantitative and qualitatively better, results sought by the farmer. In the final step, through the use of Fuzzy C-Means algorithm, it was possible to form groups of cities of similar soybean yield using the method of decision by the Higher Degree of Relevance (MDMGP) and Method of Decision Threshold by β (β CDM). Subsequently, identification of the adequate number of clusters was obtained using modified partition entropy. To measure the degree of similarity of each cluster, a Cluster Similarity Index (ISCl) was designed and used, which considers the degree of relevance of each city within the group to which it belongs. Within the perspective of this study, the method used was adequate, allowing to identify clusters of cities with degrees of similarities in the order of 60 to 78%. / Este trabalho apresenta métodos para serem aplicados na estatística espacial de área na produtividade da soja e fatores agrometeorológicos na região oeste do estado do Paraná. Os dados utilizados estão relacionados aos anos-safra de 2000/2001 a 2007/2008, sendo as variáveis: produtividade da soja (t ha-1) e agrometeorológicas, tais como precipitação pluvial (mm), temperatura média (oC) e radiação solar global média (W m-2). Em uma primeira fase foram utilizados índices de autocorrelação espacial (Moran Global e Local) e apresentados modelos de regressão espacial múltipla, com avaliações de desempenho. A estimativa dos parâmetros dos modelos ajustados se deu pelo uso do método de Máxima Verossimilhança e a avaliação do desempenho dos modelos foi realizada com base no coeficiente de determinação (R2), no máximo valor do logaritmo da função do máximo valor do logaritmo da função verossimilhança e no critério de informação bayesiano de Schwarz. Em uma segunda etapa foram realizadas análises de agrupamento espacial por meio da estatística multivariada, buscando identificar associações no mesmo conjunto de variáveis, porém com um número maior de anos-safra. Finalmente, os dados de um ano-safra foram aplicados em uma abordagem baseada em agrupamento difuso, por meio do algoritmo Fuzzy c-Means, tendo a similaridade medida pela definição de um índice com este objetivo. O estudo da primeira fase permitiu verificar a correlação e a autocorrelação espacial entre a produtividade da soja e os elementos agrometeorológicos, por meio da análise espacial de área, usando técnicas como o índice I de Moran Global e Local uni e bivariado e os testes de significância. Foi possível demonstrar que, por meio dos indicadores de desempenho utilizados, os modelos SAR e CAR ofereceram melhores resultados em relação ao modelo de regressão múltipla clássica. Na segunda fase, foi possível apresentar a formação de grupos de municípios utilizando as similaridades das variáveis em análise. A análise de agrupamento foi um instrumento útil para uma melhor gestão das atividades de produção da agricultura, em função de que, com o agrupamento, foi possível se estabelecer similaridades que proporcionem parâmetros para uma melhor gestão dos processos de produção que traga, quantitativa e qualitativamente, resultados almejados pelo agricultor. Na etapa final, por meio do algoritmo Fuzzy c-Means, foi possível a formação de grupos de municípios similares à produtividade de soja, utilizando o Método de Decisão pelo Maior Grau de Pertinência (MDMGP) e o Método de Decisão pelo Limiar β (MDL β). Posteriormente, a identificação do número adequado de agrupamentos foi obtida utilizando a Entropia de Partição Modificada. Para mensurar o nível de similaridade de cada agrupamento, foi criado e utilizado um Índice de Similaridade de Clusters (ISCl), que considera o grau de pertinência de cada município dentro do agrupamento a que pertence. Dentro das perspectivas deste estudo, o método empregado se mostrou adequado, permitindo identificar agrupamentos de municípios com graus de similaridades da ordem de 60 a 78%.
espacial
|
114 |
Reaching into response selection: stimulus and response similarity influence central operationsWifall, Timothy Curtis 01 July 2014 (has links)
This dissertation examines the impact of stimulus and response similarity on response selection. Traditional models of response selection invoke a central processor that operates like a look-up table by matching the perceptually classified stimulus (e.g., green square) to the specified response (e.g., right button press). The look-up property of response selection affords the system the ability to map any stimulus onto any response, even if that stimulus-response has never been paired before. Under such an approach, the degree of perceptual similarity or dissimilarity that exists among stimuli in the environment should have little effect on central operations, the similarity or dissimilarity of the motor response executed in response to a stimulus should not influence response selection, and no interaction between stimulus and response features is permitted, given that stimulus features affect the encoding process, and response features affect the output process, but not response selection itself.
Eight studies examine the influence of stimulus and response similarity during response selection. The first two experiments establish the interaction across different task demands between stimulus and response similarity. The interaction was not the result of perceptual difficulty (Experiment 3) and was extended to a new set of stimuli (Experiment 4). A consequence of the design in Experiments 1 - 4 was that response condition was confounded with response configuration. In one of the response conditions the target location had three competitors on one side of it compared to the other condition where the target had one competitor on one side and two others on the other side. Experiments 5 and 6 examined the separate roles that response configuration and response metrics had on the interaction between stimulus and response similarity. The mechanism that produced the interaction was the result of competition between partially activated stimulus-response alternatives. Experiments 7 and 8 further explored the role of competition during response selection by turning to traditional response selection methodologies that introduce competition through either the presentation of irrelevant stimulus information or through presenting the stimulus along an irrelevant spatial dimension.
These data have broad implications for models of RS. To account for the ability to pair any stimulus modality with any response modality dominant accounts of RS assume that central operations are performed by a generic set of processes that operate over representations that are stripped of metric information (amodal representations). Response selection works as a look-up table that receives a categorized stimulus as an input and returns an abstract response code as output. This type of model cannot produce an interaction between stimulus and response similarity and thus, the present data provide a serious challenge to these types of models. Finally, the data provide evidence that the metric relationship between stimuli and response matter and influence response selection. The co-activation of stimulus-response alternatives are at a level of representation that includes both stimulus and response properties. A framework is presented that captures key aspects of the data.
|
115 |
En Fängslande Studie : Fängelsereformsattityder i Sverige / A Captivating Study : Prison Reform Attitudes in SwedenMalmström, Niklas, Hillman, Leo January 2013 (has links)
Studiens syfte var att undersöka fängelsereformsattityder i Sverige med syfte att utreda om dessa korrelerade med kön, politisk tillhörighet, ålder och urvalsgrupp. Detta utförs genom att replikera en tidigare amerikansk studie inom samma ämne. Resultaten från den svenska studien jämfördes även med den amerikanska. Urvalsgrupperna utgjordes av allmänheten(N=105), före-detta kriminella (N=48) och högskolestudenter vid Högskolan i Skövde (N=252). Respondenterna nåddes via en mailenkät.Resultaten visade att de svenska respondenterna hade mer positiva attityder gentemot fängelsereformer än deras amerikanska motparter.Före-detta kriminella var mer positivt inställda till fängelsereformer än studenter och allmänheten. Vad gäller politisk tillhörighet, hade vänsterblocket mer positiva attityder mot fängelsereformer än högerblocket. Ålder hade ett positivt samband med fängelsereformsattityder. Det framkom även att i Sverige har kvinnor till en högre grad än män, höll attityden att våldsbrottsförövare borde få en hårdare bestraffning än andra brottslingar. Det skulle kunna vara av intresse att en studie utförs med syfte att undersöka dessa attityder relaterat till kön, för att se ifall det rör sig om interkulturella skillnader. / The purpose of this study was to investigate prison reform attitudes to see if they correlated with gender, political affiliation, age and sample group. The sample groups were the general population (N=105), ex-criminals (N=48) and students at the University of Skövde (N=252). The respondents were reached by an email survey. This was done by replicating a previously done American survey study. The results from the Swedish study were reviewed in comparison with the American study. The results showed that Swedish respondents held more positive prison reform attitudes than did their American counterparts. Ex-criminals were more positive towards prison reforms than students and the general population. Regarding political affiliation, the Swedish left-wing had more positive attitudes towards prison reforms than did the right-wing. The study also found a positive correlation between age and prison reform attitudes. It was found that Swedish women had more punitive attitudes towards violent criminals than other criminals, than did the men. It would be interesting to research these attitudes and how they relate to gender, to see whether they are a product of intercultural differences.
|
116 |
On the 4 by 4 Irreducible Sign Pattern Matrices that Require Four Distinct EigenvaluesKim, Paul J 11 August 2011 (has links)
A sign pattern matrix is a matrix whose entries are from the set {+,-,0}. For a real matrix B, sgn(B) is the sign pattern matrix obtained by replacing each positive(respectively, negative, zero) entry of B by + (respectively, -, 0). For a sign pattern matrix A, the sign pattern class of A, denoted Q(A), is defined as {B: sgn(B) = A}.
An n by n sign pattern matrix A requires all distinct eigenvalues if every real matrix whose sign pattern is represented by A has n distinct eigenvalues. In this thesis, a number of sufficient and/or necessary conditions for a sign pattern to reuiqre all distinct eigenvalues are reviewed. In addition, for n=2 and 3, the n by n sign patterns that require all distinct eigenvalues are surveyed. We determine most of the 4 by 4 irreducible sign patterns that require four distinct eigenvalues.
|
117 |
Domain similarity metrics for predicting transfer learning performanceBäck, Jesper January 2019 (has links)
The lack of training data is a common problem in machine learning. One solution to thisproblem is to use transfer learning to remove or reduce the requirement of training data.Selecting datasets for transfer learning can be difficult however. As a possible solution, thisstudy proposes the domain similarity metrics document vector distance (DVD) and termfrequency-inverse document frequency (TF-IDF) distance. DVD and TF-IDF could aid inselecting datasets for good transfer learning when there is no data from the target domain.The simple metric, shared vocabulary, is used as a baseline to check whether DVD or TF-IDF can indicate a better choice for a fine-tuning dataset. SQuAD is a popular questionanswering dataset which has been proven useful for pre-training models for transfer learn-ing. The results were therefore measured by pre-training a model on the SQuAD datasetand fine-tuning on a selection of different datasets. The proposed metrics were used tomeasure the similarity between the datasets to see whether there was a correlation betweentransfer learning effect and similarity. The results found a clear relation between a smalldistance according to the DVD metric and good transfer learning. This could prove usefulfor a target domain without training data, a model could be trained on a big dataset andfine-tuned on a small dataset that is very similar to the target domain. It was also foundthat even small amount of training data from the target domain can be used to fine-tune amodel pre-trained on another domain of data, achieving better performance compared toonly training on data from the target domain.
|
118 |
Avaliação da qualidade de funções de similaridade no contexto de consultas por abrangência / Quality evaluation of similarity functions for range queriesStasiu, Raquel Kolitski January 2007 (has links)
Em sistemas reais, os dados armazenados tipicamente apresentam inconsistências causadas por erros de gra a, abreviações, caracteres trocados, entre outros. Isto faz com que diferentes representações do mesmo objeto do mundo real sejam registrados como elementos distintos, causando um problema no momento de consultar os dados. Portanto, o problema investigado nesta tese refere-se às consultas por abrangência, que procuram encontrar objetos que representam o mesmo objeto real consultado . Esse tipo de consulta não pode ser processado por coincidência exata, necessitando de um mecanismo de consulta com suporte à similaridade. Para cada consulta submetida a uma determinada coleção, a função de similaridade produz um ranking dos elementos dessa coleção ordenados pelo valor de similaridade entre cada elemento e o objeto consulta. Como somente os elementos que são variações do objeto consulta são relevantes e deveriam ser retornados, é necessário o uso de um limiar para delimitar o resultado. O primeiro desa o das consultas por abrangência é a de nição do limiar. Geralmente é o especialista humano que faz a estimativa manualmente através da identi - cação de elementos relevantes e irrelevantes para cada consulta e em seguida, utiliza uma medida como revocação e precisão (R&P). A alta dependência do especialista humano di culta o uso de consultas por abrangência na prática, principalmente em grandes coleções. Por esta razão, o método apresentado nesta tese tem por objetivo estimar R&P para vários limiares com baixa dependência do especialista humano. Como um sub-produto do método, também é possível selecionar o limiar mais adequado para uma função sobre uma determinada coleção. Considerando que as funções de similaridade são imperfeitas e que apresentam níveis diferentes de qualidade, é necessário avaliar a função de similaridade para cada coleção, pois o resultado é dependente dos dados. Um limiar para uma coleção pode ser totalmente inadequado para outra coleção, embora utilizando a mesma função de similaridade. Como forma de medir a qualidade de funções de similaridade no contexto de consultas por abrangência, esta tese apresenta a discernibilidade. Trata-se de uma medida que de ne a habilidade da função de similaridade de separar elementos relevantes e irrelevantes. Comparando com a precisão média, a discernibilidade captura variações que não são percebidas pela precisão média, o que mostra que a discernibilidade é mais apropriada para consultas por abrangência. Uma extensa avaliação experimental usando dados reais mostra a viabilidade tanto do método de estimativas como da medida de discernibilidade para consultas por abrangência. / In real systems, stored data typically have inconsistencies caused by typing errors, abbreviations, transposed characters, amongst others. For this reason, di erent representations of the same real world object are stored as distinct elements, causing problems during query processing. In this sense, this thesis investigates range queries which nd objects that represent the same real world object being queried . This type of query cannot be processed by exact matching, thus requiring the support for querying by similarity. For each query submitted to a given collection, the similarity function produces a ranked list of all elements in this collection. This ranked list is sorted decreasingly by the similarity score value with the query object. Only the variations of the query object should be part of the result as only those items are relevant. For this reason, it is necessary to apply a threshold value to properly split the ranking. The rst challenge of range queries is the de nition of a proper threshold. Usually, a human specialist makes the estimation manually through the identi cation of relevant and irrelevant elements for each query. Then, he/she uses measures such as recall and precision (R&P). The high dependency on the human specialist is the main di culty related to use of range queries in real situations, specially for large collections. In this sense, the method presented in this thesis has the objective of estimating R&P at several thresholds with low human intervention. As a by-product of this method, it is possible to select the optimal threshold for a similarity function in a given collection. Considering the fact that the similarity functions are imperfect and vary in quality, it is necessary to evaluate the similarity function for each collection as the result is domain dependent. A threshold value for a collection could be totally inappropriate for another, even though the same similarity function is applied. As a measure of quality of similarity functions for range queries, this thesis introduces discernability. This is a measure to quantify the ability of the similarity function in separating relevant and irrelevant elements. Comparing discernability and mean average precision, the rst one can capture variations that are not noticed by precision-based measures. This property shows that discernability presents better results for evaluating similarity functions for range queries. An extended experimental evaluation using real data shows the viability of both, the estimation method and the discernability measure, applied to range queries.
|
119 |
Avaliação da qualidade de funções de similaridade no contexto de consultas por abrangência / Quality evaluation of similarity functions for range queriesStasiu, Raquel Kolitski January 2007 (has links)
Em sistemas reais, os dados armazenados tipicamente apresentam inconsistências causadas por erros de gra a, abreviações, caracteres trocados, entre outros. Isto faz com que diferentes representações do mesmo objeto do mundo real sejam registrados como elementos distintos, causando um problema no momento de consultar os dados. Portanto, o problema investigado nesta tese refere-se às consultas por abrangência, que procuram encontrar objetos que representam o mesmo objeto real consultado . Esse tipo de consulta não pode ser processado por coincidência exata, necessitando de um mecanismo de consulta com suporte à similaridade. Para cada consulta submetida a uma determinada coleção, a função de similaridade produz um ranking dos elementos dessa coleção ordenados pelo valor de similaridade entre cada elemento e o objeto consulta. Como somente os elementos que são variações do objeto consulta são relevantes e deveriam ser retornados, é necessário o uso de um limiar para delimitar o resultado. O primeiro desa o das consultas por abrangência é a de nição do limiar. Geralmente é o especialista humano que faz a estimativa manualmente através da identi - cação de elementos relevantes e irrelevantes para cada consulta e em seguida, utiliza uma medida como revocação e precisão (R&P). A alta dependência do especialista humano di culta o uso de consultas por abrangência na prática, principalmente em grandes coleções. Por esta razão, o método apresentado nesta tese tem por objetivo estimar R&P para vários limiares com baixa dependência do especialista humano. Como um sub-produto do método, também é possível selecionar o limiar mais adequado para uma função sobre uma determinada coleção. Considerando que as funções de similaridade são imperfeitas e que apresentam níveis diferentes de qualidade, é necessário avaliar a função de similaridade para cada coleção, pois o resultado é dependente dos dados. Um limiar para uma coleção pode ser totalmente inadequado para outra coleção, embora utilizando a mesma função de similaridade. Como forma de medir a qualidade de funções de similaridade no contexto de consultas por abrangência, esta tese apresenta a discernibilidade. Trata-se de uma medida que de ne a habilidade da função de similaridade de separar elementos relevantes e irrelevantes. Comparando com a precisão média, a discernibilidade captura variações que não são percebidas pela precisão média, o que mostra que a discernibilidade é mais apropriada para consultas por abrangência. Uma extensa avaliação experimental usando dados reais mostra a viabilidade tanto do método de estimativas como da medida de discernibilidade para consultas por abrangência. / In real systems, stored data typically have inconsistencies caused by typing errors, abbreviations, transposed characters, amongst others. For this reason, di erent representations of the same real world object are stored as distinct elements, causing problems during query processing. In this sense, this thesis investigates range queries which nd objects that represent the same real world object being queried . This type of query cannot be processed by exact matching, thus requiring the support for querying by similarity. For each query submitted to a given collection, the similarity function produces a ranked list of all elements in this collection. This ranked list is sorted decreasingly by the similarity score value with the query object. Only the variations of the query object should be part of the result as only those items are relevant. For this reason, it is necessary to apply a threshold value to properly split the ranking. The rst challenge of range queries is the de nition of a proper threshold. Usually, a human specialist makes the estimation manually through the identi cation of relevant and irrelevant elements for each query. Then, he/she uses measures such as recall and precision (R&P). The high dependency on the human specialist is the main di culty related to use of range queries in real situations, specially for large collections. In this sense, the method presented in this thesis has the objective of estimating R&P at several thresholds with low human intervention. As a by-product of this method, it is possible to select the optimal threshold for a similarity function in a given collection. Considering the fact that the similarity functions are imperfect and vary in quality, it is necessary to evaluate the similarity function for each collection as the result is domain dependent. A threshold value for a collection could be totally inappropriate for another, even though the same similarity function is applied. As a measure of quality of similarity functions for range queries, this thesis introduces discernability. This is a measure to quantify the ability of the similarity function in separating relevant and irrelevant elements. Comparing discernability and mean average precision, the rst one can capture variations that are not noticed by precision-based measures. This property shows that discernability presents better results for evaluating similarity functions for range queries. An extended experimental evaluation using real data shows the viability of both, the estimation method and the discernability measure, applied to range queries.
|
120 |
Explorando variedade em consultas por similaridade / Investigationg variety in similarity queriesLúcio Fernandes Dutra Santos 26 October 2012 (has links)
A complexidade dos dados armazenados em grandes bases de dados aumenta sempre, criando a necessidade de novas formas de consulta. As consultas por similaridade vêm apresentando crescente interesse para tratar de dados complexos, sendo as mais representativas a consulta por abrangência (\'R IND. q\' Range query) e a consulta aos k-vizinhos mais próximos (k-\'NN IND. q\' k-Nearest Neighboor query). Até recentemente, essas consultas não estavam disponíveis nos Sistemas de Gerenciamento de Bases de Dados (SGBD). Agora, com o início de sua disponibilidade, tem se tornado claro que os operadores de busca fundamentais usados para executá-las não são suficientes para atender às necessidades das aplicações que as demandam. Assim, estão sendo estudadas variações e extensões aos operadores fundamentais, em geral voltados às necessidades de domínios de aplicações específicas. Além disso, os seguintes problemas vêm impactando diretamente sua aceitação por parte dos usuários e, portanto, sua usabilidade: (i) os operadores fundamentais são pouco expressivos em situações reais; (ii) a cardinalidade dos resultados tende a ser grande, obrigando o usuário analisar muitos elementos; e (iii) os resultados nem sempre atendem ao interesse do usuário, implicando na reformulação e ajuste frequente das consultas. O objetivo desta dissertação é o desenvolvimento de uma técnica inédita para exibir um grau de variedade nas respostas às consultas aos k-vizinhos mais próximos em domínios de dados métricos, explorando aspectos de diversidade em extensões dos operadores fundamentais usando apenas as propriedades básicas do espaço métrico sem a solicitação de outra informação por parte do usuário. Neste sentido, são apresentados: a formalização de um modelo de variedade que possibilita inserir diversidade nas consultas por similaridade sem a definição de parâmetros por parte do usuário; um algoritmo incremental para responder às consultas aos k-vizinhos mais próximos com variedade; um método de avaliação de sobreposição de variedade para as consultas por similaridade. As propriedades desses resultados permitem usar as técnicas desenvolvidas para apoiar a propriedade de variedade nas consultas aos k-vizinhos mais próximos em Sistemas de Gerenciamento de Bases de Dados / The data being collected and generated nowadays increases not only in volume, but also in complexity, leading to the need of new query operators. Similarity queries are one of the most pursued resources to retrieve complex data. The most studied operators to perform similarity are the Range Query (\'R IND.q\') and the k-Nearest Neighbor Query (k-\'NN IND. q\'). Until recently, those queries were not available in the Database Management Systems. Now they are starting to become available, but since its earliest applications to develop real systems, it became clear that the basic similarity query operators are not enough to meet the requirements of the target applications. Therefore, new variations and extensions to the basic operators are being studied, although every work up to now is only pursuing the requirements of specific application domains. Furthermore, the following issues are directly impacting their acceptance by users and therefore its usability: (i) the basic operators are not expressive in real situations, (ii) the result-set cardinality tends to be large, imposing to the user the need to analyze to many elements, and (iii) the results do not always meet the users interest, resulting in the reformulation and adjustment of the queries. The goal of this dissertation is the development of a novel technique to enable a degree of variety the answers of k-nearest neighbor queries in metric spaces, investigating aspects of diversity in extensions of the basic operators using only the properties of metric spaces, never requesting extra information from the user. In this monograph, we present: the formalization of the variety model that allows to support diversity in similarity queries without requiring diversification parameters from the user; a greedy algorithm to obtain answers for similarity queries to the k-nearest neighbors with variety; an evaluation method to assess the diversification ratio existing on a subset of elements in metric space. The properties of those results allow using our proposed techniques to support variety in k-nearest neighbor queries in Database Management Systems
|
Page generated in 0.0486 seconds