Global ETD Search

51	Classificação de séries temporais por similaridade e extração de atributos com aplicação na identificação automática de insetos / Classification of time series similarity and feature extraction with application to automatic identification of insects Silva, Diego Furtado 27 February 2014 (has links) Um dos grandes desafios em mineração de dados é a integração de dados temporais ao seu processo. Existe um grande número de aplicações emergentes que envolvem dados temporais, incluindo a identificação de transações fraudulentas em cartões de crédito e ligações telefônicas, a detecção de intrusão em sistemas computacionais, a predição de estruturas secundárias de proteínas, a análise de dados provenientes de sensores, entre muitas outras. Neste trabalho, tem-se interesse na classificação de séries temporais que representam sinais de áudio. Como aplicação principal, tem-se interesse em classificar sinais de insetos coletados por um sensor óptico, que deve ser capaz de contar e classificar os insetos de maneira automática. Apesar de serem coletados opticamente, os sinais capturados se assemelham a sinais de áudio. O objetivo desta pesquisa é comparar métodos de classificação por similaridade e por extração de atributos que possam ser utilizados no contexto da classificação de insetos. Para isso, foram empregados os principais métodos de classificação de sinais de áudio, que têm sido propostos para problemas como reconhecimento de instrumentos musicais, fala e espécies animais. Neste trabalho, é mostrado que, de modo geral, a abordagem por extração de atributos é mais eficaz do que a classificação por similaridade. Mais especificamente, os melhores resultados são obtidos com a utilização de coeficientes mel-cepstrais. Este trabalho apresenta contribuições significativas em outras aplicações, também relacionadas à análise de séries temporais e sinais de áudio, por similaridade e por extração de atributos / One of the major challenges in data mining is the integration of temporal data to its process. There are a number of emerging applications that involve temporal data, including fraud detection in credit card transactions and phone calls, intrusion detection in computer systems, the prediction of secondary structures of proteins, the analysis of data from sensors, and many others. In this work, our main interest is the classification of time series that represent audio signals. Our main interest is an application for classifying signals of insects collected from an optical sensor, which should count and classify insects automatically. Although these signals are optically collected, they resemble audio signals. The objective of this research is to compare classification methods based on similarity and feature extraction in the context of insects classification. For this purpose, we used the main classification methods for audio signals, which have been proposed for problems such as musical instrument, speech and animal species recognition. This work shows that, in general, the approach based on feature extraction is more accurate than the classification by similarity. More specifically, the best results are obtained with mel-frequency cepstrum coefficients. This work also presents significant contributions in other applications, also related to the analysis of time series and audio signals by similarity and feature extraction Attribute extraction Classificação Classification Extração de atributos Insects Insetos Séries Temporais Similaridade Similarity Time series
52	Operações de consulta por similaridade em grandes bases de dados complexos / Similarity search operations in large complex databases Barioni, Maria Camila Nardini 04 September 2006 (has links) Os Sistemas de Gerenciamento de Bases de Dados (SGBD) foram desenvolvidos para armazenar e recuperar de maneira eficiente dados formados apenas por números ou cadeias de caracteres. Entretanto, nas últimas décadas houve um aumento expressivo, não só da quantidade, mas da complexidade dos dados manipulados em bases de dados, dentre eles os de natureza multimídia (como imagens, áudio e vídeo), informações geo-referenciadas, séries temporais, entre outros. Assim, surgiu a necessidade do desenvolvimento de novas técnicas que permitam a manipulação eficiente de tipos de dados complexos. Para atender às buscas necessárias às aplicações de base de dados modernas é preciso que os SGBD ofereçam suporte para buscas por similaridade ? consultas que realizam busca por objetos da base similares a um objeto de consulta, de acordo com uma certa medida de similaridade. Outro fator importante que veio contribuir para a necessidade de suportar a realização de consultas por similaridade em SGBD está relacionado à integração de técnicas de mineração de dados. É fundamental para essa integração o fornecimento de recursos pelos SGBD que permitam a realização de operações básicas para as diversas técnicas de mineração de dados existentes. Uma operação básica para várias dessas técnicas, tais como a técnica de detecção de agrupamentos de dados, é justamente o cálculo de medidas de similaridade entre pares de objetos de um conjunto de dados. Embora haja necessidade de fornecer suporte para a realização desse tipo de consultas em SGBD, o atual padrão da linguagem SQL não prevê a realização de consultas por similaridade. Esta tese pretende contribuir para o fornecimento desse suporte, incorporando ao SQL recursos capazes de permitir a realização de operações de consulta por similaridade sobre grandes bases de dados complexos de maneira totalmente integrada com os demais recursos da linguagem / Database Management Systems (DBMS) were developed to store and efficiently retrieve only data composed by numbers and small strings. However, over the last decades, there was an expressive increase in the volume and complexity of the data being managed, such as multimedia data (images, audio tracks and video), geo-referenced information and time series. Thus, the need to develop new techniques that allow the efficient handling of complex data types also increased. In order to support these data and the corresponding applications, the DBMS needs to support similarity queries, i.e., queries that search for objects similar to a query object according to a similarity measure. The need to support similarity queries in DBMS is also related to the integration of data mining techniques, which requires the DBMS acting as the provider for resources that allow the execution of basic operations for several existing data mining techniques. A basic operation for several of these techniques, such as clustering detection, is again the computation of similarity measures among pairs of objects of a data set. Although there is a need to execute these kind of queries in DBMS, the SQL standard does not allow the specification of similarity queries. Hence, this thesis aims at contributing to support such queries, integrating to the SQL the resources capable to execute similarity query operations over large sets of complex data clustr detection Consultas por similaridade content-based retrieval detecção de agrupamentos de dados Recuperação por conteúdo similarity search
53	Diversidade funcional em uma floresta de restinga / Functional diversity in a restinga forest Vendrami, Juliana Lopes 07 July 2014 (has links) Entender os processos responsáveis pela origem e manutenção da diversidade de espécies nas comunidades representa uma questão central em ecologia. Dos inúmeros processos aventados para explicar a diversidade de organismos, podemos destacar o filtro ambiental e a limitação de similaridade. O filtro ambiental atua restringindo a variação e a distribuição dos organismos em determinado ambiente, enquanto que a limitação de similaridade atua pressionando a diferenciação das características dos organismos, uma vez que a coexistência entre os indivíduos depende da divergência na utilização dos recursos. A abordagem funcional tem sido utilizada para testar os processos responsáveis pela coexistência de espécies e consiste na comparação da similaridade funcional entre as espécies de uma comunidade através da quantificação dos seus atributos. A combinação de diferentes atributos em um organismo define a sua estratégia ecológica e, consequentemente, a sua distribuição nos habitats. As florestas de restingas são ambientes propícios para testar as hipóteses de coexistência das espécies nas comunidades, por apresentarem gradientes ambientes bem marcados e que definem a disponibilidade de recursos. Nesse sentido, este trabalho teve como objetivo avaliar: i) o efeito da condição edáfica (seco e alagado) sobre os atributos funcionais e as estratégias ecológicas de espécies arbóreas de restinga alta e; ii) o efeito que os atributos funcionais e as estratégias ecológicas têm sobre a preferência de habitat pelas plantas. Realizamos este trabalho em uma área de restinga alta na Ilha do Cardoso (SP) que compreende dois tipos de solo: seco e alagado. Coletamos cinco atributos funcionais (área foliar, área foliar específica, espessura foliar, conteúdo de matéria seca foliar e densidade da madeira) de 44 espécies arbóreas. Selecionamos 30 indivíduos de cada espécie sendo 15 em cada tipo de solo. Utilizamos seleção de modelos para as análises estatísticas, sendo usados modelos lineares mistos e modelos lineares simples para avaliar o efeito do solo nos valores médios e na variação dos atributos e das estratégias ecológicas, respectivamente. Encontramos efeito do solo sobre os coeficientes de variação (CV) do conteúdo de matéria seca foliar (CMSF) e da área foliar específica (AFE), sendo maiores no solo alagado. No caso do CV da AFE, o efeito só foi significativo quando excluímos as palmeiras das análises. Não encontramos efeito do solo sobre a variação dos demais atributos funcionais, das estratégias ecológicas e tampouco do tipo de estratégia ecológica. Os resultados encontrados apontam que no ambiente alagado, a limitação de similaridade seja o processo preponderante na estruturação dessa comunidade. Tal resultado difere dos reportados por outros estudos em florestas tropicais. Não encontramos efeito dos atributos e das estratégias ecológicas sobre a preferência de habitat das espécies, com exceção do CV de CMSF e de AFE. Novamente, no caso do CV de AFE, o efeito só foi significativo quando excluímos Euterpe edulis (palmito-juçara) das análises. Este resultado reforça a importância da plasticidade fenotípica para definir a ocorrência das espécies em diferentes habitats / Understanding the processes underlying the origin and maintenance of species diversity in communities is a central goal in ecology. Among the numerous processes proposed to explain the organisms\' diversity, we can highlight environmental filter and limiting similarity. Environmental filter operates by restricting the variation and distribution of organisms in a given environment, while the process of limiting similarity acts by pressing differentiation in the organisms\' characteristics, because the coexistence of individuals depends on difference in resource utilization. The functional approach has been used to test the processes responsible for species coexistence and consists in the comparison of species functional similarities in a community through their traits. The combination of different traits in an organism defines its ecological strategy and, therefore, their distribution on habitats. Restinga forests are suitable to test species coexistence hypotheses in communities, because it presents a well marked environmental gradient, which is defined by resource availability. Thus, this study aimed to evaluate: i) the effect of soil condition (drained and flooded) on functional traits and on ecological strategies of restinga trees species and, ii) the effect of functional traits on plant´s habitat preference. We conducted this study in an area of high restinga at Cardoso Island (SP), which comprises two soil types: drained and flooded. We collected five functional traits (leaf area, specific leaf area, leaf thickness, leaf dry matter content and wood density) of 44 tree species. We selected 30 individuals of each species, 15 in each soil type. We used model selection for statistical analyses, being linear models to assess soil type effect on trait and ecological strategies variances and linear mixed models to assess ecological strategies mean values. We found soil effect on the coefficients of variation of leaf dry matter content (LDMC) and of specific leaf area (SLA), which was higher in the flooded soil. In the case of SLA coefficient of variance, the effect was only significant when we excluded the palms from analyses. We found no soil effect on the other functional traits and on ecological strategies variation, neither on ecological strategy type. As for the results, it was found that in the flooded soil, limiting similarity is the dominant process structuring this community. This result differs from those reported by other tropical forests researches. We found no effect of traits and ecological strategies on habitat species preference, with the exception of LDMC and SLA coefficients of variations. Again, for SLA coefficient of variation, the effect was only significant when we exclude Euterpe edulis (juçara palm) from analyses. This result reinforces the importance of phenotypic plasticity to define species occurrence in different habitats Ecological strategies Environmental filter Estratégias ecológicas Filtro ambiental Intraspecific variability Limitação de similaridade Limiting similarity Variabilidade intraespecífica
54	Modelos de custo e estatísticas para consultas por similaridade / Cost models and statistics for similarity searching Bêdo, Marcos Vinícius Naves 10 October 2017 (has links) Consultas por similaridade constituem um paradigma de busca que fornece suporte à diversas tarefas computacionais, tais como agrupamento, classificação e recuperação de informação. Neste contexto, medir a similaridade entre objetos requer comparar a distância entre eles, o que pode ser formalmente modelado pela teoria de espaços métricos. Recentemente, um grande esforço de pesquisa tem sido dedicado à inclusão de consultas por similaridade em Sistemas Gerenciadores de Bases de Dados (SGBDs), com o objetivo de (i) permitir a combinação de comparações por similaridade com as comparações por identidade e ordem já existentes em SGBDs e (ii) obter escalabilidade para grandes bases de dados. Nesta tese, procuramos dar um próximo passo ao estendermos também o otimizador de consultas de um SGBD. Em particular, propomos a ampliação de dois módulos do otimizador: o módulo de Espaço de Distribuição de Dados e o módulo de Modelo de Custo. Ainda que o módulo de Espaço de Distribuição de Dados permita representar os dados armazenados, essas representações são insuficientes para modelar o comportamento das comparações em espaços métricos, sendo necessário estender este módulo para contemplar distribuições de distância. De forma semelhante, o módulo Modelo de Custo precisa ser ampliado para dar suporte à modelos de custo que utilizem estimativas sobre distribuições de distância. Toda a investigação aqui conduzida se concentra em cinco contribuições. Primeiro, foi criada uma nova sinopse para distribuições de distância, o Histograma Compactado de Distância (CDH), de onde é possível inferir valores de seletividade e raios para consultas por similaridade. Uma comparação experimental permitiu mostrar os ganhos das estimativas da sinopse CDH com relação à diversos competidores. Também foi proposto um modelo de custo baseado na sinopse CDH, o modelo Stockpile, cujas estimativas se mostraram mais precisas na comparação com outros modelos. Os Histogramas-Omni são apresentados como a terceira contribuição desta tese. Estas estruturas de indexação, construídas a partir de restrições de particionamento de histogramas, permitem a execução otimizada de consultas que mesclam comparações por similaridade, identidade e ordem. A quarta contribuição de nossa investigação se refere ao modelo RVRM, que é capaz de indicar quanto é possível empregar as estimativas das sinopses de distância para otimizar consultas por similaridade em conjuntos de dados de alta dimensionalidade. O modelo RVRM se mostrou capaz de identificar intervalos de dimensões para os quais essas consultas podem ser executadas eficientes. Finalmente, a última contribuição desta tese propõe a integração das sinopses e modelos revisados em um sistema com sintaxe de alto nível que pode ser acoplado em um otimizador de consultas. / Similarity searching is a foundational paradigm for many modern computer applications, such as clustering, classification and information retrieval. Within this context, the meaning of similarity is related to the distance between objects, which can be formally expressed by the Metric Spaces Theory. Many studies have focused on the inclusion of similarity search into Database Management Systems (DBMSs) for (i) enabling similarity comparisons to be combined with the DBMSs identity and order comparisons and (ii) providing scalability for very large databases. As a step further, we propose the extension of the DBMS Query Optimizer and, particularly, the extension of two modules of the Query Optimizer, namely Data Distribution Space and Cost Model modules. Although the Data Distribution Space enables representations of stored data, such representations are unsuitable for modeling the behavior of similarity comparisons, which requires the extension of the module to support distance distributions. Likewise, the Cost Model module must be extended to support cost models that depend on distance distributions. Our study is based on five contributions. A new synopsis for distance distributions, called Compact-Distance Histogram (CDH), is proposed and enables radius and selectivity estimation for similarity searching. An experimental comparison showed the gains of the estimates drawn from CDH in comparison to several competitors. A cost model based on the CDH synopsis and with accurate estimates, called Stockpile, is also proposed. Omni-Histograms are presented as the third contribution of the thesis. Such indexing structures are constructed according to histogram partition constraints and enable the optimization of queries that combine similarity, identity and order comparisons. The fourth contribution refers to the model RVRM, which indicates the possible use of the estimates obtained from distance-based synopses for the query optimization of high-dimensional datasets and identifies intervals of dimensions where similarity searching can be efficiently executed. Finally, the thesis proposes the integration of the reviewed synopses and cost models into a single system with a high-level language that can be coupled to a DBMS Query Optimizer. Concentração de distâncias Consultas por similaridade Distance concentration Otimização de consultas Query optimization Similarity searching
55	Estudo avaliativo da informação mútua generalizada e de métricas clássicas como medidas de similaridade para corregistro em imagens fractais e cerebrais / Evaluative study of the generalized mutual information and classical metrics as similarity measures for coregistration of brain images and fractals. Nali, Ivan Christensen 16 April 2012 (has links) A integração de diferentes modalidades de imagens médicas possibilita uma análise mais detalhada de seu conteúdo, visando-se um diagnóstico mais preciso da patologia presente. Este processo, conhecido como corregistro, busca o alinhamento das imagens através da transformação rígida (ou não rígida) das mesmas, por algoritmos matemáticos de distorção, translação, rotação e ajuste de escala. A amplitude de cada transformação é determinada por uma medida de similaridade das imagens. Quanto menor a similaridade, maior será a transformação aplicada. Neste sentido, a métrica de similaridade é uma peça chave do processo de corregistro. No presente trabalho, inicialmente são propostas novas definições para o cálculo dos erros de alinhamento nas transformações de translação, rotação e escala, com o objetivo de se avaliar o desempenho do corregistro. Em seguida, cinco experimentos são realizados. No primeiro, a Informação Mútua Generalizada é avaliada como medida de similaridade para corregistro em imagens fractais e cerebrais. Neste caso, os resultados sugerem a viabilidade do emprego desta métrica, pois em geral conduz a erros de alinhamento muito pequenos, mas sem vantagens aparentes em relação à formulação de Shannon. No segundo experimento, um estudo comparativo entre a Informação Mútua e as métricas clássicas (Coeficiente de Correlação, Média dos Quadrados, Diferença de Gradiente e Cardinalidade) é então realizado. Para as imagens binárias analisadas, as métricas com menores valores de erro de alinhamento para os corregistros de translação e rotação foram a Informação Mútua e a Diferença de Gradiente. Para o corregistro de escala, todas as métricas conduziram a erros de alinhamento próximos de zero. No terceiro experimento, o processo de alinhamento é investigado em termos do número de iterações do algoritmo de corregistro. Considerando-se ambas as variáveis erro de alinhamento e número de iterações, conclui-se que o uso da Informação Mútua Generalizada com q = 1.0 é adequado ao corregistro. No quarto experimento, a influência da dimensão fractal no corregistro de imagens fractais binárias foi estudada. Para algumas métricas, a tendência geral observada é a de uma diminuição do erro de alinhamento em resposta ao aumento da dimensão fractal. Finalmente, no quinto experimento, constatou-se a existência de correlação linear entre os erros de alinhamento de imagens em tons de cinza do córtex cerebral e de fractais do conjunto Julia. / The integration of different modalities of medical images provides a detailed analysis of its contents, aiming at a more accurate diagnosis of the pathology. This process, known as coregistration, seeks to align the images through rigid (or non-rigid) transformations, by mathematical algorithms of distortion, translation, rotation and scaling. The amplitude of each transformation is determined by a similarity measure of the images. The lower the similarity, the greater the transformation applied. In this sense, the similarity metric is the key for the coregistration process. In this work, new definitions are proposed for the calculation of alignment errors in the transformations of translation, rotation and scale, with the objective of evaluating the performance of coregistration. Then, five experiments are performed. In the first one, the Generalized Mutual Information is evaluated as a similarity measure for coregistration of brain images and fractals. In this case, the results suggest the feasibility of using this measure, since it leads to very small alignment errors, although no advantages in relation to Shannon formulation are evident. In the second experiment, a comparative study between Mutual Information and the classical metrics (Correlation Coefficient, Mean Squares, Gradient Difference and Cardinality) is performed. For the binary images analyzed, the metrics with lower alignment errors for translation and rotation are the Mutual Information and Gradient Difference. For scaling transformation, all the metrics lead to alignment errors close to zero. In the third experiment, the alignment process is investigated in terms of number of iterations of the coregistration algorithm. Considering both variables alignment error and number of iterations, it is concluded that the use of Generalized Mutual Information with q =1 is appropriate for coregistration. In the fourth experiment, it is studied the influence of fractal dimension in coregistration of binary fractal images. For some metrics, as a general trend, one observes the decay of the alignment error in response to the increase of the fractal dimension. Finally, in the fifth experiment, the results indicate the existence of a linear correlation between the alignment errors of grayscale images of the cerebral cortex and Julia set fractals. Coregistration Corregistro Generalized Mutual Information. Informação Mútua Generalizada. Métrica de Similaridade Similarity Metric
56	Escalonamento de painéis reforçados sujeitos a cargas de impacto. / Scaling of reinforced panels subjected to impact loads. Mazzariol, Leonardo Monteiro 05 October 2012 (has links) Esta dissertação avalia a aplicação de leis de similaridade distorcidas no contexto de impacto estrutural. A análise se apoia em um estudo teórico, numérico e experimental do impacto de um indentador contra um painel duplo. O modelo analítico descreve de forma simplificada o comportamento de partes desta estrutura e as simulações numéricas reproduzem os ensaios experimentais que utilizam um protótipo (tamanho real) e modelo (escala reduzida). A diferença nas propriedades mecânicas do material de construção do modelo e protótipo é considerada no procedimento de escalonamento, bem como os efeitos de escala por causa da taxa de deformação. Ainda, diante das limitações do aparato experimental, é desenvolvida uma formulação para as leis de similaridade que permite variações da massa impacto e da velocidade inicial do elemento impactante no ensaio. Dessa forma, apresenta-se um procedimento que permite inferir o comportamento de estruturas em tamanho real sob carregamento de impacto através do uso de estruturas em escala, mesmo com as limitações de aparato ou diferenças das propriedades mecânicas do material. / This work evaluates the distorted similarity laws applied in structural impact. The analysis is based in theoretical, numerical and experimental studies of the impact of an indenter to a reinforced panel. The theoretical approach describes, in a simplified manner, the behaviour of the structure components while the numerical analysis reproduces the experiments performed in two scales: prototype (large scale) and model (small scale). Although the panels are made of different materials, this mismatch in mechanical behaviour is taken into account in the scaling procedure, as well as the scale effects due to strain rate. A formulation that allows flexibility in experiment variables such as initial velocity and impact mass is developed due to experimental apparatus limitations. In general lines, is developed a procedure allowing to infer the behaviour of a large scale structure under impact load using scaled structures, while using different materials for prototype and model and respecting the experimental apparatus limits. Escala Escalonamento Estrutura Impact Impacto Naval Naval Scaling Similaridade Similarity Structure
57	Consultas por similaridade no modelo relacional / Similarity queries in the relational model Pierro, Gabriel Vicente de 18 May 2015 (has links) Os Sistemas de Gerenciamento de Bases de Dados Relacionais (SGBDR) foram concebidos para o armazenamento e recuperação de grandes volumes de dados. Tradicionalmente, estes sistemas suportam números, pequenas cadeias de caracteres e datas (que podem ser comparados por identidade ou por relações de ordem { RO), porém vem se tornando necessário organizar, armazenar e recuperar dados mais complexos, como por exemplo dados multimídia (imagens, áudio e vídeo), séries temporais etc. Quando se trata de dados complexos há uma mudança de paradigma, pois as comparações entre elementos são feitas por similaridade em vez das RO utilizadas tradicionalmente, tendo como mais frequentemente utilizados os operadores de comparação por abrangência (Rq) e por k-vizinhos mais próximos (k-NN). Embora muitos estudos estejam sendo feitos nessa área, quando lidando com consultas por similaridade grande parte do esforço é direcionado para criar as estruturas de indexação e dar suporte às operações necessárias para executar apenas o aspecto da consulta que trata da similaridade, sem focar em realizar uma integração homogênea das consultas que envolvam ambos os tipos de operadores simultaneamente nos ambientes dos SGDBRs. Um dos principais problemas nessa integração é lidar com as peculiaridades do operador de busca por k-NN. Todos os operadores de comparação por identidade e por RO são comutativos e associativos entre si. No entanto o operador de busca por k-NN não atende a nenhuma dessas propriedades. Com isso, a expressão de consultas em SQL, que usualmente pode ser feita sem que a expressão da ordem entre os predicados seja importante, precisa passar a considerar a ordem. Além disso, consultas que utilizam comparações por k-NN podem gerar múltiplos empates, e a falta de uma metodologia para resolvê-los pode levar a um processo de desempate arbitrário ou insensível ao contexto da consulta, onde usuários não tem poder para intervir de maneira significativa. Em alguns casos, isso pode levar a uma mesma consulta a retornar resultados distintos em casos onde a estrutura interna dos dados estiver sujeita a modificações, como por exemplo em casos de transações concorrentes em um SGBDR. Este trabalho aborda os problemas gerados pela inserção de operadores de busca por similaridade nos SGBDR, mais especificamente o k-NN, e propõe novas maneiras de representação de consultas com múltiplos predicados, por similaridade ou RO, assim como novos operadores derivados do k-NN que são mais adequados para um ambiente relacional que permita consultas híbridas, e permitem também controle sobre o tratamento de empates. / The Relational Database Management Systems (RDBMS) were originally conceived to store and retrieve large volumes of data. Traditionally, these systems support only numbers, small strings of characters and dates (which could be compared by identity and a Order Relationship { OR). However it has been increasingly necessary to organize, store and retrieve more complex data, such as multimedia (images, audio and video), time series etc. Dealing with those data types requires a paradigm shift, as the comparisons between each element are made by similarity, and not by the traditionally used identity or OR, with the most common similarity operators used being the range (Rq) and k-Nearest Neighbors (k-NN). Despite many studies in the field, when dealing with similarity queries a large part of the effort has been directed towards the data structures and the necessary operations to execute only the similarity side of the query, not paying attention to a more homogenous integration of queries that involve both operator types simultaneously in RDBMS environments. One of the main problems for such integration is the peculiarities of the k-NN operator. Both identity and OR operators possess the commutative and associative properties amongst themselves, but the k-NN operator does not. As such, expressing SQL queries, that usually can disregard the order in which predicates appear, now needs to be aware of the ordering. Furthermore, queries that use k-NN might generate multiple ties, and the lack of a methodology to solve them might lead to an arbitrary or context-detached untying process, where users have little or no control to intervene. In some applications, the lack of a controlled untying process may even lead to each query yielding distinct results if the underlying structures ought be subject to change, as it is be the case of the concurrent transactions in a relational database management system (RDBMS). This work focuses on the problems that arise from the integration of similarity based operators into RDBMS, more specifically the k-NN, and proposes new ways to represent queries with multiple predicates, including similarity, identity or OR, as well as new operators derived from k-NN that are better suited for a RDBMS environment containing hybrid queries, and also enable control over the untying process. Consultas por similaridade k-NN k-NN Modelo relacional RBDMS Relational model SGBDR Similarity queries
58	Determinantes do efeito da similaridade visual na memória de trabalho / Factors influencing the visual similarity effect in working memory Zar, Tamires 02 June 2017 (has links) A similaridade fonológica tem sido estudada desde a década de 1970, tendo contribuído de maneira essencial para o entendimento acerca do funcionamento da memória de trabalho. Vários trabalhos têm se dedicado ao estudo da similaridade visual, da possibilidade de correspondência entre esta e a similaridade fonológica, sem, entretanto, chegar a um consenso sobre a natureza de seu efeito sobre o desempenho em tarefas de reconhecimento. No presente trabalho, tivemos como objetivo caracterizar os efeitos da similaridade através da análise de algumas variáveis que possivelmente estariam relacionadas aos efeitos da similaridade na memória de trabalho. Realizou-se inicialmente uma avaliação dos estímulos a serem utilizados a fim de validar a classificação destes em diferentes níveis de similaridade. Em um segundo momento, foi realizada uma tarefa de reconhecimento na qual foram manipulados o nível de similaridade entre estímulos, o intervalo de retenção e a forma de apresentação dos estímulos. Os resultados demonstram que a similaridade visual entre os estímulos na codificação, aliada à dissimilaridade na recuperação, favorece o desempenho na realização da tarefa proposta. Além disso, o intervalo de retenção maior sugere um prejuízo no desempenho, especialmente em condições de alta similaridade na recuperação. Tais resultados corroboram a literatura e contribuem para o entendimento sobre o efeito da similaridade visual na memória de trabalho. / The phonological similarity has been studied since the 1970s, contributing in an essential matter for the understanding of working memory. Researchers studied visual similarity and its correspondence with the phonological similarity, without, however, arriving to a consensus about the nature of its effect on performance in recognition tasks. In this work, our objective was to caracterize the efects of similarity analyzing variables that could possibly be related to the effects of similarity in working memory. First, an evaluation was conducted in order to validate the classification we made for stimuli. Second, we manipulated the similarity between stimuli, the duration of retention interval and the stimulis presentation mode using an item recogniton task. Results show that visual similarity between stimuli at encoding, together with dissimilarity at retrieval, favors a better performance at this task. Besides, longer retention interval suggests worst performance, especially when there were high similarity levels at retrieval. These results agree with other works and contribute for the understanding of visual similarity effect in working memory. Memória de trabalho Memória visual Similaridade visual Visual memory Visual similarity Working memory
59	Infraestrutura computacional para avaliação da similaridade funcional composta entre microRNAs baseada em ontologias / Computational platform for evaluation of the composed functional similarity between microRNAs based on ontologies Sasazaki, Mariana Yuri 19 August 2014 (has links) MicroRNAs (miRNAs) são pequenos RNAs não codificadores de proteínas que atuam principalmente como silenciadores pós-transcricionais, inibindo a tradução de RNAs mensageiros. Evidências crescentes revelam que tais moléculas desempenham papéis críticos em muitos processos biológicos importantes. Uma vez que não existem anotações de termos de miRNAs na Gene Ontology (GO), tampouco um banco de dados de referência com anotações funcionais dos mesmos, o cálculo da medida de similaridade entre miRNAs de forma direta não possui um padrão estabelecido. Por outro lado, a existência de bancos de dados de genes-alvo de miRNAs, como o TarBase, e bases de dados contendo informações sobre associações de miRNAs e doenças humanas, como o HMDD, nos permite inferir a similaridade funcional dos miRNAs indiretamente, por meio da análise de seus genes-alvo na GO ou entre suas doenças relacionadas na ontologia MeSH. Além disso, de acordo com a estrutura da ontologia de miRNAs OMIT, um miRNA também pode ser anotado com outras informações, tais como a sua natureza de atuação como oncogênico ou supressor de tumor, o organismo em que se encontra, o tipo de experimento em que foi encontrado, suas associações com doenças, genes-alvo, proteínas e eventos patológicos. Dessa forma, a similaridade entre miRNAs pode ser inferida com base na combinação de um conjunto de informações contidas nas respectivas anotações, de forma que possamos obter um aproveitamento de várias informações existentes, definindo assim um cálculo de similaridade funcional composta. Assim, neste trabalho, propomos a criação e aplicação de um método chamado CFSim, aplicado sobre a OMIT e que utiliza a ontologia de doenças, MeSH, e a ontologia de genes, GO, para calcular a similaridade entre dois miRNAs, juntamente com informações contidas em suas anotações. A validação de nosso método foi realizada por meio da comparação com a similaridade funcional inferida considerando diferentes famílias de miRNAs e os resultados obtidos mostraram que nosso método é eficiente, no sentido de que a similaridade entre miRNAs pertencentes à mesma família é maior que a similaridade entre miRNAs de famílias distintas. Ainda, em comparação com os métodos de similaridade funcional já existentes na literatura, o CFSim obteve melhores resultados. Adicionalmente, para tornarmos viável a utilização do método proposto, foi projetado e implementado um ambiente contendo a infraestrutura necessária para que pesquisadores possam incluir dados obtidos de novas descobertas e consultar as informações sobre um determinado miRNA, assim como calcular a similaridade entre dois miRNAs, baseada no método proposto. / MicroRNAs (miRNAs) are small non-coding RNA that mainly negatively regulate gene expression by inhibiting translation of target RNAs. Increasing evidences show that such molecules play critical roles in many important biological processes. Since there are no terms of miRNAs annotations in Gene Ontology (GO), nor a database with microRNAs functional annotations, directly calculating the functional similarity between miRNAs does not have an estabilished pattern aproach. However, the existence of miRNAs target genes database, such as TarBase, and a miRNAs-disease associations database, such as HMDD, allow us to indirectly infer functional similarity of miRNAs through the analysis of their target genes in GO or between their related diseases in MeSH. Moreover, according to the structure of the ontology of miRNAs OMIT, a miRNA can also be annotated with other information, such as if it acts as an oncogene or a tumor suppressor, the organism that it belongs, the experiment in which it was found, its associations with diseases, target genes, proteins and pathological events. Thus, miRNAs similarity can be inferred based on the combination of a broad set of information contained in their annotations, indeed, we can use all available information defining the calculation of a composed functional similarity. In this study, we propose the creation and application of CFSim method applied to the OMIT using the diseases ontology, MeSH, and gene ontology, GO, to compute miRNAs similarity based on different information in their annotations. We validated our method by comparing with functional similarity inferred by miRNA families and the results showed that our method is efficient in sense that the functional similarity between miRNAs in the same family was greater compared to other miRNAs from distinct families. Furthermore, in comparison with existing methods of functional similarity in the literature until the present day, the CFSim showed better results. Finally, to make feasible the use of the proposed method, an environment was designed and implemented, containing the necessary infrastructure so that researchers can include data from new discoveries and see information about a particular miRNA, as well as calculate the similarity between two miRNAs, based in the proposed method. functional similarity gene ontology gene ontology MeSH MeSH microRNAs microRNAs OMIT OMIT similaridade funcional
60	Modelo de custo para consultas por similaridade em espaços métricos / Cost model for similarity queries in metric spaces Baioco, Gisele Busichia 24 January 2007 (has links) Esta tese apresenta um modelo de custo para estimar o número de acessos a disco (custo de I/O) e o número de cálculos de distância (custo de CPU) para consultas por similaridade executadas sobre métodos de acesso métricos dinâmicos. O objetivo da criação do modelo é a otimização de consultas por similaridade em Sistemas de Gerenciamento de Bases de Dados relacionais e objeto-relacionais. Foram considerados dois tipos de consultas por similaridade: consulta por abrangência e consulta aos k-vizinhos mais próximos. Como base para a criação do modelo de custo foi utilizado o método de acesso métrico dinâmico Slim-Tree. O modelo estima a dimensão intrínseca do conjunto de dados pela sua dimensão de correlação fractal. A validação do modelo é confirmada por experimentos com conjuntos de dados sintéticos e reais, de variados tamanhos e dimensões, que mostram que as estimativas obtidas em geral estão dentro da faixa de variação medida em consultas reais / This thesis presents a cost model to estimate the number of disk accesses (I/O costs) and the number of distance calculations (CPU costs) to process similarity queries over data indexed by dynamic metric access methods. The goal of the model is to optimize similarity queries on relational and object-relational Database Management Systems. Two types of similarity queries were taken into consideration: range queries and k-nearest neighbor queries. The dynamic metric access method Slim-Tree was used as the basis for the creation of the cost model. The model takes advantage of the intrinsic dimension of the data set, estimated by its correlation fractal dimension. Experiments were performed on real and synthetic data sets, with different sizes and dimensions, in order to validate the proposed model. They confirmed that the estimations are accurate, being always within the range achieved executing real queries Consultas por similaridade Cost model Estimativa de seletividade Modelo de custo Selectivity estimation Similarity queries

Search results