Spelling suggestions: "subject:"[een] SIMILARITY"" "subject:"[enn] SIMILARITY""
911 |
Apport des ontologies de domaine pour l'extraction de connaissances à partir de données biomédicales / Contribution of domain ontologies for knowledge discovery in biomedical dataPersoneni, Gabin 09 November 2018 (has links)
Le Web sémantique propose un ensemble de standards et d'outils pour la formalisation et l'interopérabilité de connaissances partagées sur le Web, sous la forme d'ontologies. Les ontologies biomédicales et les données associées constituent de nos jours un ensemble de connaissances complexes, hétérogènes et interconnectées, dont l'analyse est porteuse de grands enjeux en santé, par exemple dans le cadre de la pharmacovigilance. On proposera dans cette thèse des méthodes permettant d'utiliser ces ontologies biomédicales pour étendre les possibilités d'un processus de fouille de données, en particulier, permettant de faire cohabiter et d'exploiter les connaissances de plusieurs ontologies biomédicales. Les travaux de cette thèse concernent dans un premier temps une méthode fondée sur les structures de patrons, une extension de l'analyse formelle de concepts pour la découverte de co-occurences de événements indésirables médicamenteux dans des données patients. Cette méthode utilise une ontologie de phénotypes et une ontologie de médicaments pour permettre la comparaison de ces événements complexes, et la découverte d'associations à différents niveaux de généralisation, par exemple, au niveau de médicaments ou de classes de médicaments. Dans un second temps, on utilisera une méthode numérique fondée sur des mesures de similarité sémantique pour la classification de déficiences intellectuelles génétiques. On étudiera deux mesures de similarité utilisant des méthodes de calcul différentes, que l'on utilisera avec différentes combinaisons d'ontologies phénotypiques et géniques. En particulier, on quantifiera l'influence que les différentes connaissances de domaine ont sur la capacité de classification de ces mesures, et comment ces connaissances peuvent coopérer au sein de telles méthodes numériques. Une troisième étude utilise les données ouvertes liées ou LOD du Web sémantique et les ontologies associées dans le but de caractériser des gènes responsables de déficiences intellectuelles. On utilise ici la programmation logique inductive, qui s'avère adaptée pour fouiller des données relationnelles comme les LOD, en prenant en compte leurs relations avec les ontologies, et en extraire un modèle prédictif et descriptif des gènes responsables de déficiences intellectuelles. L'ensemble des contributions de cette thèse montre qu'il est possible de faire coopérer avantageusement une ou plusieurs ontologies dans divers processus de fouille de données / The semantic Web proposes standards and tools to formalize and share knowledge on the Web, in the form of ontologies. Biomedical ontologies and associated data represents a vast collection of complex, heterogeneous and linked knowledge. The analysis of such knowledge presents great opportunities in healthcare, for instance in pharmacovigilance. This thesis explores several ways to make use of this biomedical knowledge in the data mining step of a knowledge discovery process. In particular, we propose three methods in which several ontologies cooperate to improve data mining results. A first contribution of this thesis describes a method based on pattern structures, an extension of formal concept analysis, to extract associations between adverse drug events from patient data. In this context, a phenotype ontology and a drug ontology cooperate to allow a semantic comparison of these complex adverse events, and leading to the discovery of associations between such events at varying degrees of generalization, for instance, at the drug or drug class level. A second contribution uses a numeric method based on semantic similarity measures to classify different types of genetic intellectual disabilities, characterized by both their phenotypes and the functions of their linked genes. We study two different similarity measures, applied with different combinations of phenotypic and gene function ontologies. In particular, we investigate the influence of each domain of knowledge represented in each ontology on the classification process, and how they can cooperate to improve that process. Finally, a third contribution uses the data component of the semantic Web, the Linked Open Data (LOD), together with linked ontologies, to characterize genes responsible for intellectual deficiencies. We use Inductive Logic Programming, a suitable method to mine relational data such as LOD while exploiting domain knowledge from ontologies by using reasoning mechanisms. Here, ILP allows to extract from LOD and ontologies a descriptive and predictive model of genes responsible for intellectual disabilities. These contributions illustrates the possibility of having several ontologies cooperate to improve various data mining processes
|
912 |
Enhancing Ontology Matching by Using Machine Learning, Graph Matching and Information Retrieval Techniques / Amélioration de l'alignement d'ontologies par les techniques d'apprentissage automatique, d'appariement de graphes et de recherche d'informationNgo, Duy Hoa 14 December 2012 (has links)
Ces dernières années, les ontologies ont suscité de nombreux travaux dans le domaine du web sémantique. Elles sont utilisées pour fournir le vocabulaire sémantique permettant de rendre la connaissance du domaine disponible pour l'échange et l'interprétation au travers des systèmes d'information. Toutefois, en raison de la nature décentralisée du web sémantique, les ontologies sont très hétérogènes. Cette hétérogénéité provoque le problème de la variation de sens ou ambiguïté dans l'interprétation des entités et, par conséquent, elle empêche le partage des connaissances du domaine. L'alignement d'ontologies, qui a pour but la découverte des correspondances sémantiques entre des ontologies, devient une tâche cruciale pour résoudre ce problème d'hétérogénéité dans les applications du web sémantique. Les principaux défis dans le domaine de l'alignement d'ontologies ont été décrits dans des études récentes. Parmi eux, la sélection de mesures de similarité appropriées ainsi que le réglage de la configuration de leur combinaison sont connus pour être des problèmes fondamentaux que la communauté doit traiter. En outre, la vérification de la cohérence sémantique des correspondances est connue pour être une tâche importante. Par ailleurs, la difficulté du problème augmente avec la taille des ontologies. Pour faire face à ces défis, nous proposons dans cette thèse une nouvelle approche, qui combine différentes techniques issues des domaines de l'apprentissage automatique, d'appariement de graphes et de recherche d'information en vue d'améliorer la qualité de l'alignement d'ontologies. En effet, nous utilisons des techniques de recherche d'information pour concevoir de nouvelles mesures de similarité efficaces afin de comparer les étiquettes et les profils d'entités de contexte au niveau des entités. Nous appliquons également une méthode d'appariement de graphes appelée propagation de similarité au niveau de la structure qui découvre effectivement des correspondances en exploitant des informations structurelles des entités. Pour combiner les mesures de similarité au niveau des entités, nous transformons la tâche de l'alignement d'ontologie en une tâche de classification de l'apprentissage automatique. Par ailleurs, nous proposons une méthode dynamique de la somme pondérée pour combiner automatiquement les correspondances obtenues au niveau des entités et celles obtenues au niveau de la structure. Afin d'écarter les correspondances incohérentes, nous avons conçu une nouvelle méthode de filtrage sémantique. Enfin, pour traiter le problème de l'alignement d'ontologies à large échelle, nous proposons deux méthodes de sélection des candidats pour réduire l'espace de calcul.Toutes ces contributions ont été mises en œuvre dans un prototype nommé YAM++. Pour évaluer notre approche, nous avons utilisé des données du banc d'essai de la compétition OAEI : Benchmark, Conference, Multifarm, Anatomy, Library and Large Biomedical Ontologies. Les résultats expérimentaux montrent que les méthodes proposées sont très efficaces. De plus, en comparaison avec les autres participants à la compétition OAEI, YAM++ a montré sa compétitivité et a acquis une position de haut rang. / In recent years, ontologies have attracted a lot of attention in the Computer Science community, especially in the Semantic Web field. They serve as explicit conceptual knowledge models and provide the semantic vocabularies that make domain knowledge available for exchange and interpretation among information systems. However, due to the decentralized nature of the semantic web, ontologies are highlyheterogeneous. This heterogeneity mainly causes the problem of variation in meaning or ambiguity in entity interpretation and, consequently, it prevents domain knowledge sharing. Therefore, ontology matching, which discovers correspondences between semantically related entities of ontologies, becomes a crucial task in semantic web applications.Several challenges to the field of ontology matching have been outlined in recent research. Among them, selection of the appropriate similarity measures as well as configuration tuning of their combination are known as fundamental issues that the community should deal with. In addition, verifying the semantic coherent of the discovered alignment is also known as a crucial task. Furthermore, the difficulty of the problem grows with the size of the ontologies. To deal with these challenges, in this thesis, we propose a novel matching approach, which combines different techniques coming from the fields of machine learning, graph matching and information retrieval in order to enhance the ontology matching quality. Indeed, we make use of information retrieval techniques to design new effective similarity measures for comparing labels and context profiles of entities at element level. We also apply a graph matching method named similarity propagation at structure level that effectively discovers mappings by exploring structural information of entities in the input ontologies. In terms of combination similarity measures at element level, we transform the ontology matching task into a classification task in machine learning. Besides, we propose a dynamic weighted sum method to automatically combine the matching results obtained from the element and structure level matchers. In order to remove inconsistent mappings, we design a new fast semantic filtering method. Finally, to deal with large scale ontology matching task, we propose two candidate selection methods to reduce computational space.All these contributions have been implemented in a prototype named YAM++. To evaluate our approach, we adopt various tracks namely Benchmark, Conference, Multifarm, Anatomy, Library and Large BiomedicalOntologies from the OAEI campaign. The experimental results show that the proposed matching methods work effectively. Moreover, in comparison to other participants in OAEI campaigns, YAM++ showed to be highly competitive and gained a high ranking position.
|
913 |
Operação de busca exata aos K-vizinhos mais próximos reversos em espaços métricos / Answering exact reverse k-nerarest neighbors queries in metric spaceOliveira, Willian Dener de 19 March 2010 (has links)
A complexidade dos dados armazenados em grandes bases de dados aumenta cada vez mais, criando a necessidade de novas operações de consulta. Uma classe de operações que tem apresentado interesse crescente são as chamadas Consultas por Similaridade, sendo as mais conhecidas as consultas por Abrangência (\'R IND. q\') e por k-Vizinhos mais Proximos (kNN), sendo que esta ultima obtem quais são os k elementos armazenados mais similares a um dado elemento de referência. Outra consulta que é interessante tanto para consultas diretas quanto como parte de operações de análises mais complexas e a operação de consulta aos k-Vizinhos mais Próximos Reversos (RkNN). Seu objetivo e obter todos os elementos armazenados que têm um dado elemento de referência como um dos seus k elementos mais similares. Devido a complexidade de execução da operação de RkNN, a grande maioria das soluções existentes restringem-se a dados representados em espaços multidimensionais euclidianos (nos quais estão denidas tambem operações cardinais e topológicas, além de se considerar a similaridade como sendo a distância Euclidiana entre dois elementos), ou então obtém apenas respostas aproximadas, sujeitas a existência de falsos negativos. Várias aplicações de análise de dados científicos, médicos, de engenharia, financeiros, etc. requerem soluções eficientes para o problema da operação de RkNN sobre dados representados em espaços métricos, onde os elementos não podem ser considerados estar em um espaço nem Euclidiano nem multidimensional. Num espaço métrico, além dos próprios elementos armazenados existe apenas uma função de comparação métrica entre pares de objetos. Neste trabalho, são propostas novas podas de espaço de busca e o algoritmo RkNN-MG que utiliza essas novas podas para solucionar o problema de consultas RkNN exatas em espaços métricos sem limitações. Toda a proposta supõe que o conjunto de dados esta em um espaço métrico imerso isometricamente em espaço euclidiano e utiliza propriedades da geometria métrica válida neste espaço para realizar podas eficientes por lei dos cossenos combinada com as podas tradicionais por desigualdade triangular. Os experimentos demonstram comparativamente que as novas podas são mais eficientes que as tradicionais podas por desigualdade triangular, tendo desempenhos equivalente quando comparadas em conjuntos de alta dimensionalidade ou com dimensão fractal alta. Assim, os resultados confirmam as novas podas propostas como soluções alternativas eficientes para o problema de consultas RkNN / Data stored in large databases present an ever increasing complexity, pressing for the development of new classes of query operators. One such class, which is enticing an increasing interest, is the so-called Similarity Queries, where the most common are the similarity range queries (\'R IND. q\') and the k-nearest neighbor queries (kNN). A k-nearest neighbor query aims at retrieving the k stored elements nearer (or more similar) to a given reference element. Another important similarity query is the reverse k-nearest neighbor (RkNN), useful both for queries posed directly by the analyst and for queries that are part of more complex analysis processes. The objective of a reverse k-nearest neighbor queries is obtaining the stored elements that has the query reference element as one of their k-nearest neighbors. As the RkNN operation is a rather expensive operation, from the computational standpoint, most existing solutions only solve the query when applied over Euclidean multidimensional spaces (as these spaces also define cardinal and topological operations besides the Euclidean distance between pairs of elements) or retrieve only approximate answers, where false negatives can occur. Several applications, like the analysis of scientific, medical, engineering or financial data, require efficient and exact answers for the RkNN queries over data which is frequently represented in metric spaces, that is where no other property besides the similarity measure exists. Therefore, for applications handling metrical data, the assumption of Euclidean metric or even multidimensional data cannot be used. In this work, we propose new pruning rules based on the law of cosines, and the RkNN-MG algorithm, which uses them to solve RkNN queries in a way that is exact, faster than the existing approaches, that is not limited for any value of k, and that can be applied both over static and over dynamic datasets. The new pruning rules assume that the data set is in a metric space that can be embedded into an Euclidean space and use metric geometry properties valid in this space to perform effective pruning based on the law of cosines combined with the traditional pruning based on the triangle inequality property. The experiments show that the new pruning rules are alkways more efficient than the traditional pruning rules based solely on the triangle inequality. The experiments show that for high high dimensionality datasets, or for metric datasets with high fractal dimensionality, the performance improvement is smaller than for for lower dimensioinality datasets, but it\'s never worse. Thus, the results confirm that the our pruning rules are efficient alternative to solve RkNN queries in general
|
914 |
Desenvolvimento de métodos para extração, comparação e análise de características intrínsecas de imagens médicas, visando à recuperação perceptual por conteúdo / Development of methods for extraction, comparison and analysis of intrinsic features of medical images, aiming at perceptual content-based retrievalFelipe, Joaquim Cezar 16 December 2005 (has links)
A possibilidade de recuperar e comparar imagens usando as suas características visuais intrínsecas é um recurso valioso para responder a consultas por similaridade em imagens médicas. Desse modo, a agregação desses recursos aos Sistemas de Arquivamento e Comunicação de Imagens (Picture Archiving and Communication Systems - PACS) vêm potencializar a utilidade e importância destes no contexto de atividades tais como ensino e treinamento de novos radiologistas, estudos de casos e auxílio ao diagnóstico de forma geral, uma vez que as consultas por similaridade permitem que casos parecidos possam ser facilmente recuperados. O trabalho apresentado nesta tese possui duas vertentes. Primeiro, ele apresenta novos métodos de extração e de características, com o objetivo de obter a essência das imagens, considerando um critério específico. Os atributos obtidos pelos algoritmos de extração são armazenados em vetores de características para posteriormente serem utilizados para indexar e recuperar as imagens baseando-se em seu conteúdo, para responder a consultas por similaridade. Há uma relação próxima entre os vetores de características e as funções de distância utilizadas para compará-los. Assim, a segunda parte deste trabalho trata da proposta, análise e comparação de novas famílias de funções de distância. As funções de distância propostas têm por objetivo tratar o problema do gap semântico, o qual representa o principal obstáculo das funções de distância tradicionais, derivadas da família Lp, quando processam consultas por similaridade. As principais contribuições desta tese incluem o desenvolvimento de novos métodos de extração e comparação de características de imagens, que operam sobre os três principais descritores de baixo nível de imagens: distribuição de cor, textura e forma. Os experimentos realizados mostraram que os ganhos em precisão são maiores para os métodos propostos, quando comparados com algoritmos tradicionais. No que diz respeito às famílias de funções de distância propostas (WAID e SAID), pelos resultados iniciais obtidos, podemos afirmar que eles são bastante promissores no sentido de se aproximarem da expectativa do usuário, no momento de comparar imagens. Os resultados obtidos com esse trabalho podem ser futuramente integrados aos PACS. Particularmente, pretendemos acrescentar novos algoritmos e métodos ao cbPACS, que consiste em um sistema PACS em construção, desenvolvido em uma colaboração entre o Grupo de Bases de Dados e Imagens (GBDI) do Instituto de Ciências Matemáticas e de Computação - USP e o Centro de Ciências da Imagens e Física Médica (CCIFM) da Faculdade de Medicina de Ribeirão Preto - USP / The ability of retrieving and comparing images using their inherent pictorial information is a valuable asset to answer similarity queries over medical images. Thus, having such resources added in Picture Archiving and Communication Systems (PACS) increase their applicability and importance in the context of teaching and training new radiologists on diagnosing, since that similar cases can be easily retrieved. Similarity queries also play an important role on gathering close images, what allows to perform case studies, as well as to aid on diagnosing. The work presented in this thesis is twofold. First, it presents new feature extraction techniques, which aim at obtaining the essence of the images regarding a given criteria. The features obtained by the algorithms are stored in feature vectors and employed to index and retrieve the images by content, in order to answer similarity queries. There is a close relationship among feature vectors and the distance function employed to compare them. Thus, the second, part of this work concerns the comparison, analysis and proposal of new families of distance functions to compare the features extracted from the images. The distance functions proposed intend to deal with the semantic gap problem, which is the main drawback of the traditional distance functions derived from the Lp metrics when processing similarity queries. The main contributions of this thesis include the development of new image feature extractors that works on the three aspects of raw image data (color distribution, texture and shape). The experiments have shown that the gain in precision are higher for all the feature extractors proposed, when comparing with the state-of-the-art algorithms. Regarding the two families of distance functions WAID and SAID proposed, by the initial experiments performed we can claim that they are very promising on preserving the user expectation when comparing images. The results provided by this work can be straightforwardly integrated to PACS. Particularly, we intend to add the new algorithms and methods to cbPACS, which is under joined development between the Image Data Base Group of Instituto de CiLncias Matemáticas e de Computaçno of USP and Centro de CiLncias de Imagens e Física Médica of Faculdade de Medicina de Ribeirno Preto of USP
|
915 |
Predição de séries temporais por similaridade / Similarity-based time series predictionAntonio Rafael Sabino Parmezan 07 April 2016 (has links)
Um dos maiores desafios em Mineração de Dados é a integração da informação temporal ao seu processo. Esse fato tem desafiado profissionais de diferentes domínios de aplicação e recebido investimentos consideráveis da comunidade científica e empresarial. No contexto de predição de Séries Temporais, os investimentos se concentram no subsídio de pesquisas destinadas à adaptação dos métodos convencionais de Aprendizado de Máquina para a análise de dados na qual o tempo constitui um fator importante. À vista disso, neste trabalho é proposta uma nova extensão do algoritmo de Aprendizado de Máquina k-Nearest Neighbors (kNN) para predição de Séries Temporais, intitulado de kNN - Time Series Prediction with Invariances (kNN-TSPI ). O algoritmo concebido difere da versão convencional pela incorporação de três técnicas para obtenção de invariância à amplitude e deslocamento, invariância à complexidade e tratamento de casamentos triviais. Como demonstrado ao longo desta dissertação de mestrado, o uso simultâneo dessas técnicas proporciona ao kNN-TSPI uma melhor correspondência entre as subsequências de dados e a consulta de referência. Os resultados de uma das avaliações empíricas mais extensas, imparciais e compreensíveis já conduzidas no tema de predição de Séries Temporais evidenciaram, a partir do confronto de dez métodos de projeção, que o algoritmo kNN-TSPI, além de ser conveniente para a predição automática de dados a curto prazo, é competitivo com os métodos estatísticos estado-da-arte ARIMA e SARIMA. Por mais que o modelo SARIMA tenha atingido uma precisão relativamente superior a do método baseado em similaridade, o kNN-TSPI é consideravelmente mais simples de ajustar. A comparação objetiva e subjetiva entre algoritmos estatísticos e de Aprendizado de Máquina para a projeção de dados temporais vem a suprir uma importante lacuna na literatura, a qual foi identificada por meio de uma revisão sistemática seguida de uma meta-análise das publicações selecionadas. Os 95 conjuntos de dados empregados nos experimentos computacionais juntamente com todas as projeções analisadas em termos de Erro Quadrático Médio, coeficiente U de Theil e taxa de acerto Prediction Of Change In Direction encontram-se disponíveis no portal Web ICMC-USP Time Series Prediction Repository. A presente pesquisa abrange também contribuições e resultados significativos em relação às propriedades inerentes à predição baseada em similaridade, sobretudo do ponto de vista prático. Os protocolos experimentais delineados e as diversas conclusões obtidas poderão ser usados como referência para guiar o processo de escolha de modelos, configuração de parâmetros e aplicação dos algoritmos de Inteligência Artificial para predição de Séries Temporais. / One of the major challenges in Data Mining is integrating temporal information into process. This difficulty has challenged professionals several application fields and has been object of considerable investment from scientific and business communities. In the context of Time Series prediction, these investments consist majority of grants for designed research aimed at adapting conventional Machine Learning methods for data analysis problems in which time is an important factor. We propose a novel modification of the k-Nearest Neighbors (kNN) learning algorithm for Time Series prediction, namely the kNN - Time Series Prediction with Invariances (kNN-TSPI). Our proposal differs from the literature by incorporating techniques for amplitude and offset invariance, complexity invariance, and treatment of trivial matches. These three modifications allow more meaningful matching between the reference queries and Time Series subsequences, as we discuss with more details throughout this masters thesis. We have performed one of the most comprehensible empirical evaluations of Time Series prediction, in which we faced the proposed algorithm with ten methods commonly found in literature. The results show that the kNN-TSPI is appropriate for automated short-term projection and is competitive with the state-of-the-art statistical methods ARIMA and SARIMA. Although in our experiments the SARIMA model has reached a slightly higher precision than the similarity based method, the kNN-TSPI is considerably simpler to adjust. The objective and subjective comparisons of statistical and Machine Learning algorithms for temporal data projection fills a major gap in the literature, which was identified through a systematic review followed by a meta-analysis of selected publications. The 95 data sets used in our computational experiments, as well all the projections with respect to Mean Squared Error, Theils U coefficient and hit rate Prediction Of Change In Direction are available online at the ICMC-USP Time Series Prediction Repository. This work also includes contributions and significant results with respect to the properties inherent to similarity-based prediction, especially from the practical point of view. The outlined experimental protocols and our discussion on the usage of them, can be used as a guideline for models selection, parameters setting, and employment of Artificial Intelligence algorithms for Time Series prediction.
|
916 |
Solução da equação de condução de calor na presença de uma mudança de fase em uma cavidade cilíndrica / Heat conduction equation solution in the presence of a change of state in a bounded axisymmetric cylindrical domainDanillo Silva de Oliveira 30 November 2011 (has links)
O problema da condução de calor, envolvendo mudança de fase, foi resolvido para o caso de uma cavidade limitada por duas superfícies cilíndricas indefinidamente longas. As condições de contorno impostas consistem em manter a temperatura da superfície interna fixa e abaixo da temperatura de fusão do material que preenche a cavidade, enquanto que a temperatura da superfície externa é mantida fixa e acima da temperatura de fusão. Como condição inicial se fixou a temperatura de todo o material que preenche a cavidade no valor da temperatura da superfície externa. A solução obtida consiste em duas soluções da equação de condução de calor, uma escrita para o material solidificado e outra escrita para o material em estado líquido. As duas soluções são formalmente escritas em termos da posição da frente de mudança de fase, que é representada por uma superfície cilíndrica com raio em expansão dentro da cavidade. A posição dessa superfície é, a princípio, desconhecida e é calculada impondo o balanço de energia através da frente da mudança de fase. O balanço de energia é expresso por uma equação diferencial de primeira ordem, cuja solução numérica fornece a posição da frente como função do tempo. A substituição da posição da frente de mudança de fase em um instante particular, nas soluções da equação de condução de calor, fornece a temperatura nas duas fases naquele instante. A solução obtida é ilustrada através de exemplos numéricos. / The heat conduction problem, in the presence of a change of state, was solved for the case of an indefinitely long cylindrical layer cavity. As boundary conditions it is imposed that the internal surface of the cavity is maintained below the fusion temperature of the infilling substance and the external surface is kept above it. The solution, obtained in non-dimensional variables, consists in two closed form heat conduction equation solutions for the solidified and liquid regions, which formally depend of the, at first, unknown position of the phase change front. The energy balance through the phase change front furnishes the equation for time dependence of the front position, which is numerically solved. Substitution of the front position for a particular instant in the heat conduction equation solutions gives the temperature distribution inside the cavity at that moment. The solution is illustrated with numerical examples.
|
917 |
Transformação de espaços métricos otimizando a recuperação de imagens por conteúdo e avaliação por análise visual / Metric space transformation optimizing content-based image retrieval and visual analysis evaluationAvalhais, Letrícia Pereira Soares 30 January 2012 (has links)
O problema da descontinuidade semântica tem sido um dos principais focos de pesquisa no desenvolvimento de sistemas de recuperação de imagens baseada em conteúdo (CBIR). Neste contexto, as pesquisas mais promissoras focam principalmente na inferência de pesos de características contínuos e na seleção de características. Entretanto, os processos tradicionais de inferência de pesos contínuos são computacionalmente caros e a seleção de características equivale a uma ponderação binária. Visando tratar adequadamente o problema de lacuna semântica, este trabalho propõe dois métodos de transformação de espaço de características métricos baseados na inferência de funções de transformação por meio de algoritmo genético. O método WF infere funções de ponderação para ajustar a função de dissimilaridade e o método TF infere funções para transformação das características. Comparados às abordagens de inferência de pesos contínuos da literatura, ambos os métodos propostos proporcionam uma redução drástica do espaço de busca ao limitar a busca à escolha de um conjunto ordenado de funções de transformação. Análises visuais do espaço transformado e de gráficos de precisão vs. revocação confirmam que TF e WF superam a abordagem tradicional de ponderação de características. Adicionalmente, foi verificado que TF supera significativamente WF em termos de precisão dos resultados de consultas por similaridade por permitir transformação não lineares no espaço de característica, conforme constatado por análise visual. / The semantic gap problem has been a major focus of research in the development of content-based image retrieval (CBIR) systems. In this context, the most promising research focus primarily on the inference of continuous feature weights and feature selection. However, the traditional processes of continuous feature weighting are computationally expensive and feature selection is equivalent to a binary weighting. Aiming at alleviating the semantic gap problem, this master dissertation proposes two methods for the transformation of metric feature spaces based on the inference of transformation functions using Genetic Algorithms. The WF method infers weighting functions and the TF method infers transformation functions for the features. Compared to the existing methods, both proposed methods provide a drastic searching space reduction by limiting the search to the choice of an ordered set of transformation functions. Visual analysis of the transformed space and precision. vs. recall graphics confirm that both TF and WF outperform the traditional feature eighting methods. Additionally, we found that TF method significantly outperforms WF regarding the query similarity accuracy by performing non linear feature space transformation, as found in the visual analysis.
|
918 |
Generation of semantic layouts for interactive multidimensional data visualization / Geração de layouts semânticos para a visualização interativa de dados multidimensionaisGomez Nieto, Erick Mauricio 24 February 2017 (has links)
Visualization methods make use of interactive graphical representations embedded on a display area in order to enable data exploration and analysis. These typically rely on geometric primitives for representing data or building more sophisticated representations to assist the visual analysis process. One of the most challenging tasks in this context is to determinate an optimal layout of these primitives which turns out to be effective and informative. Existing algorithms for building layouts from geometric primitives are typically designed to cope with requirements such as orthogonal alignment, overlap removal, optimal area usage, hierarchical organization, dynamic update among others. However, most techniques are able to tackle just a few of those requirements simultaneously, impairing their use and flexibility. In this dissertation, we propose a set of approaches for building layouts from geometric primitives that concurrently addresses a wider range of requirements. Relying on multidimensional projection and optimization formulations, our methods arrange geometric objects in the visual space so as to generate well-structured layouts that preserve the semantic relation among objects while still making an efficient use of display area. A comprehensive set of quantitative comparisons against existing methods for layout generation and applications on text, image, and video data set visualization prove the effectiveness of our approaches. / Métodos de visualização fazem uso de representações gráficas interativas embutidas em uma área de exibição para exploração e análise de dados. Esses recursos visuais usam primitivas geométricas para representar dados ou compor representações mais sofisticadas que facilitem a extração visual de informações. Uma das tarefas mais desafiadoras é determinar um layout ótimo visando explorar suas capacidades para transmitir informação dentro de uma determinada visualização. Os algoritmos existentes para construir layouts a partir de primitivas geométricas são tipicamente projetados para lidar com requisitos como alinhamento ortogonal, remoção de sobreposição, área usada, organização hierárquica, atualização dinâmica entre outros. No entanto, a maioria das técnicas são capazes de lidar com apenas alguns desses requerimentos simultaneamente, prejudicando sua utilização e flexibilidade. Nesta tese, propomos um conjunto de abordagens para construir layouts a partir de primitivas geométricas que simultaneamente lidam com uma gama mais ampla de requerimentos. Baseando-se em projeções multidimensionais e formulações de otimização, os nossos métodos organizam objetos geométricos no espaço visual para gerar layouts bem estruturados que preservam a relação semântica entre objetos enquanto ainda fazem um uso eficiente da área de exibição. Um conjunto detalhado de comparações quantitativas com métodos existentes para a geração de layouts e aplicações em visualização de conjunto de dados de texto, imagem e vídeo comprova a eficácia das técnicas propostas.
|
919 |
Matching beer with food : pairing principles, underlying mechanisms and a focus on aromatic similarity / Associer la bière à un mets : principes d'association, mécanismes sous-jacents et focus sur la similarité aromatiqueEschevins, Anastasia 18 December 2018 (has links)
L’association de la bière avec les mets apparaît comme une nouvelle tendance en France. Il est donc nécessaire pour les promoteurs de bière et les professionnels de la gastronomie de fournir à leurs clients des conseils de qualité en terme d’accord bière et mets. Au vu de ce contexte, l’objectif de la thèse était d’identifier les principes d’association et de mieux comprendre les mécanismes perceptuels qui les sous-tendent. Les déterminants des accords mets et boissons ont, dans un premier temps, été identifiés à partir du discours d’experts. Les résultats ont montrés que les associations mets et boissons sont régies par des caractéristiques perceptuelles, conceptuelles et affectives, liées à des mécanismes physico-chimiques, perceptuels et cognitifs. Les experts ont souvent mentionné la «similarité aromatique» comme l'un des principaux principes d'association. Ce principe consiste à associer deux produits partageant des arômes similaires. Les mécanismes perceptuels sous-jacents à ce principe ont été investigués. Les résultats ont montrés qu’une similarité aromatique entre un mets et une boisson augmente le niveau d’harmonie et d’homogénéité de leur association et diminue sa complexité. Ces effets peuvent être renforcés en orientant l’attention du dégustateur sur l’arôme partagé. D’un point de vue théorique, cette thèse conclut que l’association bières et mets inclut des dimensions sensorielles avec une recherche d’harmonie, mais aussi des dimensions symboliques et contextuelles. D’un point de vue plus appliqué, cette thèse fournit aux professionnels de la gastronomie, de nouvelles informations concernant les mécanismes perceptifs sous-tendant les principes d’associations. / Pairing between beer and dishes emerges as a new trend in France. Beer promoters or gastronomy professionals need to offer high-quality advices in terms of beer and food pairing to their customers. Within this context, the objective of the research was to identify pairing principles and to better understand the underlying perceptual mechanisms. Determinants of food and beverage pairing were first analysed from experts’ discourses. Results showed that food and beverage pairings are governed by perceptual, conceptual and affective features, related to physio-chemical, perceptual and cognitive processes. Experts often mentioned “Aromatic Similarity” as one of the main pairing principles. This “Aromatic similarity” principle consists in matching two products sharing similar aromas. Underlying perceptual mechanisms were then investigated. Results showed that aromatic similarity in food and beverage generally increases harmony and homogeneity and decreases complexity of the match. These effects can be reinforced by orientating the attentional focus on the shared aroma. From a theoretical point of view, this work concludes that beer and food pairing includes sensory dimensions with the search for harmony, as well as symbolic and contextual dimensions. From an applied point of view, this work provides useful information to gastronomy professionals with recent knowledge on perceptual mechanisms underlying food and beverage pairing principles.
|
920 |
Modelagem de Adequabilidade de Habitat de Corais Azooxantelados na Margem Continental do Brasil, com ênfase na Bacia de Campos / Modelling Azooxanthellate, Corals on the Brazilian Continental Margin, with emphasis on the Campos BasinRomina Vanessa Barbosa 25 October 2016 (has links)
Na presente dissertação eu estudei a distribuição potencial dos corais de águas profundas ao longo da margem continental brasileira e o efeito da resolução das variáveis ambientais em modelos de adequabilidade de habitat (MAH). Primeiramente foi determinada a distribuição potencial de corais de águas profundas a partir de modelos de adequabilidade de habitat de máxima entropia (MaxEnt). Os modelos foram alimentados com diversas camadas de dados SIG de variáveis ambientais e dados de ocorrência de espécies extraídos de bancos de dados e de novos registros. Foram estudados os grupos Scleractinia e Octocorallia, assim como quatro espécies de corais formadores de recifes (Solenosmilia variabilis, Lophelia pertusa, Madrepora oculata e Enallopsammia rostrata) e duas espécies de escleractínios não formadores de recifes (Cladocora debilis e Deltocyathus spp.). O nicho ambiental ocupado pelos táxons foi representado a partir de uma análise multivariada, sendo determinada a sobreposição entre os nichos. A partir disso foi avaliada a similaridade e equivalência de nicho ambiental entre as espécies. Os modelos resultantes indicaram que Scleractinia apresenta distribuição potencial na margem continental leste e sudeste do Brasil (porção Central e Sul), enquanto que Octocorallia apresenta uma distribuição potencial mais ampla abarcando toda a margem continental brasileira, com maior adequabilidade nas margens norte e nordeste. Assim, as áreas de distribuição potencial compartilhada entre octocorais e escleractínios foram aquelas ao largo da porção leste e sudeste do Brasil, sendo estas prioritárias para futuras pesquisas. Os nichos ambientais específicos indicaram menos tolerância de Scleractinia a altas temperaturas em comparação com Octocorallia. Os octocorais ocuparam uma maior amplitude do gradiente ambiental, principalmente relacionado às condições de carbono orgânico particulado, oxigênio dissolvido e temperatura. Isto possivelmente permite aos octocorais habitar a porção norte da margem continental brasileira, onde os modelos de escleractínios indicaram baixa adequabilidade de habitat. A margem continental sudeste do Brasil teve a maior adequabilidade para as espécies de escleractínios formadores de recifes profundos. Isto é de grande valor para planos de conservação nesta área que atualmente apresenta atividades de extração de óleo e gás e que, futuramente, pode ser explotada para a extração de minério. Além disso, as espécies formadoras de recifes ocuparam nichos ambientais similares e, portanto, mudanças nas condições ambientais, como por exemplo as associadas às mudanças climáticas, podem afetar todas elas. Contudo, seus nichos não são equivalentes e, portanto, cada uma delas faz um uso diferente do espaço ambiental da margem continental brasileira. Por último, foram desenvolvidos modelos MaxEnt para Solenosmilia variabilis, Lophelia pertusa, Madrepora oculata e Enallopsammia rostrata em duas resoluções de análise, uma de baixa (i.e., com um tamanho de pixel de aproximadamente 1000 m2) e uma de alta resolução (i.e., pixel de aproximadamente 100 m2) para determinar o efeito da resolução das variáveis ambientais utilizadas na performance e na extensão de área predita de modelos de adequabilidade de habitat. A diferença na extensão da área adequada predita por ambas resoluções foi medida de acordo a três limiares de corte diferentes. Os resultados indicaram diferenças na performance dependendo da resolução, com maior performance nos modelos de alta resolução. Além disso, a extensão de área adequada predita foi geralmente maior nos modelos de baixa resolução, com algumas exceções dependendo da espécie e do limiar de corte. Estes resultados ressaltam a importância da resolução das variáveis ambientais e suas implicações no uso de MAH no planejamento e manejo de Áreas Marinhas Protegidas (MPAs). / In this thesis I studied the deep-sea coral distribution along the Southwestern Atlantic Ocean and the effect of the environmental variables resolution on habitat suitability models (HSM). In the second chapter, I developed HSM based on the Maximum Entropy (MaxEnt) algorithm to identify the potential distribution of deep-water corals. To perform the models, I have used species presence data from existing datasets together with new species records and global environmental variables. I used the main environmental variables to identify suitable areas by modeling niches of different coral taxa. The studied taxa were Scleractinia and Octocorallia, as well as four reef-forming scleractinian species (Solenosmilia variabilis, Lophelia pertusa, Madrepora oculata and Enallopsammia rostrata), and two non-reef-building scleractinians (Cladocora debilis and Deltocyathus spp.). Furthermore, I used multivariate approach to compare their environmental occupied niche in order to assess the spatial niche overlap and test niche similarity and equivalence. The resulting cold-water coral models showed that the most suitable areas occur along the west and southwestern continental margin of Brazil, which permitted to determine areas of priority for future exploration/research to determine conservation areas. Specific environmental niches suggested lower tolerance to high temperatures for Scleractinia than for Octocorallia. Besides, octocorals occupied a wider range of the environmental gradient, which was mainly related to particulate organic carbon, oxygen and temperature. This probably enables them to inhabit the northern part of Brazil where scleratinian models classified as poor habitats for this group. In addition, the Southwestern Brazilian continental margin encloses the most suitable habitats for deep reef-building species. This has important implications for conservation plans in that area already facing gas and oil exploitation and probably future mineral extraction. On the other hand, results suggest that different scleractinian cold-water coral species occupy similar environmental niches and, for this reason, I concluded that changes in environmental conditions, such as those associated to climate change, may affect them all. However, their niches are not equivalent and this suggests that each environmental factor could affect each species in different ways. In the third chapter, I performed HSM based on Maximum Entropy for Solenosmilia variabilis, Lophelia pertusa, Madrepora oculata and Enallopsammia rostrata with two different environmental variables resolution, a low (i.e., a coarse resolution data with pixel size of ca. 1000 m2) and a high resolution (pixel of ca. 100 m2) to determine the effect of the environmental variables resolution on habitat suitability model performances and spatial extent of predicted suitable areas. From the final suitability maps, the changes in area extent depending of both resolution models were measured based in different thresholds. The results showed different performances of the models depending on data resolution, with higher performance at higher resolution. Furthermore, the predicted area varied between resolutions and threshold chosen. These results highlight the importance of environmental variables resolution and their implications for the use of HSM in planning and managing Marine Protected Areas (MPAs).
|
Page generated in 0.0737 seconds