Spelling suggestions: "subject:"[een] SIMILARITY"" "subject:"[enn] SIMILARITY""
901 |
Word2vec2syn : Synonymidentifiering med Word2vec / Word2vec2syn : Synonym Identification using Word2vecPettersson, Tove January 2019 (has links)
Inom NLP (eng. natural language processing) är synonymidentifiering en av de språkvetenskapliga utmaningarna som många antar. Fodina Language Technology AB är ett företag som skapat ett verktyg, Termograph, ämnad att samla termer inom företag och hålla den interna språkanvändningen konsekvent. En metodkombination bestående av språkteknologiska strategier utgör synonymidentifieringen och Fodina önskar ett större täckningsområde samt mer dynamik i framtagningsprocessen. Därav syftade detta arbete till att ta fram en ny metod, utöver metodkombinationen, för just synonymidentifiering. En färdigtränad Word2vec-modell användes och den inbyggda funktionen för cosinuslikheten användes för att få fram synonymer och skapa kluster. Modellen validerades, testades och utvärderades i förhållande till metodkombinationen. Valideringen visade att modellen skattade inom ett rimligt mänskligt spann i genomsnitt 60,30 % av gångerna och Spearmans korrelation visade på en signifikant stark korrelation. Testningen visade att 32 % av de bearbetade klustren innehöll matchande synonymförslag. Utvärderingen visade att i de fall som förslagen inte matchade så var modellens synonymförslag korrekta i 5,73 % av fallen jämfört med 3,07 % för metodkombinationen. Den interna reliabiliteten för utvärderarna visade på en befintlig men svag enighet, Fleiss Kappa = 0,19, CI(0,06, 0,33). Trots viss osäkerhet i resultaten påvisas ändå möjligheter för vidare användning av word2vec-modeller inom Fodinas synonymidentifiering. / One of the main challenges in the field of natural language processing (NLP) is synonym identification. Fodina Language Technology AB is the company behind the tool, Termograph, that aims to collect terms and provide a consistent language within companies. A combination of multiple methods from the field of language technology constitutes the synonym identification and Fodina would like to improve the area of coverage and increase the dynamics of the working process. The focus of this thesis was therefore to evaluate a new method for synonym identification beyond the already used combination. Initially a trained Word2vec model was used and for the synonym identification the built-in-function for cosine similarity was applied in order to create clusters. The model was validated, tested and evaluated relative to the combination. The validation implicated that the model made estimations within a fair human-based range in an average of 60.30% and Spearmans correlation indicated a strong significant correlation. The testing showed that 32% of the processed synonym clusters contained matching synonym suggestions. The evaluation showed that the synonym suggestions from the model was correct in 5.73% of all cases compared to 3.07% for the combination in the cases where the clusters did not match. The interrater reliability indicated a slight agreement, Fleiss’ Kappa = 0.19, CI(0.06, 0.33). Despite uncertainty in the results, opportunities for further use of Word2vec-models within Fodina’s synonym identification are nevertheless demonstrated.
|
902 |
Modelagem de Adequabilidade de Habitat de Corais Azooxantelados na Margem Continental do Brasil, com ênfase na Bacia de Campos / Modelling Azooxanthellate, Corals on the Brazilian Continental Margin, with emphasis on the Campos BasinBarbosa, Romina Vanessa 25 October 2016 (has links)
Na presente dissertação eu estudei a distribuição potencial dos corais de águas profundas ao longo da margem continental brasileira e o efeito da resolução das variáveis ambientais em modelos de adequabilidade de habitat (MAH). Primeiramente foi determinada a distribuição potencial de corais de águas profundas a partir de modelos de adequabilidade de habitat de máxima entropia (MaxEnt). Os modelos foram alimentados com diversas camadas de dados SIG de variáveis ambientais e dados de ocorrência de espécies extraídos de bancos de dados e de novos registros. Foram estudados os grupos Scleractinia e Octocorallia, assim como quatro espécies de corais formadores de recifes (Solenosmilia variabilis, Lophelia pertusa, Madrepora oculata e Enallopsammia rostrata) e duas espécies de escleractínios não formadores de recifes (Cladocora debilis e Deltocyathus spp.). O nicho ambiental ocupado pelos táxons foi representado a partir de uma análise multivariada, sendo determinada a sobreposição entre os nichos. A partir disso foi avaliada a similaridade e equivalência de nicho ambiental entre as espécies. Os modelos resultantes indicaram que Scleractinia apresenta distribuição potencial na margem continental leste e sudeste do Brasil (porção Central e Sul), enquanto que Octocorallia apresenta uma distribuição potencial mais ampla abarcando toda a margem continental brasileira, com maior adequabilidade nas margens norte e nordeste. Assim, as áreas de distribuição potencial compartilhada entre octocorais e escleractínios foram aquelas ao largo da porção leste e sudeste do Brasil, sendo estas prioritárias para futuras pesquisas. Os nichos ambientais específicos indicaram menos tolerância de Scleractinia a altas temperaturas em comparação com Octocorallia. Os octocorais ocuparam uma maior amplitude do gradiente ambiental, principalmente relacionado às condições de carbono orgânico particulado, oxigênio dissolvido e temperatura. Isto possivelmente permite aos octocorais habitar a porção norte da margem continental brasileira, onde os modelos de escleractínios indicaram baixa adequabilidade de habitat. A margem continental sudeste do Brasil teve a maior adequabilidade para as espécies de escleractínios formadores de recifes profundos. Isto é de grande valor para planos de conservação nesta área que atualmente apresenta atividades de extração de óleo e gás e que, futuramente, pode ser explotada para a extração de minério. Além disso, as espécies formadoras de recifes ocuparam nichos ambientais similares e, portanto, mudanças nas condições ambientais, como por exemplo as associadas às mudanças climáticas, podem afetar todas elas. Contudo, seus nichos não são equivalentes e, portanto, cada uma delas faz um uso diferente do espaço ambiental da margem continental brasileira. Por último, foram desenvolvidos modelos MaxEnt para Solenosmilia variabilis, Lophelia pertusa, Madrepora oculata e Enallopsammia rostrata em duas resoluções de análise, uma de baixa (i.e., com um tamanho de pixel de aproximadamente 1000 m2) e uma de alta resolução (i.e., pixel de aproximadamente 100 m2) para determinar o efeito da resolução das variáveis ambientais utilizadas na performance e na extensão de área predita de modelos de adequabilidade de habitat. A diferença na extensão da área adequada predita por ambas resoluções foi medida de acordo a três limiares de corte diferentes. Os resultados indicaram diferenças na performance dependendo da resolução, com maior performance nos modelos de alta resolução. Além disso, a extensão de área adequada predita foi geralmente maior nos modelos de baixa resolução, com algumas exceções dependendo da espécie e do limiar de corte. Estes resultados ressaltam a importância da resolução das variáveis ambientais e suas implicações no uso de MAH no planejamento e manejo de Áreas Marinhas Protegidas (MPAs). / In this thesis I studied the deep-sea coral distribution along the Southwestern Atlantic Ocean and the effect of the environmental variables resolution on habitat suitability models (HSM). In the second chapter, I developed HSM based on the Maximum Entropy (MaxEnt) algorithm to identify the potential distribution of deep-water corals. To perform the models, I have used species presence data from existing datasets together with new species records and global environmental variables. I used the main environmental variables to identify suitable areas by modeling niches of different coral taxa. The studied taxa were Scleractinia and Octocorallia, as well as four reef-forming scleractinian species (Solenosmilia variabilis, Lophelia pertusa, Madrepora oculata and Enallopsammia rostrata), and two non-reef-building scleractinians (Cladocora debilis and Deltocyathus spp.). Furthermore, I used multivariate approach to compare their environmental occupied niche in order to assess the spatial niche overlap and test niche similarity and equivalence. The resulting cold-water coral models showed that the most suitable areas occur along the west and southwestern continental margin of Brazil, which permitted to determine areas of priority for future exploration/research to determine conservation areas. Specific environmental niches suggested lower tolerance to high temperatures for Scleractinia than for Octocorallia. Besides, octocorals occupied a wider range of the environmental gradient, which was mainly related to particulate organic carbon, oxygen and temperature. This probably enables them to inhabit the northern part of Brazil where scleratinian models classified as poor habitats for this group. In addition, the Southwestern Brazilian continental margin encloses the most suitable habitats for deep reef-building species. This has important implications for conservation plans in that area already facing gas and oil exploitation and probably future mineral extraction. On the other hand, results suggest that different scleractinian cold-water coral species occupy similar environmental niches and, for this reason, I concluded that changes in environmental conditions, such as those associated to climate change, may affect them all. However, their niches are not equivalent and this suggests that each environmental factor could affect each species in different ways. In the third chapter, I performed HSM based on Maximum Entropy for Solenosmilia variabilis, Lophelia pertusa, Madrepora oculata and Enallopsammia rostrata with two different environmental variables resolution, a low (i.e., a coarse resolution data with pixel size of ca. 1000 m2) and a high resolution (pixel of ca. 100 m2) to determine the effect of the environmental variables resolution on habitat suitability model performances and spatial extent of predicted suitable areas. From the final suitability maps, the changes in area extent depending of both resolution models were measured based in different thresholds. The results showed different performances of the models depending on data resolution, with higher performance at higher resolution. Furthermore, the predicted area varied between resolutions and threshold chosen. These results highlight the importance of environmental variables resolution and their implications for the use of HSM in planning and managing Marine Protected Areas (MPAs).
|
903 |
Arcabouço para recuperação de imagens por conteúdo visando à percepção do usuário / Content-based image retrieval aimed at reaching user´s perceptionBugatti, Pedro Henrique 29 October 2012 (has links)
Na última década observou-se grande interesse pra o desenvolvimento de técnicas para Recuperação de Imagens Baseada em Conteúdo devido à explosão na quantidade de imagens capturadas e à necessidade de armazenamento e recuperação dessas imagens. A área médica especificamente é um exemplo que gera um grande fluxo de informações, principalmente imagens digitais para a realização de diagnósticos. Porém um problema ainda permanecia sem solução que tratava-se de como atingir a similaridade baseada na percepção do usuário, uma vez que para que se consiga uma recuperação eficaz, deve-se caracterizar e quantificar o melhor possível tal similaridade. Nesse contexto, o presente trabalho de Doutorado visou trazer novas contribuições para a área de recuperação de imagens por contúdo. Dessa forma, almejou ampliar o alcance de consultas por similaridade que atendam às expectativas do usuário. Tal abordagem deve permitir ao sistema CBIR a manutenção da semântica da consulta desejada pelo usuário. Assim, foram desenvolvidos três métodos principais. O primeiro método visou a seleção de características por demanda baseada na intenção do usuário, possibilitando dessa forma agregação de semântica ao processo de seleção de características. Já o segundo método culminou no desenvolvimento de abordagens para coleta e agragação de perfis de usuário, bem como novas formulações para quantificar a similaridade perceptual dos usuários, permitindo definir dinamicamente a função de distância que melhor se adapta à percepção de um determinado usuário. O terceiro método teve por objetivo a modificação dinâmica de funções de distância em diferentes ciclos de realimentação. Para tanto foram definidas políticas para realizar tal modificação as quais foram baseadas na junção de informações a priori da base de imagens, bem como, na percepção do usuário no processo das consultas por similaridade. Os experimentos realizados mostraram que os métodos propostos contribuíram de maneira efetiva para caracterizar e quantificar a similaridade baseada na percepção do usuário, melhorando consideravelmente a busca por conteúdo segundo as expectativas dos usuários / In the last decade techniques for content-based image retrieval (CBIR) have been intensively explored due to the increase in the amount of capttured images and the need of fast retrieval of them. The medical field is a specific example that generates a large flow of information, especially digital images employed for diagnosing. One issue that still remains unsolved deals with how to reach the perceptual similarity. That is, to achieve an effectivs retrieval, one must characterize and quantify the perceptual similarity regarding the specialist in the field. Therefore, the present thesis was conceived tofill in this gap creating a consistent support to perform similarity queries over images, maintaining the semantics of a given query desired by tyhe user, bringing new contribuitions to the content-based retrieval area. To do so, three main methods were developed. The first methods applies a novel retrieval approach that integrates techniques of feature selection and relevance feedback to preform demand-driven feature selection guided by perceptual similarity, tuning the mining process on the fly, according to the user´s intention. The second method culminated in the development of approaches for harvesting and surveillance of user profiles, as well as new formulations to quantify the perceptual similarity of users , allowing to dynamically set the distance function that best fits the perception of a given user. The third method introduces a novel approach to enhance the retrieval process through user feedback and profiling, modifying the distance function in each feedback cycle choosing the best one for each cycle according to the user expectation. The experiments showed that the proposed metods effectively contributed to capture the perceptual similarity, improving in a great extent the image retrieval according to users´expectations
|
904 |
Técnicas de projeção para identificação de grupos e comparação de dados multidimensionais usando diferentes medidas de similaridade / Projection techniques for group identification and multidimensional data comparison by using different similarity measuresJoia Filho, Paulo 14 October 2015 (has links)
Técnicas de projeção desempenham papel importante na análise e exploração de dados multidimensionais, já que permitem visualizar informações muitas vezes ocultas na alta dimensão. Esta tese explora o potencial destas técnicas para resolver problemas relacionados à: 1) identificação de agrupamentos e 2) busca por similaridade em dados multidimensionais. Para identificação de agrupamentos foi desenvolvida uma técnica de projeção local e interativa que, além de projetar dados com ótima preservação de distâncias, permite que o usuário modifique o layout da projeção, agrupando um número reduzido de amostras representativas no espaço visual, de acordo com suas características. Os mapeamentos produzidos tendem a seguir o layout das amostras organizadas pelo usuário, facilitando a organização dos dados e identificação de agrupamentos. Contudo, nem sempre é possível selecionar ou agrupar amostras com base em suas características visuais de forma confiável, principalmente quando os dados não são rotulados. Para estas situações, um novo método para identificação de agrupamentos baseado em projeção foi proposto, o qual opera no espaço visual, garantindo que os grupos obtidos não fiquem fragmentados durante a visualização. Além disso, é orientado por um mecanismo de amostragem determinístico, apto a identificar instâncias que representam bem o conjunto de dados como um todo e capaz de operar mesmo em conjuntos de dados desbalanceados. Para o segundo problema: busca por similaridade em dados multidimensionais, uma família de métricas baseada em classes foi construída para projetar os dados, com o objetivo de minimizar a dissimilaridade entre pares de objetos pertencentes à mesma classe e, ao mesmo tempo, maximizá-la para objetos pertencentes a classes distintas. As métricas classes-específicas são avaliadas no contexto de recuperação de imagens com base em conteúdo. Com o intuito de aumentar a precisão da família de métricas classes-específicas, outra técnica foi desenvolvida, a qual emprega a teoria dos conjuntos fuzzy para estimar um valor de incerteza que é transferido para a métrica, aumentando sua precisão. Os resultados confirmam a efetividade das técnicas desenvolvidas, as quais representam significativa contribuição na tarefa de identificação de grupos e busca por similaridade em dados multidimensionais. / Projection techniques play an important role in multidimensional data analysis and exploration, since they allow to visualize information frequently hidden in high-dimensional spaces. This thesis explores the potential of those techniques to solve problems related to: 1) clustering and 2) similarity search in multidimensional data. For clustering data, a local and interactive projection technique capable of projecting data with effective preservation of distances was developed. This one allows the user to manipulate a reduced number of representative samples in the visual space so as to better organize them. The final mappings tend to follow the layout of the samples organized by the user, therefore, the user can interactively steer the projection. This makes it easy to organize and group large data sets. However, it is not always possible to select or group samples visually, in a reliable manner, mainly when handling unlabeled data. For these cases, a new clustering method based on multidimensional projection was proposed, which operates in the visual space, ensuring that clusters are not fragmented during the visualization. Moreover, it is driven by a deterministic sampling mechanism, able to identify instances that are good representatives for the whole data set. The proposed method is versatile and robust when dealing with unbalanced data sets. For the second problem: similarity search in multidimensional data, we build a family of class-specific metrics to project data. Such metrics were tailored to minimize the dissimilarity measure among objects from the same class and, simultaneously to maximize the dissimilarity among objects in distinct classes. The class-specific metrics are assessed in the context of content-based image retrieval. With the aim of increasing the precision of the class-specific metrics, another technique was developed. This one, uses the fuzzy set theory to estimate a degree of uncertainty, which is embedded in the metric, increasing its precision. The results confirm the effectiveness of the developed techniques, which represent significant contributions for clustering and similarity search in multidimensional data.
|
905 |
Processamento de consultas analíticas com predicados de similaridade entre imagens em ambientes de data warehousing / Processing of analytical with similarity search predicates over images in data warehousing environmentsTeixeira, Jefferson William 29 May 2015 (has links)
Um ambiente de data warehousing oferece suporte ao processo de tomada de decisão. Ele consolida dados de fontes de informação distribuições, autônomas e heterogêneas em um único componente, o data warehouse, e realiza o processamento eficiente de consultas analíticas, denominadas OLAP (on-line analytical processing). Um data warehouse convencional armazena apenas dados alfanuméricos. Por outro lado, um data warehouse de imagens armazena, além desses dados convencionais, características intrínsecas de imagens, permitindo a realização de consultas analíticas estendidas com predicados de similaridade entre imagens. Esses ambientes demandam, portanto, a criação de estratégias que possibilitem o processamento eficiente dessas consultas complexas e custosas. Apesar de haver na literatura trabalhos voltados a índices bitmap para ambientes de data warehousing e métodos de acesso métricos para melhorar o desempenho de consultas por similaridade entre imagens, no melhor do nosso conhecimento, não há uma técnica que investigue essas duas questões em um mesmo contexto. Esta dissertação visa preencher essa lacuna na literatura por meio das seguintes contribuições: (i) proposta do ImageDWindex, um mecanismo para a otimização de consultas analíticas estendidas com predicados de similaridade entre imagens; e (ii) definição de diferentes estratégias de processamento de consultas sobre data warehouses de imagens usando o ImageDW-index. Para validar as soluções propostas, foram desenvolvidas duas outras contribuições secundárias, que são: (iii) o ImageDW-Gen, um gerador de dados com o objetivo de povoar o data warehouse de imagens; e (iv) a proposta de quatro classes de consulta, as quais enfocam em diferentes custos de processamento dos predicados de similaridade entre imagens. Utilizando o ImageDW-Gen, foram realizados testes de desempenho para investigar as vantagens introduzidas pelas estratégias propostas, de acordo com as classes de consultas definidas. Comparado com o trabalho mais correlato existente na literatura, o uso do ImageDWindex proveu uma melhora no desempenho do processamento de consultas IOLAP que variou em média de 55,57% até 82,16%, considerando uma das estratégias propostas. / A data warehousing environment offers support to the decision-making process. It consolidates data from distributed, autonomous and heterogeneous information sources into one of its main components, the data warehouse. Furthermore, it provides effcient processing of analytical queries (i.e. OLAP queries). A conventional data warehouse stores only alphanumeric data. On the other hand, an image data warehouse stores not only alphanumeric data but also intrinsic features of images, thus allowing data warehousing environments to perform analytical similarity queries over images. This requires the development of strategies to provide efficient processing of these complex and costly queries. Although there are a number of approaches in the literature aimed at the development of bitmap index for data warehouses and metric access methods for the efficient processing of similarity queries over images, to the best of our knowledge, there is not an approach that investigate these two issues in the same setting. In this research, we fill this gap in the literature by introducing the following main contributions: (i) the proposal of the ImageDW-index, an optimization mechanism aimed at the efficient processing of analytical queries extended with similarity predicates over images; and (ii) definition of different processing strategies for image data warehouses using the ImageDW-index. In order to validate these main proposals, we also introduce two secondary contributions, as follows: (iii) the ImageDW-Gen, a data generator to populate image data warehouses; and (iv) the proposal of four query classes, each one enforcing different query processing costs associated to the similarity predicates in image data warehousing environments. Using the ImageDW-Gen, performance tests were carried out in order to investigate the advantages introduced by the proposed strategies, according to the query classes. Compared to the most related work available in the literature, the ImageDW-index provided a performance gain that varied from 55.57% to 82.16%, considering one of the proposed strategies.
|
906 |
Redução da taxa de transmissão de vídeo digital por meio da aplicação de segmentação de objetos aplicado ao estudo de abelhas. / Digital video transmission rates reduction by object segmentation applied to bees study.Amâncio, Silvio Miyadaira 02 December 2008 (has links)
A utilização de vídeos em laboratórios baseados em redes de computadores (weblabs) para pesquisa de abelhas está sendo conduzida como parte do projeto ViNCES (Virtual Network Center of Ecosystem Services), um consórcio de pesquisa composto pelo LAA (Laboratório de Automação Agrícola da Escola Politécnica da Universidade de São Paulo) e o Laboratório de Abelhas do Departamento de Ecologia do Instituto de Biociências da Universidade de São Paulo. O ViNCES é um membro do Kyatera, uma rede de computadores acadêmica de alta velocidade que tem como objetivos o desenvolvimento de aplicações e tecnologias para a Internet Avançada. Nesse contexto, o Weblab de abelhas, denominado BBBee, permite a realização de pesquisa e observação à distância da entrada de uma colméias, sendo coletadas e transmitidas informações de condições climáticas, de áudio e vídeo. O áudio e o vídeo da colméia são transmitidos em rede local e pela Internet por meio de streaming em tempo real. Os requisitos de largura de banda para transmissões de vídeo costumam ser elevados, e a qualidade obtida após o processo de compressão convencional, em geral, é baixa, podendo afetar ou dificultar a pesquisa. Além disso, está prevista a transmissão de vídeos de Alta Definição para weblab com o objetivo de melhorar a qualidade da informação, o que irá demandar maior largura de banda. Este trabalho propõe um algoritmo de codificação de vídeo para melhorar a qualidade das imagens transmitidas, ao mesmo tempo em que se reduzem os requisitos de largura de banda de transmissão e armazenagem, por meio da aplicação de técnicas de segmentação e rastreamento de objetos de vídeo. O algoritmo proposto foi implementado e testado utilizando vídeos capturados nas colméias e os resultados das análises em diversas condições são apresentados neste documento. Para avaliar a qualidade resultante do processo, foi utilizada uma métrica objetiva que permite avaliar a qualidade das imagens em relação às imagens de origem. Os resultados das análises proveram informações e direções para melhorias e futuras implementações. / The use of videos in web based laboratories over computer networks, known as weblabs, is being conducted for bee research as part of the ViNCES (Virtual Network Center of Ecosystem Services) project, a research consortium composed by: LAA (Laboratório de Automação Agrícola da Escola Politécnica) and the Laboratório de Abelhas of the Ecology Department of the Biosciences Institute. ViNCES is a member of Kyatera, a high speed academic computer network which aims at developing aplications and technologies for the Advanced Internet. The bee weblab, called BBBee, allows the research and observation of the interior of a beehive, in which are collected climate, audio and video data. Real time audio and video are broadcasted over the Internet and through a local network using streaming format. The bandwidth requirements for video transmission are usually high and the video quality after conventional compression standards is, in general, low and can interfere in the biological research. Also, High-Definition video transmission for weblab is planned to be implemented in order to provide better tools for the researcher, which will demand even higher network bandwidth. On this scenario, this work intends to provide a video codification algorithm to enhance the quality of the transmitted images, at the region of interest, and also reduce the transmission and storage requirements for some situations by using segmentation and tracking techniques for videos. A complete CODEC was implemented and tested with actual video, quality and data rates were measured and evaluated using an objective metric. The results of the analysis provided some indications of directions for future enhancements and implementations.
|
907 |
Predição de séries temporais por similaridade / Similarity-based time series predictionParmezan, Antonio Rafael Sabino 07 April 2016 (has links)
Um dos maiores desafios em Mineração de Dados é a integração da informação temporal ao seu processo. Esse fato tem desafiado profissionais de diferentes domínios de aplicação e recebido investimentos consideráveis da comunidade científica e empresarial. No contexto de predição de Séries Temporais, os investimentos se concentram no subsídio de pesquisas destinadas à adaptação dos métodos convencionais de Aprendizado de Máquina para a análise de dados na qual o tempo constitui um fator importante. À vista disso, neste trabalho é proposta uma nova extensão do algoritmo de Aprendizado de Máquina k-Nearest Neighbors (kNN) para predição de Séries Temporais, intitulado de kNN - Time Series Prediction with Invariances (kNN-TSPI ). O algoritmo concebido difere da versão convencional pela incorporação de três técnicas para obtenção de invariância à amplitude e deslocamento, invariância à complexidade e tratamento de casamentos triviais. Como demonstrado ao longo desta dissertação de mestrado, o uso simultâneo dessas técnicas proporciona ao kNN-TSPI uma melhor correspondência entre as subsequências de dados e a consulta de referência. Os resultados de uma das avaliações empíricas mais extensas, imparciais e compreensíveis já conduzidas no tema de predição de Séries Temporais evidenciaram, a partir do confronto de dez métodos de projeção, que o algoritmo kNN-TSPI, além de ser conveniente para a predição automática de dados a curto prazo, é competitivo com os métodos estatísticos estado-da-arte ARIMA e SARIMA. Por mais que o modelo SARIMA tenha atingido uma precisão relativamente superior a do método baseado em similaridade, o kNN-TSPI é consideravelmente mais simples de ajustar. A comparação objetiva e subjetiva entre algoritmos estatísticos e de Aprendizado de Máquina para a projeção de dados temporais vem a suprir uma importante lacuna na literatura, a qual foi identificada por meio de uma revisão sistemática seguida de uma meta-análise das publicações selecionadas. Os 95 conjuntos de dados empregados nos experimentos computacionais juntamente com todas as projeções analisadas em termos de Erro Quadrático Médio, coeficiente U de Theil e taxa de acerto Prediction Of Change In Direction encontram-se disponíveis no portal Web ICMC-USP Time Series Prediction Repository. A presente pesquisa abrange também contribuições e resultados significativos em relação às propriedades inerentes à predição baseada em similaridade, sobretudo do ponto de vista prático. Os protocolos experimentais delineados e as diversas conclusões obtidas poderão ser usados como referência para guiar o processo de escolha de modelos, configuração de parâmetros e aplicação dos algoritmos de Inteligência Artificial para predição de Séries Temporais. / One of the major challenges in Data Mining is integrating temporal information into process. This difficulty has challenged professionals several application fields and has been object of considerable investment from scientific and business communities. In the context of Time Series prediction, these investments consist majority of grants for designed research aimed at adapting conventional Machine Learning methods for data analysis problems in which time is an important factor. We propose a novel modification of the k-Nearest Neighbors (kNN) learning algorithm for Time Series prediction, namely the kNN - Time Series Prediction with Invariances (kNN-TSPI). Our proposal differs from the literature by incorporating techniques for amplitude and offset invariance, complexity invariance, and treatment of trivial matches. These three modifications allow more meaningful matching between the reference queries and Time Series subsequences, as we discuss with more details throughout this masters thesis. We have performed one of the most comprehensible empirical evaluations of Time Series prediction, in which we faced the proposed algorithm with ten methods commonly found in literature. The results show that the kNN-TSPI is appropriate for automated short-term projection and is competitive with the state-of-the-art statistical methods ARIMA and SARIMA. Although in our experiments the SARIMA model has reached a slightly higher precision than the similarity based method, the kNN-TSPI is considerably simpler to adjust. The objective and subjective comparisons of statistical and Machine Learning algorithms for temporal data projection fills a major gap in the literature, which was identified through a systematic review followed by a meta-analysis of selected publications. The 95 data sets used in our computational experiments, as well all the projections with respect to Mean Squared Error, Theils U coefficient and hit rate Prediction Of Change In Direction are available online at the ICMC-USP Time Series Prediction Repository. This work also includes contributions and significant results with respect to the properties inherent to similarity-based prediction, especially from the practical point of view. The outlined experimental protocols and our discussion on the usage of them, can be used as a guideline for models selection, parameters setting, and employment of Artificial Intelligence algorithms for Time Series prediction.
|
908 |
Caracterização e recuperação de imagens usando dicionários visuais semanticamente enriquecidos / Image characterization and retrieval using visual dictionaries semantically enrichedPedrosa, Glauco Vitor 24 August 2015 (has links)
A análise automática da similaridade entre imagens depende fortemente de descritores que consigam caracterizar o conteúdo das imagens em dados compactos e discriminativos. Esses dados extraídos e representados em um vetor-de-características tem o objetivo de representar as imagens nos processos de mineração e análise para classificação e/ou recuperação. Neste trabalho foi explorado o uso de dicionários visuais e contexto para representar e recuperar as características locais das imagens utilizando formalismos estendidos com alto poder descritivo. Esta tese apresenta em destaque três novas propostas que contribuem competitivamente com outros trabalhos da literatura no avanço do estado-da-arte, desenvolvendo novas metodologias para a caracterização de imagens e para o processamento de consultas por similaridade. A primeira proposta estende a modelagem Bag-of-Visual-Words, permitindo codificar a interação entre palavras-visuais e suas disposições espaciais na imagem. Para tal fim, três novas abordagem são apresentadas: (i) Weighted Histogram (WE); (ii) Bunch-of-2-grams e (iii) Global Spatial Arrangement (GSA). Cada uma dessas técnicas permitem extrair informações semanticamente complementares, que enriquecem a representação final das imagens descritas em palavras-visuais. A segunda proposta apresenta um novo descritor, chamado de Bag-of-Salience-Points (BoSP), que caracteriza e analisa a dissimilaridade de formas (silhuetas) de objetos explorando seus pontos de saliências. O descritor BoSP se apoia no uso de um dicionário de curvaturas e em histogramas espaciais para representar sucintamente as saliências de um objeto em um único vetor-de-características de tamanho fixo, permitindo recuperar formas usando funções de distâncias computacionalmente rápidas. Por fim, a terceira proposta apresenta um novo modelo de consulta por similaridade, denominada Similarity Based on Dominant Images (SimDIm), baseada no conceito de Imagens Dominantes, que é um conjunto que representa, de uma maneira mais diversificada e reduzida, toda a coleção de imagens da base de dados. Tal conceito permite dar mais eficiência quando se deseja analisar o contexto da coleção, que é o objetivo da proposta. Os experimentos realizados mostram que os métodos propostos contribuem de maneira efetiva para caracterizar e quantificar a similaridade entre imagens por meio de abordagens estendidas baseadas em dicionários visuais e análise contextual, reduzindo a lacuna semântica existente entre a percepção humana e a descrição computacional. / The automatic similarity analysis between images depends heavily on the use of descriptors that should be able to characterize the images\' content in compact and discriminative features. These extracted features are represented by a feature-vector employed to represent the images in the process of mining and analysis for classification and/or retrieval. This work investigated the use of visual dictionaries and context to represent and retrieve the local image features using extended formalism with high descriptive power. This thesis presents three new proposals that contribute in advancing the state-of-the-art by developing new methodologies for characterizing images and for processing similarity queries by content. The first proposal extends the Bag-of-Visual-Words model, by encoding the interaction between the visual words and their spatial arrangements in the image space. For this, three new techniques are presented: (i) Weighted Histogram (WE); (ii) Bunch-of--grams and (iii) Global Spatial Arrangement (GSA). These three techniques allow to extract additional semantically information that enrich the final image representation described in visual-words. The second proposal introduces a new descriptor, called Bag-of-Salience-Points (BoSP), which characterizes and analyzes the dissimilarity of shapes (silhouettes) exploring their salient point. The BoSP descriptor is based on using a dictionary of curvatures and spatial-histograms to represent succinctly the saliences of a shape into a single fixed-length feature-vector, allowing to retrieve shapes using distance functions computationally fast. Finally, the third proposal introduces a new similarity query model, called Similarity based on Dominant Images (SimDIm), based on the concept of dominant images, which is a set of images representing the entire collection of images of the database in a more diversified and reduced manner. This concept allows to efficiently analyze the context of the entire collection, which is the final goal. The experiments showed that the proposed methods effectively contributed to characterize and quantify the similarity between images using extended approaches based on visual dictionaries and contextual analysis, reducing the semantic gap between human perception and computational description.
|
909 |
Recomendação de conteúdo baseada em informações semânticas extraídas de bases de conhecimento / Content recommendation based on semantic information extracted from knowledge basesSilva Junior, Salmo Marques da 10 May 2017 (has links)
A fim de auxiliar usuários durante o consumo de produtos, sistemas Web passaram a incorporar módulos de recomendação de itens. As abordagens mais populares são a baseada em conteúdo, que recomenda itens a partir de características que são do seu interesse, e a filtragem colaborativa, que recomenda itens bem avaliados por usuários com perfis semelhantes ao do usuário alvo, ou que são semelhantes aos que foram bem avaliados pelo usuário alvo. Enquanto que a primeira abordagem apresenta limitações como a sobre-especialização e a análise limitada de conteúdo, a segunda enfrenta problemas como o novo usuário e/ou novo item, também conhecido como partida fria. Apesar da variedade de técnicas disponíveis, um problema comum existente na maioria das abordagens é a falta de informações semânticas para representar os itens do acervo. Trabalhos recentes na área de Sistemas de Recomendação têm estudado a possibilidade de usar bases de conhecimento da Web como fonte de informações semânticas. Contudo, ainda é necessário investigar como usufruir de tais informações e integrá-las de modo eficiente em sistemas de recomendação. Dessa maneira, este trabalho tem o objetivo de investigar como informações semânticas provenientes de bases de conhecimento podem beneficiar sistemas de recomendação por meio da descrição semântica de itens, e como o cálculo da similaridade semântica pode amenizar o desafio enfrentado no cenário de partida fria. Como resultado, obtém-se uma técnica que pode gerar recomendações adequadas ao perfil dos usuários, incluindo itens novos do acervo que sejam relevantes. Pode-se observar uma melhora de até 10% no RMSE, no cenário de partida fria, quando se compara o sistema proposto com o sistema cuja predição de notas é baseada na correlação de notas. / In order to support users during the consumption of products,Web systems have incorporated recommendation techniques. The most popular approaches are content-based, which recommends items based on interesting features to the user, and collaborative filtering, which recommends items that were well evaluated by users with similar preferences to the target user, or that have similar features to items which were positively evaluated. While the first approach has limitations such as overspecialization and limited content analysis, the second technique has problems such as the new user and the new item, limitation also known as cold start. In spite of the variety of techniques available, a common problem is the lack of semantic information to represent items features. Recent works in the field of recommender systems have been studying the possibility to use knowledge databases from the Web as a source of semantic information. However, it is still necessary to investigate how to use and integrate such semantic information in recommender systems. In this way, this work has the proposal to investigate how semantic information gathered from knowledge databases can help recommender systems by semantically describing items, and how semantic similarity can overcome the challenge confronted in the cold-start scenario. As a result, we obtained a technique that can produce recommendations suited to users profiles, including relevant new items available in the database. It can be observed an improvement of up to 10% in the RMSE in the cold start scenario when comparing the proposed system with the system whose rating prediction is based on the correlation of rates.
|
910 |
Avaliação de métricas para o corregistro não rígido de imagens médicas / Similarity metrics evaluation for medical image registrationRodrigues, Erbe Pandini 18 March 2010 (has links)
A medida de similaridade é parte fundamental no corregistro de imagens, guiando todo seu processo. Neste estudo foi feita a comparação entre diferentes métricas de similaridade no contexto do corregistro não rígido (ou elástico) de imagens médicas. Como as imagens cardíacas representam as mais desaadoras situações em corregistro de imagens médicas, foram utilizadas para teste imagens de ressonância magnética nuclear e imagens de ultrasom cardíaco com contraste. 10 métricas de similaridades diferentes foram comparadas extensivamente, quanto ao seu desempenho para o corregistro não rígido: a soma do quadrado das diferenças (SQD), correlação cruzada (CC), correlação cruzada normalizada (CCN), informação mútua (IM), entropia da diferença (ED), variância da diferença (VD), energia (EN), campo de gradiente normalizado (CGN), medida pontual de informação mútua (MPIM), medida pontual de entropia da diferença (MPED). As métricas baseadas em entropias de informação, IM, ED, foram generalizadas em termos da entropia de Tsallis e avaliadas em seu parâmetro q. Os resultados apresentados mostram a eciência das métricas estudadas para diferentes parâmetros, como dimensão da região de comparação entre as imagens, dimensão da região de busca por similaridade, número de tons de cinza das imagens e parâmetro entrópico. Estes achados podem ser úteis para a construção de denições apropriadas para o corregistro não-rígido, utilizado no corregistro de imagens médicas complexas. / The similarity measurement plays a key role in images registration, driving the whole process of registration. In this study a comparison was made between dierent metrics of similarity in the context of non-rigid registration in medical images. As cardiac images represent the most challenging situation in medical image registration, it has been used as test heart magnetic resonance imaging (MRI) and cardiac ultrasound contrast images. In this work ten different similarity metrics have been compared extensively, as well its performance for the non-rigid registration process: the sum of the squared differences (SQD), cross- correlation (CC), normalized cross correlation (CCN), mutual information (IM), the entropy difference (ED), variance of the difference (VD), energy (EN), eld of normalized gradient (CGN), point measure of mutual information (MPIM), point measure of entropy differences (MPED). Metrics based on information entropies, IM, ED were eneralized in terms of Tsallis entropy and evaluated in its parameter q. The presented results show the effectiveness of the studied metrics for different parameters such as similarity window search size, similarity region search size, image maximum gray level, and entropic parameter. These nding can be helpful to construct appropriate non-rigid registration settings for complex medical image registration.
|
Page generated in 0.0753 seconds