Global ETD Search

211	Operação de busca exata aos K-vizinhos mais próximos reversos em espaços métricos / Answering exact reverse k-nerarest neighbors queries in metric space Willian Dener de Oliveira 19 March 2010 (has links) A complexidade dos dados armazenados em grandes bases de dados aumenta cada vez mais, criando a necessidade de novas operações de consulta. Uma classe de operações que tem apresentado interesse crescente são as chamadas Consultas por Similaridade, sendo as mais conhecidas as consultas por Abrangência (\'R IND. q\') e por k-Vizinhos mais Proximos (kNN), sendo que esta ultima obtem quais são os k elementos armazenados mais similares a um dado elemento de referência. Outra consulta que é interessante tanto para consultas diretas quanto como parte de operações de análises mais complexas e a operação de consulta aos k-Vizinhos mais Próximos Reversos (RkNN). Seu objetivo e obter todos os elementos armazenados que têm um dado elemento de referência como um dos seus k elementos mais similares. Devido a complexidade de execução da operação de RkNN, a grande maioria das soluções existentes restringem-se a dados representados em espaços multidimensionais euclidianos (nos quais estão denidas tambem operações cardinais e topológicas, além de se considerar a similaridade como sendo a distância Euclidiana entre dois elementos), ou então obtém apenas respostas aproximadas, sujeitas a existência de falsos negativos. Várias aplicações de análise de dados científicos, médicos, de engenharia, financeiros, etc. requerem soluções eficientes para o problema da operação de RkNN sobre dados representados em espaços métricos, onde os elementos não podem ser considerados estar em um espaço nem Euclidiano nem multidimensional. Num espaço métrico, além dos próprios elementos armazenados existe apenas uma função de comparação métrica entre pares de objetos. Neste trabalho, são propostas novas podas de espaço de busca e o algoritmo RkNN-MG que utiliza essas novas podas para solucionar o problema de consultas RkNN exatas em espaços métricos sem limitações. Toda a proposta supõe que o conjunto de dados esta em um espaço métrico imerso isometricamente em espaço euclidiano e utiliza propriedades da geometria métrica válida neste espaço para realizar podas eficientes por lei dos cossenos combinada com as podas tradicionais por desigualdade triangular. Os experimentos demonstram comparativamente que as novas podas são mais eficientes que as tradicionais podas por desigualdade triangular, tendo desempenhos equivalente quando comparadas em conjuntos de alta dimensionalidade ou com dimensão fractal alta. Assim, os resultados confirmam as novas podas propostas como soluções alternativas eficientes para o problema de consultas RkNN / Data stored in large databases present an ever increasing complexity, pressing for the development of new classes of query operators. One such class, which is enticing an increasing interest, is the so-called Similarity Queries, where the most common are the similarity range queries (\'R IND. q\') and the k-nearest neighbor queries (kNN). A k-nearest neighbor query aims at retrieving the k stored elements nearer (or more similar) to a given reference element. Another important similarity query is the reverse k-nearest neighbor (RkNN), useful both for queries posed directly by the analyst and for queries that are part of more complex analysis processes. The objective of a reverse k-nearest neighbor queries is obtaining the stored elements that has the query reference element as one of their k-nearest neighbors. As the RkNN operation is a rather expensive operation, from the computational standpoint, most existing solutions only solve the query when applied over Euclidean multidimensional spaces (as these spaces also define cardinal and topological operations besides the Euclidean distance between pairs of elements) or retrieve only approximate answers, where false negatives can occur. Several applications, like the analysis of scientific, medical, engineering or financial data, require efficient and exact answers for the RkNN queries over data which is frequently represented in metric spaces, that is where no other property besides the similarity measure exists. Therefore, for applications handling metrical data, the assumption of Euclidean metric or even multidimensional data cannot be used. In this work, we propose new pruning rules based on the law of cosines, and the RkNN-MG algorithm, which uses them to solve RkNN queries in a way that is exact, faster than the existing approaches, that is not limited for any value of k, and that can be applied both over static and over dynamic datasets. The new pruning rules assume that the data set is in a metric space that can be embedded into an Euclidean space and use metric geometry properties valid in this space to perform effective pruning based on the law of cosines combined with the traditional pruning based on the triangle inequality property. The experiments show that the new pruning rules are alkways more efficient than the traditional pruning rules based solely on the triangle inequality. The experiments show that for high high dimensionality datasets, or for metric datasets with high fractal dimensionality, the performance improvement is smaller than for for lower dimensioinality datasets, but it\'s never worse. Thus, the results confirm that the our pruning rules are efficient alternative to solve RkNN queries in general Consulta por similaridade Espaço númerico Indexação RkNN Vizinhos mais próximos reversos Access method Metric space Reverse k-nearest neighbor RkN N Similarity query
212	Os usos pedagógicos dos vídeos digitais indexados Dallacosta, Adriana January 2007 (has links) A presente investigação pretende, de forma qualitativa, compreender se os vídeos indexados podem modificar o planejamento pedagógico do professor de escola municipal de Porto Alegre. Para atingir esse objetivo, buscamos embasamento em uma fundamentação teórica de fundo piagetiano, voltada para a construção do conhecimento e suas diversas possibilidades, além das teorias relativas às questões do vídeo e do computador no processo educativo, a partir do seu envolvimento como suporte pedagógico orientado na pedagogia de projetos. Inserido nesse contexto, propõe-se o SACCA (Sistema Automático de Catalogação de Conteúdo Audiovisual), que possibilita o processo de indexação de vídeos com a intermediação de um usuário que assiste ao vídeo e define as palavras-chaves que irão compor o índice. Posteriormente, poderá se navegar no interior desses vídeos permitindo ter uma visão rápida do que o vídeo trata. Foram acrescentados 49 vídeos da História do Brasil e disponibilizados para os professores de História do 3º Ciclo das Escolas da Rede Municipal de Porto Alegre participantes da pesquisa. Os dados foram coletados através de entrevistas. A partir das perguntas norteadoras da pesquisa e da investigação realizada, são definidas categorias de análise para as reflexões e as conclusões desta tese. Os resultados obtidos indicam que o uso dos vídeos indexados pode modificar o planejamento pedagógico do professor. / The present investigation intends to understand in a qualitative way if the indexed videos can modify the teacher's pedagogical planning of a public school in Porto Alegre. We searched for a theoretical Piagetian approach, in order to achieve this purpose, turned to the construction of knowledge and its several possibilities, besides the theories related to the points of the video and computer in the educational process, starting from its involvement as a pedagogical support guided in the pedagogy of projects. Inserted in this context, SACCA (Automatic System of Cataloguing of Audiovisual Content) is proposed, which makes the process of indexation of videos possible, with the user's intermediation who sees the video and defines the key-words, which will compose the index. Later, one can navigate in the interior of these videos allowing a fast vision of what the video deals with. 49 videos of the Brazilian History were added and available for the History teachers of the 3rd Cycle of the Public Schools in Porto Alegre, participants in the research. The data were collected through interviews. Starting from the directed questions of the research and of the accomplished investigation, analysis categories for the reflections and the conclusions of this theory are defined. The obtained results indicate that the use of the indexed videos can modify the teacher's pedagogical planning. Indexação Vídeo educativo Sala de aula Construção do conhecimento Pedagogia Projeto Indexed videos Digital video MPEG-7 Education Pedagogy of learning projects
213	Dos sintagmas nominais aos descritores documentais: estudo de caso na indexação de teses e dissertações da área de Direito NASCIMENTO, Gustavo Diniz 20 November 2015 (has links) Submitted by Haroudo Xavier Filho (haroudo.xavierfo@ufpe.br) on 2016-05-19T18:03:16Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissertação. Dos Sintagmas Nominais aos Descritores Documentais Estudo de Caso na Indexação de Te.pdf: 3525255 bytes, checksum: 7cb6e4bda3f02eb17e2009285414748d (MD5) / Made available in DSpace on 2016-05-19T18:03:16Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissertação. Dos Sintagmas Nominais aos Descritores Documentais Estudo de Caso na Indexação de Te.pdf: 3525255 bytes, checksum: 7cb6e4bda3f02eb17e2009285414748d (MD5) Previous issue date: 2015-11-20 / O uso dos Sintagmas Nominais como instrumentos de organização e recuperação da informação digital vem se mostrando uma alternativa promissora para sistemas de informação. Nesse contexto, a indexação automática por meio de Sintagmas Nominais se mostra como uma alternativa que minimiza alguns problemas encontrados na indexação baseada em palavras isoladas, uma vez que os Sintagmas Nominais se constituem em unidades sintáticas que possuem semântica/sentido específico. No entanto, é notório que nem todos os Sintagmas Nominais que se encontram em um documento digital são representativos do mesmo, o que demonstra por sua vez a necessidade de uma seleção dos Sintagmas Nominais que realmente possam funcionar como descritores documentais. Nesse contexto, o presente trabalho tem como objetivo geral investigar a seleção de sintagmas nominais com valor de descritor no contexto do processo de indexação automática por meio de sintagmas nominais de resumos de teses e dissertações em português da área jurídica. Pretende-se: 1. Investigar o processo de indexação automática por meio de sintagmas nominais; 2. Verificar quais são as características de um Sintagma Nominal como valor de descritor documental; 3. Identificar na literatura científica nacional metodologias para seleção de sintagmas nominais em textos em português, bem como os critérios de seleção de cada metodologia; 4. Planejar experimento, onde os Sintagmas Nominais extraídos são categorizados quanto ao atendimento ou não a critérios de seleção propostos na literatura e quanto ao valor como Descritores, quando semelhantes aos descritores documentais resultantes da indexação manual; 5. Avaliar os critérios de seleção na indexação automática por meio de Sintagmas Nominais para teses e dissertações da área jurídica. Para o alcance dos objetivos propostos, fez-se uso de uma pesquisa bibliográfica e de um experimento. A pesquisa bibliográfica permitiu a identificação de pesquisas voltadas para a indexação automática por meio de Sintagmas Nominais, principalmente no que se refere à seleção de Sintagmas que funcionem como descritores documentais. Com base nas leituras dessas pesquisas, puderam-se identificar vários critérios utilizados para a seleção de Sintagmas. O experimento constituiu-se na aplicação dos critérios identificados na literatura aos sintagmas nominais extraídos de um conjunto de resumos de teses e dissertações da área jurídica, com o intuito de mensurar a utilidade ou não desses critérios no que diz respeito à seleção de sintagmas nominais descritores. Assim, realizou-se a indexação manual dos documentos, a extração automática dos Sintagmas Nominais constituintes dos mesmos, a categorização dos sintagmas nominais como descritores com base na semelhança aos descritores documentais advindos da indexação manual e a aplicação dos critérios de seleção aos sintagmas nominais extraídos. Por meio do experimento, foram percebidos comportamentos distintos entre cada critério, onde a maioria foi considerada útil para a seleção de sintagmas nominais. / The use of noun phrases as tools for information organization and retrieval has proven to be a promising alternative in information systems. In this context, automatic indexing through the noun phrases shows a new alternative that minimizes some problems encountered in indexing based on single words, given that noun phrases are syntactic units with specific semantic/meaning. However, it is evident that not all the noun phrases in a digital document are representative of the content, which in turn demonstrates the need for a selection of noun phrases that may serve as documentary descriptors. In this context, this work aims to investigate the selection of noun phrases with descriptor value in the context of the automatic indexing process by noun phrases from abstracts of theses and dissertations in the area of law in Portuguese. The specific objectives are: 1. Investigate the automatic indexing process by noun phrases; 2. Identify what are the characteristics of a noun phrase with descriptor value; 3. Identify the methodologies in national scientific literature for selection of noun phrases in texts in Portuguese, as well as the selection criteria of each methodology; 4. Organization of an experiment where each extracted noun phrase is categorized as descriptor and if it meets or not the proposed selection criteria in the literature; 5. Evaluate the selection criteria in the automatic indexing by noun phrases for theses and dissertations in the legal field. To achieve the objectives, it was made use of a bibliographic research and experiment. The literature review allowed the identification of research on automatic indexing by noun phrases, especially criteria used to choose noun phrases that act as documentary descriptors. Based on the readings of this research, it was possible to identify several criteria used for the selection of noun phrases. The experiment consisted in applying the criteria identified in the literature to noun phrases extracted from a set of abstracts of theses and dissertations in the legal field, in order to measure the usefulness or not of these criteria for the selection of noun phrases descriptors. Thus it was made manual indexing of documents, automatic extraction of noun phrases thereof, the categorization of noun phrases as descriptors based on their resemblance to the descriptors of manual indexing and the application of criteria in the extracted noun phrases. Through the experiment, we notice a different behavior for each criterion, where most of the criteria was considered useful for noun phrase selection. Sintagmas Nominais Indexação Automática Recuperação da Informação Representação da Informação Seleção de Sintagmas Nominais Informação Jurídica Noun phrases Automatic indexing Information retrieval Information organization Noun phrase selection Legal information
214	Banco de imagens: abordagem teórica conceitual de representação de fotografias para uso na publicidade Souza, Jóice Cleide Cardoso Ennes de 15 March 2013 (has links) Submitted by Priscilla Araujo (priscilla@ibict.br) on 2016-10-13T19:24:46Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Tese-JoiceCardoso.pdf: 3135800 bytes, checksum: 1d8708703eb3a010bf4bd6f4a6d0b57e (MD5) / Made available in DSpace on 2016-10-13T19:24:46Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Tese-JoiceCardoso.pdf: 3135800 bytes, checksum: 1d8708703eb3a010bf4bd6f4a6d0b57e (MD5) Previous issue date: 2013-03-15 / O trabalho aborda a indexação de imagens fotográficas em bancos de imagens para publicidade, justificada pela proliferação de fotografias na atual sociedade da informação e sua divulgação rápida e online. Os bancos de imagem se apresentam como recurso para os publicitários que demandam de tempo para a criação de anúncios, pois oferecem coleções fotográficas selecionadas, com tratamento documental direcionado ao usuário. Objetiva investigar procedimentos para a representação e recuperação de fotografias arquivadas em bancos de imagens, visando obter subsídios para reflexão e desenvolvimento de esquema teórico para indexação de fotografias em arquivos digitais. A análise qualitativa foi realizada a partir da identificação de elementos na literatura sobre publicidade direcionada ao público feminino, para definição de atributos visando atender demandas de conteúdo publicitário. Selecionou-se o banco de imagens Latinstock para o desenvolvimento da análise empírica por oferecer coleções para uso publicitário, ser em português e explicitar os princípios adotados na análise conceitual das fotografias. As amostras investigadas indicam que os atributos usados pelo banco de imagem são compatíveis com a representação de aspectos subjetivos/abstratos da fotografia, e que o uso de substantivos e adjetivos na indexação atendem aos elementos identificados na literatura de publicidade. Concluiu-se que a indexação de imagens para publicidade compreende atributos técnicos, figurativos e subjetivos. / The research approaches the indexing of images in images databank for advertising, justified by the proliferation of photographs in the information society and its rapid online dissemination. Image databank are presented as a resource for advertisers that demand time for creating ads because they offer selected photographic collections with the documentary directed the user. Work aims to investigate procedures for the representation and retrieval of archived photographs in image databanks, in order to obtain subsidies for reflection and development of theoretical scheme for indexing photos into digital files. Qualitative analysis was performed based on the identification of elements in the advertising literature targeted to a female audience, to define attributes to meet the demands of advertising content. Stock photos Latinstock was selected to the empirical analysis by offering collections for advertising use, in Portuguese and explains the principles adopted in the conceptual analysis of the photographs. The samples investigated indicate that the attributes used by the image databank are compatible with the photo representation of subjective and abstracts aspects, and the use of nouns and adjectives in indexing meet the elements identified in the advertising literature. It was concluded that indexing of images for advertising comprises technical, figurative and subjective attributes. Bancos de imagens Indexação de fotografias Análise conceitual de imagens Publicidade Images databank Indexing of photograph Content analysis of images Advertising
215	Coerência na representação temática de artigos científicos indexados no repositório de saúde pública da Fundação Oswaldo Cruz Santos, Fatima Cristina Lopes dos 22 February 2017 (has links) Submitted by Priscilla Araujo (priscilla@ibict.br) on 2017-07-24T20:00:23Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) CoerênciaRepresentaçãoTemáticaArtigos.pdf: 3995690 bytes, checksum: 96229e3502d9de3c1a878a3bed8df30e (MD5) / Made available in DSpace on 2017-07-24T20:00:23Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) CoerênciaRepresentaçãoTemáticaArtigos.pdf: 3995690 bytes, checksum: 96229e3502d9de3c1a878a3bed8df30e (MD5) Previous issue date: 2017-02-22 / Esta dissertação investiga a coerência semântica na indexação de artigos de periódicos na área de saúde pública, em língua portuguesa, indexados no Repositório de Produção Científica da Escola Nacional de Saúde Pública Sergio Arouca (ENSP) da Fundação Oswaldo Cruz (Fiocruz), visando a contribuir com a interoperabilidade semântica entre os repositórios dessa Fundação. A pesquisa se fundamenta em pressupostos teóricos e metodológicos das áreas de representação temática e da linguística documentária, no âmbito da Organização do Conhecimento na CI, bem como na Bibliometria, e tem como metas: (a) verificar comparativamente a coerência semântica na indexação de artigos científicos na área de saúde pública; (b) investigar a ocorrência de termos de indexação à luz de modelos quantitativos bibliométricos utilizados na indexação na Ciência da Informação; (c) fornecer evidências da importância do gênero discursivo artigo de periódico científico na área de saúde pública; (d) identificar os termos-figura e os termos-fundo dos artigos analisados para maior entendimento da informatividade de textos científicos; (e) contribuir para o avanço do conhecimento acerca de fenômenos que norteiam a indexação da informação científica, particularmente sobre a coerência semântica na indexação da informação na área de saúde. Para tal, foram analisados 10 artigos de periódicos científicos brasileiros, publicados em acesso aberto entre 2012- 2014 e cadastrados no Repositório de Produção Científica da ENSP/Fiocruz. Os artigos foram processados nos softwares RankWord e WordSmith 6.0, aplicando-se depois as leis de Zipf e Ponto de Transição de Goffman para identificação dos termos de alta carga semântica dos textos. Os termos selecionados em cada artigo foram comparados nos 5 (cinco) indicadores utilizados na pesquisa: Região T de Goffman; Expressões WordSmith 6.0, Palavras-chave; DeCS (Descritores em Ciências da Saúde) e Título. Os resultados foram compilados utilizando-se o plano discursivo das orações, com ênfase em termos usados como figura (foregrounding) e em termos usados como fundo (backgrounding), auxiliando na verificação do grau de coerência entre os artigos. Os dados coletados revelam baixo grau de coerência semântica na maioria dos artigos estudados. Sugere-se uma investigação com amostra ampliada para confirmação dos dados obtidos, principalmente se tratando de artigos de periódicos publicados em português na área de saúde e sua importância na comunicação científica nacional. / This dissertation investigates the semantic coherence in the indexing of journal articles in the public health area, in Portuguese, indexed in the Scientific Production Repository of the National School of Public Health Sergio Arouca (ENSP) of the Oswaldo Cruz Foundation (Fiocruz), aiming to contribute With the semantic interoperability between the repositories of this Foundation. The research is based on the theoretical and methodological assumptions of the areas of thematic representation and documentary linguistics, within the scope of the Organization of Knowledge in CI, as well as in Bibliometrics, and its goals are: (a) to verify comparatively the semantic coherence in the indexing of articles Scientists in the field of public health; (B) to investigate the occurrence of indexation terms in light of quantitative bibliometric models used in indexing in Information Science; (C) provide evidence of the importance of the discursive genre scientific journal article in the area of public health; (D) identify the terms-figure and background terms of the articles analyzed for a better understanding of the informativeness of scientific texts; (E) contribute to the advancement of knowledge about phenomena that guide the indexing of scientific information, particularly on semantic coherence in indexing information in the health area. For that, 10 articles from Brazilian scientific journals, published in open access between 2012-2014 and registered in the Scientific Production Repository of the ENSP / Fiocruz, were analyzed. The articles were processed in the software RankWord and WordSmith 6.0, applying later the laws of Zipf and Goffman Transition Point to identify the terms of high semantic load of the texts. The terms selected in each article were compared in the 5 (five) indicators used in the research: Goffman Region T; Expressions WordSmith 6.0, Keywords; DeCS (Descriptors in Health Sciences) and Title. The results were compiled using the discourse plan of the sentences, with emphasis on terms used as foregrounding and in terms used as background, helping to verify the degree of coherence between the articles. The data collected reveal a low degree of semantic coherence in most articles studied. We suggest an investigation with an expanded sample to confirm the data obtained, especially when dealing with articles published in Portuguese in the health area and its importance in national scientific communication. Coerência Indexação temática, Área de Saúde Artigos científicos Ciência da Informação Coherence Thematic index, Health Area Scientific articles Information Science
216	Representações cache eficientes para índices baseados em Wavelet trees SILVA, Israel Batista Freitas da 12 December 2016 (has links) Submitted by Rafael Santana (rafael.silvasantana@ufpe.br) on 2017-08-30T19:22:34Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Israel Batista Freitas da Silva.pdf: 1433243 bytes, checksum: 5b1ac5501cae385e4811343e1426e6c9 (MD5) / Made available in DSpace on 2017-08-30T19:22:34Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Israel Batista Freitas da Silva.pdf: 1433243 bytes, checksum: 5b1ac5501cae385e4811343e1426e6c9 (MD5) Previous issue date: 2016-12-12 / CNPQ, FACEPE. / Hoje em dia, há um exponencial crescimento do volume de informação no mundo. Esta explosão cria uma demanda por técnicas mais eficientes de indexação e consulta de dados, uma vez que, para serem úteis, eles precisarão ser manipuláveis. Casamento de padrões se refere à busca de um texto menor (padrão) em um texto muito maior (texto), reportando a quantidade de ocorrências e/ou as localizações das ocorrências. Para tal, pode-se construir uma estrutura chamada índice que pré-processará o texto e permitirá que consultas sejam feitas eficientemente. A eficiência prática de um índice, além da sua eficiência teórica, pode definir o quão utilizado ele será, e isto está diretamente ligado a como ele se comporta nas arquiteturas dos computadores atuais. O principal objetivo deste estudo é analisar o uso da estrutura Wavelet Tree como índice avaliando o impacto da reorganização interna dos seus dados quanto à localidade espacial e, assim propor formas de organização que reduzam efetivamente a quantidade de cache misses ocorridos na execução de operações neste índice. Através de análises empíricas com dados simulados e dados textuais obtidos de dois repositórios públicos, avaliou-se alguns aspectos de cinco tipos de organizações para os dados da estrutura com o objetivo de compará-las quanto ao tempo de execução e quantidade de cache misses ocorridos. Adicionalmente, uma análise teórica da complexidade da quantidade de cache misses ocorridos para operação de consulta de um padrão é descrita para uma das organizações propostas. Dois experimentos realizados sugerem comportamentos assintóticos para duas das organizações analisadas. Um terceiro experimento executado mostra que, para quatro das cinco organizações apresentadas, houve uma sistemática redução na quantidade de cache misses ocorridos para a cache de menor nível. Entretanto a redução de cache misses para cache de menor nível não se refletiu integralmente numa diferença no tempo de execução das operações, tendo sido esta menos significativa, nem na quantidade de cache misses ocorridos na cache de maior nível, onde houveram variações positivas e negativas.Os resultados obtidos permitem concluir que a escolha de uma representação adequada pode acarretar numa melhora significativa de utilização da cache. Diferentemente do modelo teórico, o custo de acesso à memória responde apenas por uma fração do tempo de computação das operações sobre as Wavelet Trees, pelo que a diminuição no número de cache misses não se traduziu integralmente no tempo de execução. No entanto, este fator pode ser crítico em situações mais extremas de utilização de memória. / Today, there is an exponential growth in the volume of information in the world. This increase creates the demand for more efficient indexing and querying techniques, since, to be useful, that data needs to be manageable. Pattern matching means searching for a string (pattern) in a much bigger string (text), reporting the number of occurrences and/or its locations. To do that, we need to build a data structure known as index. This structure will preprocess the text to allow for efficient queries. The adoption of an index depends heavily on its efficiency, and this is directly related to how well it performs on current machine architectures. The main objective of this work is to analyze the Wavelet Tree data structure as an index, assessing the impact of its internal organization with respect to spatial locality, and propose ways to organize its data as to reduce the amount of cache misses incurred by its operations. We performed an empirical analysis using both real and simulated textual data to compare the running time and cache behavior of Wavelet Trees using five different proposals of internal data layout. A theoretical analysis about the cache complexity of a query operation is also presented for the most efficient layout. Two experiments suggest good asymptotic behavior for two of the analyzed layouts. A third experiment shows that for four of the five layouts, there was a systematic reduction in the number of cache misses for the lowest level cache. Despite this, this reduction was not reflected in the runtime, neither in the performance for the highest level cache. The results obtained allow us to conclude that the choice of a suitable layout can lead to a significant improvement in cache usage. Unlike the theoretical model, however, the cost of memory access only accounts for a fraction of the operations’ computation time on the Wavelet Trees, so the decrease in the number of cache misses did not translate fully into gains in the execution time. However, this factor can still be critical in more extreme memory utilization situations.
217	Uma abordagem prática e eficiente de consultas por similaridade para suporte a diagnóstico por imagens. / A pratical and eficient approach of searches for similarity to support diagnose by images. Natália Abdala Rosa 26 September 2002 (has links) O objetivo desse trabalho é apresentar as características de um Sistema de Apoio ao Diagnóstico em Sistema Hospitalar Suportando Busca por Imagens Similares, a ser desenvolvido e implantado no Hospital das Clínicas de Ribeirão Preto. A recuperação de imagens baseada no conteúdo é uma área de pesquisa que tem evoluído bastante nos últimos anos. Assim, um sistema de busca e obtenção de imagens, utilizando tal técnica, deve ser extensível aos novos algoritmos de extração de características e métodos de indexação. A extração de características de imagens, tais como informações de cor, textura, forma e o relacionamento entre elas são utilizadas para descrever o conteúdo das imagens. Essas características são então utilizadas para indexar e possibilitar a comparação de imagens no processo de recuperação. O sistema proposto utilizará um método de indexação de dados recém-desenvolvido a Slim-tree para indexar as características extraídas das imagens. Através desse método o Sistema de Apoio ao Diagnóstico possibilitará a consulta por conteúdo em imagens médicas. / This works presents the main characteristics of a diagnosis support system based on image similarity search for medical applications. This system was developed to be used in the Clinical Hospital of Ribeirao Preto of the University of Sao Paulo. The content-based image retrieval (CBIR) researching area has evolved greatly in the last years. Thus, a CBIR system should be able to incorporate the new techniques developed, such as, new feature extraction algorithms and indexing methods among others. Traditionally, the main features extracted from images to get the image essence are color, texture, shape and the relationship among them. Therefore, such features describe the images under analysis, and are used to index and to compare images during the content-based retrieval process. The proposed system takes advantage of a new metric access method - the Slim-tree, which allows the indexing and the retrieval of the images through their extracted features. DICOM imagens médicas indexação de imagens PACS recuperação de imagens por conteúdo slim-tree CBIR content-based image retrieval medical images index and retrieval
218	(Des)construção da súmula cinculante nº 4 do Supremo Tribunal Federal : elementos de conjuntura econômica e jurídica Medeiros, Saulo Bosco Souza de 26 October 2011 (has links) Made available in DSpace on 2017-06-01T18:18:11Z (GMT). No. of bitstreams: 1 dissertacao_saulo_medeiros.pdf: 8392995 bytes, checksum: 7ebb27c6fb8c324a022b70e074f30cc3 (MD5) Previous issue date: 2011-10-26 / This dissertation presents an analysis of the jurisprudence of the Brazilian s Supreme Court inserted in the binding precedent number four as a legal and economic perspective of the labor relations. That binding precedent declared that, except in cases provided for in the Constitution, the minimum salary couldn't be used as the index base for calculating benefit of a public servant or employee, or be replaced by judicial decision. From this perspective, is forbidden to use the minimum salary as a basis for calculating the additional by unhealthy labor against the labor law and the labor jurisprudence hitherto existing. This study aims to remake the building process of constitutional jurisprudence binding about labor questions and brought to the center of legal debate elements of the economic situation. For this purpose, it was made the historical evolution of the minimum salary in Brazil for the employers to enable to identify its influence on investment decisions in a neoliberal and globalized economic environment. With the result obtained this study pretend to verify how much the jurisprudence can be utilized as collateral instrument in the businesses and find out the negative effects over the social rights of the workmen / Esta dissertação apresenta uma análise da jurisprudência do Supremo Tribunal Federal consubstanciada na súmula vinculante n.º 4 sob uma perspectiva jurídico-econômica das relações de trabalho. A súmula vinculante n.º 4 do Supremo Tribunal Federal declarou que, salvo casos previstos na Constituição, o salário mínimo não pode ser usado como indexador de base de cálculo de vantagem de servidor público ou de empregado, nem ser substituído por decisão judicial. Sob tal perspectiva, foi proibida a utilização do salário mínimo como base de cálculo do adicional de insalubridade, em confronto com a legislação trabalhista e com a jurisprudência até então sedimentada. Este estudo pretende refazer o processo de construção da jurisprudência constitucional vinculante em matéria trabalhista trazendo para o centro da discussão jurídica elementos de conjuntura econômica. Para tanto, fez-se a evolução do custo real do valor do salário mínimo brasileiro, a fim de possibilitar a identificação da sua influência nas decisões de investimento num cenário econômico neoliberal e globalizado. A partir deste dado, buscou-se apreender em que grau a jurisprudência tem sido utilizada como instrumento de segurança às relações econômicas e a eventual consequência frente à necessidade de garantir-se a melhoria da condição social dos trabalhadores salários súmulas (direito) higiene do trabalho indexação dissertações law - cases wages summation (law) industrial hygiene indexing dissertations
219	Especificação, instanciação e experimentação de um arcabouço para criação automática de ligações hipertexto entre informações homogêneas / Specification, instantion and experimentation of a framework intended to support the task of automatic creation of hypertext links between homogeneous repositories Alessandra Alaniz Macedo 02 July 2004 (has links) Com a evolução da informática, diferentes meios de comunicação passaram a explorar a Web como um meio de divulgação de suas informações. Diferentes fontes de informações, diferentes estilos de escrita e a curiosidade nata do ser humano despertam o interesse de leitores por conhecer mais de um relato sobre um mesmo tema. Para que a leitura de diferentes relatos com conteúdo similar seja possível, leitores precisam procurar, ler e analisar informações fornecidas por diferentes fontes de informação. Essa atividade, além de exigir grande investimento de tempo, sobrecarrega cognitivamente usuários. Faz parte das pesquisas da área de Hipermídia investigar mecanismos que apóiem usuários no processo de identificação de informações em repositórios homogêneos, sejam eles disponibilizados na Web ou não. No contexto desta tese, repositórios com informações de conteúdo homogêneo são aqueles cujas informações tratam do mesmo assunto. Esta tese tem por objetivo investigar a especificação, a instanciação e a experimentação de um arcabouço para apoiar a tarefa de criação automática de ligações hipertexto entre repositórios homogêneos. O arcabouço proposto, denominado CARe (Criação Automática de Relacionamentos), é representado por um conjunto de classes que realizam a coleta de informações a serem relacionadas e que processam essas informações para a geração de índices. Esses índices são relacionados e utilizados na criação automática de ligações hipertexto entre a informação original. A definição do arcabouço se deu após uma fase de análise de domínio na qual foram identificados requisitos e construídos componentes de software. Nessa fase, vários protótipos também foram construídos de modo iterativo / With the evolution of the Internet, distinct communication media have focused on the Web as a channel of information publishing. An immediate consequence is an abundance of sources of information and writing styles in the Web. This effect, combining with the inherent curiosity of human beings, has led Web users to look for more than a single article about a same subject. To gain access to separate on a same subject, readers need to search, read and analyze information provided by different sources of information. Besides consuming a great amount of time, that activity imposes a cognitive overhead to users. Several hypermedia researches have investigated mechanisms for supporting users during the process of identifying information on homogeneous repositories, available or not on the Web. In this thesis, homogeneous repositories are those containing information that describes a same subject. This thesis aims at investigating the specification and the construction of a framework intended to support the task of automatic creation of hypertext links between homogeneous repositories. The framework proposed, called CARe (Automatic Creation of Relationships), is composed of a set of classes, methods and relationships that gather information to be related, and also process that information for generating an index. Those indexes are related and used in the automatic creation of hypertext links among distinct excerpts of original information. The framework was defined based on a phase of domain analysis in which requirements were identified and software components were built. In that same phase several prototypes were developed in an iterative prototyping Análise da semântica latente Computação ubíqua Hipermídia Indexação Informação homogênea Recuperação de informação Relacionamentos semânticos Web Homogeneous repositories Hyperlinks Hypermedia Indexing Information retrieval Latent semantic analysis Semantic relationships Web
220	Criação de vetores temáticos de domínios para a desambiguação polissêmica de termos. / Creation of thematic vectors of domains for the polysemic disambiguation of terms. BISPO, Magna Celi Tavares. 01 August 2018 (has links) Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-08-01T17:34:31Z No. of bitstreams: 1 MAGNA CELI TAVARES BISPO - DISSERTAÇÃO PPGCC 2012..pdf: 13590339 bytes, checksum: 3903bd3ab6c0c474a6a7e9bf8b04e08a (MD5) / Made available in DSpace on 2018-08-01T17:34:31Z (GMT). No. of bitstreams: 1 MAGNA CELI TAVARES BISPO - DISSERTAÇÃO PPGCC 2012..pdf: 13590339 bytes, checksum: 3903bd3ab6c0c474a6a7e9bf8b04e08a (MD5) Previous issue date: 2012-11-30 / A ambiguidade de termos é um dos fatores que dificulta o processo de indexação de documentos e recuperação de informação desejada por um usuário. O presente trabalho se baseia na hipótese de que parte deste problema pode ser minimizado sabendo-se de antemão o domínio do documento que contém termos ambíguos. Para determinar este domínio foram construídos vocabulários temáticos por meio da extração de termos de documentos de domínios de conhecimento pré-determinados, com o uso de regras sintáticas. A Wikipédia foi usada como base de consulta, por ser uma enciclopédia digital contendo as categorias definidas semelhantes à Classificação Decimal Universal (CDU), e cada categoria com uma vasta quantidade de documentos específicos, sendo essa característica fundamental para formação de um vocabulário específico do domínio de um conhecimento. A escolha das categorias foi baseada na CDU, composta de 10 domínios e seus respectivos subdomínios. Os vocabulários obtidos, denominados de Vetores Temáticos de Domínio (VTD), serviram de base para a classificação de novos documentos. Para validação dos VTD's, foram realizados três tipos de experimentos diferentes, o primeiro foi classificar novos documentos utilizando o método vetorial, tendo o VTD como base de consulta. O segundo experimento foi uma classificação utilizando outro classificador, o Intellexer Categorizer, e o terceiro experimento, criou-se um vetor de termos através do Weka, o qual foi submetido a servir de base de consulta para classificar novos documentos, utilizando o modelo vetorial. Os resultados foram satisfatórios, pois mostrou que o VTD obteve uma melhor classificação em relação aos outros métodos, dos 14 novos documentos, classificou 10 corretamente e 4 errados, apresentando uma acurácia de 80%, contra a acurácia de 57% do Intellexer Categorizer e de 50% da classificação utilizando o vetor de termos criado pelo Weka. / Terms ambiguity is one of the factors that hinders the document indexation and information retrieval processes desired by a user. This work is based on the hypothesis that part of this problem can be minimized by knowing beforehand the field of the document that contains ambiguous terms. To determine this domain, typical vocabularies were created through the extraction of terms from documents of predetermined knowledge domains, with the use of syntactical rules. Wikipedia was used as a consultation base because it is a digital encyclopedia that contains the categories defined similar to the Universal Decimal Classification (UDC), each category containing a vast amount of specific documents, being this feature essential for the formation of a domain-specific vocabulary. The choice of the categories was based on the UDC, composed of 10 domains and their respective subdomains. The vocabularies obtained, denominated as Thematic Domain Vectors (TDV), served as the basis for the classification of new documents. For the validation of the TDVs, three different types of experiments were performed: the first was to classify new documents using the vectorial method, with the TDV as a basis of consultation. The second experiment was a classification using another classifier, the Intellexer Categorizer. For the third experiment was created a vector of terms through Weka, which was submitted to serve as a a consultation base to classify new documents using the vectorial model. The results were satisfactory, because they showed that the TDV obtained a better classification relative to other methods. Of the 14 new documents, properly it rated 10 and 4 incorrectly, with an accuracy of 80%, against 57% accuracy of the Intellexer Categorizer program and 50% of the classification using the Weka created vector of terms. Ciência da Computação. Ciência da Informação. Vetores temáticos de domínios Desambiguação polissêmica de termos Indexação de documentos Ambiguidade de termos - indexação Vocabulários temáticos Recuperação da informação Classificação Decimal Universal - CDU Vocabulário controlado Intellexer Categorizer Processamento da linguagem natural Postagger Thematic vocabulaires Document indexing Information retrieval

Search results