Global ETD Search

161	Indexação da pesquisa científica: uma proposta para o uso adequado dos termos finalizadores dos resumos / Indexing of scientific research: a proposal for the proper use of finalizers from summaries Rocha, Lidianne Mércia Barbosa Malta 09 February 2017 (has links) This scholarly work of conclusion of course (TACC), consisting of a scientific paper and a product of speech, discusses words representing the content (keywords and descriptors) used in abstracts of academic papers defended in 2013 and 2014, the professional master's in Health Education (MEPS), identifying them as terms finalizers and indexers of research. The method adopted was of documentary nature, exploratory and descriptive, with quantitative perspective, investigating 37 research through semi-structured, electronic questionnaire containing a total of 17 questions, with the first five draw the General profile of all jobs and the following 12 identify each of the terms that are described in their respective summaries. The interrogative instrument was developed by the researcher in the own masters through the platform Google drive, to support the documentary analysis, being validated through an Electronic Validation Panel during the discipline technology applied in teaching and research in health (TAEPS), from the same institution. The variables analyzed were: (a) amount of keywords, (b) finalizer Nomenclature of summary: keywords or descriptors, (c) characterization of keywords: free and structured terms, (d) frequency of keywords, (and) Terminology of input keywords, (f) capture of key words in the titles and (g) score used between the keywords. The amount of keywords used pointed out that the summaries of the TACC did not follow an internal standardization of MEPS, but it was necessary to fit the journals chosen for submission, after the defence of academic papers, following the requirements presuppose the possibility of publication. Various terms used as keywords summaries were not found in the main terminology banks (MeSH, DeCS and Thesaurus), but had strength so the construction of the indexing representative academic work as the terms present in the bases of access, being possible to suggest new terms are included in the recovery of information portals. Finally, the authors of the TACC used encoded descriptors. However, do not have cited in their methodologies, registry numbers, or the portal in which they were obtained, leading to complete lack of practice when accessing the databases available, where the distinction between free or structured terms could contribute better with the correct choice of words post-production of their abstracts. Points out that various terminologies used by them, had great relevance in cohesion and coherence in summaries in which they found, showing strong potential for indexing the portal DeCS, which highlights the need for even more dynamic and constant supply of new terms, enabling more research grants, from the enrichment of databases available, and taking into account the existing records. In order to target students, teachers and researchers, more thorough management of the finalizer of nomenclature summaries, which will represent the content of scholarly works, from graduations and post-graduate degrees and academic professionals, was created, as a product of intervention, an educational blog titled ‘Key words in Scientific Production of MEPS’, which guides you through the proper use of the words representative of abstracts (keywords and descriptors). / O presente Trabalho Acadêmico de Conclusão de Curso (TACC), composto por um artigo científico e um produto de intervenção, discute sobre palavras representativas do conteúdo (palavras-chave e descritores) utilizadas nos resumos dos trabalhos acadêmicos defendidos em 2013 e 2014, no Mestrado Profissional em Ensino na Saúde (MPES), identificando-as como termos finalizadores e indexadores das pesquisas. O método adotado foi de cunho documental, exploratório e descritivo, com perspectiva quantitativa, investigando 37 pesquisas, através de questionário eletrônico semiestruturado, contendo um total de 17 perguntas, sendo que as cinco primeiras desenham o perfil geral de todos os trabalhos e as 12 seguintes identificam cada um dos termos descritos nos seus respectivos resumos. O instrumento interrogativo foi desenvolvido pela pesquisadora no próprio mestrado, através da plataforma Google drive, para subsidiar a análise documental, sendo validado por meio de um Painel de Validação Eletrônico durante a disciplina Tecnologia Aplicada no Ensino e Pesquisa na Saúde (TAEPS), da mesma instituição. As variáveis analisadas foram: (a) Quantidade de palavras-chave, (b) Nomenclatura finalizadora de resumo: palavras-chave ou descritores, (c) Caracterização das palavras-chave: termos livres e estruturados, (d) Frequência das palavras-chave, (e) Terminologias de entrada das palavras-chave, (f) Captação de palavras-chave nos títulos e (g) Pontuação usada entre as palavras-chave. A quantidade de palavras-chave usadas apontou que os resumos dos TACC não seguiram uma normatização interna do MPES, mas foi preciso se adequar aos periódicos escolhidos para submissão, após a defesa dos trabalhos acadêmicos, seguindo as exigências pressupostas para a possibilidade de publicação. Vários termos utilizados como palavras-chave dos resumos não foram encontrados nos principais bancos de terminologias (MeSH, DeCS e Thesaurus), mas possuíam força indexadora tão representativa à construção do trabalho acadêmico quanto os termos presentes nas bases de acesso, sendo possível sugerir que novos termos sejam incluídos nos portais de recuperação das informações. Por fim, os autores dos TACC utilizaram descritores codificados. Entretanto, não citaram em suas metodologias, a numeração do registro, nem o portal no qual os mesmos foram obtidos, levando a concluir haver falta de prática ao acessar as bases de dados disponíveis, onde a distinção entre termos livres ou estruturados poderia contribuir melhor com a escolha correta das palavras finalizadoras de seus resumos. Ressalta-se ainda que várias terminologias usadas por eles, possuíam grande relevância na coesão e coerência nos resumos em que se encontravam, apresentando forte potencial de indexação no portal DeCS, o que evidencia a necessidade de alimentação ainda mais dinâmica e constante de novos termos, possibilitando mais subsídios às pesquisas, a partir do enriquecimento das bases de dados disponíveis e, levando em consideração os registros existentes. Com o intuito de direcionar discentes, docentes e pesquisadores, no manejo mais minucioso da nomenclatura finalizadora de resumos, que representarão o conteúdo dos trabalhos acadêmicos, oriundos de graduações e pós-graduações acadêmicas e profissionais, foi criado, como produto de intervenção, um blog educacional intitulado ‘Descritores na Produção Científica do MPES’, o qual orienta o uso adequado das palavras representativas de resumos. Indexação como assunto Cabeçalho de assunto Nomenclatura Linguagem documentária Recuperação da informação Indexing as topic Subject headings Nomenclature Cataloging CNPQ::CIENCIAS DA SAUDE
162	O comportamento dos salários reais em uma conjuntura inflacionária Marconi, Nelson 29 June 1993 (has links) Made available in DSpace on 2010-04-20T20:18:36Z (GMT). No. of bitstreams: 0 Previous issue date: 1993-06-29T00:00:00Z / O trabalho estuda a influência da inflação sobre o nível do salário real, e o comportamento deste último frente a um processo de aceleração dos preços. Inicialmente é desenvolvida uma discussão teórica sobre a relação entre estas variáveis, inclusive sob regimes de indexação alternativos. Em seguida, são realizados levantamentos de dados da economia brasileira e testes econométricos visando a observação empírica do objeto de estudo descrito acima Inflação Indexação Salário real Economia Inflação - Brasil Salários - Brasil Salários - Efeito da inflação Política salarial - Brasil Brasil - Condições econômicas
163	Uso combinado de editor de metadados e árvore hiperbólica para auxílio na recuperação de dados em infraestruturas de dados espaciais: caso de estudo da IDE-CEMIG / Use of thesaurus for help on the data retrieval in spatial data infrastructure: SDI-Cemig study case Montanari, Marcos Vinícius 28 March 2016 (has links) Submitted by Reginaldo Soares de Freitas (reginaldo.freitas@ufv.br) on 2016-09-08T16:55:43Z No. of bitstreams: 1 texto completo.pdf: 1747269 bytes, checksum: bc200b3c7c7bced3b56c994dd82ac3eb (MD5) / Made available in DSpace on 2016-09-08T16:55:43Z (GMT). No. of bitstreams: 1 texto completo.pdf: 1747269 bytes, checksum: bc200b3c7c7bced3b56c994dd82ac3eb (MD5) Previous issue date: 2016-03-28 / Fundação de Amparo à Pesquisa do Estado de Minas Gerais / O conjunto de informações utilizado para documentar e organizar dados, com o objetivo de minimizar sua redundância e facilitar sua manutenção e obtenção, é denominado metadado. Um mesmo dado acaba sendo, muitas vezes, produzido por diversos produtores de forma isolada. Para tentar evitar a duplicidade de ações e o desperdício de recursos na obtenção de dados espaciais, o governo brasileiro criou a Infraestrutura Nacional de Dados Espaciais (INDE). A INDE tem como objetivo catalogar, integrar e harmonizar os dados geoespaciais produzidos e mantidos pelas diversas instituições governamentais, visando facilitar sua localização, exploração e acesso por qualquer usuário ligado à Internet. Para definir o conjunto estruturado de elementos básicos que retratam as características dos produtos geoespaciais brasileiros, garantindo sua identificação, avaliação e utilização consistente, a Comissão Nacional de Cartografia (CONCAR) criou o Perfil de Metadados Geoespaciais do Brasil (Perfil MGB). Para pesquisar informações dentro de uma Infraestrutura de Dados Espaciais (IDE) é necessário fazer a busca utilizando uma ou mais das seguintes alternativas: palavras-chave; coordenadas espaciais; classificação temática ou período de tempo. Entretanto, muitos usuários podem apresentar dificuldades na busca de dados geoespaciais através de termos específicos, por não terem conhecimento sobre o assunto ou quais critérios deverão ser utilizados na pesquisa. Este trabalho propõe a utilização de uma árvore hiperbólica de termos para a indexação dos metadados, facilitando sua recuperação. Após a indexação, o usuário pode navegar pelos nós da árvore e realizar buscas pelos metadados relacionados com os termos pesquisados. Para ajudar na elaboração de metadados utilizando o perfil MGB foi desenvolvido o edpMGB, que consiste em um editor de metadados classificado como um software livre e está disponibilizado na Web seguindo o modelo de Software como Serviço (SaaS). Este editor foi desenvolvido no SIG corporativo Companhia Energética de Minas Gerais. Os metadados criados por esse editor podem ser validados e indexados aos nós de uma árvore hiperbólica criada para o setor elétrico. / The Information set used to document and organize data, with the objective of minimize its redundancy and obtainment, is called metadata. Different producers can produce a same data many times in an isolated way. To avoid the duplication of efforts and waste of resources, the Brazilian government has created the National Spatial Data Infrastructure (Infraestrutura Nacional de Dados Espaciais - INDE). The INDE aims to catalogue, integrating and harmonizing geospatial data produced and hold by several government institutions, aiming to facilitate its location, exploration and access by any user from Internet. To define the structured set of basic elements that portrays the characteristics of the Brazilian geospatial products, the National Commission of Cartography (Comissão Nacional de Cartografia - CONCAR) has created the Geospatial Metadata Profile of the Brazil (Perfil de Metadados Geoespaciais do Brasil MGB Profile). To search information in a Spatial Data Infrastructure (SDI), it is necessary to search using one or more the following alternatives: keywords, spatial coordinates, thematic classification or periods of time. However, the untrained users may show difficulties in search geospatial data through specific terms, because the user may not have knowledge about the subjects and which criteria will be used in the search. This work proposes the use of a hyperbolic tree of terms to index metadata, helping its retrieval. After the indexing, the user . To help in the metadata creation using the MGB Profile, was developed the edpMGB, which consists a metadata editor, classified as a software open-source, and it is available in the Internet following the model Software as a Service (SaaS). The edpMGB was developed in the research and developm objective is the implantation of a corporate SDI for the Companhia Energética de Minas Gerais (Cemig). The metadata create by the editor can be validated and indexed to the hyperbolic tr nodes, created by the electric system. Metadados Mineração de dados (Computação) Indexação Sistemas de recuperação de dados Sistemas de informação geográfica Estrutura de dados (Computação) Pesquisa espacial Ciência da Computação
164	A dimensão teórica e metodológica da catalogação de assunto Martinho, Noemi Oliveira [UNESP] 24 October 2010 (has links) (PDF) Made available in DSpace on 2014-06-11T19:26:44Z (GMT). No. of bitstreams: 0 Previous issue date: 2010-10-24Bitstream added on 2014-06-13T18:55:06Z : No. of bitstreams: 1 martinho_no_me_mar.pdf: 1256103 bytes, checksum: ec727dea999479c693a7b4a679d03349 (MD5) / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) / A Catalogação de Assunto (Subject Cataloging) é um dos processos de representação temática da informação e foi desenvolvida nos Estados Unidos a partir da consolidação da Biblioteconomia estadunidense e dos processos biblioteconômicos que evidenciaram a necessidade de maior desenvolvimento dos catálogos, pois estes se afirmaram como instrumento indispensável às bibliotecas e suas comunidades usuárias. No entanto, a despeito de o Brasil ter sido fortemente influenciado pela Biblioteconomia estadunidense, há pouca literatura nacional a seu respeito e assim, pouca discussão dos aspectos históricos, conceituais e metodológicos da Catalogação de Assunto. Assim, abordamos esses aspectos por meio de estudo teórico e também da obra de Charles A. Cutter, nome fundamental para a evolução da Catalogação, e dos princípios propostos em sua obra Rules for a Dictionary Catalog. Dessa maneira, tivemos por objetivo auxiliar na compreensão desses fundamentos acerca da Catalogação de Assunto e conceder subsídios teóricos que pudessem contribuir para a diminuição da carência desse tema em língua portuguesa. A partir disso, realizamos o percurso histórico da Catalogação de Assunto partindo de seu contexto mais amplo, que é a Catalogação como um todo, e o desenvolvimento da própria biblioteconomia estadunidense. Em seguida, discutimos o conceito de “assunto”, dada a sua importância e constante presença no vocabulário da área e na própria expressão Catalogação de Assunto. Utilizamos o método do Protocolo Verbal em Grupo, para buscar a visão de acadêmicos e profissionais acerca das discussões aqui levantadas e dessa forma, obter dados sobre o conhecimento dessas questões nessas duas esferas de atuação, a partir do que confirmamos que embora tais tópicos tenham tido pouco espaço entre a literatura brasileira, e assim, é necessário que esta abordagem seja... / The Subject Cataloging is a process of thematic representation of the information and was developed in the United States from the consolidation of the american librarianship and of the librarian processes that evidenced the need for further development of catalogs, as they asserted themselves as an instrument indispensable to libraries and their user communities. However, despite Brazil having been heavily influenced by American Library, there is little national literature about and so little discussion of historical, conceptual and methodological aspects of Subject Cataloging. Thus, we addressed these aspects through theoretical study and also the work of Charles A. Cutter, fundamental name to the evolution of Cataloging, and the principles proposed in his Rules for a Dictionary Catalog. Thus, we had by objective was to assist in understanding these fundamentals about Subject Cataloging and provide theoretical support that could contribute to reducing the lack of this theme in Portuguese. From this, we outline the history of the Subject Cataloging departing from its broader context, which is Cataloging as a whole, and the development of American librarianship. Next, we discuss the concept of subject, given its importance and constant presence in the vocabulary of area and in the expression Subject Cataloging. We used the method of Think-aloud protocol, to seek the view of academics and professionals about the discussions raised here and thereby obtain data on the knowledge of these issues in these two spheres of activity, from which we confirm that although these topics have been little space between the Brazilian literature, and so, it is necessary that this approach is carried out to seek of the understanding of this conceptual universe. We conclude so far that actually there is a dearth of literature in Portuguese, to guide the epistemological foundation pillars for the Subject...(Complete abstract click electronic access below) Cutter, Charles Ammi Catalogação por assunto Organização da informação Indexação Subject cataloging Charles Ammi Cutter Organization of information
165	SB-Index : um índice espacial baseado em bitmap para data warehouse geográfico Siqueira, Thiago Luís Lopes 26 August 2009 (has links) Made available in DSpace on 2016-06-02T19:05:38Z (GMT). No. of bitstreams: 1 2652.pdf: 3404746 bytes, checksum: b3a10a77ac70bae2b29efed871dc75e4 (MD5) Previous issue date: 2009-08-26 / Universidade Federal de Minas Gerais / Geographic Data Warehouses (GDW) became one of the main technologies used in decision-making processes and spatial analysis since they provide the integration of Data Warehouses, On-Line Analytical Processing and Geographic Information Systems. As a result, a GDW enables spatial analyses together with agile and flexible multidimensional analytical queries over huge volumes of data. On the other hand, there is a challenge in a GDW concerning the query performance, which consists of retrieving data related to ad-hoc spatial query windows and avoiding the high cost of star-joins. Clearly, mechanisms to provide efficient query processing, as index structures, are essential. In this master s thesis, a novel index for GDW is introduced, namely the SB-index, which is based on the Bitmap Join Index and the Minimum Bounding Rectangle. The SB-index inherits the Bitmap Index legacy techniques and introduces them in GDW, as well as it enables support for predefined spatial attribute hierarchies. The SB-index validation was performed through experimental performance tests. Comparisons among the SB-index approach, the star-join aided by R-tree and the star-join aided by GiST indicated that the SB-index significantly improves the elapsed time in query processing from 76% up to 96% with regard to queries defined over the spatial predicates of intersection, enclosure and containment and applied to roll-up and drill-down operations. In addition, the impact of the increase in data volume on the performance was analyzed. The increase did not impair the performance of the SB-index, which highly improved the elapsed time in query processing. Moreover, in this master s thesis there is an experimental investigation on how does the spatial data redundancy affect query response time and storage requirements in a GDW? . Redundant and non-redundant GDW schemas were compared, concluding that redundancy is related to high performance losses. Then, aiming at improving query performance, the SB-index performance was evaluated on the redundant GDW schema. The results pointed out that SB-index significantly improves the elapsed time in query processing from 25% up to 99%. Finally, a specific enhancement of the SB-index was developed in order to deal with spatial data redundancy. With this enhancement, the minimum performance gain observed became 80%. / O Data Warehouse Geográfico (DWG) tornou-se uma das principais tecnologias de suporte à decisão, pois promove a integração de data warehouses, On-Line Analytical Processing e Sistemas de Informações Geográficas. Por isso, um DWG viabiliza a análise espacial aliada à execução de consultas analíticas multidimensionais envolvendo enormes volumes de dados. Por outro lado, existe um desafio relativo ao desempenho no processamento de consultas, que envolvem janelas de consulta espaciais ad-hoc e várias junções entre tabelas. Claramente, mecanismos para aumentar o desempenho do processamento de consultas, como as estruturas de indexação, são essenciais. Nesta dissertação, propõe-se um novo índice para DWG chamado SB-index, baseado no Índice Bitmap de Junção e no Retângulo Envolvente Mínimo. O SB-index herda todo o legado de técnicas do Índice Bitmap e o introduz no DWG. Além disso, ele provê suporte a hierarquias de atributos espaciais predefinidas. Este índice foi validado por meio de testes experimentais de desempenho. Comparações entre o SB-index, a junção estrela auxiliada pela R-tree e a junção-estrela auxiliada por GiST indicaram que o SB-index diminui significativamente o tempo de resposta do processamento de consultas roll-up e drill-down relacionadas aos predicados espaciais intersecta , está contido e contém , promovendo ganhos de 76% a 96%. Mostrou-se ainda que a variação do volume de dados não prejudica o desempenho do SB-index. Esta dissertação também investiga a seguinte questão: como a redundância de dados espaciais afeta um DWG? . Foram comparados os esquemas de DWG redundante e não-redundante. Observou-se que a redundância de dados espaciais acarreta prejuízos ao tempo de resposta das consultas e aos requisitos de armazenamento do DWG. Então, visando melhorar o desempenho do processamento de consultas, introduziu-se o SB-index no esquema de DWG redundante. Os ganhos de desempenho obtidos a partir desta ação variaram de 25% a 99%. Por fim, foi proposta uma melhoria sobre o SB-index a fim de lidar especificamente com a questão da redundância de dados espaciais. A partir desta melhoria, o ganho mínimo de desempenho tornou-se 80%. Banco de dados Data warehouse geográfico Indexação Índice bitmap Geographic data warehouse Bitmap index Indexing
166	A exaustividade e a especificidade como valores éticos no processo de indexação: aspectos conceituais e deontológicos / The exhaustivity and specificity as ethical values at indexing process: conceptual and deontologic aspects Evangelista, Isadora Victorino [UNESP] 02 May 2016 (has links) Submitted by Isadora Victorino Evangelista null (isadora.biblio@marilia.unesp.br) on 2016-05-31T11:38:46Z No. of bitstreams: 1 Dissertação finalizada.pdf: 1704534 bytes, checksum: 0784e2fe4bb6365bb43b53654884dd80 (MD5) / Approved for entry into archive by Ana Paula Grisoto (grisotoana@reitoria.unesp.br) on 2016-05-31T20:09:10Z (GMT) No. of bitstreams: 1 evangelista_iv_me_mar.pdf: 1704534 bytes, checksum: 0784e2fe4bb6365bb43b53654884dd80 (MD5) / Made available in DSpace on 2016-05-31T20:09:10Z (GMT). No. of bitstreams: 1 evangelista_iv_me_mar.pdf: 1704534 bytes, checksum: 0784e2fe4bb6365bb43b53654884dd80 (MD5) Previous issue date: 2016-05-02 / Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) / Considerando a natureza mediadora dos processos de organização da informação, destaca-se a necessidade de abordagem da dimensão ética desses processos, especialmente no que se refere às consequências para a recuperação da informação. Assim, coloca-se o problema relativo aos conceitos de exaustividade e especificidade na indexação, considerando-se estes não só como simples medidas de recuperaçãoda informação mas também como valores éticos que condicionam a prática do indexador. Com base nos artigos recuperados na revisão bibliográfica e partindo da análise de conteúdo proposta por Bardin (2008), foram considerados os conceitos de exaustividade e especificidade, enquanto valores éticos na área da organização da informação. Os resultados foram analisados de modo a evidenciar as dimensões éticas que se associam à questão da exaustividade e da especificidade na prática da indexação, possibilitando um diagnóstico mais efetivo sobre essa questão. Conclui-se que essas características podem ser entendidas como além de medidas, pois afetam de forma direta a recuperação informacional, estabelecendo a quantidade e a qualidade dos termos representativos, ao mesmo tempo que podem também ser encarados enquanto valores éticos da atividade de indexação. / Considering the intermediary nature of the Information Organization processes, it is important to point out the ethical components in this context, specially the ones related to Information Retrieval. In this way, this study has the aim to explore two concepts − exhaustivity and specificity − in indexing which can be moving from simple Information Retrieval measures to indexer’s ethical values. This study has the goal to analyse the concepts exhaustivity and specificity as ethical values in Information Organization applying the content analysis method proposed by Bardin (2008). The results discussion was developed in a way which could present a scheme stressing the ethical dimensions associated with exhaustivity and specificity in indexing, concluding that these characteristics can be seen beyond mere measures, because they affect directly information retrieval, establishing quantity and quality of representative terms, regarded this way, as ethical values for indexing. / FAPESP: 2014/05546-4 Organização da informação Ética informacional Indexação Representação da Informação Especificidade Exaustividade Information Organization Informational ethics Indexing Information Representation Specificity Exhaustivity Ethical values
167	Operação de carga-rápida (bulk-loading) em métodos de acesso métricos / Bulk-loading Dynamic Metric Acess Methods Thiago Galbiatti Vespa 10 December 2007 (has links) O grau de similaridade entre elementos de dados é o fator primordial para a recuperação de informações em Sistemas Gerenciadores de Bases de Dados que manipulam dados complexos, como seqüências genéticas, séries temporais e dados multimídia (imagens, áudios, vídeos, textos longos). Para responder a essas consultas em um tempo reduzido, faz-se necessário utilizar métodos que usam métricas para avaliar a similaridade entre os elementos. Esses métodos são conhecidos como Métodos de Acesso Métricos. Dentre os mais conhecidos na literatura estão a M-tree e a Slim-tree. Existem duas maneiras de executar as operações de construção de índices em qualquer método de acesso: inserindo elemento a elemento ou usando a operação de carga-rápida (bulk-loading). O primeiro tipo de construção é comum e necessário para todo tipo de método de indexação dinâmico. Já as operações de carga-rápida são utilizadas para conjuntos de dados maiores, como por exemplo, na recuperação de backups em bases de dados ou na criação posterior de índices. Nessas situações, a inserção individual tende a ser mais demorada. Realizar uma carga-rápida possibilita a construção de índices com melhor eficiência e em menor tempo, pois há a disponibilidade de todos os dados no instante da criação da estrutura de índices, possibilitando explorar as propriedades do conjunto como um todo. Os Sistemas Gerenciadores de Base de Dados oferecem operações de carga-rápida dos dados nos métodos tradicionais, as quais devem ser supridas também nos Métodos de Acesso Métricos. Neste trabalho, são apresentadas três abordagens, uma técnica para carga-rápida dos dados em Métodos de Acesso Métricos e foi desenvolvido um algoritmo baseado nessa técnica para construir uma Slim-tree. Este é o primeiro algoritmo de carga-rápida baseada em amostragem que sempre produz uma Slim-tree válida, portanto é o primeiro descrito na literatura que pode ser incluído em um Sistema Gerenciador de Base de Dados. Os experimentos descritos neste trabalho mostram que o algoritmo proposto mantém bom agrupamento dos dados e supera o desempenho dos métodos de inserção seqüencial levando em conta tanto o desempenho de construção quanto à eficiência para realizar consultas / The similarity degree between data elements is the primordial factor for information retrieval in databases that handle complex data, such as genetic sequences, time series and multimedia objects (long images, audio, videos, texts). To answer these queries in a reduced time, it is necessary methods that use metrics to evaluate the similarity between elements. These methods are known as Metric Access Methods. The most known Metric Access Methods in the literature are the M-tree and the Slim-tree. There are two ways to build index in any access method: inserting element one by one or using the bulk-load operation. The first build type is very common and required for all kinds of dynamic access methods. The bulk-load operations are used for bigger datasets, as for example, in the recovery of backups and re-creation of database indexes. In these situations, the individual insertion takes much time. The bulk-load operation makes it possible to construct indexes more efficiently and faster, because it has the availability of the whole data when the index structure are created, and thus, it is possible to explore the properties of the whole set. Database Management Systems offer bulk-load operations for the traditional methods, so it is important that they can be also supplied for Metric Access Methods. This work presents three bulk-loading approaches and it proposes a technique to bulk-load data into Metric Access Methods. An algorithm based on this technique was developed to construct a Slim-tree. This is the first bulk-load algorithm based on sampling that always produces a valid Slim-tree, therefore is the first one described in literature that can be enclosed in a Database Management System. The experiments show that this algorithm keeps good clustering of data and in such a way that it surpasses the performance of sequential insertion, taking into account the construction performance and the efficiency to perform queries Base de dados Estruturas de indexação Métodos de acesso métricos Operação de carga-rápida Bulk-loading Database Indexing structures Metric access methods
168	Um algoritmo para a construção de vetores de sufixo generalizados em memória externa / External memory generalized suffix array construction algorithm Felipe Alves da Louza 17 December 2013 (has links) O vetor de sufixo é uma estrutura de dados importante utilizada em muitos problemas que envolvem cadeias de caracteres. Na literatura, muitos trabalhos têm sido propostos para a construção de vetores de sufixo em memória externa. Entretanto, esses trabalhos não enfocam conjuntos de cadeias, ou seja, não consideram vetores de sufixo generalizados. Essa limitação motiva esta dissertação, a qual avança no estado da arte apresentando o algoritmo eGSA, o primeiro algoritmo proposto para a construção de vetores de sufixo generalizados aumentado com o vetor de prefixo comum mais longo (LCP) e com a transformada de Burrows-Wheeler (BWT) em memória externa. A dissertação foi desenvolvida dentro do contexto de bioinformática, já que avanços tecnológicos recentes têm aumentado o volume de dados biológicos disponíveis, os quais são armazenados como cadeias de caracteres. O algoritmo eGSA foi validado por meio de testes de desempenho com dados reais envolvendo sequências grandes, como DNA, e sequências pequenas, como proteínas. Com relação aos testes comparativos com conjuntos de grandes cadeias de DNA, o algoritmo proposto foi comparado com o algoritmo correlato mais eficiente na literatura de construção de vetores de sufixo, o qual foi adaptado para construção de vetores generalizados. O algoritmo eGSA obteve um tempo médio de 3,2 a 8,3 vezes menor do que o algoritmo correlato e consumiu 50% menos de memória. Para conjuntos de cadeias pequenas de proteínas, foram realizados testes de desempenho apenas com o eGSA, já que no melhor do nosso conhecimento, não existem trabalhos correlatos que possam ser adaptados. Comparado com o tempo médio para conjuntos de cadeias grandes, o eGSA obteve tempos competitivos para conjuntos de cadeias pequenas. Portanto, os resultados dos testes demonstraram que o algoritmo proposto pode ser aplicado eficientemente para indexar tanto conjuntos de cadeias grandes quanto conjuntos de cadeias pequenas / The suffix array is an important data structure used in several string processing problems. In the literature, several approaches have been proposed to deal with external memory suffix array construction. However, these approaches are not specifically aimed to index sets of strings, that is, they do not consider generalized suffix arrays. This limitation motivates this masters thesis, which presents eGSA, the first external memory algorithm developed to construct generalized suffix arrays enhanced with the longest common prefix array (LCP) and the Burrows-Wheeler transform (BWT). We especially focus on the context of bioinformatics, as recent technological advances have increased the volume of biological data available, which are stored as strings. The eGSA algorithm was validated through performance tests with real data from DNA and proteins sequences. Regarding performance tests with large strings of DNA, we compared our algorithm with the most efficient and related suffix array construction algorithm in the literature, which was adapted to construct generalized arrays. The results demonstrated that our algorithm reduced the time spent by a factor of 3.2 to 8.3 and consumed 50% less memory. For sets of small strings of proteins, tests were performed only with the eGSA, since to the best of our knowledge, there is no related work that can be adapted. Compared to the average time spent to index sets of large strings, the eGSA obtained competitive times to index sets of small strings. Therefore, the performance tests demonstrated that the proposed algorithm can be applied efficiently to index both sets of large strings and sets of small strings Dados biológicos Indexação Memória externa Montagem de genomas Vetor de sufixo generalizado Biological data External memory Generalized suffix array Genome assembly Indexing
169	Análise da Influência do Fator Distribuição Espacial dos Dados no Desempenho de Métodos de Acesso Multidimensionais CIFERRI, Ricardo Rodrigues January 2002 (has links) Made available in DSpace on 2014-06-12T15:53:26Z (GMT). No. of bitstreams: 2 arquivo5133_1.pdf: 5742440 bytes, checksum: b8acaf8765518dc4580f06ca970cc072 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2002 / Um método de acesso multidimensional (MAM) é uma estrutura de indexação voltada ao suporte de objetos espaciais, especialmente de retângulos. O principal objetivo de um MAM é propiciar uma rápida obtenção dos objetos espaciais que satisfazem um certo relacionamento topológico, métrico ou direcional. Neste sentido, o espaço indexado é organizado de tal forma que, por exemplo, a recuperação dos retângulos de dados contidos em uma área particular requeira apenas o acesso aos retângulos próximos a esta área, em oposição à análise do conjunto completo de retângulos armazenados em memória secundária. Um MAM, portanto, é projetado como um caminho otimizado aos dados espaciais e o seu uso melhora significativamente o desempenho de sistemas gerenciadores de banco de dados espaciais no processamento de consultas. Nesta tese, nós investigamos o desempenho de um conjunto de MAM, a maioria dos quais tem sido identificado na literatura como um MAM muito eficiente no suporte a consultas espaciais de seleção. Este grupo consiste dos seguintes métodos de acesso: R-tree, R-tree Greene, R+-tree, Hilbert R-tree, SR-tree e três variantes da R* -tree chamadas de R* -tree CR (i.e., close reinsert), de R* -tree FR (isto é, far reinsert) e de R* -tree WR (isto é, without reinsertion). A comparação do desempenho destes MAM foi realizada visando-se analisar prioritariamente a influência do fator distribuição espacial dos dados. Neste sentido, nós propusemos uma metodologia de avaliação de desempenho que permite a geração de um conjunto de tipos de distribuição espacial com diferentes características, as quais tornam possível que a influência do fator distribuição espacial dos dados seja analisada sob diferentes perspectivas, desde uma fraca até uma forte influência. Por meio de diversos testes de desempenho, nós observamos de que forma a distribuição espacial dos dados afetou os custos de inserção e de armazenamento de novas entradas no índice espacial, além do custo de point queries, intersection range queries, enclosure range queries e containment range queries. Com relação a estas consultas espaciais de seleção, os resultados de desempenho mostraram que a R+-tree foi a melhor estrutura de indexação espacial para poin queries e enclosure range queries, ao passo que as variantes da R* -tree produziram os melhores resultados de desempenho para intersection e containment range queries. Por outro lado, os métodos Hilbert R-tree e SR-tree geraram um baixo desempenho para as quatro consultas espaciais investigadas. No entanto, em testes de desempenho adicionais, os quais modificaram tanto o tamanho quanto o formato dos retângulos de dados, os métodos de acesso Hilbert R-tree e SR-tree geraram resultados competitivos, particularmente para intersection e containment range queries Métodos de acesso multidimensionais Estruturas de indexação espacial Árvores-R Distribuição espacial dos dados Análise de desempenho Técnica experimental de benchmark Banco de dados espaciais
170	Ranking de publicações baseado na extração de textos da Internet / Ranking of publications based on extraction of texts of the Internet Oliveira, Henrique Przibisczki de 12 April 2009 (has links) Orientador: Ricardo de Oliveira Anido / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-15T07:19:24Z (GMT). No. of bitstreams: 1 Oliveira_HenriquePrzibisczkide_M.pdf: 1997897 bytes, checksum: fce2bcda34e198778d87b8c87f83e484 (MD5) Previous issue date: 2009 / Resumo: Vários métodos de ranking atuais comparam os diversos veículos de publicação em relação à qualidade ou impacto. Esta informação é muito importante para que um pesquisador selecione veículos de renome para publicar suas pesquisas, ou mesmo, instituições podem promover seus pesquisadores baseando-se na qualidade dos veículos onde publicam. Esta informação sobre os veículos pode também ser valiosa para um governo destinar recursos 'as instituições ou uma empresa avaliar a qualidade de um candidato a um emprego. Existem várias métricas distintas para realizar ranking de veículos, mas o ponto comum entre a maioria é o uso de citações. Portanto, por mais que um veículo seja bastante prestigiado pelos pesquisadores, se ele não for indexado em uma base sua qualidade não será considerada. Este trabalho propõe um método para ranking de veículos de publicação obtendo as informações não de uma base de citações existente, mas de uma outra fonte de dados: a Web. As páginas dos professores de universidades são visitadas e delas são extraídas as suas publicações. De cada publicação é extraído o veículo e dessa forma, baseado nos veículos que um pesquisador quis exibir em sua página, os mesmos são ordenados. Este método irá contemplar veículos de publicação não existentes nas atuais bases de dados criando um novo ranking de publicações. Vários problemas computacionais interessantes são abordados neste trabalho: busca de informação na internet, segmentação textual, extração de componentes em uma referência bibliográfica e agrupamento / Abstract: Several current ranking methods compare different publication venues in relation to quality or impact. This information is very important for a researcher to choose renowned venues to publish his research. Institutes could promote their researchers based on the quality of places they have published. This information about the venues can also be valuable for a government to allocate resources to universities, or for companies to evaluate the quality of a candidate for a job. There are other distinct measures to perform a ranking of venues, but the idea in common among most of them is the use of citations. Therefore, despite the fact a venue is very prestigious for its researchers, if it is not indexed in a citation database, it will not be considered, since its "quality" cannot be measured. This work proposes to construct a ranking of publication venues obtaining the information not from a database, but from another data source: the Web. The university professor's webpages are visited to extract the publications. The venue is extracted from each publication, and thus, based on venues which a researcher wanted to show in his webpage, they are ranked. This method will include publication venues that do not exist in current databases, creating a new ranking of publications. Many interesting computational problems are discussed in this work: information search on the internet, text segmentation, extraction of components in a bibliographic citation, and clustering / Mestrado / Metodologia e Tecnicas da Computação / Mestre em Ciência da Computação Publicações científicas Classificações bibliográficas Bibliometria Indexação automática Recuperação da informação Referencias bibliograficas Science publishing Bibliographic classification Bibliometrics Automatic indexing Information retrieval

Search results