Global ETD Search

51	Modelo de mineração de dados em bases de dados acadêmicas / Data mining model in academics databases Silva, Renan Monteiro da 12 April 2016 (has links) Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2016. / Submitted by Fernanda Percia França (fernandafranca@bce.unb.br) on 2016-05-17T16:17:57Z No. of bitstreams: 1 2016_RenanMonteirodaSilva.pdf: 2565220 bytes, checksum: 9d4ad5ce9de42a46b61bb7148d21919d (MD5) / Approved for entry into archive by Marília Freitas(marilia@bce.unb.br) on 2016-05-26T16:25:53Z (GMT) No. of bitstreams: 1 2016_RenanMonteirodaSilva.pdf: 2565220 bytes, checksum: 9d4ad5ce9de42a46b61bb7148d21919d (MD5) / Made available in DSpace on 2016-05-26T16:25:53Z (GMT). No. of bitstreams: 1 2016_RenanMonteirodaSilva.pdf: 2565220 bytes, checksum: 9d4ad5ce9de42a46b61bb7148d21919d (MD5) / No campo das comunidades de pesquisa existe uma série de bases de dados que proveem informações interessantes sobre publicações resultantes da pesquisa, incluindo títulos de artigos, autores, palavras-chave, citações, índices, veículos de publicação (revistas, livros, conferências e os tipos de eventos mais importantes) e assim por diante. Exemplos de tais bases de dados são Google Scholar, CiteSeerX, DBLP, Microsoft Academic, Thomson Reuters Web of Science, entre outros. No entanto, essas bases de dados globais ainda carecem de serviços que possam ser usados na procura por comunidades ou agrupamentos. Uma comunidade pode ser definida como um grupo de entidades, nesse caso autores e/ou universidades, que compartilham atributos ou relacionamentos semelhantes. Neste trabalho é proposto um modelo de mineração e análise das informações contidas nessas bases de dados acadêmicas. A análise dessas informações apresentadas nos resultados visa à descoberta das universidades, autores e assuntos mais significativos dentro do contexto dos dados minerados. Para isso foi feito um estudo de caso utilizando as informações contidas nas bases de dados do CiteSeerX e do DBLP como ponto de partida para a criação de um modelo genérico com o objetivo de ser aplicável a qualquer base de dados acadêmica. No estudo de caso é feita uma extensa mineração nas bases de dados do CiteSeerX e do DBLP, a partir dessa etapa é feita a migração e tratamento dos dados originais obtidos para o modelo genérico proposto neste trabalho. Com o modelo preenchido são aplicados os algoritmos e instruções para geração dos resultados que são subdivididos em três diferentes categorias: clusters, rankings e comunidades de relacionamento. A partir dos resultados são investigadas as tendências atuais na colaboração entre autores e institutos educacionais usando as bases de dados do CiteSeerX e do DBLP. Com a obtenção das informações disponíveis foram construídos várias comunidades e agrupamentos usando as técnicas de clusterização existentes. _______________________________________________________________________________________________ ABSTRACT / In the field of the research community, several databases such as Google Scholar, CiteSeerX, DBP, Microsoft Academic, Thomson Reuter´s Web of Science among others provide interesting information about authors, citations, indexes, most relevant venues types and so on. However, those global databases have limitations, especially in finding communities or clusters. A community can be defined as a group of entities, in this case authors and/or universities that share similar properties or relations. In this work, it is proposed a model of data mining and analysis of the obtained information in these academics databases. The analysis of the presented information in the results aims the discovery of the universities, authors and subjects most significant inside the context of the mined data. Thus a study case was realized using the CiteSeerX database as the start point for creating a generic model in order to be applied in any academic database. In the study case an extensive data mining was performed in the CiteSeerX database, as well as the migration and treatment of the original data obtained for the generic model proposed in this work. With the model data filled the proposed algorithms and the code instructions were applied for the generation of the results which are subdivided in three different categories: clusters, rankings and relationship communities. From the results, the work is validated by showing the current trends in the collaboration between authors and educational institutes, using the CiteSeerX dataset. By mining the available information, several communities and clusters are revealed using the proposed techniques. Sistemas distribuídos Mineração de dados (Computação) Bases de dados Aprendizagem de máquina Algoritmos de computador
52	Adequação da indexação de artigos de ensaios clínicos na base de dados Literatura Latino-americana e do Caribe em Ciências da Saúde (LILACS): estudo de periódicos da área de cardiologia / Indexing adequacy of clinical trials articles in the LILACS database: study of journals in the area of cardiology Conceição, Maria Anália da [UNIFESP] January 2016 (has links) (PDF) Submitted by Diogo Misoguti (diogo.misoguti@gmail.com) on 2018-02-23T12:50:01Z No. of bitstreams: 1 Tese-Dissertacao_ANALIA_24052016.pdf: 3418913 bytes, checksum: 0088197f65f0ab1f916fc0cde6951562 (MD5) / Made available in DSpace on 2018-02-23T12:50:01Z (GMT). No. of bitstreams: 1 Tese-Dissertacao_ANALIA_24052016.pdf: 3418913 bytes, checksum: 0088197f65f0ab1f916fc0cde6951562 (MD5) Previous issue date: 2016 / Fundamento: As revisões sistemáticas (RS) são consideradas o mais alto nível de evidência para a tomada de decisão em questões de cuidados de saúde. Um dos primeiros passos de uma RS envolve a identificação de todos ensaios clínicos (EC) relevantes sobre o tema de interesse. Porém, a recuperação de EC em uma base de dados depende em parte da qualidade da indexação dos artigos publicados. Objetivo: Analisar a adequação da indexação dos EC como Tipo de Publicação (TP) na base de dados Literatura Latino-Americana e do Caribe em Ciências da Saúde (LILACS), em uma amostra de artigos publicados em periódicos de cardiologia. Métodos: Este estudo transversal analisou a qualidade da indexação dos EC publicados entre 2008-2009 em periódicos de cardiologia indexados na LILACS. Duas revisoras identificaram e reclassificaram, de forma independente, todos os artigos primários originais publicados nesses periódicos como sendo EC ou outros tipos de desenhos, no campo TP. Os resultados da classificação das revisoras foram comparados com a indexação (TP) da LILACS. Resultados: Foram incluídos 721 artigos primários originais publicados em 11 periódicos de cardiologia. As revisoras classificaram 63 artigos como EC; 44 desses haviam sido corretamente indexados na LILACS, enquanto 19 tinham sido indexados como outros tipos de estudos (falsos negativos). As revisoras classificaram 658 artigos como não-EC; 651 desses haviam sido corretamente indexados pela LILACS e 7 artigos haviam sido incorretamente indexados como EC na LILACS (falsos positivos). A sensibilidade, especificidade e a acurácia global da indexação LILACS foram de 69,8%, 98,9% e 96,4% (695/721), respectivamente. Conclusão: Quase um terço dos EC em uma amostra de periódicos de cardiologia da LILACS não está corretamente indexado. É necessário melhorar a qualidade da indexação dos estudos publicados nesses periódicos. / Background: Systematic reviews (SR) are considered the highest level of evidence for decision making in health care issues. One of the first steps of a SR involves identifying all relevant clinical trials (CT) on the topic of interest. However, the retrieval of CT in a database depends in part on the article indexing quality. Objective: To evaluate the adequacy of indexing of CT as Publication Type (PT) in the Latin American and Caribbean Health Sciences Literature (LILACS) database in a sample of articles published in cardiology journals. Methods: This cross-sectional study analyzed the indexing quality of CT published between 2008 and 2009 in cardiology journals indexed in LILACS. Two reviewers, working independently, identified and reclassified all primary original studies published in these journals as being CT or other types of studies. The results of their classification was compared with the indexing (PT) produced by LILACS. Results: 721 articles published in 11 cardiology journals were included. The reviewers classified 63 articles as CT; 44 of these were correctly indexed in LILACS, while 19 were indexed as other types of studies (false negatives). The reviewers classified 658 articles as non-CT; 651 were correctly indexed and 7 were incorrectly indexed in LILACS as being CT (false positives). The sensitivity, specificity and global accuracy of LILACS indexing were 69.8%, 98.9% and 96.4% (695/721), respectively. Conclusion: Almost one third of the CT published in a sample of cardiology journals indexed in LILACS is not properly indexed. It is necessary to improve the quality of indexing of the studies published in these journals Resumos e Indexação Ensaios Clínicos Bases de Dados Bibliográficas Controle de Qualidade Publicações Periódicas Medicina Baseada em Evidências
53	O gerenciamento da informação tecnológica contida na literatura patentária: uma proposta para a Fiocruz / Information technology management patent contained in the literature: a proposal for the Fiocruz Longa, Leila Costa Duarte January 2007 (has links) Made available in DSpace on 2012-09-06T01:11:38Z (GMT). No. of bitstreams: 2 license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) 972.pdf: 1992276 bytes, checksum: 1548958ec2f23213a29f93f6bcf508b9 (MD5) Previous issue date: 2007 / O presente estudo tem por finalidade eselecer modelo de gerenciamento de informação tecnológica a partir do uso da literatura de patentes, considerando que, além de ser instrumento legal, a patente também representa uma ferramenta de conhecimento e informação técnica que agrega valor às outras fontes de informações existentes, em total relevância para ambientes de Ciência, Tecnologia e Inovação (CTI) como a FIOCRUZ. Desta forma, procuramos eselecer modelos para o uso da informação tecnológica em patentes, partindo de estudo realizado através de entrevista em três Instituições que atuam no campo da Propriedade Intelectual, a saber: Yissum Company, subsidiária da Universidade Hebraica de Jerusalém, IPEN Instituto de Pesquisa Nuclear e PETROBRAS Empresa Brasileira de Petróleo S/A. Observamos os seguintes aspectos no estudo realizado: gestão da informação em patentes, coleta da informação, processamento da informação, análise da informação, dificuldades na gestão da informação e resultados encontrados. Com base nesses aspectos propomos o funcionamento da Área de Informação Tecnológica que estará sendo iniciada no Sistema FIOCRUZ de Gestão Tecnológica e Inovação (Sistema GESTEC-NIT), atuando de forma pró-ativa com resultados que subsidiem Áreas de Propriedade Intelectual, através da proteção as pesquisas, Transferência de Tecnologia, através das negociações e prospecções e Núcleos de Inovação das Unidades Técnico-Científica, através do fortalecimento de pesquisas/projetos da Fundação Oswaldo Cruz. Assim, este estudo contribuirá na indução de um novo paradigma da informação baseada na literatura de patentes, na indução da mudança cultural e no redirecionamento e reorganização de informações em patentes coordenada pela Área de Informação Tecnológica do Sistema GESTEC-NIT da Vice-Presidência de Pesquisa e Desenvolvimento Tecnológico da FIOCRUZ. Tecnologia da Informação Conhecimento Bases de Dados Gerenciamento de Informação Patentes Propriedade Intelectual Inovação
54	Epidemiologia molecular do vírus da imunodeficiência humana do tipo I: métodos de inferência filogenética / Epidemiology molecular of the human immunodeficiency virus type I: approaches of inferring phylogenies Pinto, Jorge Francisco da Cunha January 2004 (has links) Made available in DSpace on 2012-09-06T01:11:49Z (GMT). No. of bitstreams: 2 license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) 811.pdf: 456158 bytes, checksum: bdc3f655a9020357b70fb3ebae086be9 (MD5) Previous issue date: 2004 / O crescimento das bases de dados moleculares referentes ao vírus da imunodeficiência humana do tipo I (HIV-1) aumentou progressivamente desde 1991. Pesquisadores do mundo inteiro têm se dedicado ao seqüenciamento de diferentes regiões do genoma do HIV visando elucidar o processo evolutivo viral. Supõe-se que este processo evolutivo esteja na base da pesquisa que determinará a produção de vacinas eficazes além de novas drogas para o combate da Aids. Neste trabalho, procuramos introduzir alguns aspectos da epidemiologia molecular do HIV-1 enfatizando a distribuição global dos seus subtipos e os métodos de inferência filogenética utilizados no estudo de sua evolução. Apresentamos, como aplicação dos métodos de inferência filogenética, um artigo intitulado (Epidemiologia Molecular do Sub-subtipo F1 do HIV-1), onde discutimos a epidemiologia molecular do sub-subtipo F1 buscando comparar as epidemias deste sub-subtipo no Brasil e na Romênia. Epidemiologia Molecular Inferência Filogenia HIV-1 Síndrome de Imunodeficiência Adquirida Genômica Bases de Dados Genéticas
55	Modelo de previsão de demanda de médicos para internação pelo SUS: estudo de caso para o Estado do Rio de Janeiro / A physician demand model for admissions for the SUS: a case study for the State of Rio de Janeiro Sérgio Pacheco de Oliveira 15 May 2007 (has links) Trata da apresentação e discussão de um modelo de previsão de demanda de médicos para atendimentos de pacientes internados pelo SUS, com estudo de caso para o Estado do Rio de Janeiro. O modelo é baseado nos dados do Sistema de Informações Hospitalares do SUS (SIH/SUS) e nas alterações esperadas de tamanho e composição da população, segundo o IBGE. Descreve a trajetória e a motivação que levaram à construção do modelo, a partir da ideia de maior utilização do enorme potencial das bases de dados brasileiras para o planeamento e gestão dos RHS. Faz também comentários sobre conceitos da Tecnologia da Informação, que são de interesse para uma melhor compreensão das bases de dados, incluindo a utilização de padrões. Apresenta e comenta os resultados da aplicação do modelo, para o período de 2002 a 2022, para o Estado do Rio de Janeiro. Propõe sugestões de pesquisas com objetivo de melhorar a integração entre as bases de dados estudadas, a discussão da construção e utilização de indicadores, assim como uma proposta de evolução para o apoio à decisão na área de RHS. / The text presents and discuss forecast model of physicians demand attendance of patients admitted on the SUS, with a study of case for the State of Rio de Janeiro. The model is based on the data of Hospital Information System of SUS (SIH/SUS) and on the foresight alterations of size and composition of the population, according to the Brazilian Institute of Geography and Statistics (IBGE). It describes the trajectory and the motivation that had taken to the model set up, starting from the idea of a better utilization of the enormous potential of the Brazilian databases for the planning and management of the Health Human Resources (HHR). The text also brings some commentaries on concepts of the Information Technology, that are of interest for better understanding of databases, including the use of standards. The results of the models application for the period of 2002 the 2022, for the State of Rio de Janeiro, are presented and discussed. Several data sources were studied previously the models set up. Suggestions of research with objective to improve the integration among the studied databases are presented, as well as the quarrel of the construction and use of indicators and a proposal of further research on the support to the decision in the HHR field. Recursos humanos em saúde Modelos de previsão Bases de dados Health human resources Forecast models Databases SAUDE COLETIVA
56	DETECÇÃO DE OPORTUNIDADES DE REFATORAÇÃO EM BASES DE DADOS RELACIONAIS / DETECTION OF REFACTORING OPPORTUNITIES IN RELATIONAL DATABASES Fogliato Junior, Luiz 30 November 2015 (has links) Many information systems that work with RDR (Relational Databases) have problems in the design of their databases. Such failures may result from design specification, requirement changes or even lack of knowledge to produce schemes that provide more evolutionary treatments for such systems. The technique that includes making changes to correct imperfections in databases that generate the mentioned problem is known as database refactoring. In order to identify possible opportunities for refactoring databases, this work proposes heuristics that detect or assist in detecting opportunities for refactoring. Thus, domain analysts and data professionals can identify the structure and data bad smells of a scheme and also take the necessary steps to address these shortcomings. / Muitos sistemas de informação que trabalham com BDR (Bancos de Dados Relacionais) apresentam problemas no projeto de suas bases de dados. Tais falhas podem ser decorrentes de falhas na construção, mudanças de requisitos ou falta de conhecimento por parte da equipe envolvida para produzir esquemas que proporcionem tratamentos mais evolutivos para tais sistemas. A técnica que possibilita fazer mudanças para corrigir imperfeições em bases de dados que geram os problemas citados é conhecida como refatoração (refactoring) em bases de dados. Objetivando identificar possíveis oportunidades de refatoração em bases de dados, este trabalho propõe heurísticas que detectam ou auxiliam na detecção de oportunidades de refatoração. Assim, analistas de domínio e profissionais da área de banco de dados poderão identificar, com maior agilidade, os defeitos compreendidos na estrutura e nos dados de um esquema e também tomar as providências necessárias para solucionar esses defeitos. Oportunidades de refatoração Bases de dados e heurísticas Refactoring opportunities Databases and heuristics
57	Otimização de consultas SPARQL em bases RDF distribuídas Penteado, Raqueline Ritter de Moura January 2017 (has links) Orientadora : Profa. Dra Carmem Satie Hara / Tese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 07/04/2017 / Inclui referências : f. 83-85 / Resumo; O modelo de dados RDF vem sendo usado em diversas aplicações devido a sua simplicidade e exibilidade na modelagem de dados quando comparado aos modelos de dados tradicionais. Dado o grande volume de dados RDF existente atualmente, diversas abordagens de processamento de consultas têm sido propostas visando garantir a escalabilidade destas aplicações. De uma forma geral, estas abordagens propõem métodos de distribuição de dados a _m de promover o processamento distribuído e paralelo de consultas SPARQL em sistemas RDF. Embora a distribuição forneça escalabilidade de armazenamento, o custo de comunicação no processamento de consultas pode ser alto. Este trabalho propõe uma abordagem de processamento de consultas SPARQL que tem o objetivo de minimizar o custo de comunicação para o processamento de consultas em sistemas RDF distribuídos. A abordagem explora a existência de padrões de alocação (PAs) na distribuição de dados, fornecida por um método de distribuição controlada de dados, que determina como triplas RDF são agrupadas e armazenadas em um mesmo servidor. Sendo assim, durante a distribuição, fragmentos de bases RDF seguem a composição de um determinado PA. Logo, a abordagem de processamento proposta gera planos de execução de consultas baseando-se nestes padrões viabilizando a escolha de duas estratégias de comunicação durante o processamento de consultas: get-frag e send-result. Na primeira estratégia, dada uma consulta, um servidor requisita para servidores remotos fragmentos de dados para a resolução de consultas. Na segunda, o servidor envia resultados intermediários da consulta para outros servidores continuarem a sua execução. Essas estratégias são combinadas em um método, denominado de 2ways, que escolhe a estratégia de comunicação adequada sempre que a execução de consultas transitar entre fragmentos de dados. A escolha da estratégia depende do número de mensagens e do volume de dados a ser transmitido entre servidores. Resultados experimentais mostram que 2ways reduz o custo de comunicação de maneira efetiva e melhora o tempo de resposta do processamento de consultas SPARQL em sistemas RDF distribuídos. Por fim, considerando que bases RDF podem ser alteradas por meio de operações de exclusão/interseção de triplas, este trabalho estende a abordagem de processamento proposta considerando que nem sempre novos dados inseridos estarão de acordo com os PAs predefinidos. A abordagem de atualização define um tipo especial de PA, denominado de PaOverow, para o armazenamento de dados que não podem ser categorizados pelos PAs existentes. Logo, o PaOverow também deve ser considerado no planejamento e no processamento de consultas. Um estudo experimental inicial mostra que, como esperado, a adoção do PaOverow pode aumentar o tempo de resposta de consultas na abordagem de processamento proposta. Palavras-chave: RDF, SPARQL, Processamento Distribuído de Consultas, Otimização de Consultas. / Abstract: RDF has been used by many applications due to its simplicity and exibility in data modeling. Due to the huge volume of RDF data that exists nowadays, many distributed query processing approaches have been proposed aiming to ensure scalability for these applications. In general, these approaches propose data distribution methods promoting distributed and parallel SPARQL query processing. However, while distribution may provide storage scalability, it may also incur high communication costs for processing queries. This work presents a parallel and distributed query processing approach that aims to minimize the communication cost. The approach explores the existence of data allocation patterns (PAs) for data distribution, provided by a controlled data distribution method, that determine how RDF triples should be grouped and stored on the same server. Fragments of the RDF datastore follow a given allocation pattern. The approach generates execution plans based on this distribution model making possible the choice of two communication strategies for query processing: get-frag and send-result. With the get-frag approach, a server requests remote servers to send fragments that contain data required by a query. The send-result approach, on the other hand, forwards intermediate results to other servers to continue the query processing. These strategies are combined on a method, called 2ways, that chooses the adequate communication strategy whenever queries traverse fragment boundaries. The choice of the communication strategy is based on the number of requisitions and the volume of the data to be transmitted. Experimental results show that our proposed technique e_ectively reduces the communication cost and improves the response time for processing SPARQL queries on a distributed RDF datastore. Finally, considering that RDF datasets are dynamic, and may be updated by delete/insert operations, this work extends the query processing approach considering that not all newly inserted data may conform to the prede_ned allocation patterns. We de_ne a special purpose type of PA, called PaOverow, for storing data that can not be categorized by existing PAs. Consequentelly, the PaOverow must be considered in query planning and processing. An initial experimental study shows that, as expected, the PaOverow adoption can increase the response time for processing queries on the proposed processing approach. Keywords: RDF, SPARQL, Distributed Query Processing, Query Optimization. Ciência da computação Bases de dados da Web Teses
58	Construção de base de dados de finanças municipais : contribuição para a transformação de registros administrativos em fonte estatística em economia da educação Tanaka, Michel Cunha 31 August 2016 (has links) Dissertação (mestrado)—Universidade de Brasília, Faculdade de Economia, Administração, Contabilidade e Gestão de Políticas Públicas, Departamento de Economia, Programa de Pós-Graduação em Economia, Mestrado em Economia e Gestão do Setor Público, 2016. / Submitted by Fernanda Percia França (fernandafranca@bce.unb.br) on 2017-01-30T16:12:06Z No. of bitstreams: 1 2016_MichelCunhaTanaka.pdf: 21875152 bytes, checksum: 5e24df983c3e0acb6eacf4c95e094499 (MD5) / Approved for entry into archive by Raquel Viana(raquelviana@bce.unb.br) on 2017-01-31T21:21:57Z (GMT) No. of bitstreams: 1 2016_MichelCunhaTanaka.pdf: 21875152 bytes, checksum: 5e24df983c3e0acb6eacf4c95e094499 (MD5) / Made available in DSpace on 2017-01-31T21:21:57Z (GMT). No. of bitstreams: 1 2016_MichelCunhaTanaka.pdf: 21875152 bytes, checksum: 5e24df983c3e0acb6eacf4c95e094499 (MD5) / Este trabalho expõe a construção de uma base de dados de finanças dos municípios brasileiros de forma que pode ser utilizada para o estudo da economia da educação, inclusive com disponibilização da base para download. Embora esses dados sejam registros administrativos, este trabalho também pretende contribuir para sua transformação em fontes estatísticas. / This work describes the construction of a database comprising financial data from the Brazilian municipalities such that it can be used for study of the Economics of Education, even with the online supplying of the database. Though the data are administrative records, this work also intends to contributes to its transformation in statistical sources. Finanças municipais - Brasil Federalismo fiscal Bases de dados Finanças públicas - municípios Economia da educação
59	Abrangência nas estratégias de busca em Anestesiologia: descritores nas bases de dados MEDLINE e EMBASE / Comprehensiveness in search strategies in Anesthesiology: subheadings in MEDLINE and EMBASE databases Volpato, Enilze de Souza Nogueira [UNESP] 24 July 2017 (has links) Submitted by Enilze de Souza N Volpato null (enilze@btu.unesp.br) on 2017-09-20T13:58:00Z No. of bitstreams: 1 tese Enilze doutorado 18 set 2017.pdf: 2811609 bytes, checksum: 80bb3a313f1b7220a03a2d560f6d0719 (MD5) / Approved for entry into archive by LUIZA DE MENEZES ROMANETTO (luizamenezes@reitoria.unesp.br) on 2017-09-20T14:47:30Z (GMT) No. of bitstreams: 1 volpato_esn_dr_bot.pdf: 2811609 bytes, checksum: 80bb3a313f1b7220a03a2d560f6d0719 (MD5) / Made available in DSpace on 2017-09-20T14:47:30Z (GMT). No. of bitstreams: 1 volpato_esn_dr_bot.pdf: 2811609 bytes, checksum: 80bb3a313f1b7220a03a2d560f6d0719 (MD5) Previous issue date: 2017-07-24 / Introdução: Para auxiliar os pesquisadores a identificarem os termos que devem compor a estratégia de busca, bibliotecários e educadores orientam os pesquisadores a consultarem e incluírem os termos (autorizados e não autorizados) do vocabulário controlado da base de dados na formulação de estratégias sensíveis para elaboração de revisões sistemáticas. No entanto, ao utilizar todos os termos disponíveis no tesauros (i.e. vocabulário controlado), as estratégias podem ficar extensas, pois alguns descritores incluem muitos termos não autorizados. Objetivo: Avaliar a praticidade e abrangência das estratégias de buscas compostas por descritores tanto do MeSH como do EMTREE, na área de Anestesiologia, que possam compor uma única estratégia de busca a ser utilizada nas bases de dados MEDLINE via PubMed e EMBASE. Método: Em nosso estudo transversal de estratégias de busca, selecionamos e analisamos 37 estratégias de busca desenvolvidas para o campo de Anestesiologia. Foram elaboradas as estratégias de busca originais que incluíram todos os termos disponibilizados nos vocabulários controlados, ou seja, com todas as variações referentes às diferentes grafias e ordens, direta e indireta, analisadas neste estudo. As estratégias originais foram modificadas com a exclusão dos termos que eram uma variação de grafia ou da ordem (direta ou indireta) para comparação dos resultados e adaptadas para submissão nas duas bases de dados. Resultados: As estratégias originais (com inclusão das variações: diferentes grafias e ordens direta e indireta) recuperaram o mesmo número de registros que as estratégias modificadas (sem a inclusão das variações)na base de dados Medline (média de 61,3%) e maior número na EMBASE (média de 63,9 %), na amostra analisada. O número de resultados obtidos pelas pesquisas analisadas não foi idêntico usando a associação ou não dos termos MeSH e EMTREE, sendo que a associação dos termos dos dois vocabulários controlados recuperou maior número de registros em comparação com o uso de termos de apenas um deles, nas duas bases de dados estudadas. Conclusões: Considerando os resultados, recomendamos o uso de todos os termos disponíveis nos vocabulários controlados incluindo termos autorizados e não autorizados (ou seja, diferentes ortografias e ordem direta e indireta do mesmo termo) e a associação dos termos do MeSH com os do EMTREE, para elaboração de estratégias de busca altamente sensíveis na realização de revisões sistemáticas. / Introduction: A high-quality electronic search is essential in ensuring accuracy and comprehensivness in identifying potentially relevant records in conducting a systematic review. To assist researchers in identifying terms when formulating a sensitive search strategy, librarians and educators instruct researchers to consult and include preferred and non-preferred terms of the controlled database. However, by using all available terms in the thesaurus (i.e. subject headings), strategies can be lengthy and very laborious. Objective: To identify the most efficient method for searching in both Medline through PubMed and EMBASE, covering search terms with different spellings, direct and indirect orders, and association (or lack thereof) with MeSH and EMTREE terms. Method: In our cross-sectional study of search strategies, we selected and analysed 37 search strategies specifically developed for the anesthesiology field. These search strategies were adapted in order to cover all potentially relevant search terms in terms of different spellings and direct and indirect orders, most efficiently. Results: When adapted to include different spellings and direct and indirect orders, adapted versions of the selected search strategies retrieved the same number of search results in the Medline (mean of 61,3%) and higher number in EMBASE (mean of 63,9%) of the analyzed sample. The number of results retrieved by the searches analysed was not identical using the association or not of MeSH and EMTREE terms; however the association of these terms from both controlled vocabularies retireved a large number of records compared to the use of either one of them. Conclusions: In view of these results, we recommend the use of search terms which include preferred and non-preferred terms (i.e., different spellings and direct/indirect order of the same term) and associated MeSH and EMTREE terms, in order to develop highly-sensitive search strategies for systematic reviews. Bases de dados bibliográficas Vocabulário controlado Anestesiologia MEDLINE PubMed Medical Suject Headings Databases, bibliographic Vocabulary, controlled Anesthesiology
60	Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados / Carreira , Juliano Augusto. January 2012 (has links) Orientador: Carlos Roberto Valêncio / Banca: José Márcio Machado / Banca: Marilde Terezinha Prado Santos / Resumo: A incidência de tuplas duplicadas é um problema significativo e inerente às grandes bases de dados atuais. Trata-se da repetição de registros que, na maioria das vezes, são representados de formas diferentes nas bases de dados, mas fazem referência a uma mesma entidade do mundo real, tornando, assim, a tarefa de identificação das duplicatas um trabalho árduo. As técnicas designadas para o tratamento deste tipo de problema são geralmente genéricas. Isso significa que não levam em consideração as características particulares dos idiomas o que, de certa forma, inibe a maximização quantitativa e qualitativa das tuplas duplicadas identificadas. Este trabalho propõe a criação de uma pré-etapa - intitulada "enriquecimento" - referente ao processo de identificação de tuplas duplicadas. Tal processo baseia-se no favorecimento do idioma e se dá por meio da utilização de regras de linguagem pré-definidas, de forma genérica, para cada idioma desejado. Assim, consegue-se enriquecer os registros de entrada, definidos em qualquer idioma, e, com a aproximação ortográfica que o enriquecimento proporciona, consegue-se aumentar a quantidade de tuplas duplicadas e/ou melhorar o nível de confiança em relação aos pares de tuplas duplicadas identificadas pelo processo / Abstract: The incidence of duplicate tuples is a significant problem inherent in current large databases. It is the repetition of records that, in most cases, are represented differently in the database but refer to the same real world entity thus making the task of identifying duplicates a hard work. The techniques designed to treat this type of problem are usually generic. That means they do not take into account the particular characteristics of the languages that somehow inhibits the quantitative and qualitative maximization of duplicate tuples identified. This dissertation proposes the creation of a pre-step - called "enrichment" - in relation to the process of duplicate tuples identification. This process is based on the language favoring and is through the use of predefined language rules in a general way for each language. Thus, it is possible to enrich the input records defined in any language and considering the spell approximation provided by the enrichment process, it is possible to increase the amount of duplicate tuples and/or improve the level of trust in relation to the pairs of duplicate tuples identified by the process / Mestre Banco de dados - Limpeza. Bases de dados - Tuplas duplicadas. Databases - Duplicate tuples. eng

Search results