• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 133
  • 14
  • 1
  • Tagged with
  • 152
  • 152
  • 60
  • 41
  • 33
  • 30
  • 29
  • 24
  • 22
  • 18
  • 17
  • 17
  • 15
  • 15
  • 15
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
71

O uso de método de relacionamento de dados (record linkage) para integração de informação em sistemas heterogêneos de saúde: estudo de aplicabilidade entre níveis primário e terciário / The use of record linkage method for integration heterogeneous information systems in health: a study of applicability between primary and tertiary

Suzuki, Katia Mitiko Firmino 21 September 2012 (has links)
O relacionamento de dados record linkage, originou-se na área da saúde pública e atualmente é aplicado em várias outras áreas como: epidemiologia, pesquisa médica, criação de ensaios clínicos, na área de marketing, gestão de relacionamento com o cliente, detecção de fraude, aplicação da lei e na administração do governo. A técnica consiste no processo de comparação entre dois ou mais registros em diferentes bases de dados e as principais estratégias de record linkage são: manual, deterministic record linkage (DRL) e probabilistic record linkage (PRL). Este estudoteve como objetivo aplicar o record linkage em bases de dados heterogêneas, utilizadas pela rede de atenção à saúde do município de Ribeirão Preto e identificar entre elas a melhor estratégia a ser adotada para a integração de bases de dados na área da saúde. As bases de dados da secretaria Municipal de Saúde de Ribeirão Preto (SMS-RP) e do Hospital das Clínicas da Faculdade de Medicina de Ribeirão Preto (HCFMRP/USP) foram objeto deste estudo, tendo como critério de inclusão apenas os registros de pacientes em que o município de residência informado correspondia ao município de Ribeirão Preto e o atendimento tivesse ocorrido na Unidade Básica Distrital e de Saúde (UDBS) - Centro Saúde Escola Joel Domingos Machado\" (CSE-Sumarezinho) nos anos de janeiro de 2006 a agosto de 2008 e no HCFMRP/USP. Foi selecionada uma amostra aleatória simples resultando em um conjunto de 1.100 registros de pacientes na base de dados do CSE-Sumarezinho e de 370.375 registros na base de dados do HCFMRP/USP. Foram, então, selecionadas quatro variáveis de relacionamento (nome, nome da mãe, sexo e data de nascimento). As estratégias adotadas foram: DRL exato, DRL com discordância em uma variável de relacionamento, e baseada em funções de similaridades (Dice, Levenshtein, Jaro e Jaro-Winkler) e, por fim, PRL. A estratégia DRL exato resultou em 334 registros pareados e na abordagem com discordância de uma variável foram 335, 343, 383 e 495, sendo as variáveis discordantes sexo, data de nascimento, nome e nome da mãe respectivamente. Quanto ao uso das funções de similaridades, as que mais se destacaram foram Jaro-Winkler e Jaro. Quanto à acurácia dos métodos aplicados, o PRL (sensibilidade = 97,75% (CI 95% 96,298,8) e especificidade = 98,55% (CI 95% 97,0-99,4)) obteve melhor sensibilidade e especificidade, seguido do DRL com as funções de similaridade Jaro-Winkler sensibilidade = 91,3% (CI 95% 88,793,4) e especificidade = 99% (CI 95% 97,6-99,7)) e Jaro (sensibilidade = 73,1% (CI 95% 69,476,6) e especificidade = 99,6% (CI 95% 98,5-99,9)). Quanto à avaliação da área sob a curva ROC do PRL, observou-se que há diferença estatisticamente significativa (p = 0,0001) quando comparada com os métodos DRL com discordância da variável nome da mãe, Jaro-Winkler e Jaro. Os resultados obtidos permitem concluir que o método PRL é mais preciso dentre as técnicas avaliadas. Mas as técnicas com a função de similaridade de Jaro-Winkler e Jaro também são alternativas viáveis interessantes devido à facilidade de utilização apesar de apresentarem o valor de sensibilidade ligeiramente menor que o PRL. / The record linkage originated in the area of public health and is currently applied in several other areas such as epidemiology, medical research, establishment of clinical trials, in the area of marketing, manager customer relationships, fraud detection, law enforcement and government administration. The technique consists on the comparison between two or more records in different databases and their key strategies are: manual comparison, Deterministic Record Linkage (DRL), and Probabilistic Record Linkage (PRL).This study aimed to apply the record linkage in heterogeneous databases, used by the network of health care in Ribeirão Preto and identify the best strategy to be adopted for the integration of databases in health care. The databases that were evaluated in this study were of the Municipal Health Department of Ribeirão Preto (SMS-RP) and of the Clinical Hospital of the School of Medicine of Ribeirao Preto (HCFMRP/USP) having as inclusion criterion only the records of patients in the county of residence reported corresponded to the city of Ribeirão Preto and care had taken place in the Basic District Health Unit (UDBS) - School Health Center \"Joel Domingos Machado\" (CSE-Sumarezinho) included in the years from January 2006 to August 2008 and in the HCFMRP/USP. Held to select a simple random sample resulted in a set of 1,100 patient records in the database of the CSE-Sumarezinho and 370,375 records in the database of HCFMRP/USP. Then there was the selection of four linking variables (name, mother\'s name, gender and birth date). The strategies adopted were: the exact DRL, DRL with one variable where the linking is disagreement, applied with similarity functions (Dice, Levenshtein, Jaro, and Jaro-Winkler), and, finally, PRL. The strategy of the exact DRL resulted in 334 matched records and strategy in dealing with disagreement of one variable were 335, 343, 383 and 495, to the following variables discordant gender, birth date, name and mother\'s name, respectively. Regarding the use of similarity functions which most stood out were Jaro and Jaro-Winkler. Regarding the accuracy of the methods applied, the PRL obtained better sensitivity and specificity (sensitivity = 97,75% (CI 95% 96,298,8) and specificity = 98.55% (95% CI 97.0 to 99.4)), followed by the DRL with the similarity functions Jaro-Winkler (sensitivity = 91.3% (95% CI 88.7 to 93.4) and specificity = 99% (95% CI 97.6 to 99, 7)) and then by Jaro (sensitivity = 73.1% (95% CI 69.4 to 76.6) = 99.6% and specificity (95% CI 98.5 to 99.9)). The evaluation of the area under the ROC curve in the PRL, was observed that there is statistically significant difference (p = 0.0001) if it is compared with the DRL methods when there is disagreement in the variable mother\'s name, as well as for Jaro and for Jaro-Winkler. The results indicate that the PRL method is most accurate among the techniques evaluated. Although the techniques with the similarity function of Jaro-Winkler and Jaro were also interesting viable options due to the ease of use, although having the sensitivity value slightly smaller than the PRL.
72

Reformulação da base de dados da Tabela Brasileira de Composição de Alimentos (TBCA) / Reformulation of the database of the Brazilian Food Composition Table (TBCA)

Grande, Fernanda 27 September 2018 (has links)
Tabela Brasileira de Composição de Alimentos (TBCA) tem como meta a disseminação de dados de qualidade sobre a composição quimica dos alimentos. Desde 2013, a reformulação de sua base de dados vem sendo coordenada pela Rede Brasileira de Composição de Alimentos (BRASILFOODS) e pelo Food Research Center (FoRC/CEPID/FAPESP). Este trabalho envolve o esforco de inumeros pesquisadores, e representa uma das principais acoes na area de difusao do conhecimento coordenadas pelo FoRC. Dados de composição de alimentos sao fundamentais para diversas atividades na area da nutrição, agricultura e elaboração de politicas de saude publica. Assim, o objetivo do presente trabalho foi reformular e aprimorar a base de dados da TBCA visando sua adequação para avaliação da ingestao de nutrientes e centralização de informacoes referentes a biodiversidade de alimentos brasileiros. A primeira etapa do trabalho compreendeu a inclusao de informacoes ja compiladas (composição centesimal, vitaminas e minerais) na base de dados da TBCA versao 5.0, a qual passou a apresentar informacoes analiticas de qualidade sobre 3955 alimentos brasileiros. A partir da TBCA 5.0 atualizada foram criadas duas novas bases de dados: (i) Base de Dados de Biodiversidade (BDB) e (ii) Base de Dados de Alimentos consumidos no Brasil (BDAB). A BDB reune informacoes analiticas originais sobre o conteudo de nutrientes de 1271 alimentos representativos da biodiversidade brasileira. Os dados incluidos na BDB podem permitir a identificação de alimentos ricos em nutrientes visando sua inclusao em politicas nacionais relacionadas a nutrição e seguranca alimentar. A BDAB apresenta informacoes completas sobre o perfil de 43 componentes (energia, composição centesimal, fracoes de lipidios, vitaminas e minerais) para 1525 alimentos e preparacoes, selecionadas entre as mais citadas em pesquisas nacionais envolvendo a aquisição e consumo de alimentos. A BDAB foi composta prioritariamente pela agregação de dados analiticos sobre alimentos brasileiros, porem, para viabilizar a disponibilização do perfil completo para todos os componentes, dados tambem foram estimados, calculados ou emprestados de bases de dados de outros paises. A BDAB abrange 77% dos alimentos citados no Inquerito Nacional de Alimentação e, portanto, pode ser aplicada na avaliação da ingestao de nutrientes pela população, aumentando o uso de informacoes sobre a composição de alimentos especificos do pais. As bases de dados geradas estao sendo disponibilizadas nas plataformas da TBCA, da International Network of Food Data Systems (INFOODS) e do FoRC. / The Brazilian Food Composition Table (TBCA) aims to disseminate data of good quality on the chemical composition of foods. The reformulation of the TBCA database is being developed under the coordination of the Brazilian Network of Food Data Systems (BRASILFOODS) and Food Research Center (FoRC). Several researchers are joining efforts to enable this task, which represents a key activity of FoRC regarding knowledge diffusion. Food composition data are required in many fields in nutrition science, agriculture and in the elaboration of programs and public health polices. Therefore, the aim of this work was to reformulate the TBCA\'s database not only to centralize data on the composition of foods from the Brazilian biodiversity but also to serve as a tool for dietary intake surveys. In the first step of the work, data already compiled over the past few years (proximate composition, vitamins and minerals) were included in the database of the TBCA version 5.0. The updated version included high-quality analytical data on 3955 Brazilian foods. Based on this information, two different new databases were elaborated: (i) the Biodiversity Database (B-DB) and (ii) the Database on foods consumed in Brazil (DB-FB). The BDB presents only original analytical data on the nutrient content of 1271 foods from the Brazilian biodiversity. The data included in the B-DB may allow the identification of nutrient-rich foods for inclusion into national programs and policies on nutrition and food security. The DB-FB provides a complete nutrient profile for 1525 foods, including 43 components (energy, proximate composition, fat fraction, vitamins and minerals). The food items were added to the DB-FB based on data of food acquisition and national dietary surveys conducted in Brazil. This database was composed primarily by the aggregation of analytical data on foods produced or commercialized in Brazil. In addition, some values were also estimated, calculated or borrowed from databases from other countries to have as few gaps as possible. The DB-FB covers 77% of the foods reported in the national dietary survey, therefore, it can be used to access the nutrient intake of the population, increasing the use of country-specific composition data. Both databases are being made available on TBCA, International Network of Food Data Systems (INFOODS) and FoRC websites.
73

Psicoterapia breve de problemas conjugais : informatização de registros na clínica institucional / Brief psychotherapy of marital conflict : informatization of reports in institutional clinic

Dantas, Martha Serôdio 31 August 2007 (has links)
A pesquisa tem como objetivo reformular uma base de dados, desenvolvida e utilizada pela equipe do Laboratório de Estudos da Conjugalidade (LEC): atendimento em Psicoterapia Breve. Esta base de dados informatizada é um instrumento que visa aprimorar a forma de registro de material clínico de atendimentos em psicoterapia breve para fins clínico-institucionais e de pesquisa o que, como decorrência, contribuirá também com o serviço de psicoterapia na clínica institucional. O projeto de pesquisa foi elaborado a partir da experiência da autora nas atividades clínicas que desenvolve como psicóloga na Clínica Psicológica do Instituto Sedes Sapientiae (ISS), mais especificamente no LEC. A autora realiza atendimentos em psicoterapia breve nas modalidades individual e casal, participa das supervisões e discussões de caso em grupo e de grupos de estudos com a equipe do referido Laboratório. Os atendimentos clínicos seguem a fundamentação teórica e técnica baseada principalmente nos autores: Winnicott, Malan, Gilliéron, Bergeret e Hegenberg. Utilizando como metodologia qualitativa a análise de conteúdo proposta por Bardin e Turato, e tendo como documentos para análise os registros realizados pelos psicoterapeutas no período de outubro de 1999 a julho de 2004, foi realizada a sistematização e categorização dos registros. A pesquisa tem por foco os registros da fase inicial do processo de psicoterapia breve (avaliação inicial). Em função dos resultados obtidos aprimoramos o banco de dados já existente possibilitando a utilização dos respectivos registros clínicos para pesquisas quantitativas e qualitativas com apoio dos recursos da informática (desenvolvimento de software). A versão informatizada já se encontra disponível para fase de testes. / This research aims to exam and refine a set of data, developed and used by the staff of the Laboratório de Estudos da Conjugalidade: atendimento em psicoterapia breve (LEC). This computerized set of data is a tool which tries to improve the way the clinical material of the sessions of brief psychotherapy is recorded, making these reports able to be used in clinical-institutional work as well as in new researches; and, of course, this will contribute also to the work in the institutional clinic. This research was designed on the grounds of the author\'s experience in her activities as psychologist of the Clínica Psicológica do Instituto Sedes Sapientiae (ISS), particularly in the LEC. In her practice the author does brief psychotherapy - individual or with couples -, works in supervisions and discussions of cases in groups and attends lecture groups with the staff of the above mentioned LEC. In her practice the author uses mainly the technical and theoretical approaches of the following authors: Winnicott, Malan, Gilliéron, Bergeret and Hegenberg. By using as methodological framework the context analysis suggested by Bardin, and having as raw material for this investigation the reports made by the psychologists of the LEC between october/99 and july/04, we aim to systematize and ordinate the data. The focus of the research will be the records of the initial phase of the process of brief psychotherapy (preliminary evaluation). By the end of the research we expect to have refined the existing data permitting, from then on, the correct use of this set of records of clinical cases in new qualitative and quantitative researches with the support of modern techniques in informatics (developing of software).
74

Avaliação do papel funcional e do potencial valor prognóstico dos membros da família PHLDA (Pleckstrin homology-like domain A) utilizando data mining / Evaluation of the functional role and the potential prognostic value of the members of the PHLDA family (pleckstrin homology like domain family A) using data mining

Valoyes, Maira Andrea Valoyes 26 April 2018 (has links)
O câncer de mama é uma doença complexa que envolve alterações genéticas e epigenéticas junto com fatores ambientais. Dentre os tipos de câncer o de mama é o de maior incidência e mortalidade na população feminina, portanto a caracterização desta doença tem sido um desafio continuo para a comunidade cientifica. Numerosos biomarcadores moleculares tem sido associados com o câncer de mama e seus subtipos; no entanto, existe uma boa quantidade que tem sido pouco explorado. Este é o caso dos genes da família PHLDA (pleckstrin homology like domain family A), identificados repetidamente em vários estudos de perfil transcripcional em câncer de mama. Esta família compreende três genes: o gene PHLDA1 expresso em diferentes tecidos e com papel na regulação da apoptose, o gene PHLDA2 localizado em uma importante região de localização de genes supressores de tumor que sofrem regulação por imprinting, e o gene PHLDA3 envolvido na apoptose mediada por p53. Diversos estudos têm mostrado que os genes da família PHLDA estão frequentemente alterados em diferentes tipos de tumores, incluindo o câncer de mama, no entanto, o papel desses genes no desenvolvimento e progressão do câncer de mama ainda não está bem estabelecido. Na atualidade há uma enorme quantidade de dados experimentais integrados e disponibilizados em bancos de dados públicos para análise de dados genéticos e epigenéticos em diferentes tipos de tumores. Muitos dos estudos depositados nesses bancos tem facilitado a identificação de novos subtipos intrínsecos de câncer de mama, a predição de sobrevida e a resposta a drogas. Nosso objetivo é fazer uma busca em bases de dados públicos, para avaliar o padrão de expressão da família PHLDA em tumores e em linhagens celulares de mama, do perfil de metilação, mutação e do potencial valor prognóstico da expressão desses genes em câncer de mama. Para isso foram utilizadas as plataformas TCGA, GEO e GOBO para a busca de dados de expressão de mRNA, TCGA e GEO para extração de dados de metilação de DNA, TCGA e COSMIC para análise de dados de mutação e CNA, mIRTarBASE e GEO para dados de microRNA em câncer de mama, Netdecoder para a construção das redes e KMplotter para a busca de dados de sobrevida. Os resultados mostraram que PHLDA1 se encontra com baixa expressão em tumor e em linhagens celulares de mama e mais expresso nos tumores ER negativos. Os tumores ER negativos também mostraram um baixo nível de metilação quando comparados com amostra normal. Adicionalmente nos encontramos que PHLDA1 é alvo do microRNA miR-181a-5p cujos altos níveis de expressão em tumores foram associados com baixa sobrevida. PHLDA2 foi mais expresso nos tumores do que em amostra normal de mama, principalmente nos subtipos her2+; estes níveis elevados de expressão foram associados com baixa sobrevida em quase todos os subtipos moleculares; por outro lado, nenhuma diferença foi encontrada no perfil de metilação por receptor de estrógeno. O microRNA miR-193b-3p foi identificado como regulador de PHLDA2. O gene PHLDA3 foi encontrado menos expresso nos tumores ER negativos, e esses tumores também se encontravam com hipermetilação. Pacientes com todos os subtipos moleculares apresentaram um aumento de sobrevida livre de recorrência quando os níveis de PHLDA3 foram altos. Nenhum membro da família apresentou mutações nos dados analisados, enquanto que alterações no número de cópia foram encontradas nos três genes. Os dados obtidos até o momento mostram que a expressão dos membros da família PHLDA é alterada em câncer de mama e tem impacto na sobrevida dos pacientes. Processos como metilação do DNA, alterações no número de cópia e a participação de microRNAs podem ser os mecanismos implicados na desregulação desses genes / Breast cancer is a complex disease involving genetic and epigenetic alterations together with environmental factors. Among the cancer types, breast cancer is the most incident and deadliest in women population worldwide in both developed and developing countries, therefore, characterization of this disease has been a continuous challenge for the scientific community. A large quantity of molecular biomarkers has been associated with breast cancer development and their subtypes. However, there is a good amount that has been little explored. This is the case of the genes of the PHLDA family (pleckstrin homology-like domain family A) previously identified in a series of transcriptional profiling studies and recognized for their role in apoptosis. This family comprises three members; PHLDA1 is expressed in different tissues and has an important role in apoptosis regulation; PHLDA2 is located in a region harboring important tumor suppressor genes and is regulated by imprinting process. PHLDA3 gene is involved in p53-mediated apoptosis. Several studies have shown that the genes of the PHLDA family are frequently altered in different types of tumors including breast cancer. However, the role of these genes in breast cancer progression and development is not well established yet. Currently, there is a vast amount of genomic, transcriptomic, proteomic and epigenetic data generated by new high-performance technologies available in public databases. Many of the studies deposited in these banks have facilitated the identification of new intrinsic subtypes of breast cancer, prediction of survival and drug responses. Regarding the potential role of PHLDA family as biomarkers and the limited information in breast cancer, we pretend in this study to take advantage of these platforms downloading information about expression, methylation, of PHLDA family and correlating it with prognosis in breast cancer. We used TCGA, GEO and GOBO platforms to look for mRNA expression data, TCGA and GEO to extract methylation data, TCGA and COSMIC to analyze mutation and CNA, miRTarBase and GEO for microRNA analysis, KMplotter to assess prognosis and NetDecoder to construct the networks. The results showed that PHLDA1 is downregulated in tumors and breast cell line compared with breast tissue and it was more expressed in ER negative tumors. These tumors also showed a low level of methylation when compared to normal tissue. Additionally, the mining of miRNA revealed that PHLDA1 is target of two microRNAs, miR-181a-5p, whose high levels of expression in tumors were associated with low survival. On the other hand, the transcripts of PHLDA2 were more expressed in tumors than in normal sample, mainly in HER2+ subtype, and PHLDA2 high expression was associated with poor outcome in almost all the subtypes. PHLDA2 is methylated only on ER tumors and was found to be target of the microRNA has-miR-193b-3p. PHLDA3 was less expressed in ER-negative tumors, and these tumors also exhibited DNA hypermethylation. Patients with tumors expressing high levels of PHLDA3 showed better recurrence-free survival than patients with low levels of PHLDA3. No family member had mutations in the analysed data, while copy number changes were found in the three genes. The data obtained so far show that the expression of PHLDA1 family members is altered in breast cancer and has an impact on the survival of patients. Processes such as DNA methylation, copy number changes and the involvement of microRNAs may be the mechanisms involved in the deregulation of these genes
75

Acesso e utilização a bases de dados: estudo de caso da Biblioteca do IFSul – Câmpus Charqueadas

Scheid, Fernando 18 July 2017 (has links)
Submitted by JOSIANE SANTOS DE OLIVEIRA (josianeso) on 2017-10-03T12:30:12Z No. of bitstreams: 1 Fernando Scheid_.pdf: 1316185 bytes, checksum: 82e933449d1319408b251dc78485aee2 (MD5) / Made available in DSpace on 2017-10-03T12:30:13Z (GMT). No. of bitstreams: 1 Fernando Scheid_.pdf: 1316185 bytes, checksum: 82e933449d1319408b251dc78485aee2 (MD5) Previous issue date: 2017-07-18 / Nenhuma / Este trabalho tem por objetivo realizar umestudo sobre o conhecimento e a utilização de bases de dados em pesquisas por parte dos alunos da graduação e pós-graduação do Instituto Federal Sul-rio-grandense Câmpus Charqueadas, tendo como cenário principal a Biblioteca com a finalidade de compreender o perfil de pesquisa desses usuários. A metodologia utilizada foi um estudo de caso e como instrumentos de coleta de dados, dois questionários: o primeiro questionário com questões fechadas incluindo comentários e sugestões e outro questionário, posteriormente, com perguntas abertas. Após a análise da coleta de dados chegou-se à conclusão de que muitos usuários desconhecem ou não utilizam bases de dados (51%) para realizarem suas pesquisas, porém as bases de dados mais conhecidas são Scielo, Portal de Periódicos da Capes e Web of Science. O curso de pós-graduação utiliza mais esses recursos em relação aos cursos de graduação, apesar de 19% afirmarem que desconhecem ou não utilizam bases de dados. Entre os sites de busca na internet o Google teve o maior destaque, com 65%. Como sugestão dos usuários está a realização de capacitações e treinamentos para que essas fontes de informação possam ser utilizadas com maior frequência. Por fim, esta pesquisa apresenta dois produtos: o diagnóstico com relação ao conhecimento e utilização de bases de dados em pesquisa pelos alunos do IFSul Câmpus Charqueadas e a proposta de um projeto de tutorial relativo à utilização de bases de dados em pesquisas para ser disponibilizado na página da Biblioteca, a fim de qualificar a busca por informações a partir de fontes online, oferecendo outra possibilidade de acesso a acervos. / This work aims to carry out a study about the knowledge and usage of data bases in researches done by the Graduation and Post-Graduation students of the Federal Institute Sul-rio-grandense, Campus Charqueadas, having the Library as the main scenario to understand the research profile of those users. The methodology used was a case study and the instruments of data collection were two questionnaires: the first questionnaire with closed questions including comments and suggestions and another questionnaire, used later, with open questions. After analyzing the data collection, it was concluded that many users are unaware or do not use databases (51%) to carry out their researches, but the most well-known databases are Scielo, Periódicos Capes and Web of Science. The postgraduate course uses these resources more in relation to undergraduate courses, although 19% state that they do not know or do not use databases. Among the search engines on the internet, Google had the biggest highlight, with 65%. As a suggestion of the users, the execution of training courses about these sources of information can be used more frequently. Finally, this research presents two products: the diagnosis regarding the knowledge and use of databases in research by the students of IFSul Campus Charqueadas and the proposal of a project of tutorial on the use of databases in researches to be available in Library website in order to qualify the search for information from online sources, offering another possibility of access to collections.
76

Um modelo para implementação de aplicações da Argument Web integradas com bases de dados abertos e ligados

Niche, Roberto 30 June 2015 (has links)
Submitted by Silvana Teresinha Dornelles Studzinski (sstudzinski) on 2015-10-21T15:18:41Z No. of bitstreams: 1 ROBERTO NICHE_.pdf: 2843778 bytes, checksum: 593973f2bdcb7e774f0022cc2e08fdea (MD5) / Made available in DSpace on 2015-10-21T15:18:41Z (GMT). No. of bitstreams: 1 ROBERTO NICHE_.pdf: 2843778 bytes, checksum: 593973f2bdcb7e774f0022cc2e08fdea (MD5) Previous issue date: 2015-06-30 / Milton Valente / Ferramentas de comunicação e colaboração são amplamente utilizadas na internet para expressar opiniões e descrever pontos de vista sobre os mais diversos assuntos. Entretanto elas não foram projetadas para apoiar a identificação precisa dos assuntos tratados e tampouco para permitir o relacionamento entre os elementos que compõem as interações. Os resultados observados são a disponibilidade de uma grande quantidade de informações geradas espontaneamente e a dificuldade de identificação precisa dos elementos de destaque dessas informações, bem como seus relacionamentos e suas fontes. A proposta central da Argument Web está relacionada com a definição de uma infraestrutura para anotar de forma precisa os argumentos das mensagens publicadas e possibilitar que estes estejam relacionados com suas diversas fontes. Quando integrada com a iniciativa de bases de dados abertos e ligados, a Argument Web apresenta o potencial de ampliar a qualidade das discussões colaborativas na Internet e favorecer a sua análise. Entretanto, as iniciativas para implementações de aplicações com base nestes conceitos ainda são restritas. Mesmo nas aplicações conhecidas, ainda são pouco exploradas as características de visualização e utilização de bases de dados abertos e ligados. Neste trabalho é descrito um modelo para a instanciação desse tipo de aplicações, com base no modelo Argument Interchange Format e no uso de linguagens da Web Semântica. O diferencial que este modelo apresenta está relacionado com a facilidade de integração entre fontes externas em formatos de bases de dados ligados. Um protótipo deste modelo foi avaliado em um estudo usando-se bases de dados abertas e ligadas no âmbito da administração pública brasileira, tendo sido observados bons resultados. / Internet communication and collaboration tools are widely used on the Internet to express opinions and describe views on various subjects. However, they were not designed to support the precise identification of the issues raised, nor to allow the relationship among the elements of the interactions. The observed results are the availability of a large amount of information generated spontaneously by users. Even then, the accurate identification of key discussion elements and their interconnecting relationships as well as their sources is still a challenge. The main goal of Argument Web is related to the definition of an infrastructure to note correctly the arguments of the posted messages and enable these to relate to its various sources. When integrated with the initiative to open and connected databases, the Argument Web has the potential to increase the quality of collaborative discussions on the Internet and to encourage their analysis. However, initiatives for application implementations based on these concepts are still restricted. Even in known applications, the display characteristics and use of open and linked data bases are still little explored. This paper describes a model for the creation of such applications, based on the Argument Interchange Format and the use of Semantic Web languages. We consider our main contributions to be twofold: first, our capability to integrate and link external data sources; and second, augmentation through. A prototype was created and employed in a case study, enabling discussion related to Brazilian government issues, in which good results were observed.
77

Visualização de operações de junção em sistemas de bases de dados para mineração de dados. / Visualization of join operations in DBMS for data mining.

Barioni, Maria Camila Nardini 13 June 2002 (has links)
Nas últimas décadas, a capacidade das empresas de gerar e coletar informações aumentou rapidamente. Essa explosão no volume de dados gerou a necessidade do desenvolvimento de novas técnicas e ferramentas que pudessem, além de processar essa enorme quantidade de dados, permitir sua análise para a descoberta de informações úteis, de maneira inteligente e automática. Isso fez surgir um proeminente campo de pesquisa para a extração de informação em bases de dados denominado Knowledge Discovery in Databases – KDD, no geral técnicas de mineração de dados – DM – têm um papel preponderante. A obtenção de bons resultados na etapa de mineração de dados depende fortemente de quão adequadamente o preparo dos dados é realizado. Sendo assim, a etapa de extração de conhecimento (DM) no processo de KDD, é normalmente precedida de uma etapa de pré-processamento, onde os dados que porventura devam ser submetidos à etapa de DM são integrados em uma única relação. Um problema importante enfrentado nessa etapa é que, na maioria das vezes, o usuário ainda não tem uma idéia muito precisa dos dados que devem ser extraídos. Levando em consideração a grande habilidade de exploração da mente humana, este trabalho propõe uma técnica de visualização de dados armazenados em múltiplas relações de uma base de dados relacional, com o intuito de auxiliar o usuário na preparação dos dados a serem minerados. Esta técnica permite que a etapa de DM seja aplicada sobre múltiplas relações simultaneamente, trazendo as operações de junção para serem parte desta etapa. De uma maneira geral, a adoção de junções em ferramentas de DM não é prática, devido ao alto custo computacional associado às operações de junção. Entretanto, os resultados obtidos nas avaliações de desempenho da técnica proposta neste trabalho mostraram que ela reduz esse custo significativamente, tornando possível a exploração visual de múltiplas relações de uma maneira interativa. / In the last decades the capacity of information generation and accumulation increased quickly. With the explosive growth in the volume of data, new techniques and tools are being sought to process it and to automatically discover useful information from it, leading to techniques known as Knowledge Discovery in Databases – KDD – where, in general, data mining – DM – techniques play an important role. The results of applying data mining techniques on datasets are highly dependent on proper data preparation. Therefore, in traditional DM processes, data goes through a pre-processing step that results in just one table that is submitted to mining. An important problem faced during this step is that, most of the times, the analyst doesn’t have a clear idea of what portions of data should be mined. This work reckons the strong ability of human beings to interpret data represented in graphical format, to develop a technique to visualize data from multiple tables, helping human analysts when preparing data to DM. This technique allows the data mining process to be applied over multiple relations at once, bringing the join operations to become part of this process. In general, the use of multiple tables in DM tools is not practical, due to the high computational cost required to explore them. Experimental evaluation of the proposed technique shows that it reduces this cost significantly, turning it possible to visually explore data from multiple tables in an interactive way.
78

DistJoin: plataforma de processamento distribuído de operações de junção espacial com bases de dados dinâmicas / DistJoin: platform for distributed processing of spatial join operations with dynamic datasets

Oliveira, Sávio Salvarino Teles de 28 June 2013 (has links)
Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2014-10-09T12:30:33Z No. of bitstreams: 2 Dissertação - Savio Salvarino Teles de Oliveira - 2013.pdf: 6348358 bytes, checksum: 12e62cd925367772158d94e466de5827 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2014-10-09T14:44:35Z (GMT) No. of bitstreams: 2 Dissertação - Savio Salvarino Teles de Oliveira - 2013.pdf: 6348358 bytes, checksum: 12e62cd925367772158d94e466de5827 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Made available in DSpace on 2014-10-09T14:44:35Z (GMT). No. of bitstreams: 2 Dissertação - Savio Salvarino Teles de Oliveira - 2013.pdf: 6348358 bytes, checksum: 12e62cd925367772158d94e466de5827 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) Previous issue date: 2013-06-28 / Fundação de Apoio à Pesquisa - FUNAPE / Geographic Information Systems (GIS) have received increasing attention in research institutes and industry in recent years. A Spatial Database Managament System (SDBMS) is one of the main components of a GIS and spatial join is one of the most important operations in SDBMS. Spatial join involves the relationship between two datasets, combining the geometries according some spatial predicate, such as intersection. Due to the increasing availability of spatial data, the growing number of GIS users, and the high cost of the processing of spatial operations, distributed SGBDEs (SGBDED) have been proposed as a good option to efficiently process spatial join on a cluster. This distributed processing brings some challenges, such as the data distribution and parallel and distributed processing of spatial join. This paper presents a platform for parallel and distributed processing of spatial joins in a cluster using data distribution techniques for dynamic datasets. Studies in the literature have explored data distribution techniques for static datasets, where any update requires data redistribution. This becomes unfeasible when using large datasets with frequent updates. Therefore, this paper proposes two new data distribution techniques for dynamic datasets: Proximity Area and Grid Proximity Area. These techniques have been evaluated to determine which scenarios each technique is more appropriate for. For this purpose, these techniques are evaluated in a real environment using datasets with different characteristics. Therefore, it is possible to evaluate the spatial join operation in real scenarios with each technique. / Os Sistemas de Informação Geográfica (SIG) têm recebido cada vez mais destaque nos institutos de pesquisa e na indústria nos últimos anos. Um Sistema de Gerência de Bancos de Dados Espaciais (SGBDE) é um dos principais componentes de um SIG e a junção espacial uma das operações mais importantes nos SGBDEs. Ela envolve o relacionamento entre duas bases de dados, combinando as geometrias de acordo com algum predicado espacial, como intersecção. Devido à crescente disponibilidade de dados espaciais, ao aumento no número de usuários dos SIGS e ao alto custo de processamento das operações espaciais, os SGBDE distribuídos (SGBDED) surgem com uma boa opção para processar a junção espacial de forma eficiente em um cluster de computadores. Esse processamento distribuído traz consigo alguns desafios, tais como a distribuição dos dados pelo cluster e o processamento paralelo e distribuído da junção espacial. O objetivo deste trabalho é apresentar uma plataforma de geoprocessamento paralelo e distribuído da junção espacial em um cluster de computadores, utilizando técnicas de distribuição de dados para bases de dados dinâmicas. Os trabalhos encontrados na literatura têm explorado técnicas de distribuição de dados indicadas para bases de dados estáticas, onde qualquer atualização da base de dados requer que todos os dados sejam novamente distribuídos pelo cluster. Isto se torna inviável com grandes bases de dados e que sofrem constantes atualizações. Por isso, este trabalho propõe duas novas técnicas de distribuição de dados com bases de dados dinâmicas: Proximity Area e Grid Proximity Area. Estas técnicas foram avaliadas para definir em quais cenários cada uma delas é mais apropriada. Para tal, estas técnicas foram avaliadas em um ambiente real com bases de dados com características diferentes, para que fosse possível experimentar a junção espacial distribuída em cenários diversos com cada técnica de distribuição de dados.
79

Geração de imagens artificiais e quantização aplicadas a problemas de classificação / Artificial images generation and quantization applied to classification problems

Thumé, Gabriela Salvador 29 April 2016 (has links)
Cada imagem pode ser representada como uma combinação de diversas características, como por exemplo o histograma de intensidades de cor ou propriedades de textura da imagem. Essas características compõem um vetor multidimensional que representa a imagem. É comum esse vetor ser dado como entrada para um método de classificação de padrões que, após aprender por meio de diversos exemplos, pode gerar um modelo de decisão. Estudos sugerem evidências de que a preparação das imagens-- por meio da especificação cuidadosa da aquisição, pré-processamento e segmentação-- pode impactar significativamente a classificação. Além da falta de tratamento das imagens antes da extração de características, o desbalanceamento de classes também se apresenta como um obstáculo para que a classificação seja satisfatória. Imagens possuem características que podem ser exploradas para melhorar a descrição dos objetos de interesse e, portanto, sua classificação. Entre as possibilidades de melhorias estão: a redução do número de intensidades das imagens antes da extração de características ao invés de métodos de quantização no vetor já extraído; e a geração de imagens a partir das originais, de forma a promover o balanceamento de bases de dados cujo número de exemplos de cada classe é desbalanceado. Portanto, a proposta desta dissertação é melhorar a classificação de imagens utilizando métodos de processamento de imagens antes da extração de características. Especificamente, busca analisar a influência do balanceamento de bases de dados e da quantização na classificação. Este estudo analisa ainda a visualização do espaço de características após os métodos de geração artificial de imagens e de interpolação das características extraídas das imagens originais (SMOTE), comparando como espaço original. A ênfase dessa visualização se dá na observação da importância do rebalanceamento das classes. Os resultados obtidos indicam que a quantização simplifica as imagens antes da extração de características e posterior redução de dimensionalidade, produzindo vetores mais compactos; e que o rebalanceamento de classes de imagens através da geração de imagens artificiais pode melhorar a classificação da base de imagens, em relação à classificação original e ao uso de métodos no espaço de características já extraídas. / Each image can be represented by a combination of several features like color frequency and texture properties. Those features compose a multidimensional vector, which represents the original image. Commonly this vector is given as an input to a classification method that can learn from examplesand build a decision model. The literature suggests that image preparation steps like acute acquisition, preprocessing and segmentation can positively impact such classification. Besides that, class unbalancing is also a barrier to achieve good classification accuracy. Some features and methods can be explored to improveobjects\' description, thus their classification. Possible suggestions include: reducing colors number before feature extraction instead of applying quantization methods to raw vectors already extracted; and generating synthetic images from original ones, to balance the number of samples in an uneven data set. We propose to improve image classification using image processing methods before feature extraction. Specifically we want to analyze the influence of both balancing and quantization methods while applied to datasets in a classification routine. This research also analyses the visualization of feature space after the artificial image generation and feature interpolation (SMOTE), against to original space. Such visualization is used because it allows us to know how important is the rebalacing method. The results show that quantization simplifies imagesby producing compacted vectors before feature extraction and dimensionality reduction; and that using artificial generation to rebalance image datasets can improve classification, when compared to the original one and to applying methods on the already extracted feature vectors.
80

Alimentos processados: avaliação comparativa do perfil nutricional e sistematização do processo de categorização de alimentos prioritários para atualização de bases de dados / Processed foods: comparative evaluation of the changes in the nutritional profile and systematization of the categorization process of priority foods for database update.

Prado, Samira Bernardino Ramos do 12 November 2014 (has links)
A dinâmica do mercado e a constante reformulação de produtos alimentícios são contínuas, porém a monitoração das alterações na composição química é escassa. Ao mesmo tempo, as bases de dados de composição de alimentos devem ser continuamente atualizadas. Os objetivos desse trabalho foram realizar a avaliação comparativa do perfil nutricional de grupos de alimentos específicos no período de 2003 e 2013, bem como a sistematização do processo de decisão de produtos prioritários para atualização de bases de dados de composição química de alimentos. Para a realização dos objetivos propostos foi necessário atualizar dados da Tabela Brasileira de Composição de Alimentos (TBCA) e compilar novas informações. O conteúdo de carboidratos, lipídios, proteínas, fibra alimentar (FA) e energia de 259 produtos pertencentes e quatro grupos de alimentos pré-estabelecidos foram estudados para a avaliação comparativa dos produtos com dados de 2003 e 2013. As técnicas de estatísticas multivariadas (agrupamento e componentes principais), variação percentual e a diferença percentual (D%) foram utilizadas. Através da análise de subgrupamento (cluster) os produtos foram divididos por similaridade na composição química e pela análise de componentes principais (ACP) foi possível verificar que o subagrupamento para os cereais e carnes ocorreu, principalmente, pelo conteúdo de proteínas e carboidratos, enquanto que para leites e produtos manufaturados foi devido aos carboidratos e lipídios. Na maioria dos subgrupos foi possível observar diferença significante em pelo menos um componente através do teste t-Student pareado. Essas alterações são compatíveis com o relevante número de produtos que apresentaram redução pela variação percentual de lipídios nos leites (53 %), bem como aumento de FA e lipídios nos cereais (55 %) e carnes (40 %), respectivamente. Para a decisão de alimentos prioritários para atualização foram desenvolvidas etapas para a sistematização. A primeira consistiu em avaliar a adequação da composição química dos produtos através do cálculo da D%, onde os alimentos foram classificados como \"dados compatíveis\" ou \"dados não compatíveis\", gerando a categorização dos produtos em diferentes graus de prioridades de atualização (muito elevada, elevada, média e baixa). Posteriormente, dentro dessas categorias, foi considerada a importância do alimento em relação a sua aquisição, com informações dos produtos e marcas mais compradas pela população. De 330 produtos categorizados 82 são prioritários para atualização. Portanto, as técnicas de estatística empregadas e a variação percentual permitiram avaliar a mudança no conteúdo de componentes tanto de forma individual quanto conjunta com demais nutrientes para os grupos de alimentos selecionados, além de reforçar a necessidade de periódica monitoração no perfil nutricional dos alimentos. Paralelamente, a sistematização criada auxiliou na decisão de alimentos prioritários para atualização, resultando em relevante redução do número de produtos para serem atualizados, sendo um modelo útil para bases de dados. / The market dynamics and the constant reformulation of food products are continuous. At the same time, the food composition databases should be continuously updated. The aims of this work was to perform a comparative evaluation of the nutritional profile of specific food groups in the period from 2003 to 2013, as well as to make the systematization of the decision-making process for priority food products to update the food composition databases. To achieve the proposed aims it was necessary update data from the Brazilian Food Composition Database (TBCA) and compile new information. The content of carbohydrates, lipids, proteins, dietary fiber (DF) and energy of 259 products distributed in four groups was studied for comparative evaluation of food products with data from 2003 and 2013. Multivariate statistical techniques (Cluster and Principal Component Analysis), percentage change and calculating of the percentage difference (D%) were used. Through the Cluster Analysis the food products were divided by similarities in food composition and by Principal Component Analysis (PCA) was evaluated that clusters occurred for cereals and meats groups, mostly, according to the proteins and carbohydrates content, and milks and manufactured foods groups according to carbohydrates and lipids content. In most clusters it was a significant difference was observed in at least in one component accord to paired t- Student test. These changes are compatible with the analysis of percentage change, the relevant number of products that presented a reduction in lipids in milks (53 %), as well as increase in DF and lipids in cereals (55 %) and meats (40 %), respectively. For the decision of the priority food products to update steps were developed for the systematization. The first consists in evaluating the chemical composition of the products through D%, where the products were classified as \"consistent data\" or \"non-consistent data\", thus the food products were categorized with different grades of priority (Very High, High, Medium and Low). After that, between these categories, the food products were evaluated for their importance in relation to their purchase, with product information and most-bought brands. From 330 food 82 were priority to update. Therefore, the joint techniques applied allowed nutrient content change to be assessed both in an individually-based manner as well as in a group for the selected food groups and support the need for periodic monitoring of the nutritional profile of foods. At the same time, the systematization created helped in decision-making of priority food products to update, which resulted in relevant decrease in the number of priority foods to be updated, being a useful model for food composition databases.

Page generated in 0.0641 seconds