Global ETD Search

51	Uma arquitetura para mecanismos de buscas na web usando integração de esquemas e padrões de metadados heterogêneos de recursos educacionais abertos em repositórios dispersos / An architecture for web search engines using integration of heterogeneous metadata schemas and standards of open educational resources in scattered repositories Gazzola, Murilo Gleyson 18 November 2015 (has links) Recursos Educacionais Abertos (REA) podem ser definidos como materiais de ensino, aprendizagem e pesquisa, em qualquer meio de armazenamento, que estão amplamente disponíveis por meio de uma licença aberta que permite reuso, readequação e redistribuição sem restrições ou com restrições limitadas. Atualmente, diversas instituições de ensino e pesquisa têm investido em REA para ampliar o acesso ao conhecimento. Entretanto, os usuários ainda têm dificuldades de encontrar os REA com os mecanismos de busca atuais. Essa dificuldade deve-se principalmente ao fato dos mecanismos de busca na Web serem genéricos, pois buscam informação em qualquer lugar, desde páginas de vendas até materiais escritos por pessoas anônimas. De fato, esses mecanismos não levam em consideração as características intrínsecas de REA, como os diferentes padrões de metadados, repositórios e plataformas existentes, os tipos de licença, a granularidade e a qualidade dos recursos. Esta dissertação apresenta o desenvolvimento de um mecanismo de busca na Web especificamente para recuperação de REA denominado SeeOER. As principais contribuições desta pesquisa de mestrado consistem no desenvolvimento de um mecanismo de busca na Web por REA com diferenciais entre os quais se destacam a resolução de conflitos em nível de esquema oriundos da heterogeneidade dos REA, a busca em repositórios de REA, a consulta sobre a procedência de dados e o desenvolvimento de um crawler efetivo para obtenção de metadados específicos. Além disso, contribui na inclusão de busca de REA no cenário brasileiro, no mapeamento de padrões de metadados para mecanismos de busca na Web e a publicação de uma arquitetura de um mecanismo de busca na Web. Ademais, o SeeOER disponibiliza um serviço que traz um índice invertido de busca que auxilia encontrar REA nos repositórios dispersos na Web. Também foi disponibilizada uma API para buscas que possibilita consultas por palavras chaves e o uso de palavras booleanas. A forma de validação em mecanismos de busca na Web, como um todo, e de forma quantitativa e específica por componentes foi feita em grau de especialidade. Para validação de qualidade foram considerados 10 participantes com grupos distintos de escolaridade e área de estudo. Os resultados quantitativos demonstraram que o SeeOER é superior em 23.618 REA indexados em comparação a 15.955 do Jorum. Em relação à qualidade o SeeOER demonstrou ser superior ao Jorum considerando a função penalizada e o score utilizada nesta pesquisa. / Open Educational Resources (OER) has been increasingly applied to support students and professionals in their learning process. They consist of learning resources, usually stored in electronic device, associated with an open license that allows reuse, re-adaptation and redistribution with either no or limited restrictions. However, currently the Web search engines do not provide efficient mechanisms to find OER, in particular, because they do not consider the intrinsic characteristics of OER such as different standards of metadata, repositories and heterogeneous platforms, license types, granularity and quality of resources. This project proposes a Web search engine, named SeeOER, designed to recover OER. Main features of SeeOER are: schema-level con ict resolution derived from the heterogeneity of OER, search for Brazilian OER repositories, query considering data provenance and the development of an effective crawler to obtain specific metadata. In addition, our project contributes to the inclusion of the search OER research issues in the Brazilian scenario, to the mapping of metadata standards to Web search engine. In addition, SeeOER provides a service which internally has an inverted index search to find the OER which is different from traditional Web repositories. We also provide an API for queries which make it possible to write queries based on keywords and boolean. The validation of the search engine on the Web was both qualitative and quantitative. In the quantitative validation it was observed in level of specialty of the search engines components. In conclusion, the quality and quantitative results experiments showed that SeeOER is superior in OER indexed 23,618 compared to 15,955 the Jorum. In relation to the quality SeeOER shown to be superior to Jorum 27 points considering the metric used in project. Integração de dados Integration schemes Mecanismo de busca na Web Metadata standards Open educational resources Procedência de dados Recursos educacionais abertos Web search engine
52	AcCORD: um modelo colaborativo assíncrono para a reconciliação de dados Almeida, Dayse Silveira de 28 April 2016 (has links) Reconciliação é o processo de prover uma visão consistente de dados provenientes de várias fontes de dados. Embora existam na literatura trabalhos voltados à proposta de soluções de reconciliação baseadas em colaboração assíncrona, o desafio de reconciliar dados quando vários usuários colaborativos trabalham de forma assíncrona sobre as mesmas co´pias locais de dados, compartilhando somente eventualmente as suas decisões de integração particulares, tem recebido menos atenção. Nesta tese de doutorado investiga-se esse desafio, por meio da proposta do modelo AcCORD (Asynchronous COllaborative data ReconcIliation moDel). AcCORD é um modelo colaborativo assíncrono para reconciliação de dados no qual as atualizações dos usuários são mantidas em um repositório de operações na forma de dados de procedência. Cada usuário tem o seu próprio repositório para armazenar a procedência e a sua própria cópia das fontes. Ou seja, quando inconsistências entre fontes importadas são detectadas, o usuário pode tomar decisões de integração para resolvê-las de maneira autônoma, e as atualizações que são executadas localmente são registradas em seu próprio repositório. As atualizações são compartilhadas entre colaboradores quando um usuário importa as operações dos repositórios dos demais usuários. Desde que diferentes usuários podem ter diferentes pontos de vista para resolver o mesmo conflito, seus repositórios podem estar inconsistentes. Assim, o modelo Ac- CORD também inclui a proposta de diferentes políticas de reconciliação multiusuário para resolver conflitos entre repositórios. Políticas distintas podem ser aplicadas por diferentes usuários para reconciliar as suas atualizações. Dependendo da política aplicada, a visão final das fontes importadas pode ser a mesma para todos os usuários, ou seja, um única visão global integrada, ou resultar em distintas visões locais para cada um deles. Adicionalmente, o modelo AcCORD também incorpora um método de propagação de decisões de integração, o qual tem como objetivo evitar que um usuário tome decisões inconsistentes a respeito de um mesmo conflito de dado presente em diferentes fontes, garantindo um processo de reconciliação multiusuário mais efetivo. O modelo AcCORD foi validado por meio de testes de desempenho que avaliaram as políticas propostas, e por entrevistas a usuários que avaliaram não somente as políticas propostas mas também a qualidade da reconciliação multiusuário. Os resultados obtidos demonstraram a eficiência e a eficácia do modelo proposto, além de sua flexibilidade para gerar uma visão integrada ou distintas visões locais. As entrevistas realizadas demonstraram diferentes percepções dos usuários quanto à qualidade do resultado provido pelo modelo AcCORD, incluindo aspectos relacionados à consistência, aceitabilidade, corretude, economia de tempo e satisfacão. / Reconciliation is the process of providing a consistent view of the data imported from different sources. Despite some efforts reported in the literature for providing data reconciliation solutions with asynchronous collaboration, the challenge of reconciling data when multiple users work asyn- chronously over local copies of the same imported data has received less attention. In this thesis we investigate this challenge. We propose AcCORD, an asynchronous collaborative data reconciliation model. It stores users’ integration decision in logs, called repositories. Repositories keep data prove- nance, that is, the operations applied to the data sources that led to the current state of the data. Each user has her own repository for storing the provenance. That is, whenever inconsistencies among im- ported sources are detected, the user may autonomously take decisions to solve them, and integration decisions that are locally executed are registered in her repository. Integration decisions are shared among collaborators by importing each other’s repositories. Since users may have different points of view, repositories may also be inconsistent. Therefore, AcCORD also introduces several policies that can be applied by different users in order to solve conflicts among repositories and reconcile their integration decisions. Depending on the applied policy, the final view of the imported sources may either be the same for all users, that is, a single integrated view, or result in distinct local views for each of them. Furthermore, AcCORD encompasses a decision integration propagation method, which is aimed to avoid that a user take inconsistent decisions over the same data conflict present in different sources, thus guaranteeing a more effective reconciliation process. AcCORD was validated through performance tests that investigated the proposed policies and through users’ interviews that investigated not only the proposed policies but also the quality of the multiuser reconciliation. The re- sults demonstrated the efficiency and efficacy of AcCORD, and highlighted its flexibility to generate a single integrated view or different local views. The interviews demonstrated different perceptions of the users with regard to the quality of the result provided by AcCORD, including aspects related to consistency, acceptability, correctness, time-saving and satisfaction. Reconciliação de dados Resolução de conflitos Integração de dados Compartilhamento de dados Procedência de dados Data reconciliation Conflict resolution Data integration Data sharing Data provenance
53	Construção e análise de modelos topológicos de redes biológicas usando a ontologia MONET Silva, João Paulo Müller da 06 March 2006 (has links) Made available in DSpace on 2015-03-05T13:56:59Z (GMT). No. of bitstreams: 0 Previous issue date: 6 / Hewlett-Packard Brasil Ltda / Um dos mais importantes desafios para a biologia pós-genômica é atender a estrutura e o comportamento das interações moleculares complexas que controlam o comportamento celular. Para tanto é essencial à integração dos dados biológicos referentes a estas interações armazenadas em diversos banco de dados. Este é um problema difícil, pois estes dados estão disponíveis em banco de dados públicos espalhados geograficamente na rede mundial de computadores e cada um destes possui um sistema diferente de gerenciamento, formato ou visão de como representar os dados. Os principais problemas para a realização desta tarefa são:a necessidade de se desenvolver e aplicar parsers para cada banco de dados sem ausência de um vocabulário unificado. Como uma alternativa para facilitar estes problemas, este trabalho propõe a ontologia MONET (Molecular Network Ontology) que tem como objetivo ser um modelo integrado para a rede de redes que existe dentro da celula. Tal visão integrada ajuda a entender as interações de larga escala / One of the most important challenges for biology in the post-genomic is to understand the structure and behavior of the molecular interactions that controls cell behavior. Therefore is essential to integrate biological data concerning these interactions, which are stored in different databases. The integration task is dificult because these data are distributed in public databases on the world wide web and each database has diferent management systems, formats and views of how to represent biological data. The two main problems involved here are the dificulty in parsing the data when dealing with heterogeneous at file formats and the inconsistencies due to the absence of an united vocabulary. As an alternative to facilitate these problems this work proposes MONET (the Molecular Network) ontology, an integration model for the unifying of diferent molecular networks that exist inside the cell. Such integrated view facilitates the understanding of the large-scale interactions responsible for the behavior of Ciências Exatas e da Terra integração de dados interação proteína-proteína metabolismo ontologias regulação gênica data integration metabolic pathways ontology
54	IDEO Integrador de dados da Execução Orçamentária Brasileira: um estudo de caso da integração de dados das receitas e despesas nas Esferas Federal, Estadual Governo de São Paulo, e Municipal Municípios do Estado de São Paulo / The integration of multi-source heterogeneous data: an open data case study for budgetary execution in Brazil. José Rodolfo Beluzo 30 September 2015 (has links) Este trabalho apresenta um grupo de processos para a integracao de dados e esquemas das receitas e despesas da execucao do orcamento publico brasileiro nas tres esferas governamentais: governo federal, estadual e municipios. Estes processos visam resolver problemas de heterogeneidade encontrados pelo cidadao ao buscar por informacoes publicas em diferentes entes. Estas informacoes atualmente sao disponibilizadas pelos portais de transparencia que seguem a obrigatoriedade definida pelo arcabouco legal brasileiro, no qual estes devem publicar, dentre outras informacoes, o registro de receitas, despesas, transferencias financeiras e processos licitatorios, de forma integra, primaria, autentica e atualizada. Porem, apesar das exigencias citadas por lei, nao existe um padrao para publicacao, alem de inconsistencias e ambiguidades de dados entre os diferentes portais. Assim, este trabalho visa resolver estes problemas de heterogeneidade enfrentados pelo cidadao. Para tal, como prova de conceito foram selecionados os dados de receitas e despesas do governo federal, do governo do estado de Sao Paulo e de 645 municipios do estado de Sao Paulo. Este trabalho padronizou um modelo conceitual de receitas e despesas baseado no manual tecnico do orcamento redigido pelo governo federal anualmente. A partir deste modelo criou-se esquemas de dados padronizados de acordo com os datasets que estao disponibilizados nos portais de transparencia de cada ente federativo, assim como um esquema integrado entre estes. Os dados de execucao orcamentaria do periodo de 2010 a 2014 dos governos citados foram extraidos dos portais, passando por um processo de transformacao e limpeza, e carregados no sistema integrador. Apos os dados carregados no sistema, a partir do prototipo foi possivel obter informacoes a respeito da execucao orcamentaria as quais nao eram possiveis de se realizar de forma direta acessando os portais de transparencia, ou, quando possivel o trabalho de compilacao da informacao seria muito elevado. Tambem foi possivel analisar e apontar possiveis falhas sistemicas nos portais de transparencia atraves dos resultados obtidos no processo, podendo contribuir com a melhoria destes. / This dissertation presents a process group for data integration and schemes of the Brazilian public budget s revenues and expenditures from all government level spheres (municipalities, states and nationwide). These process group aims to solve some heterogeneity problems to access public information provided by different government entities. Budget information is currently disclosed on e-gov portals, which must comply the requirements set by the Brazilian legal framework. Data about revenues, expenses, financial transfers and bidding processes must be published in a primary, authentic and updated way. However, there is no standards for publication, besides the poor data quality and inconsistencies found in the same data provided by different portals. Thus, this work aims to give some contributions to address these heterogeneity problems. To achieve this, we implemented a proof of concept that gathers revenue and expenditure data from the Brazilian federal government, the state government of Sao Paulo and 645 municipalities of Sao Paulo state. As a result, this work has standardized a conceptual model of revenues and expenses based on the technical manual of the budget. From this model, we created standardized data schemas according to the datasets that are available at the website of transparency of each government entity, as well as an integrated scheme between them. Data disclosed from 2010-2014 by all mentioned government were gathered, cleaned and loaded into the prototype. The resulting data warehouse allows queries about budget execution in Brazil that are not possible to perform directly accessing the transparency portals, or, when it is possible, this compilation work is very time consuming. During the validation phase was also possible to analyze and identify possible some failures in the e-gov portals and some recomendations try to give some contribution to their improvement. Dados abertos Dados abertos governamentais Data warehouse Integração de dados Orçamento público Data integration Data warehouse Open data Open government data Public budget
55	IDEO Integrador de dados da Execução Orçamentária Brasileira: um estudo de caso da integração de dados das receitas e despesas nas Esferas Federal, Estadual Governo de São Paulo, e Municipal Municípios do Estado de São Paulo / The integration of multi-source heterogeneous data: an open data case study for budgetary execution in Brazil. Beluzo, José Rodolfo 30 September 2015 (has links) Este trabalho apresenta um grupo de processos para a integracao de dados e esquemas das receitas e despesas da execucao do orcamento publico brasileiro nas tres esferas governamentais: governo federal, estadual e municipios. Estes processos visam resolver problemas de heterogeneidade encontrados pelo cidadao ao buscar por informacoes publicas em diferentes entes. Estas informacoes atualmente sao disponibilizadas pelos portais de transparencia que seguem a obrigatoriedade definida pelo arcabouco legal brasileiro, no qual estes devem publicar, dentre outras informacoes, o registro de receitas, despesas, transferencias financeiras e processos licitatorios, de forma integra, primaria, autentica e atualizada. Porem, apesar das exigencias citadas por lei, nao existe um padrao para publicacao, alem de inconsistencias e ambiguidades de dados entre os diferentes portais. Assim, este trabalho visa resolver estes problemas de heterogeneidade enfrentados pelo cidadao. Para tal, como prova de conceito foram selecionados os dados de receitas e despesas do governo federal, do governo do estado de Sao Paulo e de 645 municipios do estado de Sao Paulo. Este trabalho padronizou um modelo conceitual de receitas e despesas baseado no manual tecnico do orcamento redigido pelo governo federal anualmente. A partir deste modelo criou-se esquemas de dados padronizados de acordo com os datasets que estao disponibilizados nos portais de transparencia de cada ente federativo, assim como um esquema integrado entre estes. Os dados de execucao orcamentaria do periodo de 2010 a 2014 dos governos citados foram extraidos dos portais, passando por um processo de transformacao e limpeza, e carregados no sistema integrador. Apos os dados carregados no sistema, a partir do prototipo foi possivel obter informacoes a respeito da execucao orcamentaria as quais nao eram possiveis de se realizar de forma direta acessando os portais de transparencia, ou, quando possivel o trabalho de compilacao da informacao seria muito elevado. Tambem foi possivel analisar e apontar possiveis falhas sistemicas nos portais de transparencia atraves dos resultados obtidos no processo, podendo contribuir com a melhoria destes. / This dissertation presents a process group for data integration and schemes of the Brazilian public budget s revenues and expenditures from all government level spheres (municipalities, states and nationwide). These process group aims to solve some heterogeneity problems to access public information provided by different government entities. Budget information is currently disclosed on e-gov portals, which must comply the requirements set by the Brazilian legal framework. Data about revenues, expenses, financial transfers and bidding processes must be published in a primary, authentic and updated way. However, there is no standards for publication, besides the poor data quality and inconsistencies found in the same data provided by different portals. Thus, this work aims to give some contributions to address these heterogeneity problems. To achieve this, we implemented a proof of concept that gathers revenue and expenditure data from the Brazilian federal government, the state government of Sao Paulo and 645 municipalities of Sao Paulo state. As a result, this work has standardized a conceptual model of revenues and expenses based on the technical manual of the budget. From this model, we created standardized data schemas according to the datasets that are available at the website of transparency of each government entity, as well as an integrated scheme between them. Data disclosed from 2010-2014 by all mentioned government were gathered, cleaned and loaded into the prototype. The resulting data warehouse allows queries about budget execution in Brazil that are not possible to perform directly accessing the transparency portals, or, when it is possible, this compilation work is very time consuming. During the validation phase was also possible to analyze and identify possible some failures in the e-gov portals and some recomendations try to give some contribution to their improvement. Dados abertos Dados abertos governamentais Data integration Data warehouse Data warehouse Integração de dados Open data Open government data Orçamento público Public budget
56	Análise metadimensional em inferência de redes gênicas e priorização Marchi, Carlos Eduardo January 2017 (has links) Orientador: Prof. Dr. David Corrêa Martins Júnior / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2017. PRIORIZAÇÃO GÊNICA INFERÊNCIA DE REDES GÊNICAS INTEGRAÇÃO DE DADOS BIOLÓGICOS GENE PRIORITIZATION GENE NETWORKS INFERENCE BIOLOGICAL DATA INTEGRATION
57	Desenvolvimento de uma plataforma de bioinformática integrada aplicada a identificação molecular de microrganismos patogênicos Sarmento, Felipe José de Queiroz 27 February 2013 (has links) Submitted by Leonardo Cavalcante (leo.ocavalcante@gmail.com) on 2018-07-17T18:21:26Z No. of bitstreams: 1 Arquivototal.pdf: 16322215 bytes, checksum: c172a5636f12cf8195f2382f1c23de59 (MD5) / Made available in DSpace on 2018-07-17T18:21:26Z (GMT). No. of bitstreams: 1 Arquivototal.pdf: 16322215 bytes, checksum: c172a5636f12cf8195f2382f1c23de59 (MD5) Previous issue date: 2013-02-27 / Conselho Nacional de Pesquisa e Desenvolvimento Científico e Tecnológico - CNPq / Various researches in molecular epidemiology, molecular diagnosis and evolutionary genetics related to pathogens are compared to managing large amounts of data derived from institutions such as, hospitals or laboratories. Although there already are some proposals to connect molecular information to the diagnosis of pathogens, none of them uses high performance bioinformatics tools which are embedded in a system and linked to a patient’s electronic record. The MolEpi tool has been developed as a system of data and information management addressed to public health, incorporating clinical and epidemiological information about patients, as well as molecular data of 16S rRNA sequences of pathogenic bacteria. In order to confirm which species of these bacteria were identified, biological samples (urine, secretions and purulent wounds, tracheal aspirate and blood) and subsequently incubation and growth of colonies in culture, and PCR was used followed by sequencing and analysis of the conserved coding region for 16S ribosomal RNA (rDNA). Such strategy enabled fast bacterial identification, regardless of prior knowledge of the species of microorganism under study. Moreover MolEpi is a system interconnected to repositories of specific sequences as Genbank (NCBI), RDP-II (Ribosomal Database Project - MSU) and GreenGene (LBL). In this way, once the sequences of clinical isolates are confirmed and validated, they can be used as reference in the identification of other unknown microorganisms. Thus, a local database was established, representing the profile of pathogens found in the hospital unity of study and which should be object of public health surveillance. In order to develop MolEpi, we used the Java programming language and the PostgreSQL8.3 object-relational database. It was also developed BACSearch, which has the following programs to handle the analysis of 16S rDNA sequences, we used the framework BioJava; to multiple alignment, ClustalW2, MAFFT and MUSCLE, and for editing of multiple alignment and phylogenetic analysis, the JalView2.4.0 was used. The system was validated with 200 clinical specimens isolated and identified from sites of nosocomial infection. The DNA sequences produced from these samples were subjected to BLAST by using the developed tool, which identified Pseudomonas aeruginosa, Acinetobacter baumannii, Klebsiella pneumoniae and Morganella morganii as the main pathogens involved. Data on resistance patterns of the species were obtained in microbiology laboratory, and incorporated into the database. The application of MolEpi tool to the Health System can provide prompt and accurate diagnosis, connected to relevant network information which can be intended for health professionals. / A maioria das pesquisas em epidemiologia molecular, diagnóstico molecular e genética evolutiva são confrontadas com o gerenciamento de grandes volumes de dados. Além disso, os dados utilizados em estudos de doenças patogênicas são complexos e geralmente derivam de instituições tais como hospitais ou laboratórios. Embora já existam propostas que conecte informações moleculares ao diagnóstico de patogenias, nenhuma delas utilizam ferramentas de bioinformática de alto desempenho incorporadas a um sistema e vinculada a um prontuário eletrônico do paciente. MolEpi foi desenvolvido como um sistema de gerenciamento de dados e informações dimensionado a saúde pública, incorporando informações clínicas e epidemiológicas sobre pacientes e dados moleculares de sequências do gene rRNA 16S de bactérias patogênicas. Para identificação destas bactérias foram utilizadas amostras biológicas (urina, secreções e purulentas de feridas, aspirado traqueal e sangue) e PCR seguida de sequenciamento e análise da região conservada codificadora de RNA ribossômico (rDNA) 16S. Este estratégia permite uma identificação bacteriana rápida, independente de conhecimento prévio da espécie de microrganismo em estudo. O MolEpi é um sistema facilmente atualizável com as sequências específicas de bancos como Genbank(NCBI), RDP-II (Ribosomal Database Project - MSU) e GreenGene (LBL). A partir da confirmação e validação das sequências dos isolados clínicos, estas podem ser utilizadas como referência na identificação de outros microrganismos desconhecidos. Neste sentido, foi estabelecido um banco de dados local, representativo do perfil de patógenos encontrados na unidade hospitalar de estudo e objeto de vigilância epidemiológica. Para o desenvolvimento do MolEpi, utilizamos a linguagem Java e banco de dados PostgreSQL8.3. Foi desenvolvido também o BACSearch, que possui os seguintes programas: para o processamento de sequências de rDNA 16S utilizamos os frameworks BioJava; para alinhamento múltiplo foi implementado o ClustalW2, MAFFT e o MUSCLE e para edição do alinhamento múltiplo e análise filogenética foi utilizado JalView R⃝2.4.0b2. O sistema foi validado com 200 espécimes clínicos identificadas e isoladas de sítios de infecção hospitalar. As sequências de DNA produzidas a partir destas amostras foram submetidas ao BLAST, utilizando a ferramenta desenvolvida, identificando Pseudomonas aeruginosa, Acinetobacter baumannii, Klebsiela pneumonie e Staphylococcus aureus como os principais patógenos correspondentes. Os dados sobre o padrão de resistência das espécies foram obtidos em laboratório de microbiologia e incorporados ao banco de dados. A aplicação do MolEpi ao Sistema Único de Saúde poderá fornecer diagnósticos mais rápidos, precisos, e interligados a uma rede de informações relevantes para o profissional de saúde. Bioinformática Banco de dados de microrganismos Integração de dados biológicos Microrganismos patogênicos Prontuário eletrônico do paciente Bioinformatics Database of microorganisms Biological databases integration Pathogenic microorganisms Electronic patient health records CIENCIAS BIOLOGICAS
58	Faça no seu ritmo mas não perca a hora: tomada de decisão sob demandado usuário utilizando dados da Web / Take your time, but don´t be late: on-demand decision-making using web data Silva, Manoela Camila Barbosa da 07 August 2017 (has links) Submitted by Milena Rubi ( ri.bso@ufscar.br) on 2017-10-16T17:29:35Z No. of bitstreams: 1 SILVA_Manoela_2017.pdf: 5765067 bytes, checksum: 241f86d72385de30ffe23c0f4d49a868 (MD5) / Approved for entry into archive by Milena Rubi ( ri.bso@ufscar.br) on 2017-10-16T17:29:46Z (GMT) No. of bitstreams: 1 SILVA_Manoela_2017.pdf: 5765067 bytes, checksum: 241f86d72385de30ffe23c0f4d49a868 (MD5) / Approved for entry into archive by Milena Rubi ( ri.bso@ufscar.br) on 2017-10-16T17:29:57Z (GMT) No. of bitstreams: 1 SILVA_Manoela_2017.pdf: 5765067 bytes, checksum: 241f86d72385de30ffe23c0f4d49a868 (MD5) / Made available in DSpace on 2017-10-16T17:30:06Z (GMT). No. of bitstreams: 1 SILVA_Manoela_2017.pdf: 5765067 bytes, checksum: 241f86d72385de30ffe23c0f4d49a868 (MD5) Previous issue date: 2017-08-07 / Não recebi financiamento / In the current knowledge age, with the continuous growth of the web data volume and where business decisions must be made quickly, traditional BI mechanisms become increasingly inaccurate in order to help the decision-making process. In response to this scenario rises the BI 2.0 concept, which is a recent one and is mainly based on the Web evolution, having as one of the main characteristics the use of Web sources in decision-making. However, data from Web tend to be volatile to be stored in the DW, making them a good option for situational data. Situational data are useful for decision-making queries at a particular time and situation, and can be discarded after analysis. Many researches have been developed regarding to BI 2.0, but there are still many points to be explored. This work proposes a generic architecture for Decision Support Systems that aims to integrate situational data from Web to user queries at the right time; this is, when the user needs them for decision making. Its main contribution is the proposal of a new OLAP operator, called Drill-Conformed, enabling data integration in an automatic way and using only the domain of values from the situational data.In addition, the operator collaborates with the Semantic Web, by making available the semantics-related discoveries. The case study is a streamings provision system. The results of the experiments are presented and discussed, showing that is possible to make the data integration in a satisfactory manner and with good processing times for the applied scenario. / Na atual era do conhecimento, com o crescimento contínuo do volume de dados da Web e onde decisões de negócio devem ser feitas de maneira rápida, os mecanismos tradicionais de BI se tornam cada vez menos precisos no auxílio à tomada de decisão. Em resposta a este cenário surge o conceito de BI 2.0, que se trata de um conceito recente e se baseia principalmente na evolução da Web, tendo como uma das principais características a utilização de fontes Web na tomada de decisão. Porém, dados provenientes da Web tendem a ser voláteis para serem armazenados no DW, tornando-se uma boa opção para dados transitórios. Os dados transitórios são úteis para consultas de tomada de decisão em um determinado momento e cenário e podem ser descartados após a análise. Muitos trabalhos têm sido desenvolvidos em relação à BI 2.0, mas ainda existem muitos pontos a serem explorados. Este trabalho propõe uma arquitetura genérica para SSDs, que visa integrar dados transitórios, provenientes da Web, às consultas de usuários no momento em que o mesmo necessita deles para a tomada de decisão. Sua principal contribuição é a proposta de um novo operador OLAP , denominado Drill-Conformed, capaz de realizar a integração dos dados de maneira automática e fazendo uso somente do domínio de valores dos dados transitórios. Além disso, o operador tem o intuito de colaborar com a Web semântica, a partir da disponibilização das informações por ele descobertas acerca do domínio de dados utilizado. O estudo de caso é um sistema de disponibilização de streamings . Os resultados dos experimentos são apresentados e discutidos, mostrando que é possível realizar a integração dos dados de maneira satisfatória e com bons tempos de processamento para o cenário aplicado. Tecnologia OLAP Web semântica Self-Service BI Dados transitórios Integração de dados (Computação) OLAP technology Data integration (Computer service) Semantic Web
59	Uma arquitetura para mecanismos de buscas na web usando integração de esquemas e padrões de metadados heterogêneos de recursos educacionais abertos em repositórios dispersos / An architecture for web search engines using integration of heterogeneous metadata schemas and standards of open educational resources in scattered repositories Murilo Gleyson Gazzola 18 November 2015 (has links) Recursos Educacionais Abertos (REA) podem ser definidos como materiais de ensino, aprendizagem e pesquisa, em qualquer meio de armazenamento, que estão amplamente disponíveis por meio de uma licença aberta que permite reuso, readequação e redistribuição sem restrições ou com restrições limitadas. Atualmente, diversas instituições de ensino e pesquisa têm investido em REA para ampliar o acesso ao conhecimento. Entretanto, os usuários ainda têm dificuldades de encontrar os REA com os mecanismos de busca atuais. Essa dificuldade deve-se principalmente ao fato dos mecanismos de busca na Web serem genéricos, pois buscam informação em qualquer lugar, desde páginas de vendas até materiais escritos por pessoas anônimas. De fato, esses mecanismos não levam em consideração as características intrínsecas de REA, como os diferentes padrões de metadados, repositórios e plataformas existentes, os tipos de licença, a granularidade e a qualidade dos recursos. Esta dissertação apresenta o desenvolvimento de um mecanismo de busca na Web especificamente para recuperação de REA denominado SeeOER. As principais contribuições desta pesquisa de mestrado consistem no desenvolvimento de um mecanismo de busca na Web por REA com diferenciais entre os quais se destacam a resolução de conflitos em nível de esquema oriundos da heterogeneidade dos REA, a busca em repositórios de REA, a consulta sobre a procedência de dados e o desenvolvimento de um crawler efetivo para obtenção de metadados específicos. Além disso, contribui na inclusão de busca de REA no cenário brasileiro, no mapeamento de padrões de metadados para mecanismos de busca na Web e a publicação de uma arquitetura de um mecanismo de busca na Web. Ademais, o SeeOER disponibiliza um serviço que traz um índice invertido de busca que auxilia encontrar REA nos repositórios dispersos na Web. Também foi disponibilizada uma API para buscas que possibilita consultas por palavras chaves e o uso de palavras booleanas. A forma de validação em mecanismos de busca na Web, como um todo, e de forma quantitativa e específica por componentes foi feita em grau de especialidade. Para validação de qualidade foram considerados 10 participantes com grupos distintos de escolaridade e área de estudo. Os resultados quantitativos demonstraram que o SeeOER é superior em 23.618 REA indexados em comparação a 15.955 do Jorum. Em relação à qualidade o SeeOER demonstrou ser superior ao Jorum considerando a função penalizada e o score utilizada nesta pesquisa. / Open Educational Resources (OER) has been increasingly applied to support students and professionals in their learning process. They consist of learning resources, usually stored in electronic device, associated with an open license that allows reuse, re-adaptation and redistribution with either no or limited restrictions. However, currently the Web search engines do not provide efficient mechanisms to find OER, in particular, because they do not consider the intrinsic characteristics of OER such as different standards of metadata, repositories and heterogeneous platforms, license types, granularity and quality of resources. This project proposes a Web search engine, named SeeOER, designed to recover OER. Main features of SeeOER are: schema-level con ict resolution derived from the heterogeneity of OER, search for Brazilian OER repositories, query considering data provenance and the development of an effective crawler to obtain specific metadata. In addition, our project contributes to the inclusion of the search OER research issues in the Brazilian scenario, to the mapping of metadata standards to Web search engine. In addition, SeeOER provides a service which internally has an inverted index search to find the OER which is different from traditional Web repositories. We also provide an API for queries which make it possible to write queries based on keywords and boolean. The validation of the search engine on the Web was both qualitative and quantitative. In the quantitative validation it was observed in level of specialty of the search engines components. In conclusion, the quality and quantitative results experiments showed that SeeOER is superior in OER indexed 23,618 compared to 15,955 the Jorum. In relation to the quality SeeOER shown to be superior to Jorum 27 points considering the metric used in project. Integração de dados Mecanismo de busca na Web Procedência de dados Recursos educacionais abertos Integration schemes Metadata standards Open educational resources Web search engine
60	AcCORD: um modelo colaborativo assíncrono para a reconciliação de dados / AcCORD: asynchronous collaborative data reconciliation model Dayse Silveira de Almeida 28 April 2016 (has links) Reconciliação é o processo de prover uma visão consistente de dados provenientes de várias fontes de dados. Embora existam na literatura trabalhos voltados à proposta de soluções de reconciliação baseadas em colaboração assíncrona, o desafio de reconciliar dados quando vários usuários colaborativos trabalham de forma assíncrona sobre as mesmas cópias locais de dados, compartilhando somente eventualmente as suas decisões de integração particulares, tem recebido menos atenção. Nesta tese de doutorado investiga-se esse desafio, por meio da proposta do modelo AcCORD (Asynchronous COllaborative data ReconcIliation moDel). AcCORD é um modelo colaborativo assíncrono para reconciliação de dados no qual as atualizações dos usuários são mantidas em um repositório de operações na forma de dados de procedência. Cada usuário tem o seu próprio repositório para armazenar a procedência e a sua própria cópia das fontes. Ou seja, quando inconsistências entre fontes importadas são detectadas, o usuário pode tomar decisões de integração para resolvê-las de maneira autônoma, e as atualizações que são executadas localmente são registradas em seu próprio repositório. As atualizações são compartilhadas entre colaboradores quando um usuário importa as operações dos repositórios dos demais usuários. Desde que diferentes usuários podem ter diferentes pontos de vista para resolver o mesmo conflito, seus repositórios podem estar inconsistentes. Assim, o modelo AcCORD também inclui a proposta de diferentes políticas de reconciliação multiusuário para resolver conflitos entre repositórios. Políticas distintas podem ser aplicadas por diferentes usuários para reconciliar as suas atualizações. Dependendo da política aplicada, a visão final das fontes importadas pode ser a mesma para todos os usuários, ou seja, um única visão global integrada, ou resultar em distintas visões locais para cada um deles. Adicionalmente, o modelo AcCORD também incorpora um método de propagação de decisões de integração, o qual tem como objetivo evitar que um usuário tome decisões inconsistentes a respeito de um mesmo conflito de dado presente em diferentes fontes, garantindo um processo de reconciliação multiusuário mais efetivo. O modelo AcCORD foi validado por meio de testes de desempenho que avaliaram as políticas propostas, e por entrevistas a usuários que avaliaram não somente as políticas propostas mas também a qualidade da reconciliação multiusuário. Os resultados obtidos demonstraram a eficiência e a eficácia do modelo proposto, além de sua flexibilidade para gerar uma visão integrada ou distintas visões locais. As entrevistas realizadas demonstraram diferentes percepções dos usuários quanto à qualidade do resultado provido pelo modelo AcCORD, incluindo aspectos relacionados à consistência, aceitabilidade, corretude, economia de tempo e satisfação. / Reconciliation is the process of providing a consistent view of the data imported from different sources. Despite some efforts reported in the literature for providing data reconciliation solutions with asynchronous collaboration, the challenge of reconciling data when multiple users work asynchronously over local copies of the same imported data has received less attention. In this thesis we investigate this challenge. We propose AcCORD, an asynchronous collaborative data reconciliation model. It stores users integration decision in logs, called repositories. Repositories keep data provenance, that is, the operations applied to the data sources that led to the current state of the data. Each user has her own repository for storing the provenance. That is, whenever inconsistencies among imported sources are detected, the user may autonomously take decisions to solve them, and integration decisions that are locally executed are registered in her repository. Integration decisions are shared among collaborators by importing each others repositories. Since users may have different points of view, repositories may also be inconsistent. Therefore, AcCORD also introduces several policies that can be applied by different users in order to solve conflicts among repositories and reconcile their integration decisions. Depending on the applied policy, the final view of the imported sources may either be the same for all users, that is, a single integrated view, or result in distinct local views for each of them. Furthermore, AcCORD encompasses a decision integration propagation method, which is aimed to avoid that a user take inconsistent decisions over the same data conflict present in different sources, thus guaranteeing a more effective reconciliation process. AcCORD was validated through performance tests that investigated the proposed policies and through users interviews that investigated not only the proposed policies but also the quality of the multiuser reconciliation. The results demonstrated the efficiency and efficacy of AcCORD, and highlighted its flexibility to generate a single integrated view or different local views. The interviews demonstrated different perceptions of the users with regard to the quality of the result provided by AcCORD, including aspects related to consistency, acceptability, correctness, time-saving and satisfaction. Compartilhamento de dados Integração de dados Procedência dos dados Reconciliação de dados Resolução de conflitos Conflict resolution Data integration Data provenance Data reconciliation Data sharing

Search results