Global ETD Search

201	Rep-Index : uma abordagem abrangente e adaptável para identificar reputação acadêmica / Rep-Index : a comprehensive and adaptable approach to identify academic reputation Cervi, Cristiano Roberto January 2013 (has links) A tarefa de avaliar a produção científica de um pesquisador é fortemente baseada na análise de seu currículo. É o que fazem, por exemplo, as agências de fomento à pesquisa e desenvolvimento ou comissões de avaliação, quando necessitam considerar a produção científica dos pesquisadores no processo de concessão de bolsas e auxílios, na seleção de consultores e membros de comitês, na aprovação de projetos ou simplesmente para avaliar o conceito de um programa de pós-graduação. Nesse contexto, a modelagem de perfis de pesquisadores é tarefa fundamental, especialmente quando se quer avaliar a reputação dos pesquisadores. Isto pode ocorrer por meio de um processo de análise da trajetória de toda a carreira científica do pesquisador. Tal processo envolve não somente aspectos relacionados a artigos ou livros publicados, mas também por outros elementos inerentes à atividade de um pesquisador, como orientações de trabalhos de mestrado e de doutorado; participação em defesas de mestrado e de doutorado; trabalhos apresentados em conferências; participação em projetos de pesquisa, inserção internacional, dentre outros. O objetivo deste trabalho é especificar um modelo de perfil de pesquisadores (Rep- Model) e uma métrica para medir reputação acadêmica (Rep-Index). O processo de modelagem do perfil envolve a definição de quais informações são relevantes para a especificação do perfil e as apresenta por meio de 18 elementos e 5 categorias. O processo para medir a reputação do pesquisador é definido por uma métrica que gera um índice. Esse índice é calculado mediante a utilização dos elementos constantes no perfil do pesquisador. Para avaliar a abordagem proposta na tese, diversos experimentos foram realizados. Os experimentos envolveram a avaliação dos elementos do Rep-Model por meio de análise de correlação e por algoritmos de mineração de dados. O Rep-Index também foi avaliado e correlacionado com duas métricas amplamente utilizadas na comunidade científica, o h-index e o g-index. Como baseline, foram utilizados todos os pesquisadores do CNPq das áreas de Ciência da Computação, Economia e Odontologia. O trabalho desenvolvido nesta tese está inserido no contexto da identificação da reputação de pesquisadores no âmbito acadêmico. A abordagem desta tese tem como premissa ser abrangente e adaptável, pois envolve a vida científica do pesquisador construída ao longo de sua carreira científica e pode ser utilizada em diferentes áreas e em diferentes contextos. / The task of evaluating the scientific production of a researcher is based strongly on the analysis of their curriculum. It's what makes the agencies for research support or evaluation committees, when they need to consider the scientific production of researchers in the process of awarding grants and aid in the selection of consultants and committee members in approving projects or simply to assess the concept of a program graduate. In that context, the modeling of profiles of researchers is fundamental task especially when one wants to evaluate the reputation of the researchers. This can occur by means of a process of analysis of the trajectory of all the scientific career of the researcher. Such process involves not only aspects related to papers or books, but also other elements inherent in the activity of a researcher, as orientations of master’s degree and doctorate; participation in defense of master's and doctoral degrees; papers presented in conferences, participation in research projects, international integration, among others. This proposal specifies a profile template for researchers (Rep-Model) and a metric to measure academic reputation (Rep-Index). The profile modeling process involves define which information is relevant to the specification of the profile and shows through 18 elements and 5 categories. The process for measuring researcher's reputation is defined by a metric that generates an index. This index is calculated by using the information contained in the profile of the researcher. To evaluate the approach proposed in the thesis, extensive experiments were conducted. The experiments involved the evaluation of Rep-Model by means of correlation analysis and data mining algorithms. The Rep-Index was also evaluated and correlated with two metrics widely used in the scientific community, the h-index and gindex. As a baseline, all of CNPq researchers in the areas of Computer Science, Economics and Dentistry were used. The work in this thesis is set in the context of identifying the reputation of researchers within the academic sphere. The approach of this thesis is premised be comprehensive and adaptable, because it involves the life science researcher built throughout his scientific career and can be used in different research areas and in different contexts. Banco : Dados Indexação Researcher reputation Profile model Scientific metrics Adaptability
202	Redução do esforço do usuário na configuração da deduplicação de grandes bases de dados / Reducing the user effort to tune large scale deduplication Dal Bianco, Guilherme January 2014 (has links) A deduplicação consiste na tarefa de identificar quais objetos (registros, documentos, textos, etc.) são potencialmente os mesmos em uma base de dados (ou em um conjunto de bases de dados). A identificação de dados duplicados depende da intervenção do usuário, principalmente para a criação de um conjunto contendo pares duplicados e não duplicados. Tais informações são usadas para ajudar na identificação de outros possíveis pares duplicados presentes na base de dados. Em geral, quando a deduplicação é estendida para grandes conjuntos de dados, a eficiência e a qualidade das duplicatas dependem diretamente do “ajuste” de um usuário especialista. Nesse cenário, a configuração das principais etapas da deduplicação (etapas de blocagem e classificação) demandam que o usuário seja responsável pela tarefa pouco intuitiva de definir valores de limiares e, em alguns casos, fornecer pares manualmente rotulados. Desse modo, o processo de calibração exige que o usuário detenha um conhecimento prévio sobre as características específicas da base de dados e os detalhes do funcionamento do método de deduplicação. O objetivo principal desta tese é tratar do problema da configuração da deduplicação de grandes bases de dados, de modo a reduzir o esforço do usuário. O usuário deve ser somente requisitado para rotular um conjunto reduzido de pares automaticamente selecionados. Para isso, é proposta uma metodologia, chamada FS-Dedup, que incorpora algoritmos do estado da arte da deduplicação para permitir o processamento de grandes volumes de dados e adiciona um conjunto de estratégias com intuito de possibilitar a definição dos parâmetros do deduplicador, removendo os detalhes de configuração da responsabilidade do usuário. A metodologia pode ser vista como uma camada capaz de identificar as informações requisitadas pelo deduplicador (principalmente valores de limiares) a partir de um conjunto de pares rotulados pelo usuário. A tese propõe também uma abordagem que trata do problema da seleção dos pares informativos para a criação de um conjunto de treinamento reduzido. O desafio maior é selecionar um conjunto reduzido de pares suficientemente informativo para possibilitar a configuração da deduplicação com uma alta eficácia. Para isso, são incorporadas estratégias para reduzir o volume de pares candidatos a um algoritmo de aprendizagem ativa. Tal abordagem é integrada à metodologia FS-Dedup para possibilitar a remoção da intervenção especialista nas principais etapas da deduplicação. Por fim, um conjunto exaustivo de experimentos é executado com objetivo de validar as ideias propostas. Especificamente, são demonstrados os promissores resultados alcançados nos experimentos em bases de dados reais e sintéticas, com intuito de reduzir o número de pares manualmente rotulados, sem causar perdas na qualidade da deduplicação. / Deduplication is the task of identifying which objects (e.g., records, texts, documents, etc.) are potentially the same in a given dataset (or datasets). It usually requires user intervention in several stages of the process, mainly to ensure that pairs representing matchings and non-matchings can be determined. This information can be used to help detect other potential duplicate records. When deduplication is applied to very large datasets, the matching quality depends on expert users. The expert users are requested to define threshold values and produce a training set. This intervention requires user knowledge of the noise level of the data and a particular approach to deduplication so that it can be applied to configure the most important stages of the process (e.g. blocking and classification). The main aim of this thesis is to provide solutions to help in tuning the deduplication process in large datasets with a reduced effort from the user, who is only required to label an automatically selected subset of pairs. To achieve this, we propose a methodology, called FS-Dedup, which incorporates state-of-the-art algorithms in its deduplication core to address high performance issues. Following this, a set of strategies is proposed to assist in setting its parameters, and removing most of the detailed configuration concerns from the user. The methodology proposed can be regarded as a layer that is able to identify the specific information requested in the deduplication approach (mainly, threshold values) through pairs that are manually labeled by the user. Moreover, this thesis proposed an approach which would enable to select an informative set of pairs to produce a reduced training set. The main challenge here is how to select a “representative” set of pairs to configure the deduplication with high matching quality. In this context, the proposed approach incorporates an active learning method with strategies that allow the deduplication to be carried out on large datasets. This approach is integrated with the FS-Dedup methodology to avoid the need for a definition of threshold values in the most important deduplication stages. Finally, exhaustive experiments using both synthetic and real datasets have been conducted to validate the ideas outlined in this thesis. In particular, we demonstrate the ability of our approach to reduce the user effort without degrading the matching quality. Banco : Dados Recuperacao : Informacao Data integration Deduplication Signature-based deduplication
203	Consultando XML por meio de modelos conceituais : extensão e formalização de CXPath Feijó, Diego de Vargas January 2005 (has links) Com o objetivo de realizar consultas em diferentes fontes XML,é necessário que se escreva uma consulta específica para cada fonte XML. Uma solução mais adequada é fazer uma única consulta sobre um esquema conceitual e então traduzi-la automaticamente para consultas XML para cada fonte XML específica. CXPath é uma linguagem de consulta que foi proposta para consultar dados em nıvel conceitual. Este trabalho tem como objetivos formalizar a linguagem existente, estendê-la para permitir consultas que utilizem o conceito de herança e estender o mecanismo de tradução de consultas. A formalização da linguagem é feita por meio de um conjunto de regras que definem formalmente um critério para validar uma consulta escrita nessa linguagem sobre um esquema conceitual. Essa formalização permite estender a linguagem para que ela passe a tratar os relacionamentos de herança e especialização. Outra contribuição dessa formalização é que ela apresenta o primeiro passo rumo à verificação formal de que a avaliação da consulta global traz os mesmos resultados obtidos pela avaliação da consulta resultante do processo de mapeamento de consultas proposto. A extensão do mecanismo de tradução de consultas é necessária para traduzir relacionamentos representados no modelo conceitual para junções nas fontes de dados XML. Tal aspecto é fundamental para permitir a construção de modelos conceituais com relacionamentos semânticos e que não dependam de relacionamentos físicos existentes nos documentos fontes, mas apenas de junções tal como é feito em bases de dados relacionais. Banco : Dados XML (Linguagem de marcação) Linguagens : Consulta Dados semi-estruturados
204	Unificação semântica de esquemas conceituais de banco de dados geográficos Hess, Guillermo Nudelman January 2004 (has links) A modelagem conceitual de banco de dados geográficos (BDG) é um aspecto fundamental para o reuso, uma vez que a realidade geográfica é bastante complexa e, mais que isso, parte dela é utilizada recorrentemente na maioria dos projetos de BDG. A modelagem conceitual garante a independência da implementação do banco de dados e melhora a documentação do projeto, evitando que esta seja apenas um conjunto de documentos escritos no jargão da aplicação. Um modelo conceitual bem definido oferece uma representação canônica da realidade geográfica, possibilitando o reuso de subesquemas. Para a obtenção dos sub-esquemas a serem reutilizados, o processo de Descoberta de Conhecimento em Bancos de Dados (DCBD – KDD) pode ser aplicado. O resultado final do DCBD produz os chamados padrões de análise. No escopo deste trabalho os padrões de análise constituem os sub-esquemas reutilizáveis da modelagem conceitual de um banco de dados. O processo de DCBD possui várias etapas, desde a seleção e preparação de dados até a mineração e pós-processamento (análise dos resultados). Na preparação dos dados, um dos principais problemas a serem enfrentados é a possível heterogeneidade de dados. Neste trabalho, visto que os dados de entrada são os esquemas conceituais de BDG, e devido à inexistência de um padrão de modelagem de BDG largamente aceito, as heterogeneidades tendem a aumentar. A preparação dos dados deve integrar diferentes esquemas conceituais, baseados em diferentes modelos de dados e projetados por diferentes grupos, trabalhando autonomamente como uma comunidade distribuída. Para solucionar os conflitos entre esquemas conceituais foi desenvolvida uma metodologia, suportada por uma arquitetura de software, a qual divide a fase de préprocessamento em duas etapas, uma sintática e uma semântica. A fase sintática visa converter os esquemas em um formato canônico, a Geographic Markup Language (GML). Um número razoável de modelos de dados deve ser considerado, em conseqüência da inexistência de um modelo de dados largamente aceito como padrão para o projeto de BDG. Para cada um dos diferentes modelos de dados um conjunto de regras foi desenvolvido e um wrapper implementado. Para suportar a etapa semântica da integração uma ontologia é utilizada para integrar semanticamente os esquemas conceituais dos diferentes projetos. O algoritmo para consulta e atualização da base de conhecimento consiste em métodos matemáticos de medida de similaridade entre os conceitos. Uma vez os padrões de análise tendo sido identificados eles são armazenados em uma base de conhecimento que deve ser de fácil consulta e atualização. Novamente a ontologia pode ser utilizada como a base de conhecimento, armazenando os padrões de análise e possibilitando que projetistas a consultem durante a modelagem de suas aplicações. Os resultados da consulta ajudam a comparar o esquema conceitual em construção com soluções passadas, aceitas como corretas. Geoinformática Sistemas : Informacao geografica Ontologias Banco : Dados geograficos
205	X-Spread : um mecanismo automático para propagação da evolução de esquemas para documentos XML / X-Spread : an automatic mechanism for propagation of schema evolution to XML documents Silveira, Vincent Nelson Kellers da January 2007 (has links) Assim como as aplicações, as bases de dados evoluem ao longo do tempo. Esta evolução ocorre em função de alterações de cunho técnico ou por alterações na realidade modelada pela base de dados. Bases de dados semiestruturados, compostas por esquemas e documentos XML, são afetadas por esta evolução de uma maneira diversa daquela observada em bases de dados relacionais. Modificações em esquemas podem levar bases de dados semiestruturados a um estado inconsistente, pois as instâncias podem tornar-se incompatíveis com as definições mais recentes dos esquemas. Em bancos de dados relacionais, modificações que levem a base a um estado inválido são bloqueadas pelo sistema gerenciador. Em bases de dados semiestruturados sem um sistema gerenciador, modificações no esquema não podem ser bloqueadas em função das instâncias existentes, em função da ausência do gerenciador. Trabalhos acadêmicos e comerciais na área de evolução de esquemas XML modelam diferentes aspectos deste processo, mas usualmente não abordam o efeito que a evolução do esquema possui sobre as instâncias existentes. As soluções propostas para este problema usualmente demandam intervenção do administrador do banco de dados na adaptação das instâncias ou a utilização de uma interface específica para edição do esquema. Este trabalho especifica o X-Spread, um mecanismo automático para propagação de modificações em esquemas para documentos XML. O X-Spread monitora periodicamente esquemas XML, e ao identificar modificações em um esquema, inicia a revalidação dos documentos que referenciam o esquema modificado. A revalidação analisa somente as porções dos documentos correspondentes às porções modificadas no esquema. Documentos considerados inválidos no processo de revalidação serão submetidos ao processo de adaptação, a fim de tornarem-se novamente compatíveis com as definições do esquema. A arquitetura proposta para o X-Spread permite o seu emprego em diferentes cenários de utilização de bases de dados semiestruturados. A mesma arquitetura proposta para revalidação e adaptação de documentos XML é aplicável a mensagens XML trocadas entre aplicações através de uma rede de dados. Ao administrador do banco de dados semiestruturado é oferecida a flexibilidade de utilização de qualquer ferramenta desejada para edição do esquema, bem como a possibilidade de restringir conforme suas necessidades o conjunto de operações de revalidação e adaptação executadas pelo X-Spread. A principal contribuição do X-Spread é a modelagem de todas as fases do processo de evolução de esquemas e dos processos de revalidação e adaptação de documentos XML. O processos definidos aplicam-se a documentos armazenados em um servidor de arquivos e a documentos transmitidos entre diferentes aplicações através de uma rede de dados. / Like applications, databases evolve as time goes by. Evolution can occur due to technical changes or due to changes in the modeled reality. Semistructured databases, composed by schema and XML documents, are not affected by evolution as relational databases. Changes to semistructured schema can lead the database to an inconsistent state, since instances can become invalid with respect to the most recent schema definitions. Modifications that lead the database to an inconsistent state are blocked by the management system of relational databases. Semistructured databases with no management system can not have this kind of modification blocked due to the lack of management system. Academic and commercial research on XML schema evolution models different evolution aspects, but usually the effect that evolution has on existing database instances is not investigaed. When this effect is subject of investigation, the proposed solutions usually require database administrator intervention in the instance adaptation process or usage of an specific schema update interface. This work specifies X-Spread, an automatic mechanism for propagation of schema modification to XML documents. X-Spread periodically monitors XML schemata, and upon identification of changes, revalidation of documents with references to the changed schema is started. Revalidation takes into account only items in the document equivalent to items modified in the schema. Documents considered invalid during the revalidation process are subjected to the adaptation process, in order to become once again valid with respect to the schema. The X-Spread architecture supports different scenarios of semistructured databases usage. This architecture can also be used for revalidation and adaptation of XML messages exchanged by applications over a network. To the database administrator is offered the flexibility of choice on schema edit tool, as well as the ability to restrict the set of operations executed by X-Spread during the revalidation and adaptation processes. The main contribution of X-Spread is the modeling of all schema evolution phases as well as the XML document revalidation and adaptation processes modeling. These processes here defined are suitable to XML documents stored in a file server as well as XML messages exchanged by application over a network. Banco : Dados XML (Linguagem de marcação) XML Schemata Evolution
206	Formalização do processo de tradução de consultas em ambientes de integração de dados XML / Formalization of a query translation process in XML data integration Alves, Willian Bruno Gomes January 2008 (has links) A fim de consultar uma mesma informação em fontes XML heterogêneas seria desejável poder formular uma única consulta em relação a um esquema global conceitual e então traduzi-la automaticamente para consultas XML para cada uma das fontes. CXPath (Conceptual XPath) é uma proposta de linguagem para consultar fontes XML em um nível conceitual. Essa linguagem foi desenvolvida para simplificar o processo de tradução de consultas em nível conceitual para consultas em nível XML. Ao mesmo tempo, a linguagem tem como objetivo a facilidade de aprendizado de sua sintaxe. Por essa razão, sua sintaxe é bastante semelhante à da linguagem XPath utilizada para consultar documentos XML. Nesta dissertação é definido formalmente o mecanismo de tradução de consultas em nível conceitual, escritas em CXPath, para consultas em nível XML, escritas em XPath. É mostrado o tratamento do relacionamento de herança no mecanismo de tradução, e é feita uma discussão sobre a relação entre a expressividade do modelo conceitual e o mecanismo de tradução. Existem situações em que a simples tradução de uma consulta CXPath não contempla alguns resultados, pois as fontes de dados podem ser incompletas. Neste trabalho, o modelo conceitual que constitui o esquema global do sistema de integração de dados é estendido com dependências de inclusão e o mecanismo de resolução de consultas é modificado para lidar com esse tipo de dependência. Mais especificamente, são apresentados mecanismos de reescrita e eliminação de redundâncias de consultas a fim de lidar com essas dependências. Com o aumento de expressividade do esquema global é possível inferir resultados, a partir dos dados disponíveis no sistema de integração, que antes não seriam contemplados com a simples tradução de uma consulta. Também é apresentada a abordagem para integração de dados utilizada nesta dissertação de acordo com o arcabouço formal para integração de dados proposto por (LENZERINI, 2002). De acordo com o autor, tal arcabouço é geral o bastante para capturar todas as abordagens para integração de dados da literatura, o que inclui a abordagem aqui mostrada. / In order to search for the same information in heterogeneous XML data sources, it would be desirable to state a single query against a global conceptual schema and then translate it automatically into an XML query for each specific data source. CXPath (for Conceptual XPath ) has been proposed as a language for querying XML sources at the conceptual level. This language was developed to simplify the translation process of queries at conceptual level to queries at XML level. At the same time, one of the goals of the language design is to facilitate the learning of its syntax. For this reason its syntax is similar to the XPath language used for querying XML documents. In this dissertation, a translation mechanism of queries at conceptual level, written in CXPath, to queries at XML level, written in XPath, is formally defined. The inheritance relationship in the translation mechanism is shown, being discussed the relation between the conceptual model expressivity and the translation mechanism. In some cases, the translation of a CXPath query does not return some of the answers because the data sources may be incomplete. In this work, the conceptual model, which is the basis for the data integration system’s global schema, is improved with inclusion dependencies, and the query answering mechanism is modified to deal with this kind of dependency. More specifically, mechanisms of query rewriting and redundancy elimination are presented to deal with this kind of dependency. This global schema improvement allows infer results, with the data available in the system, that would not be provided with a simple query translation. The approach of data integration used in this dissertation is also presented within the formal framework for data integration proposed by (LENZERINI, 2002). According to the author, that framework is general enough to capture all approaches in the literature, including, in particular, the approach considered in this dissertation. Banco : Dados XML (Linguagem de marcação) Data integration Query answering XML
207	Rep-Index : uma abordagem abrangente e adaptável para identificar reputação acadêmica / Rep-Index : a comprehensive and adaptable approach to identify academic reputation Cervi, Cristiano Roberto January 2013 (has links) A tarefa de avaliar a produção científica de um pesquisador é fortemente baseada na análise de seu currículo. É o que fazem, por exemplo, as agências de fomento à pesquisa e desenvolvimento ou comissões de avaliação, quando necessitam considerar a produção científica dos pesquisadores no processo de concessão de bolsas e auxílios, na seleção de consultores e membros de comitês, na aprovação de projetos ou simplesmente para avaliar o conceito de um programa de pós-graduação. Nesse contexto, a modelagem de perfis de pesquisadores é tarefa fundamental, especialmente quando se quer avaliar a reputação dos pesquisadores. Isto pode ocorrer por meio de um processo de análise da trajetória de toda a carreira científica do pesquisador. Tal processo envolve não somente aspectos relacionados a artigos ou livros publicados, mas também por outros elementos inerentes à atividade de um pesquisador, como orientações de trabalhos de mestrado e de doutorado; participação em defesas de mestrado e de doutorado; trabalhos apresentados em conferências; participação em projetos de pesquisa, inserção internacional, dentre outros. O objetivo deste trabalho é especificar um modelo de perfil de pesquisadores (Rep- Model) e uma métrica para medir reputação acadêmica (Rep-Index). O processo de modelagem do perfil envolve a definição de quais informações são relevantes para a especificação do perfil e as apresenta por meio de 18 elementos e 5 categorias. O processo para medir a reputação do pesquisador é definido por uma métrica que gera um índice. Esse índice é calculado mediante a utilização dos elementos constantes no perfil do pesquisador. Para avaliar a abordagem proposta na tese, diversos experimentos foram realizados. Os experimentos envolveram a avaliação dos elementos do Rep-Model por meio de análise de correlação e por algoritmos de mineração de dados. O Rep-Index também foi avaliado e correlacionado com duas métricas amplamente utilizadas na comunidade científica, o h-index e o g-index. Como baseline, foram utilizados todos os pesquisadores do CNPq das áreas de Ciência da Computação, Economia e Odontologia. O trabalho desenvolvido nesta tese está inserido no contexto da identificação da reputação de pesquisadores no âmbito acadêmico. A abordagem desta tese tem como premissa ser abrangente e adaptável, pois envolve a vida científica do pesquisador construída ao longo de sua carreira científica e pode ser utilizada em diferentes áreas e em diferentes contextos. / The task of evaluating the scientific production of a researcher is based strongly on the analysis of their curriculum. It's what makes the agencies for research support or evaluation committees, when they need to consider the scientific production of researchers in the process of awarding grants and aid in the selection of consultants and committee members in approving projects or simply to assess the concept of a program graduate. In that context, the modeling of profiles of researchers is fundamental task especially when one wants to evaluate the reputation of the researchers. This can occur by means of a process of analysis of the trajectory of all the scientific career of the researcher. Such process involves not only aspects related to papers or books, but also other elements inherent in the activity of a researcher, as orientations of master’s degree and doctorate; participation in defense of master's and doctoral degrees; papers presented in conferences, participation in research projects, international integration, among others. This proposal specifies a profile template for researchers (Rep-Model) and a metric to measure academic reputation (Rep-Index). The profile modeling process involves define which information is relevant to the specification of the profile and shows through 18 elements and 5 categories. The process for measuring researcher's reputation is defined by a metric that generates an index. This index is calculated by using the information contained in the profile of the researcher. To evaluate the approach proposed in the thesis, extensive experiments were conducted. The experiments involved the evaluation of Rep-Model by means of correlation analysis and data mining algorithms. The Rep-Index was also evaluated and correlated with two metrics widely used in the scientific community, the h-index and gindex. As a baseline, all of CNPq researchers in the areas of Computer Science, Economics and Dentistry were used. The work in this thesis is set in the context of identifying the reputation of researchers within the academic sphere. The approach of this thesis is premised be comprehensive and adaptable, because it involves the life science researcher built throughout his scientific career and can be used in different research areas and in different contexts. Banco : Dados Indexação Researcher reputation Profile model Scientific metrics Adaptability
208	Redução do esforço do usuário na configuração da deduplicação de grandes bases de dados / Reducing the user effort to tune large scale deduplication Dal Bianco, Guilherme January 2014 (has links) A deduplicação consiste na tarefa de identificar quais objetos (registros, documentos, textos, etc.) são potencialmente os mesmos em uma base de dados (ou em um conjunto de bases de dados). A identificação de dados duplicados depende da intervenção do usuário, principalmente para a criação de um conjunto contendo pares duplicados e não duplicados. Tais informações são usadas para ajudar na identificação de outros possíveis pares duplicados presentes na base de dados. Em geral, quando a deduplicação é estendida para grandes conjuntos de dados, a eficiência e a qualidade das duplicatas dependem diretamente do “ajuste” de um usuário especialista. Nesse cenário, a configuração das principais etapas da deduplicação (etapas de blocagem e classificação) demandam que o usuário seja responsável pela tarefa pouco intuitiva de definir valores de limiares e, em alguns casos, fornecer pares manualmente rotulados. Desse modo, o processo de calibração exige que o usuário detenha um conhecimento prévio sobre as características específicas da base de dados e os detalhes do funcionamento do método de deduplicação. O objetivo principal desta tese é tratar do problema da configuração da deduplicação de grandes bases de dados, de modo a reduzir o esforço do usuário. O usuário deve ser somente requisitado para rotular um conjunto reduzido de pares automaticamente selecionados. Para isso, é proposta uma metodologia, chamada FS-Dedup, que incorpora algoritmos do estado da arte da deduplicação para permitir o processamento de grandes volumes de dados e adiciona um conjunto de estratégias com intuito de possibilitar a definição dos parâmetros do deduplicador, removendo os detalhes de configuração da responsabilidade do usuário. A metodologia pode ser vista como uma camada capaz de identificar as informações requisitadas pelo deduplicador (principalmente valores de limiares) a partir de um conjunto de pares rotulados pelo usuário. A tese propõe também uma abordagem que trata do problema da seleção dos pares informativos para a criação de um conjunto de treinamento reduzido. O desafio maior é selecionar um conjunto reduzido de pares suficientemente informativo para possibilitar a configuração da deduplicação com uma alta eficácia. Para isso, são incorporadas estratégias para reduzir o volume de pares candidatos a um algoritmo de aprendizagem ativa. Tal abordagem é integrada à metodologia FS-Dedup para possibilitar a remoção da intervenção especialista nas principais etapas da deduplicação. Por fim, um conjunto exaustivo de experimentos é executado com objetivo de validar as ideias propostas. Especificamente, são demonstrados os promissores resultados alcançados nos experimentos em bases de dados reais e sintéticas, com intuito de reduzir o número de pares manualmente rotulados, sem causar perdas na qualidade da deduplicação. / Deduplication is the task of identifying which objects (e.g., records, texts, documents, etc.) are potentially the same in a given dataset (or datasets). It usually requires user intervention in several stages of the process, mainly to ensure that pairs representing matchings and non-matchings can be determined. This information can be used to help detect other potential duplicate records. When deduplication is applied to very large datasets, the matching quality depends on expert users. The expert users are requested to define threshold values and produce a training set. This intervention requires user knowledge of the noise level of the data and a particular approach to deduplication so that it can be applied to configure the most important stages of the process (e.g. blocking and classification). The main aim of this thesis is to provide solutions to help in tuning the deduplication process in large datasets with a reduced effort from the user, who is only required to label an automatically selected subset of pairs. To achieve this, we propose a methodology, called FS-Dedup, which incorporates state-of-the-art algorithms in its deduplication core to address high performance issues. Following this, a set of strategies is proposed to assist in setting its parameters, and removing most of the detailed configuration concerns from the user. The methodology proposed can be regarded as a layer that is able to identify the specific information requested in the deduplication approach (mainly, threshold values) through pairs that are manually labeled by the user. Moreover, this thesis proposed an approach which would enable to select an informative set of pairs to produce a reduced training set. The main challenge here is how to select a “representative” set of pairs to configure the deduplication with high matching quality. In this context, the proposed approach incorporates an active learning method with strategies that allow the deduplication to be carried out on large datasets. This approach is integrated with the FS-Dedup methodology to avoid the need for a definition of threshold values in the most important deduplication stages. Finally, exhaustive experiments using both synthetic and real datasets have been conducted to validate the ideas outlined in this thesis. In particular, we demonstrate the ability of our approach to reduce the user effort without degrading the matching quality. Banco : Dados Recuperacao : Informacao Data integration Deduplication Signature-based deduplication
209	Validação do mecanismo de tolerância a falhas do SGBD InterBase através de injeção de falhas Rodegheri, Paulo Ricardo January 2002 (has links) O presente trabalho explora a aplicação de técnicas de injeção de falhas, que simulam falhas transientes de hardware, para validar o mecanismo de detecção e de recuperação de erros, medir os tempos de indisponibilidade do banco de dados após a ocorrência de uma falha que tenha provocado um FUDVK. Adicionalmente, avalia e valida a ferramenta de injeção de falhas FIDe, utilizada nos experimentos, através de um conjunto significativo de testes de injeção de falhas no ambiente do SGBD. A plataforma experimental consiste de um computador Intel Pentium 550 MHz com 128 MB RAM, do sistema operacional Linux Conectiva kernel versão 2.2.13. O sistema alvo das injeções de falhas é o SGBD centralizado InterBase versão 4.0. As aplicações para a carga de trabalho foram escritas em VFULSWV SQL e executadas dentro de uma sessão chamada LVTO. Para a injeção de falhas foram utilizadas três técnicas distintas: 1) o comando NLOO do sistema operacional; 2) UHVHW geral no equipamento; 3) a ferramenta de injeção de falhas FIDe, desenvolvida no grupo de injeção de falhas do PPGC da UFRGS. Inicialmente são introduzidos e reforçados os conceitos básicos sobre o tema, que serão utilizados no decorrer do trabalho e são necessários para a compreensão deste estudo. Em seguida é apresentada a ferramenta de injeção de falhas Xception e são também analisados alguns experimentos que utilizam ferramentas de injeção de falhas em bancos de dados. Concluída a revisão bibliográfica é apresentada a ferramenta de injeção de falhas – o FIDe, o modelo de falhas adotado, a forma de abordagem, a plataforma de hardware e software, a metodologia e as técnicas utilizadas, a forma de condução dos experimentos realizados e os resultados obtidos com cada uma das técnicas. No total foram realizados 3625 testes de injeções de falhas. Com a primeira técnica foram realizadas 350 execuções, com a segunda técnica foram realizadas 75 execuções e com a terceira técnica 3200 execuções, em 80 testes diferentes. O modelo de falhas proposto para este trabalho refere-se a falhas de crash baseadas em corrupção de memória e registradores, parada de CPU, aborto de transações ou reset geral. Os experimentos foram divididos em três técnicas distintas, visando a maior cobertura possível de erros, e apresentam resultados bastante diferenciados. Os experimentos com o comando NLOO praticamente não afetaram o ambiente do banco de dados. Pequeno número de injeção de falhas com o FIDe afetaram significativamente a dependabilidade do SGBD e os experimentos com a técnica de UHVHW geral foram os que mais comprometeram a dependabilidade do SGBD. Banco : Dados Recuperacao : Erros Tolerancia : Falhas Injecao : Falhas Deteccao : Erros
210	Uma abordagem Bottom-UP para a integração semântica de esquemas XML Mello, Ronaldo dos Santos January 2002 (has links) XML (eXtensibile Markup Language) é um padrão atual para representação e intercâmbio dos semi-estruturados na Web. Dados semi-estruturados são dados não convencionais cujas instâncias de uma mesma fonte de dados podem ter representações altamente heterogêneas. Em função isto, um esquema para estes dados tende a ser extenso para suportar todas as alternativas de representação que um dado pode assumir. Parte do grande volume de dados disponível hoje na Web é composto por fontes de dados heterogêneas XML sobre diversos domínios do conhecimento. Para realizar o acesso a estas fontes, aplicações na Web necessitam de um mecanismo de integração de dados. O objetivo principal deste mecanismo é disponibilizar um esquema de dados global representativo dos diversos esquemas XML das fontes de dados. Com base neste esquema global, consultas são formuladas, traduzidas para consultas sobre os esquemas XML, executadas nas fontes de dados e os resultados retornados à aplicação. Esta tese apresenta uma abordagem para a integração semântica de esquemas XML relativos a um domínio de aplicação chamada BInXS. BInXS adota um processo bottom-up de integração, no qual o esquema global é definido para um conjunto de esquemas XML representadas atrtavés de DTDs (Document Type Definitions). A vantagem do processo bottom-up é que todas as informações dos esquemas XML são consideradas no esquema global. Desta forma, toda a informação presente nas fontes de dados pode ser consultada. O processo de integração de BInXS é baseado em um conjunto de regras e algoritmos que realizam a cnversão de cada DTD para um esquema canônico conceitual e a posterior integração semântica propriamente dita destes esquemas canônicos. O processo é semi-automático pois considera uma eventual intervenção de um usuário especialista no domínio para validar ou confirmar alternativas de resultado produzidas automaticamente. Comparada com trabalhos relacionados, BInXS apresenta as seguintes contribuições: (i) uma representação canônica conceitual para esquemas XML que é o resultado de uma anállise detalhada do modelo XML; (ii) um étodo de unificação que lida com as particularidades da integração de dados semi-estruturados e; (iii) uma estratégia de mapeamento baseada em expressões de consulta XPath que possibilita uma tradução simples de consultas globais para consultas a serem executadas nas fontes de dados XML. Banco : Dados XML (Linguagem de marcação) Dados heterogêneos Integração : Esquemas

Search results