Global ETD Search

291	Mineração de regras de associação aplicada a dados da Secretaria Municipal de Saúde de Londrina PR / Mining of Association Rules Applied to Londrina´s Health City Department – PR Silva, Glauco Carlos January 2004 (has links) Com o grande crescimento dos volumes de dados que as organizações vêm registrando e a diversidade das fontes destes dados, o fato de se aproveitar informações contidas nessas massas de dados se tornou uma necessidade. Surgiu então uma área denominada Descoberta de Conhecimento em Bases de Dados (DCBD). Tal área utiliza alguns modelos, técnicas e algoritmos que realizam operações de extração de conhecimento útil de grandes volumes de dados. Entre as principais técnicas utilizadas para minerar os dados está a de Regras de Associação. A técnica de Regras de Associação se propõe a encontrar todas as associações relevantes entre um conjunto de itens aplicados a outros itens, e utiliza alguns algoritmos para realizar seu objetivo. Este estudo apresenta alguns algoritmos para a aplicação da técnica de Regras de Associação, também, busca abranger um pouco da tecnologia de Data Warehouse, muito útil para que o processo de mineração de dados possa ser realizado com maior sucesso. Neste trabalho são aplicadas técnicas de descoberta de conhecimento na área de saúde, vinculando dados referentes à situação socioeconômica do paciente com os procedimentos que foram realizados nas internações hospitalares a que foi submetido. Devido ao grande número de regras que poderiam se geradas resultantes das inúmeras possibilidades da base de dados, foi construído um protótipo de uma ferramenta para extração de regras de associação, que não só é baseado no suporte e confiança, mas também utiliza os conceitos de lift e improvement os quais ajudam na diminuição de regras triviais. Foram realizadas minerações com a base de dados de pacientes da Secretaria Municipal de Saúde de Londrina-PR, para análise da utilidade dos dados minerados. / The increasing amount of data that organization have been registering and the diversity of data sources have generate the necessity of extract knowledge from this mass of data. Based on this necessity a new area has emerged which is named Knowledge Discovery in Data Base (KDD). In this work apply the association rule mining technique in the public health area, linking social economic situation of patients which were attended in our hospitals. Because of large number of rules that can be produce we developed a prototype of a tool for extract association rules, not only based on support and confidence, but using too the measures lift and improvement in order to reduce the number of rules. Experiments were performed with the “Secretaria Municipal de Saúde de Londrina – PR” database Armazenamento da informação Banco : Dados Mineracao : Dados Regras : Associacao Associations Rules Data Mining
292	Casamento de esquemas XML e esquemas relacionais / Matching of XML schemas and relational schema Mergen, Sérgio Luis Sardi January 2005 (has links) O casamento entre esquemas XML e esquemas relacionais é necessário em diversas aplicações, tais como integração de informação e intercâmbio de dados. Tipicamente o casamento de esquemas é um processo manual, talvez suportado por uma interface grá ca. No entanto, o casamento manual de esquemas muito grandes é um processo dispendioso e sujeito a erros. Disto surge a necessidade de técnicas (semi)-automáticas de casamento de esquemas que auxiliem o usuário fornecendo sugestões de casamento, dessa forma reduzindo o esforço manual aplicado nesta tarefa. Apesar deste tema já ter sido estudado na literatura, o casamento entre esquemas XML e esquemas relacionais é ainda um tema em aberto. Isto porque os trabalhos existentes ou se aplicam para esquemas de nidos no mesmo modelo, ou são genéricos demais para o problema em questão. O objetivo desta dissertação é o desenvolvimento de técnicas especí cas para o casamento de esquemas XML e esquemas relacionais. Tais técnicas exploram as particularidades existentes entre estes esquemas para inferir valores de similaridade entre eles. As técnicas propostas são avaliadas através de experimentos com esquemas do mundo real. / The matching between XML schemas and relational schemas has many applications, such as information integration and data exchange. Typically, schema matching is done manually by domain experts, sometimes using a graphical tool. However, the matching of large schemas is a time consuming and error-prone task. The use of (semi-)automatic schema matching techniques can help the user in nding the correct matches, thereby reducing his labor. The schema matching problem has already been addressed in the literature. Nevertheless, the matching of XML schemas and relational schemas is still an open issue. This comes from the fact that the existing work is whether speci c for schemas designed in the same model, or too generic for the problem in discussion. The mais goal of this dissertation is to develop speci c techniques for the matching of XML schemas and relational schemas. Such techniques exploit the particularities found when analyzing the two schemas together, and use these cues to leverage the matching process. The techniques are evaluated by running experiments with real-world schemas. XML (Linguagem de marcação) Banco : Dados relacionais XML Schema matching Databases Information integration Data exchange
293	Fragmentação e decomposição de consultas em XML / Fragmentation and query decomposition in XML Silveira, Felipe Victolla January 2006 (has links) O problema da integração de dados (fragmentação de dados, decomposição de consultas) tem sido largamente estudado na literatura, mas a estrutura hierárquica inerente do modelo XML apresenta problemas que são específicos deste modelo de dados. Cada relacionamento conceitual muitos-para-muitos deve ser mapeado para uma estrutura hierárquica específica em XML. Diferentes fontes XML podem implementar o mesmo relacionamento conceitual muitos-para-muitos de diferentes maneiras. Na abordagem proposta neste trabalho, o problema de integra»c~ao de fontes de dados XML é dividido em dois problemas: (1) naquele da fragmentação de um modelo global do tipo grafo (ex., um modelo ER) em diversos modelos locais do tipo grafo representando conceitualmente fontes de dados e (2) naquele do ma- peamento de um modelo local do tipo grafo em um esquema hierárquico XML. Este trabalho apresenta um conjunto de operadores especificamente projetados para esta abordagem, assim como um mecanismo de decomposi»c~ao que permite que uma con- sulta especificada em um nível conceitual seja decomposta em uma consulta XQuery especificada no nível XML. Como linguagem de consulta para o nível conceitual, é adotado o CXPath (Conceptual XPath), uma linguagem de consulta proposta em um trabalho anterior. / The problem of data integration (query decomposition, data fragmentation) has been widely studied in literature, but the inherent hierarchical nature of XML data presents problems that are specific to this data model. Each many-to-many con- ceptual relationship must be mapped to a specific hierarchical structure in XML. Di®erent XML sources may implement the same many-to-many conceptual rela- tionship in di®erent ways. In our approach the problem of integration of XML data sources is decomposed in two problems: (1) that of fragmentation of a global graph-like model (e.g., an ER model) into several local graph-like models conceptu- ally representing data sources and (2) that of mapping the local graph-like model into an XML tree-like schema. This work presents a set of fragmentation operators specifically designed for our approach, as well as a query decomposition mechanism that allows a query stated at the conceptual level to be decomposed into an XQuery statement at the XML level. As the query language at the conceptual level, we adopt CXPath (conceptual XPath) a query language we have defined in previous work. Recuperacao : Informacao Consulta : Banco : Dados XML (Linguagem de marcação) Database fragmentation Query decomposition XML
294	Aplicando algoritmos de mineração de regras de associação para recuperação de informações multilíngues. / Cross-language information retrieval using algorithms for mining association rules Geraldo, André Pinto January 2009 (has links) Este trabalho propõe a utilização de algoritmos de mineração de regras de associação para a Recuperação de Informações Multilíngues. Esses algoritmos têm sido amplamente utilizados para analisar transações de registro de vendas. A ideia é mapear o problema de encontrar associações entre itens vendidos para o problema de encontrar termos equivalentes entre idiomas diferentes em um corpus paralelo. A proposta foi validada por meio de experimentos com diferentes idiomas, conjuntos de consultas e corpora. Os resultados mostram que a eficácia da abordagem proposta é comparável ao estado da arte, ao resultado monolíngue e à tradução automática de consultas, embora este utilize técnicas mais complexas de processamento de linguagem natural. Foi criado um protótipo que faz consultas à Web utilizando o método proposto. O sistema recebe palavras-chave em português, as traduz para o inglês e submete a consulta a diversos sites de busca. / This work proposes the use of algorithms for mining association rules as an approach for Cross-Language Information Retrieval. These algorithms have been widely used to analyze market basket data. The idea is to map the problem of finding associations between sales items to the problem of finding term translations over a parallel corpus. The proposal was validated by means of experiments using different languages, queries and corpora. The results show that the performance of our proposed approach is comparable to the performance of the monolingual baseline and to query translation via machine translation, even though these systems employ more complex Natural Language Processing techniques. A prototype for cross-language web querying was implemented to test the proposed method. The system accepts keywords in Portuguese, translates them into English and submits the query to several web-sites that provide search functionalities. Recuperacao : Informacao Banco : Dados Mineracao : Dados Information retrieval Cross-language information retrieval Association rules
295	Desambiguação de autores em bibliotecas digitais utilizando redes sociais e programação genética / Author name disambiguation in digital libraries using social networks and genetic programming Levin, Felipe Hoppe January 2010 (has links) Bibliotecas digitais tornaram-se uma importante fonte de informação para comunidades científicas. Entretanto, por coletar dados de diferentes fontes, surge o problema de informações ambíguas ou duplicadas de nomes de autores. Métodos tradicionais de desambiguação de nomes utilizam informação sintática de atributos. Todavia, recentemente o uso de redes de relacionamentos, que traz informação semântica, tem sido estudado em desambiguação de dados. Em desambiguação de nomes de autores, relações de co-autoria podem ser usadas para criar uma rede social, que pode ser utilizada para melhorar métodos de desambiguação de nomes de autores. Esta dissertação apresenta um estudo do impacto de adicionar análise de redes sociais a métodos de desambiguação de nomes de autores baseados em informação sintática de atributos. Nós apresentamos uma abordagem de aprendizagem de máquina baseada em Programação Genética e a utilizamos para avaliar o impacto de adicionar análise de redes sociais a desambiguação de nomes de autores. Através de experimentos usando subconjuntos de bibliotecas digitais reais, nós demonstramos que o uso de análise de redes sociais melhora de forma significativa a qualidade dos resultados. Adicionalmente, nós demonstramos que as funções de casamento criadas por nossa abordagem baseada em Programação Genética são capazes de competir com métodos do estado da arte. / Digital libraries have become an important source of information for scientific communities. However, by gathering data from different sources, the problem of duplicate and ambiguous information about author names arises. Traditional methods of name disambiguation use syntactic attribute information. However, recently the use of relationship networks, which provides semantic information, has been studied in data disambiguation. In author name disambiguation, the co-authorship relations can be used to create a social network, which can be used to improve author name disambiguation methods. This dissertation presents a study of the impact of adding social network analysis to author name disambiguation methods based on syntactic attribute information. We present a machine learning approach based on Genetic Programming and use it to evaluate the impact of social network analysis in author name disambiguation. Through experiments using subsets of real digital libraries, we show that the use of social network analysis significantly improves the quality of results. Also, we demonstrate that match functions created by our Genetic Programming approach are able to compete with state-of-the-art methods. Banco : Dados Agentes sociais Name disambiguation Relationship analysis Social networks Genetic programming Match functions Digital libraries
296	Cross-language plagiarism detection / Detecção de plágio multilíngue Pereira, Rafael Corezola January 2010 (has links) Plágio é um dos delitos mais graves no meio acadêmico. É definido como “o uso do trabalho de uma pessoa sem a devida referência ao trabalho original”. Em contrapartida a esse problema, existem diversos métodos que tentam detectar automaticamente plágio entre documentos. Nesse contexto, esse trabalho propõe um novo método para Análise de Plágio Multilíngue. O objetivo do método é detectar casos de plágio em documentos suspeitos baseado em uma coleção de documentos ditos originais. Para realizar essa tarefa, é proposto um método de detecção de plágio composto por cinco fases principais: normalização do idioma, recuperação dos documentos candidatos, treinamento do classificador, análise de plágio, pós-processamento. Uma vez que o método é projetado para detectar plágio entre documentos escritos em idiomas diferentes, nós usamos um language guesser para identificar o idioma de cada documento e um tradutor automático para traduzir todos os documentos para um idioma comum (para que eles possam ser analisados de uma mesma forma). Após a normalização, nós aplicamos um algoritmo de classificação com o objetivo de construir um modelo que consiga diferenciar entre um trecho plagiado e um trecho não plagiado. Após a fase de treinamento, os documentos suspeitos podem ser analisados. Um sistema de recuperação é usado para buscar, baseado em trechos extraídos de cada documento suspeito, os trechos dos documentos originais que são mais propensos de terem sido utilizados como fonte de plágio. Somente após os trechos candidatos terem sido retornados, a análise de plágio é realizada. Por fim, uma técnica de pós-processamento é aplicada nos resultados da detecção a fim de juntar os trechos plagiados que estão próximos um dos outros. Nós avaliamos o métodos utilizando três coleções de testes disponíveis. Duas delas foram criadas para as competições PAN (PAN’09 e PAN’10), que são competições internacionais de detecção de plágio. Como apenas um pequeno percentual dos casos de plágio dessas coleções era multilíngue, nós criamos uma coleção com casos de plágio multilíngue artificiais. Essa coleção foi chamada de ECLaPA (Europarl Cross-Language Plagiarism Analysis). Os resultados alcançados ao analisar as três coleções de testes mostraram que o método proposto é uma alternativa viável para a tarefa de detecção de plágio multilíngue. / Plagiarism is one of the most serious forms of academic misconduct. It is defined as “the use of another person's written work without acknowledging the source”. As a countermeasure to this problem, there are several methods that attempt to automatically detect plagiarism between documents. In this context, this work proposes a new method for Cross-Language Plagiarism Analysis. The method aims at detecting external plagiarism cases, i.e., it tries to detect the plagiarized passages in the suspicious documents (the documents to be investigated) and their corresponding text fragments in the source documents (the original documents). To accomplish this task, we propose a plagiarism detection method composed by five main phases: language normalization, retrieval of candidate documents, classifier training, plagiarism analysis, and postprocessing. Since the method is designed to detect cross-language plagiarism, we used a language guesser to identify the language of the documents and an automatic translation tool to translate all the documents in the collection into a common language (so they can be analyzed in a uniform way). After language normalization, we applied a classification algorithm in order to build a model that is able to differentiate a plagiarized text passage from a non-plagiarized one. Once the classifier is trained, the suspicious documents can be analyzed. An information retrieval system is used to retrieve, based on passages extracted from each suspicious document, the passages from the original documents that are more likely to be the source of plagiarism. Only after the candidate passages are retrieved, the plagiarism analysis is performed. Finally, a postprocessing technique is applied in the reported results in order to join the contiguous plagiarized passages. We evaluated our method using three freely available test collections. Two of them were created for the PAN competitions (PAN’09 and PAN’10), which are international competitions on plagiarism detection. Since only a small percentage of these two collections contained cross-language plagiarism cases, we also created an artificial test collection especially designed to contain this kind of offense. We named the test collection ECLaPA (Europarl Cross-Language Plagiarism Analysis). The results achieved while analyzing these collections showed that the proposed method is a viable approach to the task of cross-language plagiarism analysis. Recuperacao : Informacao Banco : Dados Mineracao : Dados Plagiarism Cross-language plagiarism detection Plagiarism test collections
297	Suporte a consultas temporais por palavras-chave em documentos XML / Supporting temporal keyword queries on XML documents Manica, Edimar January 2010 (has links) Consultas por palavras-chave permitem o acesso fácil a dados XML, uma vez que não exigem que o usuário aprenda uma linguagem de consulta estruturada nem estude possíveis esquemas de dados complexos. Com isso, vários motores de busca XML foram propostos para permitir a extração de fragmentos XML relevantes para consultas por palavras-chave. No entanto, esses motores de busca tratam as expressões temporais da mesma forma que qualquer outra palavra-chave. Essa abordagem ocasiona inúmeros problemas, como por exemplo, considerar como casamentos para uma expressão temporal nodos do domínio preço ou código. Este trabalho descreve TPI (Two Phase Interception), uma abordagem que permite o suporte a consultas temporais por palavras-chave em documentos XML orientados a dados. O suporte a consultas temporais é realizado através de uma camada adicional de software que executa duas interceptações no processamento de consultas, realizado por um motor de busca XML. Esta camada adicional de software é responsável pelo tratamento adequado das informações temporais presentes na consulta e no conteúdo dos documentos XML. O trabalho ainda especifica TKC (Temporal Keyword Classification), uma classificação de consultas temporais que serve de guia para qualquer mecanismo de consulta por palavras-chave, inclusive TPI. São apresentados os algoritmos de mapeamento das diferentes formas de predicados temporais por palavras-chave, especificadas em TKC, para expressões relacionais a fim de orientar a implementação do processamento das consultas temporais. É proposto um índice temporal e definidas estratégias para identificação de caminhos temporais, desambiguação de formatos de valores temporais, identificação de datas representadas por vários elementos e identificação de intervalos temporais. São demonstrados experimentos que comparam a qualidade, o tempo de processamento e a escalabilidade de um motor de busca XML com e sem a utilização de TPI. A principal contribuição desse trabalho é melhorar significativamente a qualidade dos resultados de consultas temporais por palavras-chave em documentos XML. / Keyword queries enable users to easily access XML data, since the user does not need to learn a structured query language or study possibly complex data schemas. Therewith, several XML search engines have been proposed to extract relevant XML fragments in response to keyword queries. However, these search engines treat the temporal expressions as any other keyword. This approach may lead to several problems. It could, for example, consider prices and codes as matches to a temporal expression. This work describes TPI (Two Phase Interception), an approach that supports temporal keyword queries on data-centric XML documents. The temporal query support is performed by adding an additional software layer that executes two interceptions in the query processing performed by a XML search engine. This additional software layer is responsible for the adequate treatment of the temporal expressions contained in the query and in the contents of the XML documents. This work also specifies TKC (Temporal Keyword Classification), a temporal query classification to be used as guidance for any keyword query mechanism, including TPI. We present the algorithms for mapping different temporal predicates expressed by keywords to relational expressions in order to guide the implementation of the temporal query processing. We propose a temporal index together with strategies to perform temporal path identification, format disambiguation, identification of dates represented by many elements and detection of temporal intervals. This work also reports on experiments which evaluate quality, processing time and scalability of an XML search engine with TPI and without TPI. The main contribution of this work is the significant improvement in the quality of the results of temporal keyword queries on XML documents. Recuperacao : Informacao XML (Linguagem de marcação) Banco : Dados Temporal query Keyword search XML
298	Indexing and querying dataspaces Mergen, Sérgio Luis Sardi January 2011 (has links) Over theWeb, distributed and heterogeneous sources with structured and related content form rich repositories of information commonly referred to as dataspaces. To provide access to this heterogeneous data, information integration systems have traditionally relied on the availability of a mediated schema, along with mappings between this schema and the schema of the source schemas. On dataspaces, where sources are plentiful, autonomous and extremely volatile, a system based on the existence of a pre-defined mediated schema and mapping information presents several drawbacks. Notably, the cost of keeping the mappings up to date as new sources are found or existing sources change can be prohibitively high. We propose a novel querying architecture that requires neither a mediated schema nor source mappings, which is based mainly on indexing mechanisms and on-the-fly rewriting algorithms. Our indexes are designed for data that is represented as relations, and are able to capture the structure of the sources, their instances and the connections between them. In the absence of a mediated schema, the user formulates structured queries based on what she expects to find. These queries are rewritten using a best-effort approach: the proposed rewriting algorithms compare a user query against the source schemas and produces a set of rewritings based on the matches found. Based on this architecture, two different querying approaches are tested. Experiments show that the indexing and rewriting algorithms are scalable, i.e., able to handle a very large number of structured Web sources; and that support simple, yet expressive queries that exploit the inherent structure of the data. Recuperacao : Informacao Banco : Dados Dataspaces Data integration Search engine Indexing Query rewriting
299	Mineração de regras de associação aplicada a dados da Secretaria Municipal de Saúde de Londrina PR / Mining of Association Rules Applied to Londrina´s Health City Department – PR Silva, Glauco Carlos January 2004 (has links) Com o grande crescimento dos volumes de dados que as organizações vêm registrando e a diversidade das fontes destes dados, o fato de se aproveitar informações contidas nessas massas de dados se tornou uma necessidade. Surgiu então uma área denominada Descoberta de Conhecimento em Bases de Dados (DCBD). Tal área utiliza alguns modelos, técnicas e algoritmos que realizam operações de extração de conhecimento útil de grandes volumes de dados. Entre as principais técnicas utilizadas para minerar os dados está a de Regras de Associação. A técnica de Regras de Associação se propõe a encontrar todas as associações relevantes entre um conjunto de itens aplicados a outros itens, e utiliza alguns algoritmos para realizar seu objetivo. Este estudo apresenta alguns algoritmos para a aplicação da técnica de Regras de Associação, também, busca abranger um pouco da tecnologia de Data Warehouse, muito útil para que o processo de mineração de dados possa ser realizado com maior sucesso. Neste trabalho são aplicadas técnicas de descoberta de conhecimento na área de saúde, vinculando dados referentes à situação socioeconômica do paciente com os procedimentos que foram realizados nas internações hospitalares a que foi submetido. Devido ao grande número de regras que poderiam se geradas resultantes das inúmeras possibilidades da base de dados, foi construído um protótipo de uma ferramenta para extração de regras de associação, que não só é baseado no suporte e confiança, mas também utiliza os conceitos de lift e improvement os quais ajudam na diminuição de regras triviais. Foram realizadas minerações com a base de dados de pacientes da Secretaria Municipal de Saúde de Londrina-PR, para análise da utilidade dos dados minerados. / The increasing amount of data that organization have been registering and the diversity of data sources have generate the necessity of extract knowledge from this mass of data. Based on this necessity a new area has emerged which is named Knowledge Discovery in Data Base (KDD). In this work apply the association rule mining technique in the public health area, linking social economic situation of patients which were attended in our hospitals. Because of large number of rules that can be produce we developed a prototype of a tool for extract association rules, not only based on support and confidence, but using too the measures lift and improvement in order to reduce the number of rules. Experiments were performed with the “Secretaria Municipal de Saúde de Londrina – PR” database Armazenamento da informação Banco : Dados Mineracao : Dados Regras : Associacao Associations Rules Data Mining
300	Casamento de esquemas XML e esquemas relacionais / Matching of XML schemas and relational schema Mergen, Sérgio Luis Sardi January 2005 (has links) O casamento entre esquemas XML e esquemas relacionais é necessário em diversas aplicações, tais como integração de informação e intercâmbio de dados. Tipicamente o casamento de esquemas é um processo manual, talvez suportado por uma interface grá ca. No entanto, o casamento manual de esquemas muito grandes é um processo dispendioso e sujeito a erros. Disto surge a necessidade de técnicas (semi)-automáticas de casamento de esquemas que auxiliem o usuário fornecendo sugestões de casamento, dessa forma reduzindo o esforço manual aplicado nesta tarefa. Apesar deste tema já ter sido estudado na literatura, o casamento entre esquemas XML e esquemas relacionais é ainda um tema em aberto. Isto porque os trabalhos existentes ou se aplicam para esquemas de nidos no mesmo modelo, ou são genéricos demais para o problema em questão. O objetivo desta dissertação é o desenvolvimento de técnicas especí cas para o casamento de esquemas XML e esquemas relacionais. Tais técnicas exploram as particularidades existentes entre estes esquemas para inferir valores de similaridade entre eles. As técnicas propostas são avaliadas através de experimentos com esquemas do mundo real. / The matching between XML schemas and relational schemas has many applications, such as information integration and data exchange. Typically, schema matching is done manually by domain experts, sometimes using a graphical tool. However, the matching of large schemas is a time consuming and error-prone task. The use of (semi-)automatic schema matching techniques can help the user in nding the correct matches, thereby reducing his labor. The schema matching problem has already been addressed in the literature. Nevertheless, the matching of XML schemas and relational schemas is still an open issue. This comes from the fact that the existing work is whether speci c for schemas designed in the same model, or too generic for the problem in discussion. The mais goal of this dissertation is to develop speci c techniques for the matching of XML schemas and relational schemas. Such techniques exploit the particularities found when analyzing the two schemas together, and use these cues to leverage the matching process. The techniques are evaluated by running experiments with real-world schemas. XML (Linguagem de marcação) Banco : Dados relacionais XML Schema matching Databases Information integration Data exchange

Search results