Global ETD Search

151	[en] INTELLIGENT ASSISTANCE FOR KDD-PROCESS ORIENTATION / [pt] ASSISTÊNCIA INTELIGENTE À ORIENTAÇÃO DO PROCESSO DE DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS RONALDO RIBEIRO GOLDSCHMIDT 15 December 2003 (has links) [pt] A notória complexidade inerente ao processo de KDD - Descoberta de Conhecimento em Bases de Dados - decorre essencialmente de aspectos relacionados ao controle e à condução deste processo (Fayyad et al., 1996b; Hellerstein et al., 1999). De uma maneira geral, estes aspectos envolvem dificuldades em perceber inúmeros fatos cuja origem e os níveis de detalhe são os mais diversos e difusos, em interpretar adequadamente estes fatos, em conjugar dinamicamente tais interpretações e em decidir que ações devem ser realizadas de forma a procurar obter bons resultados. Como identificar precisamente os objetivos do processo, como escolher dentre os inúmeros algoritmos de mineração e de pré-processamento de dados existentes e, sobretudo, como utilizar adequadamente os algoritmos escolhidos em cada situação são alguns exemplos das complexas e recorrentes questões na condução de processos de KDD. Cabe ao analista humano a árdua tarefa de orientar a execução de processos de KDD. Para tanto, diante de cada cenário, o homem utiliza sua experiência anterior, seus conhecimentos e sua intuição para interpretar e combinar os fatos de forma a decidir qual a estratégia a ser adotada (Fayyad et al., 1996a, b; Wirth et al., 1998). Embora reconhecidamente úteis e desejáveis, são poucas as alternativas computacionais existentes voltadas a auxiliar o homem na condução do processo de KDD (Engels, 1996; Amant e Cohen, 1997; Livingston, 2001; Bernstein et al., 2002; Brazdil et al., 2003). Aliado ao exposto acima, a demanda por aplicações de KDD em diversas áreas vem crescendo de forma muito acentuada nos últimos anos (Buchanan, 2000). É muito comum não existirem profissionais com experiência em KDD disponíveis para atender a esta crescente demanda (Piatetsky-Shapiro, 1999). Neste contexto, a criação de ferramentas inteligentes que auxiliem o homem no controle do processo de KDD se mostra ainda mais oportuna (Brachman e Anand, 1996; Mitchell, 1997). Assim sendo, esta tese teve como objetivos pesquisar, propor, desenvolver e avaliar uma Máquina de Assistência Inteligente à Orientação do Processo de KDD que possa ser utilizada, fundamentalmente, como instrumento didático voltado à formação de profissionais especializados na área da Descoberta de Conhecimento em Bases de Dados. A máquina proposta foi formalizada com base na Teoria do Planejamento para Resolução de Problemas (Russell e Norvig, 1995) da Inteligência Artificial e implementada a partir da integração de funções de assistência utilizadas em diferentes níveis de controle do processo de KDD: Definição de Objetivos, Planejamento de Ações de KDD, Execução dos Planos de Ações de KDD e Aquisição e Formalização do Conhecimento. A Assistência à Definição de Objetivos tem como meta auxiliar o homem na identificação de tarefas de KDD cuja execução seja potencialmente viável em aplicações de KDD. Esta assistência foi inspirada na percepção de um certo tipo de semelhança no nível intensional apresentado entre determinados bancos de dados. Tal percepção auxilia na prospecção do tipo de conhecimento a ser procurado, uma vez que conjuntos de dados com estruturas similares tendem a despertar interesses similares mesmo em aplicações de KDD distintas. Conceitos da Teoria da Equivalência entre Atributos de Bancos de Dados (Larson et al., 1989) viabilizam a utilização de uma estrutura comum na qual qualquer base de dados pode ser representada. Desta forma, bases de dados, ao serem representadas na nova estrutura, podem ser mapeadas em tarefas de KDD, compatíveis com tal estrutura. Conceitos de Espaços Topológicos (Lipschutz, 1979) e recursos de Redes Neurais Artificiais (Haykin, 1999) são utilizados para viabilizar os mapeamentos entre padrões heterogêneos. Uma vez definidos os objetivos em uma aplicação de KDD, decisões sobre como tais objetivos podem ser alcançados se tornam necessárias. O primeiro passo envolve a escolha de qual algoritmo de mineração de dados é o mais apropriado para o problema em questão. A Assistência ao Planejamento de Ações de KDD auxilia o homem nesta escolha. Utiliza, para tanto, uma metodologia de ordenação dos algoritmos de mineração baseada no desempenho prévio destes algoritmos em problemas similares (Soares et al., 2001; Brazdil et al., 2003). Critérios de ordenação de algoritmos baseados em similaridade entre bases de dados nos níveis intensional e extensional foram propostos, descritos e avaliados. A partir da escolha de um ou mais algoritmos de mineração de dados, o passo seguinte requer a escolha de como deverá ser realizado o pré-processamento dos dados. Devido à diversidade de algoritmos de pré-processamento, são muitas as alternativas de combinação entre eles (Bernstein et al., 2002). A Assistência ao Planejamento de Ações de KDD também auxilia o homem na formulação e na escolha do plano ou dos planos de ações de KDD a serem adotados. Utiliza, para tanto, conceitos da Teoria do Planejamento para Resolução de Problemas. Uma vez escolhido um plano de ações de KDD, surge a necessidade de executá-lo. A execução de um plano de ações de KDD compreende a execução, de forma ordenada, dos algoritmos de KDD previstos no plano. A execução de um algoritmo de KDD requer conhecimento sobre ele. A Assistência à Execução dos Planos de Ações de KDD provê orientações específicas sobre algoritmos de KDD. Adicionalmente, esta assistência dispõe de mecanismos que auxiliam, de forma especializada, no processo de execução de algoritmos de KDD e na análise dos resultados obtidos. Alguns destes mecanismos foram descritos e avaliados. A execução da Assistência à Aquisição e Formalização do Conhecimento constitui-se em um requisito operacional ao funcionamento da máquina proposta. Tal assistência tem por objetivo adquirir e disponibilizar os conhecimentos sobre KDD em uma representação e uma organização que viabilizem o processamento das funções de assistência mencionadas anteriormente. Diversos recursos e técnicas de aquisição de conhecimento foram utilizados na concepção desta assistência. / [en] Generally speaking, such aspects involve difficulties in perceiving innumerable facts whose origin and levels of detail are highly diverse and diffused, in adequately interpreting these facts, in dynamically conjugating such interpretations, and in deciding which actions must be performed in order to obtain good results. How are the objectives of the process to be identified in a precise manner? How is one among the countless existing data mining and preprocessing algorithms to be selected? And most importantly, how can the selected algorithms be put to suitable use in each different situation? These are but a few examples of the complex and recurrent questions that are posed when KDD processes are performed. Human analysts must cope with the arduous task of orienting the execution of KDD processes. To this end, in face of each different scenario, humans resort to their previous experiences, their knowledge, and their intuition in order to interpret and combine the facts and therefore be able to decide on the strategy to be adopted (Fayyad et al., 1996a, b; Wirth et al., 1998). Although the existing computational alternatives have proved to be useful and desirable, few of them are designed to help humans to perform KDD processes (Engels, 1996; Amant and Cohen, 1997; Livingston, 2001; Bernstein et al., 2002; Brazdil et al., 2003). In association with the above-mentioned fact, the demand for KDD applications in several different areas has increased dramatically in the past few years (Buchanan, 2000). Quite commonly, the number of available practitioners with experience in KDD is not sufficient to satisfy this growing demand (Piatetsky-Shapiro, 1999). Within such a context, the creation of intelligent tools that aim to assist humans in controlling KDD processes proves to be even more opportune (Brachman and Anand, 1996; Mitchell, 1997). Such being the case, the objectives of this thesis were to investigate, propose, develop, and evaluate an Intelligent Machine for KDD-Process Orientation that is basically intended to serve as a teaching tool to be used in professional specialization courses in the area of Knowledge Discovery in Databases. The basis for formalization of the proposed machine was the Planning Theory for Problem-Solving (Russell and Norvig, 1995) in Artificial Intelligence. Its implementation was based on the integration of assistance functions that are used at different KDD process control levels: Goal Definition, KDD Action-Planning, KDD Action Plan Execution, and Knowledge Acquisition and Formalization. The Goal Definition Assistant aims to assist humans in identifying KDD tasks that are potentially executable in KDD applications. This assistant was inspired by the detection of a certain type of similarity between the intensional levels presented by certain databases. The observation of this fact helps humans to mine the type of knowledge that must be discovered since data sets with similar structures tend to arouse similar interests even in distinct KDD applications. Concepts from the Theory of Attribute Equivalence in Databases (Larson et al., 1989) make it possible to use a common structure in which any database may be represented. In this manner, when databases are represented in the new structure, it is possible to map them into KDD tasks that are compatible with such a structure. Topological space concepts and ANN resources as described in Topological Spaces (Lipschutz, 1979) and Artificial Neural Nets (Haykin, 1999) have been employed so as to allow mapping between heterogeneous patterns. After the goals have been defined in a KDD application, it is necessary to decide how such goals are to be achieved. The first step involves selecting the most appropriate data mining algorithm for the problem at hand. The KDD Action-Planning Assistant helps humans to make this choice. To this end, it makes use of a methodology for ordering the mining algorithms that is based on the previous experiences, their knowledge, and their intuition in order to interpret and combine the facts and therefore be able to decide on the strategy to be adopted (Fayyad et al., 1996a, b; Wirth et al., 1998). Although the existing computational alternatives have proved to be useful and desirable, few of them are designed to help humans to perform KDD processes (Engels, 1996; Amant & Cohen, 1997; Livingston, 2001; Bernstein et al., 2002; Brazdil et al., 2003). In association with the above-mentioned fact, the demand for KDD applications in several different areas has increased dramatically in the past few years (Buchanan, 2000). Quite commonly, the number of available practitioners with experience in KDD is not sufficient to satisfy this growing demand (Piatetsky-Shapiro, 1999). Within such a context, the creation of intelligent tools that aim to assist humans in controlling KDD processes proves to be even more opportune (Brachman & Anand, 1996; Mitchell, 1997). Such being the case, the objectives of this thesis were to investigate, propose, develop, and evaluate an Intelligent Machine for KDD-Process Orientation that is basically intended to serve as a teaching tool to be used in professional specialization courses in the area of Knowledge Discovery in Databases. The basis for formalization of the proposed machine was the Planning Theory for Problem-Solving (Russell and Norvig, 1995) in Artificial Intelligence. Its implementation was based on the integration of assistance functions that are used at different KDD process control levels: Goal Definition, KDD Action- Planning, KDD Action Plan Execution, and Knowledge Acquisition and Formalization. The Goal Definition Assistant aims to assist humans in identifying KDD tasks that are potentially executable in KDD applications. This assistant was inspired by the detection of a certain type of similarity between the intensional levels presented by certain databases. The observation of this fact helps humans to mine the type of knowledge that must be discovered since data sets with similar structures tend to arouse similar interests even in distinct KDD applications. Concepts from the Theory of Attribute Equivalence in Databases (Larson et al., 1989) make it possible to use a common structure in which any database may be represented. In this manner, when databases are represented in the new structure, it is possible to map them into KDD tasks that are compatible with such a structure. Topological space concepts and ANN resources as described in Topological Spaces (Lipschutz, 1979) and Artificial Neural Nets (Haykin, 1999) have been employed so as to allow mapping between heterogeneous patterns. After the goals have been defined in a KDD application, it is necessary to decide how such goals are to be achieved. The first step involves selecting the most appropriate data mining algorithm for the problem at hand. The KDD Action-Planning Assistant helps humans to make this choice. To this end, it makes use of a methodology for ordering the mining algorithms that is based on the previous performance of these algorithms in similar problems (Soares et al., 2001; Brazdil et al., 2003). Algorithm ordering criteria based on database similarity at the intensional and extensional levels were proposed, described and evaluated. The data mining algorithm or algorithms having been selected, the next step involves selecting the way in which data preprocessing is to be performed. Since there is a large variety of preprocessing algorithms, many are the alternatives for combining them (Bernstein et al., 2002). The KDD Action-Planning Assistant also helps humans to formulate and to select the KDD action plan or plans to be adopted. To this end, it makes use of concepts contained in the Planning Theory for Problem-Solving. Once a KDD action plan has been chosen, it is necessary to execute it. Executing a KDD action plan involves the ordered execution of the KDD algorithms that have been anticipated in the plan. Executing a KDD algorithm requires knowledge about it. The KDD Action Plan Execution Assistant provides specific guidance on KDD algorithms. In addition, this assistant is equipped with mechanisms that provide specialized assistance for performing the KDD algorithm execution process and for analyzing the results obtained. Some of these mechanisms have been described and evaluated. The execution of the Knowledge Acquisition and Formalization Assistant is an operational requirement for running the proposed machine. The objective of this assistant is to acquire knowledge about KDD and to make such knowledge available by representing and organizing it a way that makes it possible to process the above-mentioned assistance functions. A variety of knowledge acquisition resources and techniques were employed in the conception of this assistant. [pt] MINERACAO DE DADOS [en] DATA MINING [en] KNOWLEDGE DISCOVERY IN DATABASES [en] KDD TASK DEFINITION ASSISTANCE [pt] PLANEJAMENTO EM KDD [en] PLANNING IN KDD
152	O estudo da amalgama na obra Arte de los metales de Álvaro Alonso Barba e sua contribuição para o desenvolvimento da mineração na América Oliveira, Antonio Rodrigues de 20 May 2009 (has links) Made available in DSpace on 2016-04-28T14:16:40Z (GMT). No. of bitstreams: 1 Antonio Rodrigues de Oliveira.pdf: 545352 bytes, checksum: ac08c69a64ea40e5a486db97de237973 (MD5) Previous issue date: 2009-05-20 / Secretaria da Educação do Estado de São Paulo / This dissertation is related to the analysis of the work De Los Metales Art and its influence in improving the knowledge of mineralogy and metallurgy. As the original Spanish, this work was translated by us, based on terms used in mining at the end of the sixteenth century and early seventeenth century. This work highlighted by the disclosure and publication in several languages, bringing an improvement and development in the metallurgy, in all countries working with mining of gold and silver. With it, the newly discovered American colonies also have great influence, because at the time were the largest suppliers of gold and silver to European countries. Written by Álvaro Alonso Barba, established some relationships between texts of previous mining and contemporary to it, since he came to explain and improve points until then were not very clear. We talk about the technical work Barba, showing the improvement he succeeded in mining and in favor of silver, with greater recovery and less expense. Some aspects of social problems, political and financial that occurred between the Spanish colonies and Spain at the end of the sixteenth century are also studied with the aim of showing the environment in which this work was produced and to check its influence / Esta dissertação está relacionada com a análise da obra Arte De Los Metales e sua influência na melhoria do conhecimento da mineralogia e metalurgia. Sendo o original em espanhol, esta obra foi por nós traduzida, com base em termos utilizados na mineração no final do século XVI, início do século XVII. Esta obra destacou-se pela divulgação e publicação em vários idiomas, trazendo um aprimoramento e desenvolvimento para a metalurgia, em todos os países que trabalhavam com mineração de ouro ou prata. Com ela, as colônias americanas recém-descobertas também sofreram grande influência, pois eram na época as maiores fornecedoras de ouro e prata para países europeus. Escrita por Álvaro Alonso Barba, estabeleceu algumas relações entre textos de mineração anteriores e contemporâneos a ela, haja vista que veio explicar e melhorar pontos que até então não estavam muito claros. Abordaremos os trabalhos técnicos de Barba, evidenciando a melhoria que ele conseguiu na mineração e no benefício da prata, com maior aproveitamento e menor gasto. Alguns aspectos sobre os problemas sociais, políticos e financeiros que ocorriam entre as colônias espanholas e a Espanha no final do século XVI são também estudados com o objetivo de mostrar o ambiente em que foi produzida esta obra e para verificar sua influência Mineração Minerologia Metalurgia Prata -- Minas e mineracao Metais -- Obras anteriores a 1800 Amalgamas Mining Minerology Metallurgy
153	[en] SEMANTIC INFERENCES IN INFORMATION RETRIEVAL FOR HYPERMEDIA APPLICATIONS / [pt] INFERÊNCIAS SEMÂNTICAS NA RECUPERAÇÃO DE INFORMAÇÕES PARA APLICAÇÕES HIPERMÍDIA CRISTIANO BRAZ ROCHA 27 October 2003 (has links) [pt] O problema de sobrecarga de informação é um dos mais sérios enfrentados atualmente. Para tentar resolver esse problema, áreas distintas como Gestão do Conhecimento, Web Semântica e Modelagem de Aplicações Hipermídia têm utilizado soluções parecidas que consistem basicamente na estruturação semântica da informação, para que ela seja mais facilmente acessada. Esta dissertação propõe uma infra-estrutura baseada em técnicas e algoritmos clássicos da área de Inteligência Artificial, que aproveita a crescente disponibilidade de modelos relativos a um domínio para permitir que as aplicações onde os mesmos estão definidos realizem inferências sobre o domínio em questão. Isso possibilita a introdução de diversas novas funcionalidades nessas aplicações. Foram propostas e desenvolvidas quatro novas funcionalidades, a principal sendo a busca semântica. As novas funcionalidades foram testadas com grande sucesso em duas aplicações: o site do Departamento de Informática da PUC-Rio e o Portal do Conhecimento a respeito da obra do grande pintor brasileiro Candido Portinari. / [en] The information overload problem is one of the most challenging problems being faced today. In order to solve this problem, different areas such as Knowledge Management, Semantic Web and Hypermedia Applications Modeling have used similar solutions that consist basically of semantically structuring the information so it can be better accessed. This dissertation proposes an infrastructure based on classic algorithms and techniques of Artificial Intelligence that utilizes the increase in the availability of domain specific models to enable the applications where they are defined to make inferences about these particular domains. These inferences enable the creation of new functionalities in these applications. Four new functionalities were proposed and implemented, the most important being a semantic search. The new functionalities presented were successfully tested in two existing applications: the website of the Computer Science Department of PUC-Rio and the Portinari Knowledge Portal that presents all the work of the famous brazilian painter Candido Portinari. [pt] MINERACAO DE DADOS [en] DATA MINING [pt] ONTOLOGIAS [en] ONTOLOGIES [pt] MARKETING INTERNACIONAL [en] INTERNATIONAL MARKETING [pt] INFERENCIAS [en] INFERENCES [pt] RECUPERACAO DE INFORMACAO [en] INFORMATION RETRIEVAL [pt] APLICACOES HIPERMIDIA [en] KNOWLEDGE MODELING [en] SPREAD ACTIVATION ALGORITHMS
154	Enhancing spatial association rule mining in geographic databases / Melhorando a Mineração de Regras de Associação Espacial em Bancos de Dados Geográficos Bogorny, Vania January 2006 (has links) A técnica de mineração de regras de associação surgiu com o objetivo de encontrar conhecimento novo, útil e previamente desconhecido em bancos de dados transacionais, e uma grande quantidade de algoritmos de mineração de regras de associação tem sido proposta na última década. O maior e mais bem conhecido problema destes algoritmos é a geração de grandes quantidades de conjuntos freqüentes e regras de associação. Em bancos de dados geográficos o problema de mineração de regras de associação espacial aumenta significativamente. Além da grande quantidade de regras e padrões gerados a maioria são associações do domínio geográfico, e são bem conhecidas, normalmente explicitamente representadas no esquema do banco de dados. A maioria dos algoritmos de mineração de regras de associação não garantem a eliminação de dependências geográficas conhecidas a priori. O resultado é que as mesmas associações representadas nos esquemas do banco de dados são extraídas pelos algoritmos de mineração de regras de associação e apresentadas ao usuário. O problema de mineração de regras de associação espacial pode ser dividido em três etapas principais: extração dos relacionamentos espaciais, geração dos conjuntos freqüentes e geração das regras de associação. A primeira etapa é a mais custosa tanto em tempo de processamento quanto pelo esforço requerido do usuário. A segunda e terceira etapas têm sido consideradas o maior problema na mineração de regras de associação em bancos de dados transacionais e tem sido abordadas como dois problemas diferentes: “frequent pattern mining” e “association rule mining”. Dependências geográficas bem conhecidas aparecem nas três etapas do processo. Tendo como objetivo a eliminação dessas dependências na mineração de regras de associação espacial essa tese apresenta um framework com três novos métodos para mineração de regras de associação utilizando restrições semânticas como conhecimento a priori. O primeiro método reduz os dados de entrada do algoritmo, e dependências geográficas são eliminadas parcialmente sem que haja perda de informação. O segundo método elimina combinações de pares de objetos geográficos com dependências durante a geração dos conjuntos freqüentes. O terceiro método é uma nova abordagem para gerar conjuntos freqüentes não redundantes e sem dependências, gerando conjuntos freqüentes máximos. Esse método reduz consideravelmente o número final de conjuntos freqüentes, e como conseqüência, reduz o número de regras de associação espacial. / The association rule mining technique emerged with the objective to find novel, useful, and previously unknown associations from transactional databases, and a large amount of association rule mining algorithms have been proposed in the last decade. Their main drawback, which is a well known problem, is the generation of large amounts of frequent patterns and association rules. In geographic databases the problem of mining spatial association rules increases significantly. Besides the large amount of generated patterns and rules, many patterns are well known geographic domain associations, normally explicitly represented in geographic database schemas. The majority of existing algorithms do not warrant the elimination of all well known geographic dependences. The result is that the same associations represented in geographic database schemas are extracted by spatial association rule mining algorithms and presented to the user. The problem of mining spatial association rules from geographic databases requires at least three main steps: compute spatial relationships, generate frequent patterns, and extract association rules. The first step is the most effort demanding and time consuming task in the rule mining process, but has received little attention in the literature. The second and third steps have been considered the main problem in transactional association rule mining and have been addressed as two different problems: frequent pattern mining and association rule mining. Well known geographic dependences which generate well known patterns may appear in the three main steps of the spatial association rule mining process. Aiming to eliminate well known dependences and generate more interesting patterns, this thesis presents a framework with three main methods for mining frequent geographic patterns using knowledge constraints. Semantic knowledge is used to avoid the generation of patterns that are previously known as non-interesting. The first method reduces the input problem, and all well known dependences that can be eliminated without loosing information are removed in data preprocessing. The second method eliminates combinations of pairs of geographic objects with dependences, during the frequent set generation. A third method presents a new approach to generate non-redundant frequent sets, the maximal generalized frequent sets without dependences. This method reduces the number of frequent patterns very significantly, and by consequence, the number of association rules. Banco : Dados geograficos Mineracao : Dados Sistemas : Informacao geografica Spatial data mining Geoontologies Geographic database schemas Geographic domain knowledge Spatial association rules Geographic data preprocessing Frequent geographic pattern mining
155	Enhancing spatial association rule mining in geographic databases / Melhorando a Mineração de Regras de Associação Espacial em Bancos de Dados Geográficos Bogorny, Vania January 2006 (has links) A técnica de mineração de regras de associação surgiu com o objetivo de encontrar conhecimento novo, útil e previamente desconhecido em bancos de dados transacionais, e uma grande quantidade de algoritmos de mineração de regras de associação tem sido proposta na última década. O maior e mais bem conhecido problema destes algoritmos é a geração de grandes quantidades de conjuntos freqüentes e regras de associação. Em bancos de dados geográficos o problema de mineração de regras de associação espacial aumenta significativamente. Além da grande quantidade de regras e padrões gerados a maioria são associações do domínio geográfico, e são bem conhecidas, normalmente explicitamente representadas no esquema do banco de dados. A maioria dos algoritmos de mineração de regras de associação não garantem a eliminação de dependências geográficas conhecidas a priori. O resultado é que as mesmas associações representadas nos esquemas do banco de dados são extraídas pelos algoritmos de mineração de regras de associação e apresentadas ao usuário. O problema de mineração de regras de associação espacial pode ser dividido em três etapas principais: extração dos relacionamentos espaciais, geração dos conjuntos freqüentes e geração das regras de associação. A primeira etapa é a mais custosa tanto em tempo de processamento quanto pelo esforço requerido do usuário. A segunda e terceira etapas têm sido consideradas o maior problema na mineração de regras de associação em bancos de dados transacionais e tem sido abordadas como dois problemas diferentes: “frequent pattern mining” e “association rule mining”. Dependências geográficas bem conhecidas aparecem nas três etapas do processo. Tendo como objetivo a eliminação dessas dependências na mineração de regras de associação espacial essa tese apresenta um framework com três novos métodos para mineração de regras de associação utilizando restrições semânticas como conhecimento a priori. O primeiro método reduz os dados de entrada do algoritmo, e dependências geográficas são eliminadas parcialmente sem que haja perda de informação. O segundo método elimina combinações de pares de objetos geográficos com dependências durante a geração dos conjuntos freqüentes. O terceiro método é uma nova abordagem para gerar conjuntos freqüentes não redundantes e sem dependências, gerando conjuntos freqüentes máximos. Esse método reduz consideravelmente o número final de conjuntos freqüentes, e como conseqüência, reduz o número de regras de associação espacial. / The association rule mining technique emerged with the objective to find novel, useful, and previously unknown associations from transactional databases, and a large amount of association rule mining algorithms have been proposed in the last decade. Their main drawback, which is a well known problem, is the generation of large amounts of frequent patterns and association rules. In geographic databases the problem of mining spatial association rules increases significantly. Besides the large amount of generated patterns and rules, many patterns are well known geographic domain associations, normally explicitly represented in geographic database schemas. The majority of existing algorithms do not warrant the elimination of all well known geographic dependences. The result is that the same associations represented in geographic database schemas are extracted by spatial association rule mining algorithms and presented to the user. The problem of mining spatial association rules from geographic databases requires at least three main steps: compute spatial relationships, generate frequent patterns, and extract association rules. The first step is the most effort demanding and time consuming task in the rule mining process, but has received little attention in the literature. The second and third steps have been considered the main problem in transactional association rule mining and have been addressed as two different problems: frequent pattern mining and association rule mining. Well known geographic dependences which generate well known patterns may appear in the three main steps of the spatial association rule mining process. Aiming to eliminate well known dependences and generate more interesting patterns, this thesis presents a framework with three main methods for mining frequent geographic patterns using knowledge constraints. Semantic knowledge is used to avoid the generation of patterns that are previously known as non-interesting. The first method reduces the input problem, and all well known dependences that can be eliminated without loosing information are removed in data preprocessing. The second method eliminates combinations of pairs of geographic objects with dependences, during the frequent set generation. A third method presents a new approach to generate non-redundant frequent sets, the maximal generalized frequent sets without dependences. This method reduces the number of frequent patterns very significantly, and by consequence, the number of association rules. Banco : Dados geograficos Mineracao : Dados Sistemas : Informacao geografica Spatial data mining Geoontologies Geographic database schemas Geographic domain knowledge Spatial association rules Geographic data preprocessing Frequent geographic pattern mining
156	[en] TIME SERIES ANALYSIS USING SINGULAR SPECTRUM ANALYSIS (SSA) AND BASED DENSITY CLUSTERING OF THE COMPONENTS / [pt] ANÁLISE DE SÉRIES TEMPORAIS USANDO ANÁLISE ESPECTRAL SINGULAR (SSA) E CLUSTERIZAÇÃO DE SUAS COMPONENTES BASEADA EM DENSIDADE KEILA MARA CASSIANO 19 June 2015 (has links) [pt] Esta tese propõe a utilização do DBSCAN (Density Based Spatial Clustering of Applications with Noise) para separar os componentes de ruído na fase de agrupamento das autotriplas da Análise Singular Espectral (SSA) de Séries Temporais. O DBSCAN é um método moderno de clusterização (revisto em 2013) e especialista em identificar ruído através de regiões de menor densidade. O método de agrupamento hierárquico até então é a última inovação na separação de ruído na abordagem SSA, implementado no pacote R- SSA. No entanto, o método de agrupamento hierárquico é muito sensível a ruído, não é capaz de separá-lo corretamente, não deve ser usado em conjuntos com diferentes densidades e não funciona bem no agrupamento de séries temporais de diferentes tendências, ao contrário dos métodos de aglomeração à base de densidade que são eficazes para separar o ruído a partir dos dados e dedicados para trabalhar bem em dados a partir de diferentes densidades. Este trabalho mostra uma melhor eficiência de DBSCAN sobre os outros métodos já utilizados nesta etapa do SSA, garantindo considerável redução de ruídos e proporcionando melhores previsões. O resultado é apoiado por avaliações experimentais realizadas para séries simuladas de modelos estacionários e não estacionários. A combinação de metodologias proposta também foi aplicada com sucesso na previsão de uma série real de velocidade do vento. / [en] This thesis proposes using DBSCAN (Density Based Spatial Clustering of Applications with Noise) to separate the noise components of eigentriples in the grouping stage of the Singular Spectrum Analysis (SSA) of Time Series. The DBSCAN is a modern (revised in 2013) and expert method at identify noise through regions of lower density. The hierarchical clustering method was the last innovation in noise separation in SSA approach, implemented on package R-SSA. However, is repeated in the literature that the hierarquical clustering method is very sensitive to noise, is unable to separate it correctly, and should not be used in clusters with varying densities and neither works well in clustering time series of different trends. Unlike, the methods of density based clustering are effective in separating the noise from the data and dedicated to work well on data from different densities This work shows better efficiency of DBSCAN over the others methods already used in this stage of SSA, because it allows considerable reduction of noise and provides better forecasting. The result is supported by experimental evaluations realized for simulated stationary and non-stationary series. The proposed combination of methodologies also was applied successfully to forecasting real series of wind s speed. [pt] MINERACAO DE DADOS [en] DATA MINING [pt] SERIES TEMPORAIS [en] TIME SERIES [pt] PREVISAO [en] FORECASTING [pt] ENERGIA EOLICA [en] WIND ENERGY [pt] MODELOS ARIMA [pt] ANALISE SINGULAR ESPECTRAL [pt] CLUSTERIZACAO BASEADA EM DENSIDADE [pt] DBSCAN [pt] PREVISAO SSA
157	Enhancing spatial association rule mining in geographic databases / Melhorando a Mineração de Regras de Associação Espacial em Bancos de Dados Geográficos Bogorny, Vania January 2006 (has links) A técnica de mineração de regras de associação surgiu com o objetivo de encontrar conhecimento novo, útil e previamente desconhecido em bancos de dados transacionais, e uma grande quantidade de algoritmos de mineração de regras de associação tem sido proposta na última década. O maior e mais bem conhecido problema destes algoritmos é a geração de grandes quantidades de conjuntos freqüentes e regras de associação. Em bancos de dados geográficos o problema de mineração de regras de associação espacial aumenta significativamente. Além da grande quantidade de regras e padrões gerados a maioria são associações do domínio geográfico, e são bem conhecidas, normalmente explicitamente representadas no esquema do banco de dados. A maioria dos algoritmos de mineração de regras de associação não garantem a eliminação de dependências geográficas conhecidas a priori. O resultado é que as mesmas associações representadas nos esquemas do banco de dados são extraídas pelos algoritmos de mineração de regras de associação e apresentadas ao usuário. O problema de mineração de regras de associação espacial pode ser dividido em três etapas principais: extração dos relacionamentos espaciais, geração dos conjuntos freqüentes e geração das regras de associação. A primeira etapa é a mais custosa tanto em tempo de processamento quanto pelo esforço requerido do usuário. A segunda e terceira etapas têm sido consideradas o maior problema na mineração de regras de associação em bancos de dados transacionais e tem sido abordadas como dois problemas diferentes: “frequent pattern mining” e “association rule mining”. Dependências geográficas bem conhecidas aparecem nas três etapas do processo. Tendo como objetivo a eliminação dessas dependências na mineração de regras de associação espacial essa tese apresenta um framework com três novos métodos para mineração de regras de associação utilizando restrições semânticas como conhecimento a priori. O primeiro método reduz os dados de entrada do algoritmo, e dependências geográficas são eliminadas parcialmente sem que haja perda de informação. O segundo método elimina combinações de pares de objetos geográficos com dependências durante a geração dos conjuntos freqüentes. O terceiro método é uma nova abordagem para gerar conjuntos freqüentes não redundantes e sem dependências, gerando conjuntos freqüentes máximos. Esse método reduz consideravelmente o número final de conjuntos freqüentes, e como conseqüência, reduz o número de regras de associação espacial. / The association rule mining technique emerged with the objective to find novel, useful, and previously unknown associations from transactional databases, and a large amount of association rule mining algorithms have been proposed in the last decade. Their main drawback, which is a well known problem, is the generation of large amounts of frequent patterns and association rules. In geographic databases the problem of mining spatial association rules increases significantly. Besides the large amount of generated patterns and rules, many patterns are well known geographic domain associations, normally explicitly represented in geographic database schemas. The majority of existing algorithms do not warrant the elimination of all well known geographic dependences. The result is that the same associations represented in geographic database schemas are extracted by spatial association rule mining algorithms and presented to the user. The problem of mining spatial association rules from geographic databases requires at least three main steps: compute spatial relationships, generate frequent patterns, and extract association rules. The first step is the most effort demanding and time consuming task in the rule mining process, but has received little attention in the literature. The second and third steps have been considered the main problem in transactional association rule mining and have been addressed as two different problems: frequent pattern mining and association rule mining. Well known geographic dependences which generate well known patterns may appear in the three main steps of the spatial association rule mining process. Aiming to eliminate well known dependences and generate more interesting patterns, this thesis presents a framework with three main methods for mining frequent geographic patterns using knowledge constraints. Semantic knowledge is used to avoid the generation of patterns that are previously known as non-interesting. The first method reduces the input problem, and all well known dependences that can be eliminated without loosing information are removed in data preprocessing. The second method eliminates combinations of pairs of geographic objects with dependences, during the frequent set generation. A third method presents a new approach to generate non-redundant frequent sets, the maximal generalized frequent sets without dependences. This method reduces the number of frequent patterns very significantly, and by consequence, the number of association rules. Banco : Dados geograficos Mineracao : Dados Sistemas : Informacao geografica Spatial data mining Geoontologies Geographic database schemas Geographic domain knowledge Spatial association rules Geographic data preprocessing Frequent geographic pattern mining
158	[en] PURCHASING PORTFOLIO APPLIED IN STRATEGIES DEVELOPMENT: CASE STUDY ON A MINING COMPANY / [pt] UTILIZAÇÃO DO PORTFÓLIO DE COMPRAS PARA DESENVOLVIMENTO DE ESTRATÉGIAS: ESTUDO DE CASO EM UMA EMPRESA DE MINERAÇÃO FELIPPE GUERREIRO GASPAR DE OLIVEIRA 26 September 2016 (has links) [pt] Com a dinâmica da economia mundial e a crescente competitividade nos mercados, a área de compras ganha relevância e torna temas como risco de fornecimento, redução de custos, características do mercado fornecedor, parcerias estratégicas, entre outros, presentes no dia a dia das empresas. Neste cenário, uma estratégia de compras bem definida faz diferença. O desenvolvimento de uma estratégia de compras é complexo, pois as empresas lidam com uma grande variedade de itens e serviços, muitos fornecedores, bem como situações de compras heterogêneas e, por esses motivos, precisam de ferramentas analíticas avançadas para desenvolver estratégias eficazes. Devido a isso, existem várias metodologias que suportam este processo, como Análise SWOT, Cinco Forças de Porter e Portfólio de Compras. Apesar de ser relevante o portfólio de compras no desenvolvimento das estratégias, pouco se conhece sobre a real aderência dos mesmos na prática. Essa dissertação traz conceitos da literatura acadêmica sobre os portfólios de compras e apresenta um estudo de caso prático, sobre a utilização do mesmo no desenvolvimento da estratégia, dentro de uma grande empresa do setor de mineração. Com este trabalho pretende-se esclarecer para a literatura como o modelo de portfólio de compras é utilizado para o desenvolvimento de estratégias na prática, identificando as adaptações necessárias para torná-los aderentes a uma situação real. Também pretende-se identificar se existe alguma oportunidade de aperfeiçoamento do portfólio de compras utilizado pela organização corporativa estudada. / [en] With the dynamics of global economy and the increasing market competitiveness, procurement becomes more relevant making subjects like supply risk, cost reduction, supplier market characteristics, strategic partnerships, among others, present in the business day life. In scenario like this, a good purchasing strategy makes the difference. Developing a purchasing strategy is complex as companies deal with a great variety of items and services, as well as diversified purchasing situations, therefore, it is required to have advanced analytical tools in order to develop efficient strategies. Based on this, several methodologies support this process such as SWOT Analysis, the Porter s Five Forces and the Purchasing Portfolio. Despite the relevance of purchasing portfolio use in strategies development, there is little knowledge regarding its practical use. This dissertation brings concepts over the purchasing portfolio, presenting a practical case study on its use for strategy development within a big mining company. This work goal is to seek literature clearance of how Purchasing Portfolio is use in practical strategy development; identifying variation needs to adapt them into real situations. Furthermore, we expect to identify if there is any new improvement opportunity for the Purchasing Portfolio used in the corporate organization studied. [pt] ESTUDO DE CASO [pt] DIMENSAO DO PORTFOLIO DE COMPRA [pt] MODELO DE PORTFOLIO DE COMPRAS [pt] MINERACAO [pt] ESTRATEGIA DE COMPRA [pt] COMPRA [pt] SUPRIMENTO [en] CASE STUDY [en] PURCHASING PORTFOLIO MODEL [en] MINING [en] SUPPLY STRATEGIES [en] PURCHASES [en] PROCUREMENT
159	[pt] ACELERANDO A ELICITAÇÃO DE REQUISITOS NÃO FUNCIONAIS / [en] SPEEDING UP NON FUNCTIONAL REQUIREMENTS ELICITATION ROXANA LISETTE QUINTANILLA PORTUGAL 14 August 2020 (has links) [pt] Considerando a disponibilidade do Big Data para engenharia de software, como no caso do GitHub, a semi-automação da elicitação de requisitos não funcionais (NFRs) é uma estratégia fundamental para a definição de requisitos. Como tal, a elicitação de NFRs, dentro da automação da leitura de documentos, pode gerenciar a massa de informações valiosas existentes nos dados disponíveis. Esta tese explora esse contexto em três partes, a escolha de fontes apropriadas de informação, uma elicitação de descoberta de fatos e a identificação de NFRs. As avaliações realizadas mostraram que a automação enfrenta um balance entre eficiência e eficácia. Esse equilíbrio é detalhado com diferentes estratégias inovadoras. O conhecimento adquirido é organizado como um catálogo SIG (Softgoal Interdependence Graph). / [en] Considering the availability of Big Data for software engineering, as the case of GitHub, the semi-automation of non-functional requirements (NFRs) elicitation is a key strategy towards requirements definition. As such, NFRs elicitation, within the automation of document reading, can manage the mass of valuable information existing in available data. This thesis explores this context in three parts, the choice of proper sources of information, a fact-finding elicitation, and NFRs identification. The assessments performed showed that the automation faces a trade-off between efficiency and efficacy. This trade-off is detailed with different novel strategies. The acquired knowledge is organized as a SIG (Softgoal Interdependence Graph) catalog. [pt] ELICITACAO DE REQUISITOS [pt] PESQUISA DE FATOS [pt] REUTILIZACAO DE CONHECIMENTO [pt] REQUISITOS NAO FUNCIONAIS [pt] ENGENHARIA DE REQUISITOS [pt] FONTES DE INFORMACAO [pt] MINERACAO DE TEXTOS [en] REQUIREMENTS ELICITATION [en] FACT FINDING [en] KNOWLEDGE REUSE [en] NON FUNCTIONAL REQUIREMENTS [en] REQUIREMENTS ENGINEERING [en] INFORMATION SOURCES [en] TEXTS MINING
160	[en] ON THE PROCESSING OF COURSE SURVEY COMMENTS IN HIGHER EDUCATION INSTITUTIONS / [pt] PROCESSAMENTO DE COMENTÁRIOS DE PESQUISAS DE CURSOS EM INSTITUIÇÕES DE ENSINO SUPERIOR HAYDÉE GUILLOT JIMÉNEZ 10 January 2022 (has links) [pt] A avaliação sistemática de uma Instituição de Ensino Superior (IES) fornece à sua administração um feedback valioso sobre vários aspectos da vida acadêmica, como a reputação da instituição e o desempenho individual do corpo docente. Em particular, as pesquisas com alunos são uma fonte de informação de primeira mão que ajuda a avaliar o desempenho do professor e a adequação do curso. Os objetivos principais desta tese são criar e avaliar modelos de análise de sentimento dos comentários dos alunos e estratégias para resumir os comentários dos alunos. A tese primeiro descreve duas abordagens para classificar a polaridade dos comentários dos alunos, ou seja, se eles são positivos, negativos ou neutros. A primeira abordagem depende de um dicionário criado manualmente que lista os termos que representam o sentimento a ser detectado nos comentários dos alunos. A segunda abordagem adota um modelo de representação de linguagem, que não depende de um dicionário criado manualmente, mas requer algum conjunto de teste anotado manualmente. Os resultados indicaram que a primeira abordagem superou uma ferramenta de linha de base e que a segunda abordagem obteve um desempenho muito bom, mesmo quando o conjunto de comentários anotados manualmente é pequeno. A tese então explora várias estratégias para resumir um conjunto de comentários com interpretações semelhantes. O desafio está em resumir um conjunto de pequenas frases, escritas por pessoas diferentes, que podem transmitir ideias repetidas. Como estratégias, a tese testou Market Basket Analysis, Topic Models, Text Similarity, TextRank e Entailment, adotando um método de inspeção humana para avaliar os resultados obtidos, uma vez que as métricas tradicionais de sumarização de textos se mostraram inadequadas. Os resultados sugerem que o agrupamento combinado com a estratégia baseada em centróide atinge os melhores resultados. / [en] The systematic evaluation of a Higher Education Institution (HEI) provides its administration with valuable feedback about several aspects of academic life, such as the reputation of the institution and the individual performance of teachers. In particular, student surveys are a first-hand source of information that help assess teacher performance and course adequacy. The primary goals of this thesis are to create and evaluate sentiment analysis models of students comments, and strategies to summarize students comments. The thesis first describes two approaches to classify the polarity of students comments, that is, whether they are positive, negative, or neutral. The first approach depends on a manually created dictionary that lists terms that represent the sentiment to be detected in the students comments. The second approach adopts a language representation model, which does not depend on a manually created dictionary, but requires some manually annotated test set. The results indicated that the first approach outperformed a baseline tool, and that the second approach achieved very good performance, even when the set of manually annotated comments is small. The thesis then explores several strategies to summarize a set of comments with similar interpretations. The challenge lies in summarizing a set of small sentences, written by different people, which may convey repeated ideas. As strategies, the thesis tested Market Basket Analysis, Topic Models, Text Similarity, TextRank, and Entailment, adopting a human inspection method to evaluate the results obtained, since traditional text summarization metrics proved inadequate. The results suggest that clustering combined with the centroid-based strategy achieves the best results. [pt] SIMILARIDADE [pt] TEXTRANK [pt] ENTAILMENT [pt] RESUMO DE COMENTARIOS [pt] MINERACAO DE DADOS EDUCACIONAIS [pt] BERT [pt] ANALISE DE SENTIMENTOS [pt] VISUALIZACAO DE DADOS [en] SIMILARITY [en] TEXTRANK [en] ENTAILMENT [en] COMMENT SUMMARIZATION [en] EDUCATIONAL DATA MINING [en] BERT [en] SENTIMENT ANALYSIS [en] DATA VISUALIZATION

Search results