Global ETD Search

21	[en] INTELLIGENT ASSISTANCE FOR KDD-PROCESS ORIENTATION / [pt] ASSISTÊNCIA INTELIGENTE À ORIENTAÇÃO DO PROCESSO DE DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS RONALDO RIBEIRO GOLDSCHMIDT 15 December 2003 (has links) [pt] A notória complexidade inerente ao processo de KDD - Descoberta de Conhecimento em Bases de Dados - decorre essencialmente de aspectos relacionados ao controle e à condução deste processo (Fayyad et al., 1996b; Hellerstein et al., 1999). De uma maneira geral, estes aspectos envolvem dificuldades em perceber inúmeros fatos cuja origem e os níveis de detalhe são os mais diversos e difusos, em interpretar adequadamente estes fatos, em conjugar dinamicamente tais interpretações e em decidir que ações devem ser realizadas de forma a procurar obter bons resultados. Como identificar precisamente os objetivos do processo, como escolher dentre os inúmeros algoritmos de mineração e de pré-processamento de dados existentes e, sobretudo, como utilizar adequadamente os algoritmos escolhidos em cada situação são alguns exemplos das complexas e recorrentes questões na condução de processos de KDD. Cabe ao analista humano a árdua tarefa de orientar a execução de processos de KDD. Para tanto, diante de cada cenário, o homem utiliza sua experiência anterior, seus conhecimentos e sua intuição para interpretar e combinar os fatos de forma a decidir qual a estratégia a ser adotada (Fayyad et al., 1996a, b; Wirth et al., 1998). Embora reconhecidamente úteis e desejáveis, são poucas as alternativas computacionais existentes voltadas a auxiliar o homem na condução do processo de KDD (Engels, 1996; Amant e Cohen, 1997; Livingston, 2001; Bernstein et al., 2002; Brazdil et al., 2003). Aliado ao exposto acima, a demanda por aplicações de KDD em diversas áreas vem crescendo de forma muito acentuada nos últimos anos (Buchanan, 2000). É muito comum não existirem profissionais com experiência em KDD disponíveis para atender a esta crescente demanda (Piatetsky-Shapiro, 1999). Neste contexto, a criação de ferramentas inteligentes que auxiliem o homem no controle do processo de KDD se mostra ainda mais oportuna (Brachman e Anand, 1996; Mitchell, 1997). Assim sendo, esta tese teve como objetivos pesquisar, propor, desenvolver e avaliar uma Máquina de Assistência Inteligente à Orientação do Processo de KDD que possa ser utilizada, fundamentalmente, como instrumento didático voltado à formação de profissionais especializados na área da Descoberta de Conhecimento em Bases de Dados. A máquina proposta foi formalizada com base na Teoria do Planejamento para Resolução de Problemas (Russell e Norvig, 1995) da Inteligência Artificial e implementada a partir da integração de funções de assistência utilizadas em diferentes níveis de controle do processo de KDD: Definição de Objetivos, Planejamento de Ações de KDD, Execução dos Planos de Ações de KDD e Aquisição e Formalização do Conhecimento. A Assistência à Definição de Objetivos tem como meta auxiliar o homem na identificação de tarefas de KDD cuja execução seja potencialmente viável em aplicações de KDD. Esta assistência foi inspirada na percepção de um certo tipo de semelhança no nível intensional apresentado entre determinados bancos de dados. Tal percepção auxilia na prospecção do tipo de conhecimento a ser procurado, uma vez que conjuntos de dados com estruturas similares tendem a despertar interesses similares mesmo em aplicações de KDD distintas. Conceitos da Teoria da Equivalência entre Atributos de Bancos de Dados (Larson et al., 1989) viabilizam a utilização de uma estrutura comum na qual qualquer base de dados pode ser representada. Desta forma, bases de dados, ao serem representadas na nova estrutura, podem ser mapeadas em tarefas de KDD, compatíveis com tal estrutura. Conceitos de Espaços Topológicos (Lipschutz, 1979) e recursos de Redes Neurais Artificiais (Haykin, 1999) são utilizados para viabilizar os mapeamentos entre padrões heterogêneos. Uma vez definidos os objetivos em uma aplicação de KDD, decisões sobre como tais objetivos podem ser alcançados se tornam necessárias. O primeiro passo envolve a escolha de qual algoritmo de mineração de dados é o mais apropriado para o problema em questão. A Assistência ao Planejamento de Ações de KDD auxilia o homem nesta escolha. Utiliza, para tanto, uma metodologia de ordenação dos algoritmos de mineração baseada no desempenho prévio destes algoritmos em problemas similares (Soares et al., 2001; Brazdil et al., 2003). Critérios de ordenação de algoritmos baseados em similaridade entre bases de dados nos níveis intensional e extensional foram propostos, descritos e avaliados. A partir da escolha de um ou mais algoritmos de mineração de dados, o passo seguinte requer a escolha de como deverá ser realizado o pré-processamento dos dados. Devido à diversidade de algoritmos de pré-processamento, são muitas as alternativas de combinação entre eles (Bernstein et al., 2002). A Assistência ao Planejamento de Ações de KDD também auxilia o homem na formulação e na escolha do plano ou dos planos de ações de KDD a serem adotados. Utiliza, para tanto, conceitos da Teoria do Planejamento para Resolução de Problemas. Uma vez escolhido um plano de ações de KDD, surge a necessidade de executá-lo. A execução de um plano de ações de KDD compreende a execução, de forma ordenada, dos algoritmos de KDD previstos no plano. A execução de um algoritmo de KDD requer conhecimento sobre ele. A Assistência à Execução dos Planos de Ações de KDD provê orientações específicas sobre algoritmos de KDD. Adicionalmente, esta assistência dispõe de mecanismos que auxiliam, de forma especializada, no processo de execução de algoritmos de KDD e na análise dos resultados obtidos. Alguns destes mecanismos foram descritos e avaliados. A execução da Assistência à Aquisição e Formalização do Conhecimento constitui-se em um requisito operacional ao funcionamento da máquina proposta. Tal assistência tem por objetivo adquirir e disponibilizar os conhecimentos sobre KDD em uma representação e uma organização que viabilizem o processamento das funções de assistência mencionadas anteriormente. Diversos recursos e técnicas de aquisição de conhecimento foram utilizados na concepção desta assistência. / [en] Generally speaking, such aspects involve difficulties in perceiving innumerable facts whose origin and levels of detail are highly diverse and diffused, in adequately interpreting these facts, in dynamically conjugating such interpretations, and in deciding which actions must be performed in order to obtain good results. How are the objectives of the process to be identified in a precise manner? How is one among the countless existing data mining and preprocessing algorithms to be selected? And most importantly, how can the selected algorithms be put to suitable use in each different situation? These are but a few examples of the complex and recurrent questions that are posed when KDD processes are performed. Human analysts must cope with the arduous task of orienting the execution of KDD processes. To this end, in face of each different scenario, humans resort to their previous experiences, their knowledge, and their intuition in order to interpret and combine the facts and therefore be able to decide on the strategy to be adopted (Fayyad et al., 1996a, b; Wirth et al., 1998). Although the existing computational alternatives have proved to be useful and desirable, few of them are designed to help humans to perform KDD processes (Engels, 1996; Amant and Cohen, 1997; Livingston, 2001; Bernstein et al., 2002; Brazdil et al., 2003). In association with the above-mentioned fact, the demand for KDD applications in several different areas has increased dramatically in the past few years (Buchanan, 2000). Quite commonly, the number of available practitioners with experience in KDD is not sufficient to satisfy this growing demand (Piatetsky-Shapiro, 1999). Within such a context, the creation of intelligent tools that aim to assist humans in controlling KDD processes proves to be even more opportune (Brachman and Anand, 1996; Mitchell, 1997). Such being the case, the objectives of this thesis were to investigate, propose, develop, and evaluate an Intelligent Machine for KDD-Process Orientation that is basically intended to serve as a teaching tool to be used in professional specialization courses in the area of Knowledge Discovery in Databases. The basis for formalization of the proposed machine was the Planning Theory for Problem-Solving (Russell and Norvig, 1995) in Artificial Intelligence. Its implementation was based on the integration of assistance functions that are used at different KDD process control levels: Goal Definition, KDD Action-Planning, KDD Action Plan Execution, and Knowledge Acquisition and Formalization. The Goal Definition Assistant aims to assist humans in identifying KDD tasks that are potentially executable in KDD applications. This assistant was inspired by the detection of a certain type of similarity between the intensional levels presented by certain databases. The observation of this fact helps humans to mine the type of knowledge that must be discovered since data sets with similar structures tend to arouse similar interests even in distinct KDD applications. Concepts from the Theory of Attribute Equivalence in Databases (Larson et al., 1989) make it possible to use a common structure in which any database may be represented. In this manner, when databases are represented in the new structure, it is possible to map them into KDD tasks that are compatible with such a structure. Topological space concepts and ANN resources as described in Topological Spaces (Lipschutz, 1979) and Artificial Neural Nets (Haykin, 1999) have been employed so as to allow mapping between heterogeneous patterns. After the goals have been defined in a KDD application, it is necessary to decide how such goals are to be achieved. The first step involves selecting the most appropriate data mining algorithm for the problem at hand. The KDD Action-Planning Assistant helps humans to make this choice. To this end, it makes use of a methodology for ordering the mining algorithms that is based on the previous experiences, their knowledge, and their intuition in order to interpret and combine the facts and therefore be able to decide on the strategy to be adopted (Fayyad et al., 1996a, b; Wirth et al., 1998). Although the existing computational alternatives have proved to be useful and desirable, few of them are designed to help humans to perform KDD processes (Engels, 1996; Amant & Cohen, 1997; Livingston, 2001; Bernstein et al., 2002; Brazdil et al., 2003). In association with the above-mentioned fact, the demand for KDD applications in several different areas has increased dramatically in the past few years (Buchanan, 2000). Quite commonly, the number of available practitioners with experience in KDD is not sufficient to satisfy this growing demand (Piatetsky-Shapiro, 1999). Within such a context, the creation of intelligent tools that aim to assist humans in controlling KDD processes proves to be even more opportune (Brachman & Anand, 1996; Mitchell, 1997). Such being the case, the objectives of this thesis were to investigate, propose, develop, and evaluate an Intelligent Machine for KDD-Process Orientation that is basically intended to serve as a teaching tool to be used in professional specialization courses in the area of Knowledge Discovery in Databases. The basis for formalization of the proposed machine was the Planning Theory for Problem-Solving (Russell and Norvig, 1995) in Artificial Intelligence. Its implementation was based on the integration of assistance functions that are used at different KDD process control levels: Goal Definition, KDD Action- Planning, KDD Action Plan Execution, and Knowledge Acquisition and Formalization. The Goal Definition Assistant aims to assist humans in identifying KDD tasks that are potentially executable in KDD applications. This assistant was inspired by the detection of a certain type of similarity between the intensional levels presented by certain databases. The observation of this fact helps humans to mine the type of knowledge that must be discovered since data sets with similar structures tend to arouse similar interests even in distinct KDD applications. Concepts from the Theory of Attribute Equivalence in Databases (Larson et al., 1989) make it possible to use a common structure in which any database may be represented. In this manner, when databases are represented in the new structure, it is possible to map them into KDD tasks that are compatible with such a structure. Topological space concepts and ANN resources as described in Topological Spaces (Lipschutz, 1979) and Artificial Neural Nets (Haykin, 1999) have been employed so as to allow mapping between heterogeneous patterns. After the goals have been defined in a KDD application, it is necessary to decide how such goals are to be achieved. The first step involves selecting the most appropriate data mining algorithm for the problem at hand. The KDD Action-Planning Assistant helps humans to make this choice. To this end, it makes use of a methodology for ordering the mining algorithms that is based on the previous performance of these algorithms in similar problems (Soares et al., 2001; Brazdil et al., 2003). Algorithm ordering criteria based on database similarity at the intensional and extensional levels were proposed, described and evaluated. The data mining algorithm or algorithms having been selected, the next step involves selecting the way in which data preprocessing is to be performed. Since there is a large variety of preprocessing algorithms, many are the alternatives for combining them (Bernstein et al., 2002). The KDD Action-Planning Assistant also helps humans to formulate and to select the KDD action plan or plans to be adopted. To this end, it makes use of concepts contained in the Planning Theory for Problem-Solving. Once a KDD action plan has been chosen, it is necessary to execute it. Executing a KDD action plan involves the ordered execution of the KDD algorithms that have been anticipated in the plan. Executing a KDD algorithm requires knowledge about it. The KDD Action Plan Execution Assistant provides specific guidance on KDD algorithms. In addition, this assistant is equipped with mechanisms that provide specialized assistance for performing the KDD algorithm execution process and for analyzing the results obtained. Some of these mechanisms have been described and evaluated. The execution of the Knowledge Acquisition and Formalization Assistant is an operational requirement for running the proposed machine. The objective of this assistant is to acquire knowledge about KDD and to make such knowledge available by representing and organizing it a way that makes it possible to process the above-mentioned assistance functions. A variety of knowledge acquisition resources and techniques were employed in the conception of this assistant. [pt] MINERACAO DE DADOS [en] DATA MINING [en] KNOWLEDGE DISCOVERY IN DATABASES [en] KDD TASK DEFINITION ASSISTANCE [pt] PLANEJAMENTO EM KDD [en] PLANNING IN KDD
22	[en] SEMANTIC INFERENCES IN INFORMATION RETRIEVAL FOR HYPERMEDIA APPLICATIONS / [pt] INFERÊNCIAS SEMÂNTICAS NA RECUPERAÇÃO DE INFORMAÇÕES PARA APLICAÇÕES HIPERMÍDIA CRISTIANO BRAZ ROCHA 27 October 2003 (has links) [pt] O problema de sobrecarga de informação é um dos mais sérios enfrentados atualmente. Para tentar resolver esse problema, áreas distintas como Gestão do Conhecimento, Web Semântica e Modelagem de Aplicações Hipermídia têm utilizado soluções parecidas que consistem basicamente na estruturação semântica da informação, para que ela seja mais facilmente acessada. Esta dissertação propõe uma infra-estrutura baseada em técnicas e algoritmos clássicos da área de Inteligência Artificial, que aproveita a crescente disponibilidade de modelos relativos a um domínio para permitir que as aplicações onde os mesmos estão definidos realizem inferências sobre o domínio em questão. Isso possibilita a introdução de diversas novas funcionalidades nessas aplicações. Foram propostas e desenvolvidas quatro novas funcionalidades, a principal sendo a busca semântica. As novas funcionalidades foram testadas com grande sucesso em duas aplicações: o site do Departamento de Informática da PUC-Rio e o Portal do Conhecimento a respeito da obra do grande pintor brasileiro Candido Portinari. / [en] The information overload problem is one of the most challenging problems being faced today. In order to solve this problem, different areas such as Knowledge Management, Semantic Web and Hypermedia Applications Modeling have used similar solutions that consist basically of semantically structuring the information so it can be better accessed. This dissertation proposes an infrastructure based on classic algorithms and techniques of Artificial Intelligence that utilizes the increase in the availability of domain specific models to enable the applications where they are defined to make inferences about these particular domains. These inferences enable the creation of new functionalities in these applications. Four new functionalities were proposed and implemented, the most important being a semantic search. The new functionalities presented were successfully tested in two existing applications: the website of the Computer Science Department of PUC-Rio and the Portinari Knowledge Portal that presents all the work of the famous brazilian painter Candido Portinari. [pt] MINERACAO DE DADOS [en] DATA MINING [pt] ONTOLOGIAS [en] ONTOLOGIES [pt] MARKETING INTERNACIONAL [en] INTERNATIONAL MARKETING [pt] INFERENCIAS [en] INFERENCES [pt] RECUPERACAO DE INFORMACAO [en] INFORMATION RETRIEVAL [pt] APLICACOES HIPERMIDIA [en] KNOWLEDGE MODELING [en] SPREAD ACTIVATION ALGORITHMS
23	[en] TIME SERIES ANALYSIS USING SINGULAR SPECTRUM ANALYSIS (SSA) AND BASED DENSITY CLUSTERING OF THE COMPONENTS / [pt] ANÁLISE DE SÉRIES TEMPORAIS USANDO ANÁLISE ESPECTRAL SINGULAR (SSA) E CLUSTERIZAÇÃO DE SUAS COMPONENTES BASEADA EM DENSIDADE KEILA MARA CASSIANO 19 June 2015 (has links) [pt] Esta tese propõe a utilização do DBSCAN (Density Based Spatial Clustering of Applications with Noise) para separar os componentes de ruído na fase de agrupamento das autotriplas da Análise Singular Espectral (SSA) de Séries Temporais. O DBSCAN é um método moderno de clusterização (revisto em 2013) e especialista em identificar ruído através de regiões de menor densidade. O método de agrupamento hierárquico até então é a última inovação na separação de ruído na abordagem SSA, implementado no pacote R- SSA. No entanto, o método de agrupamento hierárquico é muito sensível a ruído, não é capaz de separá-lo corretamente, não deve ser usado em conjuntos com diferentes densidades e não funciona bem no agrupamento de séries temporais de diferentes tendências, ao contrário dos métodos de aglomeração à base de densidade que são eficazes para separar o ruído a partir dos dados e dedicados para trabalhar bem em dados a partir de diferentes densidades. Este trabalho mostra uma melhor eficiência de DBSCAN sobre os outros métodos já utilizados nesta etapa do SSA, garantindo considerável redução de ruídos e proporcionando melhores previsões. O resultado é apoiado por avaliações experimentais realizadas para séries simuladas de modelos estacionários e não estacionários. A combinação de metodologias proposta também foi aplicada com sucesso na previsão de uma série real de velocidade do vento. / [en] This thesis proposes using DBSCAN (Density Based Spatial Clustering of Applications with Noise) to separate the noise components of eigentriples in the grouping stage of the Singular Spectrum Analysis (SSA) of Time Series. The DBSCAN is a modern (revised in 2013) and expert method at identify noise through regions of lower density. The hierarchical clustering method was the last innovation in noise separation in SSA approach, implemented on package R-SSA. However, is repeated in the literature that the hierarquical clustering method is very sensitive to noise, is unable to separate it correctly, and should not be used in clusters with varying densities and neither works well in clustering time series of different trends. Unlike, the methods of density based clustering are effective in separating the noise from the data and dedicated to work well on data from different densities This work shows better efficiency of DBSCAN over the others methods already used in this stage of SSA, because it allows considerable reduction of noise and provides better forecasting. The result is supported by experimental evaluations realized for simulated stationary and non-stationary series. The proposed combination of methodologies also was applied successfully to forecasting real series of wind s speed. [pt] MINERACAO DE DADOS [en] DATA MINING [pt] SERIES TEMPORAIS [en] TIME SERIES [pt] PREVISAO [en] FORECASTING [pt] ENERGIA EOLICA [en] WIND ENERGY [pt] MODELOS ARIMA [pt] ANALISE SINGULAR ESPECTRAL [pt] CLUSTERIZACAO BASEADA EM DENSIDADE [pt] DBSCAN [pt] PREVISAO SSA
24	[en] ON THE PROCESSING OF COURSE SURVEY COMMENTS IN HIGHER EDUCATION INSTITUTIONS / [pt] PROCESSAMENTO DE COMENTÁRIOS DE PESQUISAS DE CURSOS EM INSTITUIÇÕES DE ENSINO SUPERIOR HAYDÉE GUILLOT JIMÉNEZ 10 January 2022 (has links) [pt] A avaliação sistemática de uma Instituição de Ensino Superior (IES) fornece à sua administração um feedback valioso sobre vários aspectos da vida acadêmica, como a reputação da instituição e o desempenho individual do corpo docente. Em particular, as pesquisas com alunos são uma fonte de informação de primeira mão que ajuda a avaliar o desempenho do professor e a adequação do curso. Os objetivos principais desta tese são criar e avaliar modelos de análise de sentimento dos comentários dos alunos e estratégias para resumir os comentários dos alunos. A tese primeiro descreve duas abordagens para classificar a polaridade dos comentários dos alunos, ou seja, se eles são positivos, negativos ou neutros. A primeira abordagem depende de um dicionário criado manualmente que lista os termos que representam o sentimento a ser detectado nos comentários dos alunos. A segunda abordagem adota um modelo de representação de linguagem, que não depende de um dicionário criado manualmente, mas requer algum conjunto de teste anotado manualmente. Os resultados indicaram que a primeira abordagem superou uma ferramenta de linha de base e que a segunda abordagem obteve um desempenho muito bom, mesmo quando o conjunto de comentários anotados manualmente é pequeno. A tese então explora várias estratégias para resumir um conjunto de comentários com interpretações semelhantes. O desafio está em resumir um conjunto de pequenas frases, escritas por pessoas diferentes, que podem transmitir ideias repetidas. Como estratégias, a tese testou Market Basket Analysis, Topic Models, Text Similarity, TextRank e Entailment, adotando um método de inspeção humana para avaliar os resultados obtidos, uma vez que as métricas tradicionais de sumarização de textos se mostraram inadequadas. Os resultados sugerem que o agrupamento combinado com a estratégia baseada em centróide atinge os melhores resultados. / [en] The systematic evaluation of a Higher Education Institution (HEI) provides its administration with valuable feedback about several aspects of academic life, such as the reputation of the institution and the individual performance of teachers. In particular, student surveys are a first-hand source of information that help assess teacher performance and course adequacy. The primary goals of this thesis are to create and evaluate sentiment analysis models of students comments, and strategies to summarize students comments. The thesis first describes two approaches to classify the polarity of students comments, that is, whether they are positive, negative, or neutral. The first approach depends on a manually created dictionary that lists terms that represent the sentiment to be detected in the students comments. The second approach adopts a language representation model, which does not depend on a manually created dictionary, but requires some manually annotated test set. The results indicated that the first approach outperformed a baseline tool, and that the second approach achieved very good performance, even when the set of manually annotated comments is small. The thesis then explores several strategies to summarize a set of comments with similar interpretations. The challenge lies in summarizing a set of small sentences, written by different people, which may convey repeated ideas. As strategies, the thesis tested Market Basket Analysis, Topic Models, Text Similarity, TextRank, and Entailment, adopting a human inspection method to evaluate the results obtained, since traditional text summarization metrics proved inadequate. The results suggest that clustering combined with the centroid-based strategy achieves the best results. [pt] SIMILARIDADE [pt] TEXTRANK [pt] ENTAILMENT [pt] RESUMO DE COMENTARIOS [pt] MINERACAO DE DADOS EDUCACIONAIS [pt] BERT [pt] ANALISE DE SENTIMENTOS [pt] VISUALIZACAO DE DADOS [en] SIMILARITY [en] TEXTRANK [en] ENTAILMENT [en] COMMENT SUMMARIZATION [en] EDUCATIONAL DATA MINING [en] BERT [en] SENTIMENT ANALYSIS [en] DATA VISUALIZATION
25	[en] A MODEL-BASED FRAMEWORK FOR SEMI-SUPERVISED CLUSTERING AND COMMUNITY DETECTION / [pt] UM FRAMEWORK BASEADO EM MODELO PARA CLUSTERIZAÇÃO SEMISSUPERVISIONADA E DETECÇÃO DE COMUNIDADES DANIEL LEMES GRIBEL 09 September 2021 (has links) [pt] Em clusterização baseada em modelos, o objetivo é separar amostras de dados em grupos significativos, otimizando a aderência dos dados observados a um modelo matemático. A recente adoção de clusterização baseada em modelos tem permitido a profissionais e usuários mapearem padrões complexos nos dados e explorarem uma ampla variedade de aplicações. Esta tese investiga abordagens orientadas a modelos para detecção de comunidades e para o estudo de clusterização semissupervisionada, adotando uma perspectiva baseada em máxima verossimilhança. Focamos primeiramente na exploração de técnicas de otimização com restrições para apresentar um novo modelo de detecção de comunidades por meio de modelos de blocos estocásticos (SBMs). Mostramos que a formulação com restrições revela comunidades estruturalmente diferentes daquelas obtidas com modelos clássicos. Em seguida, estudamos um cenário onde anotações imprecisas são fornecidas na forma de relações must-link e cannot-link, e propomos um modelo de clusterização semissupervisionado. Nossa análise experimental mostra que a incorporação de supervisão parcial e de conhecimento prévio melhoram significativamente os agrupamentos. Por fim, examinamos o problema de clusterização semissupervisionada na presença de rótulos de classe não confiáveis. Investigamos o caso em que grupos de anotadores deliberadamente classificam incorretamente as amostras de dados e propomos um modelo para lidar com tais anotações incorretas. / [en] In model-based clustering, we aim to separate data samples into meaningful groups by optimizing the fit of some observed data to a mathematical model. The recent adoption of model-based clustering has allowed practitioners to model complex patterns in data and explore a wide range of applications. This thesis investigates model-driven approaches for community detection and semisupervised clustering by adopting a maximum-likelihood perspective. We first focus on exploiting constrained optimization techniques to present a new model for community detection with stochastic block models (SBMs). We show that the proposed constrained formulation reveals communities structurally different from those obtained with classical community detection models. We then study a setting where inaccurate annotations are provided as must-link and cannot-link relations, and propose a novel semi-supervised clustering model. Our experimental analysis shows that incorporating partial supervision and appropriately encoding prior user knowledge significantly enhance clustering performance. Finally, we examine the problem of semi-supervised clustering in the presence of unreliable class labels. We focus on the case where groups of untrustworthy annotators deliberately misclassify data samples and propose a model to handle such incorrect statements. [pt] APRENDIZADO DE MAQUINA [pt] MODELOS DE BLOCOS ESTOCASTICOS [pt] AGRUPAMENTO SEMISSUPERVISIONADO [pt] DETECCAO DE COMUNIDADES [pt] AGRUPAMENTO [pt] OTIMIZACAO [pt] MINERACAO DE DADOS [en] MACHINE LEARNING [en] STOCHASTICK BLOCK MODELS [en] SEMISUPERVISED CLUSTERING [en] COMMUNITY DETECTION [en] GROUPING [en] OPTIMIZATION [en] DATA MINING
26	[pt] DIFERENCIAÇÕES DE GÊNERO NA CARACTERIZAÇÃO DE PERSONAGENS: UMA PROPOSTA METODOLÓGICA E PRIMEIROS RESULTADOS / [en] GENDER REPRESENTATIONS ON CHARACTERS DESCRIPTION: A METHODOLOGICAL PROPOSAL AND EARLY RESULTS FLAVIA MARTINS DA ROSA P DA SILVA 10 August 2021 (has links) [pt] Este trabalho apresenta uma metodologia que propõe a combinação de dados quantitativos e distanciados com a leitura mais detalhada e aproximada em análises de discurso, oferecendo a oportunidade de novos olhares sobre os dados e diversas perspectivas de análise. A metodologia faz uso de recursos dos estudos linguísticos com corpus, tais como listas de frequência, preferência, categorização e leitura de linhas de concordância. Demonstra-se sua aplicação, tomando-se como objeto de exploração obras da literatura brasileira em domínio público compiladas em um corpus com cerca de 5 milhões de palavras, anotado semântica e morfossintaticamente, e utilizam-se ferramentas computacionais que permitem buscas com base em padrões léxico-sintáticos da língua portuguesa. O objetivo é identificar como as personagens masculinas e femininas são caracterizadas nos textos, possibilitando tanto elaborar uma visão geral de como mulheres e homens são construídos através da linguagem. O estudo se dá em duas frentes: observando os predicadores na descrição das personagens e as ações são desempenhadas por elas, fazendo distinção entre masculinas e femininas, comparando-as e analisando as diferenças de forma crítica. / [en] This work presents a methodology that proposes the combination of quantitative and distant-read data with detailed, closer reading in discourse analysis, enabling new possible views over data and diverse perspectives of analysis. This methodology makes use of resources most used in corpus-based linguistic, such as frequency lists, preferences, categorization, and reading concordance lines. Its application is demonstrated using as exploration object Brazilian literature titles in the public domain, compiled in a corpus with approximately 5 million words, semantically and morpho-syntactically annotated, and by using computational tools that enable searches based on lexical-syntactic patterns of the Portuguese language. The purpose is to identify how the male and female characters are portrayed in those texts, enabling the creation of a general view on how women and men are built through language. The study happens in two fronts: by observing the predicates used on describing characters and the actions these characters take, comparing the male and female results and analyzing them in a critical way. [pt] LITERATURA BRASILEIRA [pt] PAPEIS DE GENERO [pt] MINERACAO DE DADOS TEXTUAIS [pt] HUMANIDADES DIGITAIS [pt] ANALISE DE DISCURSO [pt] LINGUISTICA DE CORPUS [en] BRAZILIAN LITERATURE [en] GENDER ROLES [en] TEXT DATA MINING [en] DIGITAL HUMANITIES [en] DISCOURSE ANALYSIS [en] CORPUS LINGUISTICS
27	[pt] MODELOS NEURO-FUZZY HIERÁRQUICO BSP PARA CLASSIFICAÇÃO DE PADRÕES E EXTRAÇÃO DE REGRAS FUZZY EM BANCO DE DADOS. / [es] MODELOS NEURO-FUZZY JERÁRQUICO BSP PARA CLASIFICACIÓN DE PADRONES Y EXTRACCIÓN DE REGLAS FUZZY EN BASES DE DATOS / [en] NEURAL-FUZZY HIERARCHICAL MODELS FOR PATTERN CLASSIFICATION AND FUZZY RULE EXTRACTION FROM DATABASES LAERCIO BRITO GONCALVES 08 March 2001 (has links) [pt] Esta dissertação investiga a utilização de sistemas Neuro- Fuzzy Hierárquicos BSP (Binary Space Partitioning) para classificação de padrões e para extração de regras fuzzy em bases de dados. O objetivo do trabalho foi criar modelos específicos para classificação de registros a partir do modelo Neuro-Fuzzy Hierárquico BSP que é capaz de gerar sua própria estrutura automaticamente e extrair regras fuzzy, lingüisticamente interpretáveis, que explicam a estrutura dos dados. O princípio da tarefa de classificação de padrões é descobrir relacionamentos entre os dados com a intenção de prever a classe de um padrão desconhecido. O trabalho consistiu fundamentalmente de quatro partes: um estudo sobre os principais métodos de classificação de padrões; análise do sistema Neuro-Fuzzy Hierárquico BSP (NFHB) original na tarefa de classificação; definição e implementação de dois sistemas NFHB específicos para classificação de padrões; e o estudo de casos. No estudo sobre os métodos de classificação foi feito um levantamento bibliográfico da área, resultando em um "survey" onde foram apresentadas as principais técnicas utilizadas para esta tarefa. Entre as principais técnicas destacaram-se: os métodos estatísticos, algoritmos genéticos, árvores de decisão fuzzy, redes neurais, e os sistemas neuro-fuzzy. Na análise do sistema NFHB na classificação de dados levou- se em consideração as peculiaridades do modelo, que possui: aprendizado da estrutura, particionamento recursivo do espaço de entrada, aceita maior número de entradas que os outros sistemas neuro-fuzzy, além de regras fuzzy recursivas. O sistema NFHB, entretanto, não é um modelo exatamente desenvolvido para classificação de padrões. O modelo NFHB original possui apenas uma saída e para utilizá- lo como um classificador é necessário criar um critério de faixa de valores (janelas) para representar as classes. Assim sendo, decidiu-se criar novos modelos que suprissem essa deficiência. Foram definidos dois novos sistemas NFHB para classificação de padrões: NFHB-Invertido e NFHB-Class. O primeiro utiliza a arquitetura do modelo NFHB original no aprendizado e em seguida a inversão da mesma para a validação dos resultados. A inversão do sistema consistiu de um meio de adaptar o novo sistema à tarefa específica de classificação, pois passou-se a ter o número de saídas do sistema igual ao número de classes ao invés do critério de faixa de valores utilizado no modelo NFHB original. Já o sistema NFHB-Class utilizou, tanto para a fase de aprendizado, quanto para a fase de validação, o modelo NFHB original invertido. Ambos os sistemas criados possuem o número de saídas igual ao número de classes dos padrões, o que representou um grande diferencial em relação ao modelo NFHB original. Além do objetivo de classificação de padrões, o sistema NFHB-Class foi capaz de extrair conhecimento em forma de regras fuzzy interpretáveis. Essas regras são expressas da seguinte maneira: SE x é A e y é B então padrão pertence à classe Z. Realizou-se um amplo estudo de casos, abrangendo diversas bases de dados Benchmark para a tarefa de classificação, tais como: Iris Dataset, Wine Data, Pima Indians Diabetes Database, Bupa Liver Disorders e Heart Disease, e foram feitas comparações com diversos modelos e algoritmos de classificação de padrões. Os resultados encontrados com os modelos NFHB-Invertido e NFHB-Class mostraram-se, na maioria dos casos, superiores ou iguais aos melhores resultados encontrados pelos outros modelos e algoritmos aos quais foram comparados.O desempenho dos modelos NFHB-Invertido e NFHB-Class em relação ao tempo de processamento também se mostrou muito bom. Para todas as bases de dados descritas no estudo de casos (capítulo 8), os modelos convergiram para uma ótima solução de classificação, além da extração das regras fuzzy, em / [en] This dissertation investigates the use of Neuro-Fuzzy Hierarchical BSP (Binary Space Partitioning) systems for pattern classification and extraction of fuzzy rules in databases. The objective of this work was to create specific models for the classification of registers based on the Neuro-Fuzzy BSP model that is able to create its structure automatically and to extract linguistic rules that explain the data structure. The task of pattern classification is to find relationships between data with the intention of forecasting the class of an unknown pattern. The work consisted of four parts: study about the main methods of the pattern classification; evaluation of the original Neuro-Fuzzy Hierarchical BSP system (NFHB) in pattern classification; definition and implementation of two NFHB systems dedicated to pattern classification; and case studies. The study about classification methods resulted in a survey on the area, where the main techniques used for pattern classification are described. The main techniques are: statistic methods, genetic algorithms, decision trees, neural networks, and neuro-fuzzy systems. The evaluation of the NFHB system in pattern classification took in to consideration the particularities of the model which has: ability to create its own structure; recursive space partitioning; ability to deal with more inputs than other neuro-fuzzy system; and recursive fuzzy rules. The original NFHB system, however, is unsuited for pattern classification. The original NFHB model has only one output and its use in classification problems makes it necessary to create a criterion of band value (windows) in order to represent the classes. Therefore, it was decided to create new models that could overcome this deficiency. Two new NFHB systems were developed for pattern classification: NFHB-Invertido and NFHB-Class. The first one creates its structure using the same learning algorithm of the original NFHB system. After the structure has been created, it is inverted (see chapter 5) for the generalization process. The inversion of the structure provides the system with the number of outputs equal to the number of classes in the database. The second system, the NFHB-Class uses an inverted version of the original basic NFHB cell in both phases, learning and validation. Both systems proposed have the number of outputs equal to the number of the pattern classes, what means a great differential in relation to the original NFHB model. Besides the pattern classification objective, the NFHB- Class system was able to extract knowledge in form of interpretable fuzzy rules. These rules are expressed by this way: If x is A and y is B then the pattern belongs to Z class. The two models developed have been tested in many case studies, including Benchmark databases for classification task, such as: Iris Dataset, Wine Data, Pima Indians Diabetes Database, Bupa Liver Disorders and Heart Disease, where comparison has been made with several traditional models and algorithms of pattern classification. The results found with NFHB-Invertido and NFHB-Class models, in all cases, showed to be superior or equal to the best results found by the others models and algorithms for pattern classification. The performance of the NFHB- Invertido and NFHB-Class models in terms of time-processing were also very good. For all databases described in the case studies (chapter 8), the models converged to an optimal classification solution, besides the fuzzy rules extraction, in a time-processing inferior to a minute. / [es] Esta disertación investiga el uso de sistemas Neuro- Fuzzy Herárquicos BSP (Binary Space Partitioning) en problemas de clasificación de padrones y de extracción de reglas fuzzy en bases de datos. El objetivo de este trabajo fue crear modelos específicos para clasificación de registros a partir del modelo Neuro-Fuzzy Jerárquico BSP que es capaz de generar automáticamente su propia extructura y extraer reglas fuzzy, lingüisticamente interpretables, que explican la extructura de los datos. El principio de la clasificación de padrones es descubrir relaciones entre los datos con la intención de prever la clase de un padrón desconocido. El trabajo está constituido por cuatro partes: un estudio sobre los principales métodos de clasificación de padrones; análisis del sistema Neuro-Fuzzy Jerárquico BSP (NFHB) original en la clasificación; definición e implementación de dos sistemas NFHB específicos para clasificación de padrones; y el estudio de casos. En el estudio de los métodos de clasificación se realizó un levatamiento bibliográfico, creando un "survey" donde se presentan las principales técnicas utilizadas. Entre las principales técnicas se destacan: los métodos estadísticos, algoritmos genéticos, árboles de decisión fuzzy, redes neurales, y los sistemas neuro-fuzzy. En el análisis del sistema NFHB para clasificación de datos se tuvieron en cuenta las peculiaridades del modelo, que posee : aprendizaje de la extructura, particionamiento recursivo del espacio de entrada, acepta mayor número de entradas que los otros sistemas neuro-fuzzy, además de reglas fuzzy recursivas. El sistema NFHB, sin embargo, no es un modelo exactamente desarrollado para clasificación de padrones. El modelo NFHB original posee apenas una salida y para utilizarlo conmo un clasificador fue necesario crear un criterio de intervalos de valores (ventanas) para representar las clases. Así, se decidió crear nuevos modelos que supriman esta deficiencia. Se definieron dos nuevos sistemas NFHB para clasificación de padrones: NFHB- Invertido y NFHB-Clas. El primero utiliza la arquitectura del modelo NFHB original en el aprendizaje y en seguida la inversión de la arquitectura para la validación de los resultados. La inversión del sistema es un medio para adaptar el nuevo sistema, específicamente a la clasificación, ya que el sistema pasó a tener número de salidas igual al número de clases, al contrario del criterio de intervalo de valores utilizado en el modelo NFHB original. En el sistema NFHB-Clas se utilizó, tanto para la fase de aprendizajeo, cuanto para la fase de validación, el modelo NFHB original invertido. Ambos sistemas poseen el número de salidas igual al número de clases de los padrones, lo que representa una gran diferencia en relación al modelo NFHB original. Además del objetivo de clasificación de padrones, el sistema NFHB-Clas fue capaz de extraer conocimento en forma de reglas fuzzy interpretables. Esas reglas se expresan de la siguiente manera: Si x es A e y es B entonces el padrón pertenece a la clase Z. Se realizó un amplio estudio de casos, utilizando diversas bases de datos Benchmark para la clasificación, tales como: Iris Dataset, Wine Data, Pima Indians Diabetes Database, Bupa Liver Disorders y Heart Disease. Los resultados se compararon con diversos modelos y algoritmos de clasificación de padrones. Los resultados encontrados con los modelos NFHB-Invertido y NFHB-Clas se mostraron, en la mayoría de los casos, superiores o iguales a los mejores resultados encontrados por los otros modelos y algoritmos con los cuales fueron comparados. El desempeño de los modelos NFHB-Invertido y NFHB-Clas en relación al tiempo de procesamiento tambiém se mostró muy bien. Para todas las bases de datos descritas en el estudio de casos (capítulo 8), los modelos convergieron para una solución óptima, además de la extracción de las reglas fuzzy, con tiemp [pt] APRENDIZAGEM [pt] MINERACAO DE DADOS [pt] CLASSIFICACAO [pt] MODELO NEURO-FUZZY [en] LEARNING [en] DATA MINING [en] CLASSIFICATION [en] NEURO-FUZZY MODELS [es] APRENDIZAJE [es] MINERACION DE DATOS [es] CLASIFICACION [es] MODELOS NEURO-FUZZY
28	[pt] GERAÇÃO DE DESCRIÇÕES DE PRODUTOS A PARTIR DE AVALIAÇÕES DE USUÁRIOS USANDO UM LLM / [en] PRODUCT DESCRIPTION GENERATION FROM USER REVIEWS USING A LLM BRUNO FREDERICO MACIEL GUTIERREZ 04 June 2024 (has links) [pt] No contexto de comércio eletrônico, descrições de produtos exercem grande influência na experiência de compra. Descrições bem feitas devem idealmente informar um potencial consumidor sobre detalhes relevantes do produto, esclarecendo potenciais dúvidas e facilitando a compra. Gerar boas descrições, entretanto, é uma atividade custosa, que tradicionalmente exige esforço humano. Ao mesmo tempo, existe uma grande quantidade de produtos sendo lançados a cada dia. Nesse contexto, este trabalho apresenta uma nova metodologia para a geração automatizada de descrições de produtos, usando as avaliações deixadas por usuários como fonte de informações. O método proposto é composto por três etapas: (i) a extração de sentenças adequadas para uma descrição a partir das avaliações (ii) a seleção de sentenças dentre as candidatas (iii) a geração da descrição de produto a partir das sentenças selecionadas usando um Large Language Model (LLM) de forma zero-shot. Avaliamos a qualidade das descrições geradas pelo nosso método comparando-as com descrições de produto reais postadas pelos próprios anunciantes. Nessa avaliação, contamos com a colaboração de 30 avaliadores, e verificamos que nossas descrições são preferidas mais vezes do que as descrições originais, sendo consideradas mais informativas, legíveis e relevantes. Além disso, nessa mesma avaliação replicamos um método da literatura recente e executamos um teste estatístico comparando seus resultados com o nosso método, e dessa comparação verificamos que nosso método gera descrições mais informativas e preferidas no geral. / [en] In the context of e-commerce, product descriptions have a great influence on the shopping experience. Well-made descriptions should ideally inform a potential consumer about relevant product details, clarifying potential doubt sand facilitating the purchase. Generating good descriptions, however, is a costly activity, which traditionally requires human effort. At the same time, there are a large number of products being launched every day. In this context, this work presents a new methodology for the automated generation of product descriptions, using reviews left by users as a source of information. The proposed method consists of three steps: (i) the extraction of suitable sentences for a description from the reviews (ii) the selection of sentences among the candidates (iii) the generation of the product description from the selected sentences using a Large Language Model (LLM) in a zero-shot way. We evaluate the quality of descriptions generated by our method by comparing them to real product descriptions posted by sellers themselves. In this evaluation, we had the collaboration of 30 evaluators, and we verified that our descriptions are preferred more often than the original descriptions, being considered more informative, readable and relevant. Furthermore, in this same evaluation we replicated a method from recent literature and performed a statistical test comparing its results with our method, and from this comparison we verified that our method generates more informative and preferred descriptions overall. [pt] MINERACAO DE DADOS [pt] INTELIGENCIA ARTIFICIAL GENERATIVA [pt] GERACAO DE TEXTO [pt] APRENDIZADO DE MAQUINA [pt] MODELOS GRANDE DE LINGUAGEM [pt] COMERCIO ELETRONICO [en] DATA MINING [en] GENERATIVE ARTIFICIAL INTELLIGENCE [en] TEXT GENERATION [en] MACHINE LEARNING [en] LARGE LANGUAGE MODEL [en] E-COMMERCE
29	[en] DATA MINING APPLIED TO DIRECT MARKETING AND MARKET SEGMENTATION / [es] MINERACIÓN DE DATOS PARA LA SOLUCIÓN DE PROBLEMAS DE MARKETING DIRECTO Y SEGMENTACIÓN DE MERCADO / [pt] MINERAÇÃO DE DADOS APLICADA NA SOLUÇÃO DE PROBLEMAS DE MARKETING DIRETO E SEGMENTAÇÃO DE MERCADO HUGO LEONARDO COSTA DE AZEVEDO 28 August 2001 (has links) [pt] Devido à quantidade cada vez maior de dados armazenada pelas instituições, a área de mineração de dados tem se tornado cada vez mais relevante e vários métodos e métodos têm sido propostos de maneira a aumentar sua aplicabilidade e desempenho. Esta dissertação investiga o uso de diversos métodos e técnicas de mineração de dados na modelagem e solução de problemas de Marketing. O objetivo do trabalho foi fazer um levantamento de alguns métodos e técnicas de mineração, avaliar seus desempenhos e procurar integrá-los na solução de problemas de marketing que envolvessem tarefas de agrupamento ou classificação. O trabalho consistiu de quatro etapas principais: estudo sobre o processo de descoberta de conhecimento em bancos de dados (KDD - Knowledge Discovery in Databases); estudo sobre Marketing e alguns problemas de Marketing de Banco de Dados (DBM - Database Marketing) que envolvessem tarefas de agrupamento e classificação; levantamento e estudo de métodos e técnicas de Inteligência Computacional e Estatística que pudessem ser empregados na solução de alguns desses problemas; e estudos de caso. A primeira etapa do trabalho envolveu um estudo detalhado das diversas fases do processo de KDD: limpeza dos dados; seleção; codificação e transformação; redução de dimensionalidade; mineração; e pós-processamento. Na segunda etapa foram estudados os principais conceitos de Marketing e de DBM e a relação entre eles e o processo de KDD. Pesquisaram-se alguns dos tipos de problemas comuns na área e escolheram- se para análise dois que fossem suficientemente complexos e tivessem a possibilidade de se ter acesso a alguma empresa que fornecesse os dados e validasse a solução posteriormente. Os casos selecionados foram um de marketing direto e outro de segmentação de mercado. Na terceira etapa, foram estudados os métodos de Inteligência Computacional e Estatística usualmente empregados em tarefas de agrupamento e classificação de dados. Foram estudados: Redes Perceptron Multi-Camadas, Mapas Auto- Organizáveis, Fuzzy C-Means, K-means, sistemas Neuro-Fuzzy, Árvores de Decisão, métodos Hierárquicos de agrupamento, Regressão Logística, Fuções Discriminantes de Fisher, entre outros. Por fim, na última etapa, procurou-se integrar todos os métodos e técnicas estudados na solução de dois estudos de caso, propostos inicialmente na segunda etapa do trabalho. Uma vez proposta a solução para os estudos de caso, elas foram levadas aos especialistas em Marketing das empresas para serem validadas no âmbito do negócio. Os estudos de caso mostraram a grande utilidade e aplicabilidade dos métodos e técnicas estudadas em problemas de marketing direto e segmentação de mercado. Sem o emprego dos mesmos, a solução para muitos desses problemas tornar-se-ia extremamente imprecisa ou até mesmo inviável. Mostraram também a grande importância das fases iniciais de pré-processamento dos dados no processo de KDD. Muitos desafios persistem ainda na área de mineração de dados, como a dificuldade de modelar dados não lineares e de manipular quantidades muito grande de dados, o que garante um vasto campo para pesquisa nos próximos anos. / [en] The Data Mining field has received great attention lately, due to the increasing amount of data stored by companies and institutions. A great number of Data Mining methods have been proposed so far, which is good but sometimes leads to confusion. This dissertation investigates the performance of many different methods and techniques of Data Mining used to model and solve Marketing problems. The goal of this research was to look for and study some data mining methods, compare them, and try to integrate them to solve Marketing problems involving clustering and classification tasks. This research can be divided in four stages: a study of the process of Knowledge Discovery in Databases (KDD); a study about Marketing problems involving clustering and classification; a study of some methods and techniques of Statistics and Computational Intelligence that could be used to solve some of those problems; and case studies. On the first stage of the research, the different tasks (clustering, classification, modeling, etc) and phases (data cleansing, data selection, data transformation, Data Mining, etc) of a KDD process were studied in detail. The second stage involved a study of the main concepts of Marketing and Database Marketing and their relation to the KDD process. The most common types of problems in the field were studied and, among them, two were selected to be furthered analyzed as case studies. One case was related to Direct Marketing and the other to Market Segmentation. These two cases were chosen because they were complex enough and it was possible to find a company to provide data to the problem and access to their marketing department. On the third stage, many different methods for clustering and classification were studied and compared. Among those methods, there were: Multilayer Perceptrons, Self Organizing Maps, Fuzzy C-Means, K-Means, Neuro-Fuzzy systems, Decision Trees, Hierarquical Clustering Methods, Logistic Regression, Fisher`s Linear Discriminants, etc Finally, on the last stage, all the methods and techniques studied were put together to solve the two case studies proposed earlier. Once they were solved, their solutions were submitted to the Marketing Department of the company who provided the data, so that they could validate the results in the context of their business. The case studies were able to show the large potential of applicability of the methods and techniques studied on problems of Market Segmentation and Direct Marketing. Without employing those methods, it would be very hard or even impossible to solve those problems. The case studies also helped verify the very important role of the data pre-processing phase on the KDD process. Many challenges persist in the data mining field. One could mention, for example, the difficulty to model non-linear data and to manipulate larges amounts of data. These and many other challenges provide a vast field of research to be done in the next years. / [es] Debido a la cantidad cada vez mayor de datos almacenados por las instituiciones, el área de mineración de datos há ganado relevancia y varios métodos han sido propuestos para aumentar su aplicabilidad y desempeño. Esta disertación investiga el uso de diversos métodos y técnicas de mineración de datos en la modelación y solución de problemas de Marketing. EL objetivo del trabajo fue hacer un levantamiento de algunos métodos y técnicas de mineración, evaluar su desempeño e integrarlos en la solución de problemas de marketing que involucran tareas de agrupamiento y clasificación. EL trabajo consta de cuatro etapas principales: estudio sobre el proceso de descubrimiento de conocimientos en bancos de datos (KDD - Knowledge Discovery in Databases); estudio sobre Marketing y algunos problemas de Marketing de Banco de Datos (DBM - Database Marketing) que incluyen tareas de agrupamientoy clasificación; levantamiento y estudio de métodos y técnicas de Inteligencia Computacional y Estadística que pueden ser empleados en la solución de algunos problemas; y por último, estudios de casos. La primera etapa del trabajo contiene un estudio detallado de las diversas fases del proceso de KDD: limpeza de datos; selección; codificación y transformación; reducción de dimensionalidad; mineración; y posprocesamento. En la segunda etapa fueron estudados los principales conceptos de Marketing y de DBM y la relación entre ellos y el proceso de KDD. Algunos de los tipos de problemas comunes en la área fueron investigados, seleccionando dos de ellos, por ser suficientemente complejos y tener posibilidad de acceso a alguna empresa que suministrase los datos y evaluase posteriormente la solución. Los casos selecionados fueron uno de marketing directo y otro de segmentación de mercado. En la tercera etapa, se estudiaron los métodos de Inteligencia Computacional y Estadística que son empleados usualmente en tareas de agrupamiento y clasificación de datos. Éstos fueron: Redes Perceptron Multicamada, Mapas Autoorganizables, Fuzzy C-Means, K-means, sistemas Neuro- Fuzzy, Árboles de Decisión, métodos Jerárquicos de agrupamiento, Regresión Logística, Fuciones Discriminantes de Fisher, entre otros. En la última etapa, se integraron todos los métodos y técnicas estudiados en la solución de dos estudios de casos, propuestos inicialmente en la segunda etapa del trabajo. Una vez proposta la solución para el estudios de casos, éstas fueron evaluadas por los especialistas en Marketing de las empresas. Los estudios de casos mostraron la grande utilidad y aplicabilidad de los métodos y técnicas estudiadas en problemas de marketing directo y segmentación de mercado. Sin el empleo de dichos métodos, la solución para muchos de esos problemas sería extremadamente imprecisa o hasta incluso inviáble. Se comprobó también la gran importancia de las fases iniciales de preprocesamiento de datos en el proceso de KDD. Existen todavía muchos desafíos en el área de mineración de datos, como la dificuldad de modelar datos no lineales y de manipular cantidades muy grandes de datos, lo que garantiza un vasto campo de investigación [pt] REDES NEURAIS [en] NEURAL NETWORKS [es] REDES NEURALES [pt] MINERACAO DE DADOS [en] DATA MINING [es] MINERACION DE DATOS [pt] CLASSIFICACAO DE PADROES [en] PATTERN CLASSIFICATION [en] KNOWLEDGE DISCOVERY IN DATABASES [pt] LOGICA FUZZY [en] FUZZY LOGIC [pt] SEGMENTACAO DE MERCADO [en] MARKET SEGMENTATION [pt] MARKETING DIRETO [en] DIRECT MARKETING [pt] KOHONEN [en] KOHONEN
30	[en] TS-TARX: TREE STRUCTURED - THRESHOLD AUTOREGRESSION WITH EXTERNAL VARIABLES / [pt] TS-TARX: UM MODELO DE REGRESSÃO COM LIMIARES BASEADO EM ÁRVORE DE DECISÃO CHRISTIAN NUNES ARANHA 28 January 2002 (has links) [pt] Este trabalho propõe um novo modelo linear por partes para a extração de regras de conhecimento de banco de dados. O modelo é uma heurística baseada em análise de árvore de regressão, como introduzido por Friedman (1979) e discutido em detalhe por Breiman (1984). A motivação desta pesquisa é trazer uma nova abordagem combinando técnicas estatísticas de modelagem e um algoritmo de busca por quebras eficiente. A decisão de quebra usada no algoritmo de busca leva em consideração informações do ajuste de equações lineares e foi implementado tendo por inspiração o trabalho de Tsay (1989). Neste, ele sugere um procedimento para construção um modelo para a análise de séries temporais chamado TAR (threshold autoregressive model), introduzido por Tong (1978) e discutido em detalhes por Tong e Lim (1980) e Tong (1983). O modelo TAR é um modelo linear por partes cuja idéia central é alterar os parâmetros do modelo linear autoregressivo de acordo com o valor de uma variável observada, chamada de variável limiar. No trabalho de Tsay, a Identificação do número e localização do potencial limiar era baseada na analise de gráficos. A idéia foi então criar um novo algoritmo todo automatizado. Este processo é um algoritmo que preserva o método de regressão por mínimos quadrados recursivo (MQR) usado no trabalho de Tsay. Esta talvez seja uma das grandes vantagens da metodologia introduzida neste trabalho, visto que Cooper (1998) em seu trabalho de análise de múltiplos regimes afirma não ser possível testar cada quebra. Da combinação da árvore de decisão com a técnica de regressão (MQR), o modelo se tornou o TS-TARX (Tree Structured - Threshold AutoRegression with eXternal variables). O procedimento consiste numa busca em árvore binária calculando a estatística F para a seleção das variáveis e o critério de informação BIC para a seleção dos modelos. Ao final, o algoritmo gera como resposta uma árvore de decisão (por meio de regras) e as equações de regressão estimadas para cada regime da partição. A principal característica deste tipo de resposta é sua fácil interpretação. O trabalho conclui com algumas aplicações em bases de dados padrões encontradas na literatura e outras que auxiliarão o entendimento do processo implementado. / [en] This research work proposes a new piecewise linear model to extract knowledge rules from databases. The model is an heuristic based on analysis of regression trees, introduced by Friedman (1979) and discussed in detail by Breiman (1984). The motivation of this research is to come up with a new approach combining both statistical modeling techniques and an efficient split search algorithm. The split decision used in the split search algorithm counts on information from adjusted linear equation and was implemented inspired by the work of Tsay (1989). In his work, he suggests a model-building procedure for a nonlinear time series model called by TAR (threshold autoregressive model), first proposed by Tong (1978) and discussed in detail by Tong and Lim (1980) and Tong (1983). The TAR model is a piecewise linear model which main idea is to set the coefficients of a linear autoregressive process in accordance with a value of observed variable, called by threshold variable. Tsay`s identification of the number and location of the potential thresholds was based on supplementary graphic devices. The idea is to get the whole process automatic on a new model-building process. This process is an algorithm that preserves the method of regression by recursive least squares (RLS) used in Tsay`s work. This regression method allowed the test of all possibilities of data split. Perhaps that is the main advantage of the methodology introduced in this work, seeing that Cooper, S. (1998) said about the impossibility of testing each break.Thus, combining decision tree methodology with a regression technique (RLS), the model became the TS-TARX (Tree Structured - Threshold AutoRegression with eXternal variables). It searches on a binary tree calculating F statistics for variable selection and the information criteria BIC for model selection. In the end, the algorithm produces as result a decision tree and a regression equation adjusted to each regime of the partition defined by the decision tree. Its major advantage is easy interpretation.This research work concludes with some applications in benchmark databases from literature and others that helps the understanding of the algorithm process. [pt] MINERACAO DE DADOS [en] DATA MINING [pt] REGRESSAO [en] REGRESSION [pt] REGRESSAO NAO LINEAR [en] NONLINEAR REGRESSION [pt] LINEAR POR PARTES [en] PIECEWISE MODEL [pt] ARVORE DE DECISAO [en] DECISION TREE [pt] ARVORE DE REGRESSAO [en] REGRESSION TREE [pt] MINIMOS QUADRADOS RECURSIVO [en] RECURSIVE LEAST SQUARES [pt] FACIL INTERPRETACAO [en] EASY INTERPRETATION

Search results