• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 72
  • 1
  • Tagged with
  • 73
  • 73
  • 52
  • 50
  • 50
  • 43
  • 39
  • 38
  • 37
  • 18
  • 16
  • 13
  • 11
  • 10
  • 10
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

APLICAÇÃO DA MINERAÇÃO DE DADOS NA DESCOBERTA DE PADRÕES DO PERFIL DE ALUNOS DO CURSO DE SI-UnUCET-UEG

Del-fiaco, Ronaldo de Castro 13 March 2012 (has links)
Made available in DSpace on 2016-08-10T10:40:15Z (GMT). No. of bitstreams: 1 RONALDO DE CASTRO DEL-FIACO.pdf: 3047529 bytes, checksum: b55c6c1e7ebb7f0baf421ea95eb9683a (MD5) Previous issue date: 2012-03-13 / The Data Mining (DM) is a part of the process of Knowledge Discovery in Databases. Its implementation requires knowledge of various areas such as computer sciences, statistics, management sciences and the business itself. In particular, it can be applied to discover knowledge that allows the manager to improve the quality of the learning process in which he/she is involved. This work presents the theoretical background of data mining, describes and analyzes a case study where the main objective is to apply the Cross-Industry Standard Process for Data Mining - CRISP-DM methodology to identify the profile of the student that graduates in due time from the course of Bachelor of Information Systems of the State University of Goiás at Anápolis. It describes the data preparation that is used in the process and identify the best proposals for analysis of the case study. As input data, both the transcripts and the answers of the socioeconomic and cultural questionnaire applied to the students are used as attributes for the evaluation of decision tree algorithms implemented in the data mining tool known as WEKA. It was possible to realize that data mining requires a professional who mastered the theory of DM to correctly calibrate the tools and extensive knowledge of the business in order to determine the data mining goals and interpret the results. / A mineração de dados (Data Mining - DM) é uma parte do processo para descobrir conhecimento em base de dados. Sua realização exige conhecimentos de várias áreas tais como a computação, a estatística, as ciências administrativas e do próprio negócio. Em particular, pode ser aplicada para descobrir conhecimento que permita ao gestor educacional melhorar a qualidade do processo ensino-aprendizagem no qual esteja envolvido. Este trabalho apresenta o embasamento teórico em mineração de dados, descreve e analisa um estudo de caso, cujo principal objetivo é aplicar a metodologia Cross-Industry Standard Process for Data Mining - CRISP-DM na identificação do padrão do perfil do aluno que integraliza o curso de Bacharelado em Sistemas de Informação da Unidade Universitária de Ciências Exatas e Tecnológicas da Universidade de Estadual de Goiás, no tempo mínimo previsto pelo projeto pedagógico do curso. É realizada a preparação dos dados que são utilizados no processo para, posteriormente, identificar as melhores propostas de análise do estudo de caso. Como dados de entrada, recorre-se às respostas do questionário socioeconômico e cultural aplicados aos vestibulandos e ao histórico escolar dos mesmos, que são utilizados como atributos para a avaliação dos algoritmos de árvore de decisão, através da ferramenta WEKA. Com este estudo, foi possível perceber que, para realizar a mineração de dados, é necessário um profissional que domine a teoria de DM, saiba calibrar uma ferramenta computacional e tenha conhecimento aprofundado do negócio, para determinar os objetivos da DM e interpretar os resultados encontrados.
12

DESCOBERTA DE CONHECIMENTO NA PLATAFORMA LATTES: UM ESTUDO DE CASO NO INSTITUTO FEDERAL DE GOIÁS. / KNOWLEDGE DISCOVERY IN LATTES PLATFORM: A CASE STUDY IN THE FEDERAL INSTITUTE OF GOIAS.

Cavalcante, Renata de Souza Alves Paula 24 February 2014 (has links)
Made available in DSpace on 2016-08-10T10:40:21Z (GMT). No. of bitstreams: 1 RENATA DE SOUZA ALVES PAULA CAVALCANTE.pdf: 3920138 bytes, checksum: 5a8a21fa7b849ef942fb6113dc3f6635 (MD5) Previous issue date: 2014-02-24 / Ao longo do tempo, percebeu-se que a velocidade do acúmulo de informações era maior do que a velocidade de processamento e análise das mesmas. Não adianta uma organização ter muita informação, se não souber dela extrair conhecimento útil. É preciso que sejam feitas análises apuradas sobre os dados e descobrir quais são os padrões de comportamentos existentes nos mesmos. Assim, uma organização poderá realizar tomada de decisão de forma mais segura, baseada em fatos reais e não em meras suposições, inclusive no âmbito da gestão de Ciência e Tecnologia. Este trabalho teve como objetivo realizar um estudo de caso no Instituto Federal de Goiás (IFG), aplicando o processo de Knowledge Discovery in Database (KDD), na tentativa de identificar padrões que representem o perfil da produção científica dos docentes da instituição. A maior parte dos dados analisados foram extraídos da Plataforma Lattes (PL) e o período da pesquisa fixado no último triênio. Pretendeu-se obter conhecimento sobre a produtividade dos docentes e provê-los à Pró-Reitoria de Pesquisa e Pós-Graduação do IFG para auxiliar na sua gestão. A pesquisa aborda por meio de um levantamento bibliográfico os conceitos sobre Gestão do Conhecimento (GC), o processo de KDD, incluindo a Mineração de Dados (MD) com suas tarefas e técnicas, a produção científica, a PL e o contexto atual do IFG. Dessa forma, entre os resultados obtidos no trabalho, viu-se que a aplicação do KDD pode ser um poderoso instrumento para a gestão das informações nas instituições de ensino.
13

Computação Evolutiva para a Construção de Regras de Conhecimento com Propriedades Específicas / Evolutionary Computing for Knowledge Rule Construction with Specific Properties

Pila, Adriano Donizete 12 April 2007 (has links)
A maioria dos algoritmos de aprendizado de máquina simbólico utilizam regras de conhecimento if-then como linguagem de descrição para expressar o conhecimento aprendido. O objetivo desses algoritmos é encontrar um conjunto de regras de classificação que possam ser utilizadas na predição da classe de novos casos que não foram vistos a priori pelo algoritmo. Contudo, este tipo de algoritmo considera o problema da interação entre as regras, o qual consiste na avaliação da qualidade do conjunto de regras induzidas (classificador) como um todo, ao invés de avaliar a qualidade de cada regra de forma independente. Assim, como os classificadores têm por objetivo uma boa precisão nos casos não vistos, eles tendem a negligenciar outras propriedades desejáveis das regras de conhecimento, como a habilidade de causar surpresa ou trazer conhecimento novo ao especialista do domínio. Neste trabalho, estamos interessados em construir regras de conhecimento com propriedades específicas de forma isolada, i.e. sem considerar o problema da interação entre as regras. Para esse fim, propomos uma abordagem evolutiva na qual cada individuo da população do algoritmo representa uma única regra e as propriedades específicas são codificadas como medidas de qualidade da regra, as quais podem ser escolhidas pelo especialista do domínio para construir regras com as propriedades desejadas. O algoritmo evolutivo proposto utiliza uma rica estrutura para representar os indivíduos (regras), a qual possibilita considerar uma grande variedade de operadores evolutivos. O algoritmo utiliza uma função de aptidão multi-objetivo baseada em ranking que considera de forma concomitante mais que uma medida de avaliação de regra, transformando-as numa função simples-objetivo. Como a avaliação experimental é fundamental neste tipo de trabalho, para avaliar nossa proposta foi implementada a Evolutionary Computing Learning Environment --- ECLE --- que é uma biblioteca de classes para executar e avaliar o algoritmo evolutivo sob diferentes cenários. Além disso, a ECLE foi implementada considerando futuras implementações de novos operadores evolutivos. A ECLE está integrada ao projeto DISCOVER, que é um projeto de pesquisa em desenvolvimento em nosso laboratório para a aquisição automática de conhecimento. Analises experimentais do algoritmo evolutivo para construir regras de conhecimento com propriedades específicas, o qual pode ser considerado uma forma de análise inteligente de dados, foram realizadas utilizando a ECLE. Os resultados mostram a adequabilidade da nossa proposta / Most symbolic machine learning approaches use if-then know-ledge rules as the description language in which the learned knowledge is expressed. The aim of these learners is to find a set of classification rules that can be used to predict new instances that have not been seen by the learner before. However, these sorts of learners take into account the rule interaction problem, which consists of evaluating the quality of the set of rules (classifier) as a whole, rather than evaluating the quality of each rule in an independent manner. Thus, as classifiers aim at good precision to classify unseen instances, they tend to neglect other desirable properties of knowledge rules, such as the ability to cause surprise or bring new knowledge to the domain specialist. In this work, we are interested in building knowledge rules with specific properties in an isolated manner, i.e. not considering the rule interaction problem. To this end, we propose an evolutionary approach where each individual of the algorithm population represents a single rule and the specific properties are encoded as rule quality measure, a set of which can be freely selected by the domain specialist. The proposed evolutionary algorithm uses a rich structure for individual representation which enables one to consider a great variety of evolutionary operators. The algorithm uses a ranking-based multi-objective fitness function that considers more than one rule evaluation measure concomitantly into a single objective. As experimentation plays an important role in this sort of work, in order to evaluate our proposal we have implemented the Evolutionary Computing Learning Environment --- ECLE --- which is a framework to evaluate the evolutionary algorithm in different scenarios. Furthermore, the ECLE has been implemented taking into account future development of new evolutionary operators. The ECLE is integrated into the DISCOVER project, a major research project under constant development in our laboratory for automatic knowledge acquisition and analysis. Experimental analysis of the evolutionary algorithm to construct knowledge rules with specific properties, which can also be considered an important form of intelligent data analysis, was carried out using ECLE. Results show the suitability of our proposal
14

"Desenvolvimento de um Framework para Análise Visual de Informações Suportando Data Mining" / "Development of a Framework for Visual Analysis of Information with Data Mining suport"

Jose Fernando Rodrigues Junior 22 July 2003 (has links)
No presente documento são reunidas as colaborações de inúmeros trabalhos das áreas de Bancos de Dados, Descoberta de Conhecimento em Bases de Dados, Mineração de Dados, e Visualização de Informações Auxiliada por Computador que, juntos, estruturam o tema de pesquisa e trabalho da dissertação de Mestrado: a Visualização de Informações. A teoria relevante é revista e relacionada para dar suporte às atividades conclusivas teóricas e práticas relatadas no trabalho. O referido trabalho, embasado pela substância teórica pesquisada, faz diversas contribuições à ciência em voga, a Visualização de Informações, apresentando-as através de propostas formalizadas no decorrer deste texto e através de resultados práticos na forma de softwares habilitados à exploração visual de informações. As idéias apresentadas se baseiam na exibição visual de análises numéricas estatísticas básicas, frequenciais (Frequency Plot), e de relevância (Relevance Plot). São relatadas também as contribuições à ferramenta FastMapDB do Grupo de Bases de Dados e Imagens do ICMC-USP em conjunto com os resultados de sua utilização. Ainda, é apresentado o Arcabouço, previsto no projeto original, para construção de ferramentas visuais de análise, sua arquitetura, características e utilização. Por fim, é descrito o Pipeline de visualização decorrente da junção entre o Arcabouço de visualização e a ferramenta FastMapDB. O trabalho se encerra com uma breve análise da ciência de Visualização de Informações com base na literatura estudada, sendo traçado um cenário do estado da arte desta disciplina com sugestões de futuros trabalhos. / In the present document are joined the collaborations of many works from the fields of Databases, Knowledge Discovery in Databases, Data Mining, and Computer-based Information Visualization, collaborations that, together, define the structure of the research theme and the work of the Masters Dissertation presented herein. This research topic is the Information Visualization discipline, and its relevant theory is reviewed and related to support the concluding activities, both theoretical and practical, reported in this work. The referred work, anchored by the theoretical substance that was studied, makes several contributions to the science in investigation, the Information Visualization, presenting them through formalized proposals described across this text, and through practical results in the form of software enabled to the visual exploration of information. The presented ideas are based on the visual exhibition of numeric analysis, named basic statistics, frequency analysis (Frequency Plot), and according to a relevance analysis (Relevance Plot). There are also reported the contributions to the FastMapDB tool, a visual exploration tool built by the Grupo de Bases de Dados e Imagens do ICMC-USP, the performed enhancements are listed as achieved results in the text. Also, it is presented the Framework, as previewed in this work's original proposal, projected to allow the construction of visual analysis tools; besides its description are listed its architecture, characteristics and utilization. At last, it is described the visualization Pipeline that emerges from the joining of the visualization Framework and the FastMapDB tool. The work ends with a brief analysis of the Information Visualization science based on the studied literature, it is delineated a scenario of the state of the art of this discipline along with suggestions for future work.
15

Uma arquitetura híbrida para descoberta de conhecimento em bases de dados: teoria dos rough sets e redes neurais artificiais mapas auto-organizáveis. / An hybrid architecture for the knowledge discovery in databases: rough sets theory and artificial neural nets self-organizing maps.

Renato José Sassi 28 November 2006 (has links)
As bases de dados do mundo real contêm grandes volumes de dados, e entre eles escondem-se diversas relações difíceis de descobrir através de métodos tradicionais como planilhas de cálculo e relatórios informativos operacionais. Desta forma, os sistemas de descoberta de conhecimento (Knowledge Discovery in Data Bases - KDD) surgem como uma possível solução para dessas relações extrair conhecimento que possa ser aplicado na tomada de decisão em organizações. Mesmo utilizando um KDD, tal atividade pode continuar sendo extremamente difícil devido à grande quantidade de dados que deve ser processada. Assim, nem todos os dados que compõem essas bases servem para um sistema descobrir conhecimento. Em geral, costuma-se pré-processar os dados antes de serem apresentados ao KDD, buscando reduzir a sua quantidade e também selecionar os dados mais relevantes que serão utilizados pelo sistema. Este trabalho propõe o desenvolvimento, aplicação e análise de uma Arquitetura Híbrida formada pela combinação da Teoria dos Rough Sets (Teoria dos Conjuntos Aproximados) com uma arquitetura de rede neural artificial denominada Mapas Auto-Organizáveis ou Self-Organizing Maps (SOM) para descoberta de conhecimento. O objetivo é verificar o desempenho da Arquitetura Híbrida proposta na geração de clusters (agrupamentos) em bases de dados. Em particular, alguns dos experimentos significativos foram feitos para apoiar a tomada de decisão em organizações. / Databases of the real world contain a huge amount of data within which several relations are hidden. These relations are difficult to discover by means of traditional methods such as worksheets and operational informative reports. Therefore, the knowledge discovery systems (KDD) appear as a possible solution to extract, from such relations, knowledge to be applied in decision taking. Even using a KDD system, such activity may still continue to be extremely difficult due to the huge amount of data to be processed. Thus, not all data which are part of this base will be useful for a system to discover knowledge. In general, data are usually previously processed before being presented to a knowledge discovery system in order to reduce their quantity and also to select the most relevant data to be used by the system. This research presents the development, application and analysis of an hybrid architecture formed by the combination of the Rough Sets Theory with an artificial neural net architecture named Self-Organizing Maps (SOM) to discover knowledge. The objective is to verify the performance of the hybrid architecture proposed in the generation of clusters in databases. In particular, some of the important performed experiments targeted the decision taking in organizations.
16

Geração automática de metadados: uma contribuição para a Web semântica. / Automatic metadata generation: a contribution to the semantic Web.

Eveline Cruz Hora Gomes Ferreira 05 April 2006 (has links)
Esta Tese oferece uma contribuição na área de Web Semântica, no âmbito da representação e indexação de documentos, definindo um Modelo de geração automática de metadados baseado em contexto, a partir de documentos textuais na língua portuguesa, em formato não estruturado (txt). Um conjunto teórico amplo de assuntos ligados à criação de ambientes digitais semântico também é apresentado. Conforme recomendado em SemanticWeb.org, os documentos textuais aqui estudados foram automaticamente convertidos em páginas Web anotadas semanticamente, utilizando o Dublin Core como padrão para definição dos elementos de metadados, e o padrão RDF/XML para representação dos documentos e descrição dos elementos de metadados. Dentre os quinze elementos de metadados Dublin Core, nove foram gerados automaticamente pelo Modelo, e seis foram gerados de forma semi-automática. Os metadados Description e Subject foram os que necessitaram de algoritmos mais complexos, sendo obtidos através de técnicas estatísticas, de mineração de textos e de processamento de linguagem natural. A finalidade principal da avaliação do Modelo foi verificar o comportamento dos documentos convertidos para o formato RDF/XML, quando estes foram submetidos a um processo de recuperação de informação. Os elementos de metadados Description e Subject foram exaustivamente avaliados, uma vez que estes são os principais responsáveis por apreender a semântica de documentos textuais. A diversidade de contextos, a complexidade dos problemas relativos à língua portuguesa, e os novos conceitos introduzidos pelos padrões e tecnologias da Web Semântica, foram alguns dos fortes desafios enfrentados na construção do Modelo aqui proposto. Apesar de se ter utilizado técnicas não muito novas para a exploração dos conteúdos dos documentos, não se pode ignorar que os elementos inovadores introduzidos pela Web Semântica ofereceram avanços que possibilitaram a obtenção de resultados importantes nesta Tese. Como demonstrado aqui, a junção dessas técnicas com os padrões e tecnologias recomendados pela Web Semântica pode minimizar um dos maiores problemas da Web atual, e uma das fortes razões para a implementação da Web Semântica: a tendência dos mecanismos de busca de inundarem os usuários com resultados irrelevantes, por não levarem em consideração o contexto específico desejado pelo usuário. Dessa forma, é importante que se dê continuidade aos estudos e pesquisas em todas as áreas relacionadas à implementação da Web Semântica, dando abertura para que sistemas de informação mais funcionais sejam projetados / This Thesis offers a contribution to the Semantic Web area, in the scope of the representation and indexing of documents, defining an Automatic metadata generation model based on context, starting from textual documents not structured in the Portuguese language. A wide theoretical set of subjects related to the creation of semantic digital environments is also presented. As recommended in SemanticWeb.org, the textual documents studied here were automatically converted to Web pages written in semantic format, using Dublin Core as standard for definition of metadata elements, and the standard RDF/XML for representation of documents and description of the metadata elements. Among the fifteen Dublin Core metadata elements, nine were automatically generated by the Model, and six were generated in a semiautomatic manner. The metadata Description and Subject were the ones that required more complex algorithms, being obtained through statistical techniques, text mining techniques and natural language processing. The main purpose of the evaluation of the Model was to verify the behavior of the documents converted to the format RDF/XML, when these were submitted to an information retrieval process. The metadata elements Description and Subject were exhaustively evaluated, since these are the main ones responsible for learning the semantics of textual documents. The diversity of contexts, the complexity of the problems related to the Portuguese language, and the new concepts introduced by the standards and technologies of the Semantic Web, were some of the great challenges faced in the construction of the Model here proposed. In spite of having used techniques which are not very new for the exploration and exploitation of the contents of the documents, we cannot ignore that the innovative elements introduced by the Web Semantic have offered improvements that made possible the obtention of important results in this Thesis. As demonstrated here, the joining of those techniques with the standards and technologies recommended by the Semantic Web can minimize one of the largest problems of the current Web, and one of the strong reasons for the implementation of the Semantic Web: the tendency of the search mechanisms to flood the users with irrelevant results, because they do not take into account the specific context desired by the user. Therefore, it is important that the studies and research be continued in all of the areas related to the Semantic Web?s implementation, opening the door for more functional systems of information to be designed.
17

"O framework de integração do sistema DISCOVER" / The Discover integration framework

Prati, Ronaldo Cristiano 04 April 2003 (has links)
Talvez uma das maiores capacidades do ser humano seja a sua habilidade de aprender a partir de observações e transmitir o que aprendeu para outros humanos. Durante séculos, a humanidade vem tentado compreender o mundo em que vive e, a partir desse novo conhecimento adquirido, melhorar o mundo em que vive. O desenvolvimento da tecnologia colocou a descoberta de conhecimento em um momento ímpar na história da humanidade. Com os progressos da Ciência da Computação, e, em particular, da Inteligência Artificial - IA - e Aprendizado de Máquina -AM, hoje em dia é possível, a partir de métodos de inferência indutiva e utilizando um conjunto de exemplos, descobrir algum tipo de conhecimento implícito nesses exemplos. Entretanto, por ser uma área de pesquisa relativamente nova, e por envolver um processo tanto iterativo quanto interativo, atualmente existem poucas ferramentas que suportam eficientemente a descoberta de conhecimento a partir dos dados. Essa falta de ferramentas se agrava ainda mais no que se refere ao seu uso por pesquisadores em Aprendizado de Máquina e Aquisição de Conhecimento. Esses fatores, além do fato que algumas pesquisas em nosso Laboratório de Inteligência Computacional - LABIC - têm alguns componentes em comum, motivaram a elaboração do projeto Discover, que consiste em uma estratégia de trabalho em conjunto, envolvendo um conjunto de ferramentas que se integram e interajam, e que supram as necessidades de pesquisa dos integrantes do nosso laboratório. O Discover também pode ser utilizado como um campo de prova para desenvolver novas ferramentas e testar novas idéias. Como o Discover tem como principal finalidade o seu uso e extensão por pesquisadores, uma questão principal é que a arquitetura do projeto seja flexível o suficiente para permitir que novas pesquisas sejam englobadas e, simultaneamente, deve impor determinados padrões que permitam a integração eficiente de seus componentes. Neste trabalho, é proposto um framework de integração de componentes que tem como principal objetivo possibilitar a criação de um sistema computacional a partir das ferramentas desenvolvidas para serem utilizadas no projeto Discover. Esse framework compreende um mecanismo de adaptação de interface que cria uma camada (interface horizontal) sobre essas ferramentas, um poderoso mecanismo de metadados, que é utilizado para descrever tanto os componentes que implementam as funcionalidades do sistema quanto as configurações de experimentos criadas pelos usuário, que serão executadas pelo framework, e um ambiente de execução para essas configurações de experimentos. / One of human greatest capability is the ability to learn from observed instances of the world and to transmit what have been learnt to others. For thousands of years, we have tried to understand the world, and used the acquired knowledge to improve it. Nowadays, due to the progress in digital data acquisition and storage technology as well as significant progress in the field of Artificial Intelligence - AI, particularly Machine Learning - ML, it is possible to use inductive inference in huge databases in order to find, or discover, new knowledge from these data. The discipline concerned with this task has become known as Knowledge Discovery from Databases - KDD. However, this relatively new research area offers few tools that can efficiently be used to acquire knowledge from data. With these in mind, a group of researchers at the Computational Intelligence Laboratory - LABIC - is working on a system, called Discover, in order to help our research activities in KDD and ML. The aim of the system is to integrate ML algorithms mostly used by the community with the data and knowledge processing tools developed as the results of our work. The system can also be used as a workbench for new tools and ideas. As the main concern of the Discover is related to its use and extension by researches, an important question is related to the flexibility of its architecture. Furthermore, the Discover architecture should allow new tools be easily incorporated. Also, it should impose strong patterns to guarantee efficient component integration. In this work, we propose a component integration framework that aims the development of an integrated computational environment using the tools already implemented in the Discover project. The proposed component integration framework has been developed keeping in mind its future integration with new tools. This framework offers an interface adapter mechanism that creates a layer (horizontal interface) over these tools, a powerful metadata mechanism, which is used to describe both components implementing systems' functionalities and experiment configurations created by the user, and an environment that enables these experiment execution.
18

Uma arquitetura híbrida para descoberta de conhecimento em bases de dados: teoria dos rough sets e redes neurais artificiais mapas auto-organizáveis. / An hybrid architecture for the knowledge discovery in databases: rough sets theory and artificial neural nets self-organizing maps.

Sassi, Renato José 28 November 2006 (has links)
As bases de dados do mundo real contêm grandes volumes de dados, e entre eles escondem-se diversas relações difíceis de descobrir através de métodos tradicionais como planilhas de cálculo e relatórios informativos operacionais. Desta forma, os sistemas de descoberta de conhecimento (Knowledge Discovery in Data Bases - KDD) surgem como uma possível solução para dessas relações extrair conhecimento que possa ser aplicado na tomada de decisão em organizações. Mesmo utilizando um KDD, tal atividade pode continuar sendo extremamente difícil devido à grande quantidade de dados que deve ser processada. Assim, nem todos os dados que compõem essas bases servem para um sistema descobrir conhecimento. Em geral, costuma-se pré-processar os dados antes de serem apresentados ao KDD, buscando reduzir a sua quantidade e também selecionar os dados mais relevantes que serão utilizados pelo sistema. Este trabalho propõe o desenvolvimento, aplicação e análise de uma Arquitetura Híbrida formada pela combinação da Teoria dos Rough Sets (Teoria dos Conjuntos Aproximados) com uma arquitetura de rede neural artificial denominada Mapas Auto-Organizáveis ou Self-Organizing Maps (SOM) para descoberta de conhecimento. O objetivo é verificar o desempenho da Arquitetura Híbrida proposta na geração de clusters (agrupamentos) em bases de dados. Em particular, alguns dos experimentos significativos foram feitos para apoiar a tomada de decisão em organizações. / Databases of the real world contain a huge amount of data within which several relations are hidden. These relations are difficult to discover by means of traditional methods such as worksheets and operational informative reports. Therefore, the knowledge discovery systems (KDD) appear as a possible solution to extract, from such relations, knowledge to be applied in decision taking. Even using a KDD system, such activity may still continue to be extremely difficult due to the huge amount of data to be processed. Thus, not all data which are part of this base will be useful for a system to discover knowledge. In general, data are usually previously processed before being presented to a knowledge discovery system in order to reduce their quantity and also to select the most relevant data to be used by the system. This research presents the development, application and analysis of an hybrid architecture formed by the combination of the Rough Sets Theory with an artificial neural net architecture named Self-Organizing Maps (SOM) to discover knowledge. The objective is to verify the performance of the hybrid architecture proposed in the generation of clusters in databases. In particular, some of the important performed experiments targeted the decision taking in organizations.
19

Integrando mineração de séries temporais e fractais para encontrar padrões e eventos extremos em bases de dados climáticas e de sensoriamento remoto / Integrating time series mining and fractals to discover patterns and extreme events in climate and remote sensing databases

Romani, Luciana Alvim Santos 13 December 2010 (has links)
Esta tese apresenta novos metodos baseados na teoria dos fractais e em tecnicas de mineração de dados para dar suporte ao monitoramento agrícola em escala regional, mais especicamente areas com plantações de cana-de-açucar que tem um papel importante na economia brasileira como uma alternativa viavel para a substituição de combustíveis fósseis. Uma vez que o clima tem um grande impacto na agricultura, os agrometeorologistas utilizam dados climáticos associados a índices agrometeorológicos e mais recentemente dados provenientes de satélites para apoiar a tomada de decisão. Neste sentido, foi proposto um método que utiliza a dimensão fractal para identicar mudanças de tendências nas séries climáticas juntamente com um módulo de análise estatística para definir quais atributos são responsáveis por essas alterações de comportamento. Além disso, foram propostos dois métodos de medidas de similaridade para auxiliar na comparação de diferentes regiões agrícolas representadas por múltiplas variáveis provenientes de dados meteorológicos e imagens de sensoriamento remoto. Diante da importância de se estudar os extremos climáticos que podem se intensicar dado os cenários que preveem mudanças globais no clima, foi proposto o algoritmo CLIPSMiner que identifica padrões relevantes e extremos em séries climáticas. CLIPSMiner também permite a identificação de correlação de múltiplas séries considerando defasagem de tempo e encontra padrões de acordo com parâmetros que podem ser calibrados pelos usuários. A busca por padrões de associação entre séries foi alcançada por meio de duas abordagens distintas. A primeira delas integrou o cálculo da correlação de dimensão fractal com uma técnica para tornar os valores contínuos das séries em intervalos discretos e um algoritmo de regras de associação gerando o método Apriori-FD. Embora tenha identificado padrões interessantes em relação a temperatura, este método não conseguiu lidar de forma apropriada com defasagem temporal. Foi proposto então o algoritmo CLEARMiner que de forma não-supervisionada minera padrões em uma série associando-os a padrões em outras séries considerando a possibilidade de defasagem temporal. Os métodos propostos foram comparados a técnicas similares e avaliados por um grupo composto por meteorologistas, agrometeorologistas e especialistas em sensoriamento remoto. Os experimentos realizados mostraram que a aplicação de técnicas de mineração de dados e fractais contribui para melhorar a análise dos dados agrometeorológicos e de satélite auxiliando no trabalho de pesquisadores, além de se configurar como uma ferramenta importante para apoiar a tomada de decisão no agronegócio / This thesis presents new methods based on fractal theory and data mining techniques to support agricultural monitoring in regional scale, specifically regions with sugar canefields. This commodity greatly contributes to the Brazilian economy since it is a viable alternative to replace fossil fuels. Since climate in uences the national agricultural production, researchers use climate data associated to agrometeorological indexes, and recently they also employed data from satellites to support decision making processes. In this context, we proposed a method that uses the fractal dimension to identify trend changes in climate series jointly with a statistical analysis module to define which attributes are responsible for the behavior alteration in the series. Moreover, we also proposed two methods of similarity measure to allow comparisons among different agricultural regions represented by multiples variables from meteorological data and remote sensing images. Given the importance of studying the extreme weather events, which could increase in intensity, duration and frequency according to different scenarios indicated by climate forecasting models, we proposed the CLIPSMiner algorithm to identify relevant patterns and extremes in climate series. CLIPSMiner also detects correlations among multiple time series considering time lag and finds patterns according to parameters, which can be calibrated by the users. We applied two distinct approaches in order to discover association patterns on time series. The first one is the Apriori-FD method that integrates an algorithm to perform attribute selection through applying the correlation fractal dimension, an algorithm of discretization to convert continuous values of series into discrete intervals, and a well-known association rules algorithm (Apriori). Although Apriori-FD has identified interesting patterns related to temperature, this method failed to appropriately deal with time lag. As a solution, we proposed CLEARMiner that is an unsupervised algorithm in order to mine the association patterns in one time series relating them to patterns in other series considering the possibility of time lag. The proposed methods were compared with similar techniques as well as assessed by a group of meteorologists, and specialists in agrometeorology and remote sensing. The experiments showed that applying data mining techniques and fractal theory can contribute to improve the analyses of agrometeorological and satellite data. These new techniques can aid researchers in their work on decision making and become important tools to support decision making in agribusiness
20

Análise do conteúdo de um sistema de informação destinado à microempresa brasileira por meio de aplicação da descoberta de conhecimento em textos

Ramos, Hélia de Sousa Chaves 28 February 2008 (has links)
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Economia, Administração, Contabilidade e Ciência da Informação e Documentação, Departamento de Ciência da Informação e Documentação, 2008. / Submitted by Jaqueline Oliveira (jaqueoliveiram@gmail.com) on 2008-12-02T15:17:53Z No. of bitstreams: 1 DISSERTACAO_2008_HeliaDeSousaCRamos.pdf: 2175025 bytes, checksum: befb78b55511f15b89dd404aa64c76f4 (MD5) / Approved for entry into archive by Georgia Fernandes(georgia@bce.unb.br) on 2009-02-16T14:01:35Z (GMT) No. of bitstreams: 1 DISSERTACAO_2008_HeliaDeSousaCRamos.pdf: 2175025 bytes, checksum: befb78b55511f15b89dd404aa64c76f4 (MD5) / Made available in DSpace on 2009-02-16T14:01:35Z (GMT). No. of bitstreams: 1 DISSERTACAO_2008_HeliaDeSousaCRamos.pdf: 2175025 bytes, checksum: befb78b55511f15b89dd404aa64c76f4 (MD5) / Esta pesquisa aborda a aplicação da técnica de Descoberta de Conhecimento em Texto (DCT) em bases de dados textuais (de conteúdos não-estruturados), repositórios de informações não evidentes, as quais podem se revelar importantes fontes de informação para aplicações diversas, envolvendo processos de tomada de decisão. O objetivo central da pesquisa é verificar a eficácia da DCT na descoberta de informações que possam apoiar a construção de indicadores úteis à tomada de decisão estratégica, assim como a definição de políticas públicas para a microempresa. O estudo de caso foi o conteúdo textual do Serviço Brasileiro de Respostas Técnicas (SBRT), um sistema de informação tecnológica na Web destinado ao setor produtivo, notadamente empreendedores, micro e pequenas empresas, fruto de um esforço compartilhado entre governo, instituições de pesquisa, universidades e iniciativa privada. A metodologia adotada contempla a aplicação da DCT em 6.041 documentos extraídos do sistema de informação SBRT, para a qual foi utilizado o pacote de software SAS Data Mining Solution. A técnica utilizada foi a geração de agrupamentos de documentos a partir dos termos minerados na base de dados. Foram realizadas análises comparativas entre agrupamentos semelhantes e foi selecionado um dos agrupamentos para análise mais aprofundada. Os resultados dessas análises demonstram a eficácia do uso da DCT para extrair informações ocultas em documentos textuais, as quais não poderiam ser visualizadas a partir de recursos tradicionais de recuperação da informação. Uma importante descoberta foi a de que a preocupação com o meio ambiente é um forte componente nas demandas feitas pelos usuários do serviço SBRT. Observou-se a possibilidade de se extraírem informações úteis para apoio à construção de indicadores e à orientação de políticas internas à rede SBRT, assim como para o setor de pequenas e médias empresas. Evidenciou-se, ainda, o potencial da DCT para subsidiar a tomada de decisão, podendo, inclusive, ser utilizada para fins de inteligência competitiva nas organizações. _______________________________________________________________________________________ ABSTRACT / This research addresses the application of Knowledge Discovery in Texts (KDT) in textual databases (of non-structural contents), repositories of non-evident information that can reveal to be important sources of information for several purposes involving decision-making processes. The main objective of the research is to verify the effectiveness of KDT for discovering information that may support the construction of ST&I indicators useful for the strategic decision-making process, as well as for the definition of public policies destined to microenterprises. The case study of the research was the textual content of the Brazilian Service for Technical Answers (Serviço Brasileiro de Respostas Técnicas – SBRT), a technological information database, available in the Web, geared to the Brazilian production sector, specially micro and small enterprises or entrepreneurs. SBRT is a shared effort accomplished by government, research institutions, universities and the private sector. The methodology adopted encompasses the application of KDT in 6.041 documents extracted from SBRT database by using the SAS Data Mining Solution software package. The technique adopted was document clustering from terms mined in the database. A comparative analysis of similar clusters was carried out and one of the clusters was selected to be subject of more profound investigation. The results of these analyses demonstrate the efficacy of using KDT to extract hidden information – that could not be found by using the traditional information retrieval – from textual documents. An important discovery was that environmental concerns are strongly present in the demands posted by SBRT’s users. It was observed the possibility to extract useful information to construct ST&I indicators and to orient policies for SBRT network and for the microenterprise sector as a whole. It was also evidenced the potential of KDT to support decision-making processes in organizations, and, in addition, to be used for competitive intelligence purposes.

Page generated in 0.1315 seconds