• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 77
  • 74
  • 52
  • 10
  • 3
  • 3
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 271
  • 271
  • 177
  • 167
  • 95
  • 56
  • 55
  • 51
  • 50
  • 47
  • 44
  • 43
  • 42
  • 40
  • 36
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
101

Fuzzy-Granular Based Data Mining for Effective Decision Support in Biomedical Applications

He, Yuanchen 04 December 2006 (has links)
Due to complexity of biomedical problems, adaptive and intelligent knowledge discovery and data mining systems are highly needed to help humans to understand the inherent mechanism of diseases. For biomedical classification problems, typically it is impossible to build a perfect classifier with 100% prediction accuracy. Hence a more realistic target is to build an effective Decision Support System (DSS). In this dissertation, a novel adaptive Fuzzy Association Rules (FARs) mining algorithm, named FARM-DS, is proposed to build such a DSS for binary classification problems in the biomedical domain. Empirical studies show that FARM-DS is competitive to state-of-the-art classifiers in terms of prediction accuracy. More importantly, FARs can provide strong decision support on disease diagnoses due to their easy interpretability. This dissertation also proposes a fuzzy-granular method to select informative and discriminative genes from huge microarray gene expression data. With fuzzy granulation, information loss in the process of gene selection is decreased. As a result, more informative genes for cancer classification are selected and more accurate classifiers can be modeled. Empirical studies show that the proposed method is more accurate than traditional algorithms for cancer classification. And hence we expect that genes being selected can be more helpful for further biological studies.
102

An Analysis Of Peculiarity Oriented Interestingness Measures On Medical Data

Aldas, Cem Nuri 01 September 2008 (has links) (PDF)
Peculiar data are regarded as patterns which are significantly distinguishable from other records, relatively few in number and they are accepted as to be one of the most striking aspects of the interestingness concept. In clinical domain, peculiar records are probably signals for malignancy or disorder to be intervened immediately. The investigation of the rules and mechanisms which lie behind these records will be a meaningful contribution for improved clinical decision support systems. In order to discover the most interesting records and patterns, many peculiarity oriented interestingness measures, each fulfilling a specific requirement, have been developed. In this thesis well-known peculiarity oriented interestingness measures, Local Outlier Factor (LOF), Cluster Based Local Outlier Factor (CBLOF) and Record Peculiar Factor (RPF) are compared. The insights derived from the theoretical infrastructures of the algorithms were evaluated by using experiments on synthetic and real world medical data. The results are discussed based on the interestingness perspective and some departure points for building a more developed methodology for knowledge discovery in databases are proposed.
103

Descoberta de equivalência semântica entre atributos em bancos de dados utilizando redes neurais / Discovering semantic equivalences on attributes in databases using neural networks

Lima Junior, José January 2004 (has links)
Com o crescimento das empresas que fazem uso das tecnologias de bancos de dados, os administradores destes bancos de dados criam novos esquemas a cada instante, e na maioria dos casos não existe uma normalização ou procedimentos formais para que tal tarefa seja desempenhada de forma homogênea, resultando assim em bases de dados incompatíveis, o que dificulta a troca de dados entre as mesmas. Quando os Sistemas de Bancos de Dados (SBD) são projetados e implementados independentemente, é normal que existam incompatibilidades entre os dados de diferentes SBD. Como principais conflitos existentes nos esquemas de SBD, podem ser citados problemas relacionados aos nomes dos atributos, armazenamento em diferentes unidades de medida, diferentes níveis de detalhes, atributos diferentes com mesmo nome ou atributos iguais com nomes diferentes, tipos de dado diferentes, tamanho, precisão, etc. Estes problemas comprometem a qualidade da informação e geram maiores custos em relação à manutenção dos dados. Estes problemas são conseqüências de atributos especificados de forma redundante. Estes fatos têm provocado grande interesse em descobrir conhecimento em banco de dados para identificar informações semanticamente equivalentes armazenadas nos esquemas. O processo capaz de descobrir este conhecimento em banco de dados denomina-se DCDB (Descoberta de Conhecimento em Bancos de Dados). As ferramentas disponíveis para a execução das tarefas de DCDB são genéricas e derivadas de outras áreas do conhecimento, em especial, da estatística e inteligência artificial. As redes neurais artificiais (RNA) têm sido utilizadas em sistemas cujo propósito é a identificação de padrões, antes desconhecidos. Estas redes podem aprender similaridades entre os dados, diretamente de suas instâncias, sem conhecimento a priori. Uma RNA que tem sido usada com êxito para identificar equivalência semântica é o Mapa Auto-Organizável (SOM). Esta pesquisa objetiva descobrir, de modo semi-automatizado, equivalência semântica entre atributos de bases de dados, contribuindo para o gerenciamento e integração das mesmas. O resultado da pesquisa gerou uma sistemática para o processo de descoberta e uma ferramenta que a implementa. / With the increasing number of companies using database technologies, the database’s administrators create new schemes at every moment, and in most cases there are no normalization or formal procedures to do this task in a homogeneous form, it results in incompatible databases, that difficult data exchange. When the Database Systems (DBS) are projected and implemented independently, it is normal that data incompatibilities among different DBS. Problems related to the names of the attributes, storage in different measurement units, different levels of detail, different attributes with the same name or equal attributes with different names, different type of data, size, precision, etc, can be cited as main conflicts existing in the DBS schemes. These problems compromise the quality information and generate higher costs regarding the data maintenance. These problems arise as the consequence of redundant attributes’ specification. These facts have caused great interest in discovering knowledge in database to identify information semantically equivalent stored in schemes. The process capable to discover this knowledge in database is called KDD (Knowledge Discovery in Database). The available tools to do KDD tasks are generic and derived from other areas of knowledge, in special, statistics and artificial intelligence. The artificial neural networks (ANN) have been used in systems which aim is the identification of previously unknown patterns. These networks can learn similarities among the data directly from instances, without a priori knowledge. An ANN that has been used with success to identify semantic equivalence is the Self-Organizing Map (SOM). This research aims to discover, in a semi-automatic way, semantic equivalence on database attributes, contributing for the management and integration of these databases. This work resulted in a systematic for the discovery process and a tool that implements it.
104

Gestion de l’incertitude et de l’imprécision dans un processus d’extraction de connaissances à partir des textes / Uncertainty and imprecision management in a knowledge extraction process from unstructured texts

Jean, Pierre-Antoine 23 November 2017 (has links)
Les concepts de découverte et d’extraction de connaissances ainsi que d’inférencesont abordés sous différents angles au sein de la littérature scientifique. En effet, de nombreux domaines s’y intéressent allant de la recherche d’information, à l’implication textuelle en passant par les modèles d’enrichissement automatique des bases de connaissances. Ces concepts suscitent de plus en plus d’intérêt à la fois dans le monde académique et industriel favorisant le développement de nouvelles méthodes.Cette thèse propose une approche automatisée pour l’inférence et l’évaluation de connaissances basée sur l’analyse de relations extraites automatiquement à partir de textes. L’originalité de cette approche repose sur la définition d’un cadre tenant compte (i) de l’incertitude linguistique et de sa détection dans le langage naturel réalisée au travers d’une méthode d’apprentissage tenant compte d’une représentation vectorielle spécifique des phrases, (ii) d’une structuration des objets étudiés (e.g. syntagmes nominaux) sous la forme d’un ordre partiel tenant compte à la fois des implications syntaxiques et d’une connaissance a priori formalisée dans un modèle de connaissances de type taxonomique (iii) d’une évaluation des relations extraites et inférées grâce à des modèles de sélection exploitant une organisation hiérarchique des relations considérées. Cette organisation hiérarchique permet de distinguer différents critères en mettant en œuvre des règles de propagation de l’information permettant ainsi d’évaluer la croyance qu’on peut accorder à une relation en tenant compte de l’incertitude linguistique véhiculée. Bien qu’a portée plus large, notre approche est ici illustrée et évaluée au travers de la définition d’un système de réponse à un questionnaire, généré de manière automatique, exploitant des textes issus du Web. Nous montrons notamment le gain informationnel apporté par la connaissance a priori, l’impact des modèles de sélection établis et le rôle joué par l’incertitude linguistique au sein d’une telle chaîne de traitement. Les travaux sur la détection de l’incertitude linguistique et la mise en place de la chaîne de traitement ont été validés par plusieurs publications et communications nationales et internationales. Les travaux développés sur la détection de l’incertitude et la mise en place de la chaîne de traitement sont disponibles au téléchargement à l’adresse suivante : https ://github.com/PAJEAN/. / Knowledge discovery and inference are concepts tackled in different ways in the scientific literature. Indeed, a large number of domains are interested such as : information retrieval, textual inference or knowledge base population. Theses concepts are arousing increasing interest in both academic and industrial fields, promoting development of new methods.This manuscript proposes an automated approach to infer and evaluate knowledge from extracted relations in non-structured texts. Its originality is based on a novel framework making possible to exploit (i) the linguistic uncertainty thanks to an uncertainty detection method described in this manuscript (ii) a generated partial ordering of studied objects (e.g. noun phrases) taking into account of syntactic implications and a prior knowledge defined into taxonomies, and (iii) an evaluation step of extracted and inferred relations by selection models exploiting a specific partial ordering of relations. This partial ordering allows to compute some criteria in using information propagation rules in order to evaluate the belief associated to a relation in taking into account of the linguistic uncertainty. The proposed approach is illustrated and evaluated through the definition of a system performing question answering by analysing texts available on the Web. This case study shows the benefits of structuring processed information (e.g. using prior knowledge), the impact of selection models and the role of the linguistic uncertainty for inferring and discovering new knowledge. These contributions have been validated by several international and national publications and our pipeline can be downloaded at https ://github.com/PAJEAN/.
105

Descoberta de equivalência semântica entre atributos em bancos de dados utilizando redes neurais / Discovering semantic equivalences on attributes in databases using neural networks

Lima Junior, José January 2004 (has links)
Com o crescimento das empresas que fazem uso das tecnologias de bancos de dados, os administradores destes bancos de dados criam novos esquemas a cada instante, e na maioria dos casos não existe uma normalização ou procedimentos formais para que tal tarefa seja desempenhada de forma homogênea, resultando assim em bases de dados incompatíveis, o que dificulta a troca de dados entre as mesmas. Quando os Sistemas de Bancos de Dados (SBD) são projetados e implementados independentemente, é normal que existam incompatibilidades entre os dados de diferentes SBD. Como principais conflitos existentes nos esquemas de SBD, podem ser citados problemas relacionados aos nomes dos atributos, armazenamento em diferentes unidades de medida, diferentes níveis de detalhes, atributos diferentes com mesmo nome ou atributos iguais com nomes diferentes, tipos de dado diferentes, tamanho, precisão, etc. Estes problemas comprometem a qualidade da informação e geram maiores custos em relação à manutenção dos dados. Estes problemas são conseqüências de atributos especificados de forma redundante. Estes fatos têm provocado grande interesse em descobrir conhecimento em banco de dados para identificar informações semanticamente equivalentes armazenadas nos esquemas. O processo capaz de descobrir este conhecimento em banco de dados denomina-se DCDB (Descoberta de Conhecimento em Bancos de Dados). As ferramentas disponíveis para a execução das tarefas de DCDB são genéricas e derivadas de outras áreas do conhecimento, em especial, da estatística e inteligência artificial. As redes neurais artificiais (RNA) têm sido utilizadas em sistemas cujo propósito é a identificação de padrões, antes desconhecidos. Estas redes podem aprender similaridades entre os dados, diretamente de suas instâncias, sem conhecimento a priori. Uma RNA que tem sido usada com êxito para identificar equivalência semântica é o Mapa Auto-Organizável (SOM). Esta pesquisa objetiva descobrir, de modo semi-automatizado, equivalência semântica entre atributos de bases de dados, contribuindo para o gerenciamento e integração das mesmas. O resultado da pesquisa gerou uma sistemática para o processo de descoberta e uma ferramenta que a implementa. / With the increasing number of companies using database technologies, the database’s administrators create new schemes at every moment, and in most cases there are no normalization or formal procedures to do this task in a homogeneous form, it results in incompatible databases, that difficult data exchange. When the Database Systems (DBS) are projected and implemented independently, it is normal that data incompatibilities among different DBS. Problems related to the names of the attributes, storage in different measurement units, different levels of detail, different attributes with the same name or equal attributes with different names, different type of data, size, precision, etc, can be cited as main conflicts existing in the DBS schemes. These problems compromise the quality information and generate higher costs regarding the data maintenance. These problems arise as the consequence of redundant attributes’ specification. These facts have caused great interest in discovering knowledge in database to identify information semantically equivalent stored in schemes. The process capable to discover this knowledge in database is called KDD (Knowledge Discovery in Database). The available tools to do KDD tasks are generic and derived from other areas of knowledge, in special, statistics and artificial intelligence. The artificial neural networks (ANN) have been used in systems which aim is the identification of previously unknown patterns. These networks can learn similarities among the data directly from instances, without a priori knowledge. An ANN that has been used with success to identify semantic equivalence is the Self-Organizing Map (SOM). This research aims to discover, in a semi-automatic way, semantic equivalence on database attributes, contributing for the management and integration of these databases. This work resulted in a systematic for the discovery process and a tool that implements it.
106

DDAAV DETECTOR DO DESEMPENHO DO ALUNO EM AVAs / DDAAV DETECTOR PERFORMANCE OF STUDENTS IN VLES

Mühlbeier, Andreia Rosangela Kessler 15 April 2014 (has links)
Conselho Nacional de Desenvolvimento Científico e Tecnológico / The virtual learning environments (VLEs) are benefited with advances in the use of technologies in education, enabling a more dynamic and meaningful learning. In the face of increased interaction in these environments, greatly increases the amount of data stored. The process of knowledge discovery in database (KDDKnowledge Discovery in Databases) has been used successfully in several areas and in the academic area some results have been used to assist the teachers. This dissertation describes a survey conducted with the steps of KDD, which utilizes the WEKA tool (free data mining software), specifically the J48 algorithm, to apply data mining techniques on the information stored in the database, in order to detect the student performance while running the course. The research scenario was constructed with data from assessments of introduction to media in education, Integration of the specialization course in Media in education, composed of 134 (one hundred and thirty-four) students, distributed in 5 (five) different poles. In this way, with the results obtained in the research, noted that the application of rules of the algorithm, can be a valuable instrument to professor during the execution of the course, and not only a posteriori, because it allows a positive immediate intervention of even in several variables that impact on the success of the apprentice, as type of material, discussions, activities, methodologies and strategies. / Os Ambientes Virtuais de Aprendizagem (AVAs) são beneficiados com os avanços do uso de tecnologias na Educação, possibilitando uma aprendizagem mais dinâmica e significativa. Diante do aumento de interação nestes ambientes, aumenta consideravelmente o volume de dados armazenados. O processo de Descoberta de Conhecimento em Base de Dados (Knowledge Discovery in Databases - KDD) vem sendo utilizado com sucesso em diversas áreas e na área acadêmica alguns resultados têm sido utilizados para auxiliar os professores. A presente dissertação descreve uma pesquisa realizada com as etapas de KDD, que utiliza a ferramenta WEKA (software de mineração de dados livre), em específico o algoritmo J48, para aplicar técnicas de mineração de dados nas informações armazenadas no banco de dados, a fim de detectar o desempenho dos alunos durante a execução do curso. O cenário de investigação foi construído com os dados oriundos das avaliações da disciplina de Introdução à Integração de Mídias na Educação, do Curso de Especialização em Mídias na Educação, composto de 134 (cento e trinta e quatro) alunos, distribuídos em 5 (cinco) polos distintos. Dessa forma, com os resultados obtidos na pesquisa, observou se que a aplicação de regras do algoritmo, pode ser um valioso instrumento ao professor durante a execução do curso, e não apenas a posteriori, pois possibilita uma intervenção positiva imediata do mesmo, nas diversas variáveis que impactam no sucesso do aprendiz, como tipo de material, discussões, atividades, metodologias e estratégia.
107

Expansão de ontologia através de leitura de máquina contínua

Barchi, Paulo Henrique 31 March 2015 (has links)
Submitted by Bruna Rodrigues (bruna92rodrigues@yahoo.com.br) on 2016-09-26T12:11:20Z No. of bitstreams: 1 DissPHB.pdf: 1422339 bytes, checksum: 7c3b7208c3184e1c18f391a6f6171b04 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-09-26T18:41:54Z (GMT) No. of bitstreams: 1 DissPHB.pdf: 1422339 bytes, checksum: 7c3b7208c3184e1c18f391a6f6171b04 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-09-26T18:42:01Z (GMT) No. of bitstreams: 1 DissPHB.pdf: 1422339 bytes, checksum: 7c3b7208c3184e1c18f391a6f6171b04 (MD5) / Made available in DSpace on 2016-09-26T18:42:09Z (GMT). No. of bitstreams: 1 DissPHB.pdf: 1422339 bytes, checksum: 7c3b7208c3184e1c18f391a6f6171b04 (MD5) Previous issue date: 2015-03-31 / Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) / NELL (Never Ending Language Learning system) (CARLSON et al., 2010) is the first system to practice the Never-Ending Machine Learning paradigm techniques. It has an inactive component to continually extend its KB: OntExt (MOHAMED; Hruschka Jr.; MITCHELL, 2011). Its main idea is to identify and add to the KB new relations which are frequently asserted in huge text data. Co-occurrence matrices are used to structure the normalized values of cooccurrence between the contexts for each category pair to identify those context patterns. The clustering of each matrix is done with Weka K-means algorithm (HALL et al., 2009): from each cluster, a new possible relation. This work present newOntExt: a new approach with new features to turn the ontology extension task feasible to NELL. This approach has also an alternative task of naming new relations found by another NELL component: Prophet. The relations are classified as valid or invalid by humans; the precision is calculated for each experiment and the results are compared to those relative to OntExt. Initial results show that ontology extension with newOntExt can help Never-Ending Learning systems to expand its volume of beliefs and to keep learning with high precision by acting in auto-supervision and auto-reflection. / NELL (Never Ending Language Learning system) (CARLSON et al., 2010) é o primeiro sistema a praticar as técnicas do paradigma de Aprendizado Sem-Fim (ASF). Ele possui um subsistema componente inativo para continuamente expandir a Base de Conhecimento (BC): OntExt, que tem como ideia principal identificar e adicionar à BC novas relações que são frequentemente afirmadas em grandes bases de texto. Para isso, matrizes de coocorrência são utilizadas para estruturar os valores normalizados de co-ocorrência entre as frases verbais para cada par de categorias a fim de identificar padrões de contexto que interligam estas categorias. O agrupamento de cada uma destas matrizes é feito com o algoritmo K-médias do Weka: uma possível relação nova a partir de cada agrupamento. Este trabalho apresenta newOntExt: uma abordagem atualizada com novos recursos para tornar a extensão de ontologia uma tarefa mais palpável. Além desta metodologia tradicional, newOntExt pode validar e nomear relações encontradas pelo Prophet, outro subsistema componente do NELL. As relações geradas são classificadas por humanos como válidas ou inválidas; para cada experimento é calculada a precisão e os resultados são comparados aos de OntExt. Resultados iniciais mostram que a extensão de ontologia com newOntExt pode ajudar sistemas de ASF a expandir o volume de crenças e manter alta precisão ao atuar na auto-supervisão e auto-reflexão.
108

Uma abordagem semântica para seleção de atributos no processo de KDD

Ribeiro, Lamark dos Santos 27 August 2010 (has links)
Made available in DSpace on 2015-05-14T12:36:27Z (GMT). No. of bitstreams: 1 arquivototal.pdf: 2925122 bytes, checksum: e65ad4a8f7ca12fb8a90eaf2a8783d65 (MD5) Previous issue date: 2010-08-27 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Currently, two issues of great importance for the computation are being used together in an increasingly apparent: a Knowledge Discovery in Databases (KDD) and Ontologies. By developing the ways in which data is stored, the amount of information available for analysis has increased exponentially, making it necessary techniques to analyze data and gain knowledge for different purposes. In this sense, the KDD process introduces stages that enable the discovery of useful knowledge, and new features that usually cannot be seen only by viewing the data in raw form. In a complementary field, the Knowledge Discovery can be benefited with Ontologies. These, in a sense, have the capacity to store the "knowledge" about certain areas. The knowledge that can be retrieved through inference classes, descriptions, properties and constraints. Phases existing in the process of knowledge discovery, the selection of attributes allows the area of analysis for data mining algorithms can be improved with attributes more relevant to the problem analyzed. But sometimes these screening methods do not eliminate the attributes satisfactorily, do allow a preliminary analysis on the area treated. To address this problem this paper proposes a system that uses ontologies to store the prior knowledge about a specific domain, enabling a semantic analysis previously not possible using conventional methodologies. Was elaborated an ontology, with reuse of various repositories of ontologies available on the Web, specific to the medical field with a possible common specifications in key areas of medicine. To introduce semantics in the selection of attributes is first performed the mapping between data base attributes and classes of the ontology. Done this mapping, the user can now select attributes by semantic categories, reducing the dimensionality of the data and view redundancies between semantically related attributes. / Atualmente, dois temas de grande importância para a computação, estão sendo utilizados conjuntamente de uma forma cada vez mais aparente: a Descoberta de Conhecimento em Bancos de Dados (Knowledge Discovery in Databases KDD) e as Ontologias. Com o aperfeiçoamento das formas com que os dados são armazenados, a quantidade de informação disponível para análise aumentou exponencialmente, tornando necessário técnicas para analisar esses dados e obter conhecimento para os mais diversos propósitos. Nesse contexto, o processo de KDD introduz etapas que possibilitam a descoberta de conhecimentos úteis, novos e com características que geralmente não podiam ser vistas apenas visualizando os dados de forma bruta. Em um campo complementar, a Descoberta de Conhecimento em Banco de Dados pode ser beneficiada com Ontologias. Essas, de certa forma, apresentam a capacidade para armazenar o conhecimento , segundo um modelo de alta expressividade semântica, sobre determinados domínios. As ontologias permitem que o conhecimento seja recuperado através de inferências nas classes, descrições, propriedades e restrições. Nas fases existentes no processo de descoberta do conhecimento, a Seleção de Atributos permite que o espaço de análise para os algoritmos de Mineração de Dados possa ser melhorado com atributos mais relevantes para o problema analisado. Porém, algumas vezes esses métodos de seleção não eliminam de forma satisfatória os atributos irrelevantes, pois não permitem uma análise prévia sobre o domínio tratado. Para tratar esse problema, esse trabalho propõe um sistema que utiliza ontologias para armazenar o conhecimento prévio sobre um domínio específico, possibilitando uma análise semântica antes não viável pelas metodologias convencionais. Foi elaborada uma ontologia, com reuso de diversos repositórios de ontologias disponíveis na Web, específica para o domínio médico e com possíveis especificações comuns nas principais áreas da medicina. Para introduzir semântica no processo de seleção de atributos primeiro é realizado o mapeamento entre os atributos do banco de dados e as classes da ontologia. Feito esse mapeamento, o usuário agora pode selecionar atributos através de categorias semânticas, reduzir a dimensionalidade dos dados e ainda visualizar redundâncias existentes entre atributos correlacionados semanticamente.
109

Aplicação do processo de descoberta de conhecimento em banco de dados acadêmico utilizando as tarefas de agrupamento e classificação / Applying the knowledge discovery process in academic databases using clustering and classification tasks

Asseiss, Maraísa da Silva Guerra [UNESP] 30 June 2017 (has links)
Submitted by MARAÍSA DA SILVA GUERRA null (maraisa.guerra@ifms.edu.br) on 2017-07-29T00:12:01Z No. of bitstreams: 1 relatorio.pdf: 8678616 bytes, checksum: 003c94cceff80c4879b62a63399f0ff9 (MD5) / Approved for entry into archive by Luiz Galeffi (luizgaleffi@gmail.com) on 2017-08-03T14:47:26Z (GMT) No. of bitstreams: 1 asseiss_msg_me_ilha.pdf: 8678616 bytes, checksum: 003c94cceff80c4879b62a63399f0ff9 (MD5) / Made available in DSpace on 2017-08-03T14:47:26Z (GMT). No. of bitstreams: 1 asseiss_msg_me_ilha.pdf: 8678616 bytes, checksum: 003c94cceff80c4879b62a63399f0ff9 (MD5) Previous issue date: 2017-06-30 / Nos últimos anos a quantidade de dados armazenados diarimente em empresas e instituições aumentou consideravelmente e um dos motivos que contribuiu para isso é a crescente importân- cia dada à informação. De forma geral, esses dados são meramente armazenados e, portanto, subutilizados pelos seus detentores, enquanto poderiam ser estudados a fim de obter novos co- nhecimentos, informações e relacionamentos. Neste contexto, surge o processo de descoberta de conhecimento em banco de dados. Este trabalho apresenta uma introdução a banco de dados, uma revisão bibliográfica sobre o processo de descoberta de conhecimento em banco de dados, a descrição de cada etapa deste processo, uma explanação sobre as tarefas de agrupamento e classificação, além de resumir brevemente as técnicas de particionamento e árvore de decisão. É exposto um estudo sobre o sistema Weka, em que apresenta-se conceitos, funcionalidades e exemplifica-se diversas formas de utilização do sistema. O objetivo principal deste trabalho é propor uma metodologia para descoberta de novos conhecimentos em bancos de dados acadê- micos baseada no processo de descoberta de conhecimento em banco de dados, sendo esta uma metodologia mais simplificada e de execução mais direcionada. Como parte da metodologia este trabalho contribui ainda com uma aplicação desenvolvida em Python como forma de apoio a etapas da metodologia. A metodologia proposta conta com a ferramenta Weka para execução dos algoritmos de data mining e prevê a execução das tarefas de agrupamento e classifica- ção. Por fim o trabalho retrata dois estudos de caso envolvendo bancos de dados acadêmicos reais e a execução de todas as etapas da metodologia proposta, com a utilização do sistema Weka. Os estudos de caso abordam as tarefas de agrupamento e classificação e as técnicas de particionamento e árvores de decisão, com a utilização dos algoritmos SimpleKMeans e J4.8, respectivamente. Os resultados obtidos através dos estudos mostram que a metodologia pro- posta é capaz de gerar conhecimentos novos e úteis, tanto na análise de dados de desempenho acadêmico quanto na análise de dados socioeconômicos dos alunos. / In the past years the amount of data stored daily in companies increased considerably and one of the reasons that contributed to this fact is the increasing importance given to information. In general these data are merely stored and therefore underused by its owners, while they could be studied in order to find out new knowledge, information and relationship. In this context, the knowledge discovery in database process arises. This work presents an introduction to databa- ses, a bibliographic review about the knowledge discovery in databases process, a description of each step of this process, an explanation about the clustering and classification tasks and the summarization os the partition and decision tree techniques. A study of the Weka system is shown, in wich are presented concepts, functionalities and examples of use forms for the sys- tem. The main objective of this work is the proposal of a methodology for knowledge discovery in academic databases based on the KDD process. The presented methodology is a more sim- plified and directed version of the KDD. As part of the methodology this work also presents an application developed in Python programming language as a support tool for the methodology steps. The presented methodology uses the Weka tool for running the data mining algorithms and considers the clustering and classification tasks. Lastly this work describes two case stu- dies involving real academic databases and the execution of all the steps from the proposted methodology using the Weka system. The case studies addresses the clustering and classifica- tion tasks, as well as the partitioning and decision trees techniques, using the SimpleKMeans and J4.8 algorithms respectively. The obtained results show that the methodology is capable of generating new and useful knowledge, both by analyzing academic performance data and by analyzing students’ socioeconomic data.
110

Agrupamento de dados fuzzy colaborativo / Collaborative fuzzy clustering

Luiz Fernando Sommaggio Coletta 19 May 2011 (has links)
Nas últimas décadas, as técnicas de mineração de dados têm desempenhado um importante papel em diversas áreas do conhecimento humano. Mais recentemente, essas ferramentas têm encontrado espaço em um novo e complexo domínio, nbo qual os dados a serem minerados estão fisicamente distribuídos. Nesse domínio, alguns algorithmos específicos para agrupamento de dados podem ser utilizados - em particular, algumas variantes do algoritmo amplamente Fuzzy C-Means (FCM), as quais têm sido investigadas sob o nome de agrupamento fuzzy colaborativo. Com o objetivo de superar algumas das limitações encontradas em dois desses algoritmos, cinco novos algoritmos foram desenvolvidos nesse trabalho. Esses algoritmos foram estudados em dois cenários específicos de aplicação que levam em conta duas suposições sobre os dados (i.e., se os dados são de uma mesma npopulação ou de diferentes populações). Na prática, tais suposições e a dificuldade em se definir alguns dos parâmetros (que possam ser requeridos), podemn orientar a escolha feita pelo usuário entre os algoitmos diponíveis. Nesse sentido, exemplos ilustrativos destacam as diferenças de desempenho entre os algoritmos estudados e desenvolvidos, permitindo derivar algumas conclusões que podem ser úteis ao aplicar agrupamento fuzzy colaborativo na prática. Análises de complexidade de tempo, espaço, e comunicação também foram realizadas / Data mining techniques have played in important role in several areas of human kwnowledge. More recently, these techniques have found space in a new and complex setting in which the data to be mined are physically distributed. In this setting algorithms for data clustering can be used, such as some variants of the widely used Fuzzy C-Means (FCM) algorithm that support clustering data ditributed across different sites. Those methods have been studied under different names, like collaborative and parallel fuzzy clustring. In this study, we offer some augmentation of the two FCM-based clustering algorithms used to cluster distributed data by arriving at some constructive ways of determining essential parameters of the algorithms (including the number of clusters) and forming a set systematically structured guidelines as to a selection of the specific algorithm dependeing upon a nature of the data environment and the assumption being made about the number of clusters. A thorough complexity analysis including space, time, and communication aspects is reported. A series of detailed numeric experiments is used to illustrate the main ideas discussed in the study

Page generated in 0.0903 seconds