Global ETD Search

131	O processo de extração de conhecimento de base de dados apoiado por agentes de software. / The process of knowledge discovery in databases supported by software agents. Oliveira, Robson Butaca Taborelli de 01 December 2000 (has links) Os sistemas de aplicações científicas e comerciais geram, cada vez mais, imensas quantidades de dados os quais dificilmente podem ser analisados sem que sejam usados técnicas e ferramentas adequadas de análise. Além disso, muitas destas aplicações são voltadas para Internet, ou seja, possuem seus dados distribuídos, o que dificulta ainda mais a realização de tarefas como a coleta de dados. A área de Extração de Conhecimento de Base de Dados diz respeito às técnicas e ferramentas usadas para descobrir automaticamente conhecimento embutido nos dados. Num ambiente de rede de computadores, é mais complicado realizar algumas das etapas do processo de KDD, como a coleta e processamento de dados. Dessa forma, pode ser feita a utilização de novas tecnologias na tentativa de auxiliar a execução do processo de descoberta de conhecimento. Os agentes de software são programas de computadores com propriedades, como, autonomia, reatividade e mobilidade, que podem ser utilizados para esta finalidade. Neste sentido, o objetivo deste trabalho é apresentar a proposta de um sistema multi-agente, chamado Minador, para auxiliar na execução e gerenciamento do processo de Extração de Conhecimento de Base de Dados. / Nowadays, commercial and scientific application systems generate huge amounts of data that cannot be easily analyzed without the use of appropriate tools and techniques. A great number of these applications are also based on the Internet which makes it even more difficult to collect data, for instance. The field of Computer Science called Knowledge Discovery in Databases deals with issues of the use and creation of the tools and techniques that allow for the automatic discovery of knowledge from data. Applying these techniques in an Internet environment can be particulary difficult. Thus, new techniques need to be used in order to aid the knowledge discovery process. Software agents are computer programs with properties such as autonomy, reactivity and mobility that can be used in this way. In this context, this work has the main goal of presenting the proposal of a multiagent system, called Minador, aimed at supporting the execution and management of the Knowledge Discovery in Databases process. agentes agents data mining KDD knowledge discovery in databases mineração de dados multi-agents system sistema multiagentes
132	"Pós-processamento de regras de associação" / Post-processing of association rules Melanda, Edson Augusto 30 November 2004 (has links) A demanda por métodos de análise e descoberta de conhecimento em grandes bases de dados tem fortalecido a pesquisa em Mineração de Dados. Dentre as tarefas associadas a essa área, tem-se Regras de Associação. Vários algoritmos foram propostos para tratamento de Regras de Associação, que geralmente tem como resultado um elevado número de regras, tornando o Pós-processamento do conhecimento uma etapa bastante complexa e desafiadora. Existem medidas para auxiliar essa etapa de avaliação de regras, porém existem lacunas referentes a inexistência de um método intuitivo para priorizar e selecionar regras. Além disso, não é possível encontrar metodologias específicas para seleção de regras considerando mais de uma medida simultaneamente. Esta tese tem como objetivo a proposição, desenvolvimento e implementação de uma metodologia para o Pós-processamento de Regras de Associação. Na metodologia proposta, pequenos grupos de regras identificados como potencialmente interessantes são apresentados ao usuário especialista para avaliação. Para tanto, foram analisados métodos e técnicas utilizadas em Pós-processamento de conhecimento, medidas objetivas para avaliação de Regras de Associação e algoritmos que geram regras. Dessa perspectiva foram realizados experimentos para identificar o potencial das medidas a serem empregadas como filtros de Regras de Associação. Uma avaliação gráfica apoiou o estudo das medidas e a especificação da metodologia proposta. Aspecto inovador da metodologia proposta é a utilização do método de Pareto e a combinação de medidas para selecionar as Regras de Associação. Por fim foi implementado um ambiente para avaliação de Regras de Associação, denominado ARInE, viabilizando o uso da metodologia proposta. / The large demand of methods for knowledge discovery and analysis in large databases has continously increased the research in data mining area. Among the tasks associated to this area, one can find Association Rules. Several algorithms have been proposed for treating Association Rules. However, these algorithms give as results a huge amount of rules, making the knowledge post-processing phase very complex and challeging. There are several measures that can be used in this evaluation phase, but there are also some limitations regarding to the ausence of an intuitive method to rank and select rules. Moreover, it is not possible to find especific methodologies for selecting rules, considering more than one measure simultaneously. This thesis has as objective the proposal, development and implementation of a postprocessing methodology for Association Rules. In the proposed methodology, small groups of rules, which have been identified as potentialy interesting, are presented to the expert for evaluation. In this sense, methods and techniques for knowledge post-processing, objective measures for rules evaluation, and Association Rules algorithms have been analized. From this point of view, several experiments have been realized for identifying the potential of such measures to be used to filter Association Rules. The study of measures and the specification of the proposed methodology have been supported by a graphical evaluation. The novel aspect of the proposed methodology consists on using the Paretos method and combining measures for selecting Association Rules. Finally, an enviroment for evaluating Association Rules, named as ARInE, has been implemented according to the proposed methodology. Association Rules Data mining Mineração de dados Pós-processamento post-processing Regras de Associação
133	Mining User Activity Data in Social Media Services / Mineração de Dados de Atividade de Usuários em Serviços de Mídia Social Costa, Alceu Ferraz 12 May 2017 (has links) Social media services have a growing impact in our society. Individuals often rely on social media to get their news, decide which products to buy or to communicate with their friends. As consequence of the widespread adoption of social media, a large volume of data on how users behave is created every day and stored into large databases. Learning how to analyze and extract useful knowledge from this data has a number of potential applications. For instance, a deeper understanding on how legitimate users interact with social media services could be explored to design more accurate spam and fraud detection methods. This PhD research is based on the following hypothesis: data generated by social media users present patterns that can be exploited to improve the effectiveness of tasks such as prediction, forecasting and modeling in the domain of social media. To validate our hypothesis, we focus on designing data mining methods tailored to social media data. The main contributions of this PhD can be divided into three parts. First, we propose Act-M, a mathematical model that describes the timing of users actions. We also show that Act-M can be used to automatically detect bots among social media users based only on the timing (i.e. time-stamp) data. Our second contribution is VnC (Vote-and-Comment), a model that explains how the volume of different types of user interactions evolve over time when a piece of content is submitted to a social media service. In addition to accurately matching real data, VnC is useful, as it can be employed to forecast the number of interactions received by social media content. Finally, our third contribution is the MFS-Map method. MFS-Map automatically provides textual annotations to social media images by efficiently combining visual and metadata features. Our contributions were validated using real data from several social media services. Our experiments show that the Act-M and VnC models provided a more accurate fit to the data than existing models for communication dynamics and information diffusion, respectively. MFS-Map obtained both superior precision and faster speed when compared to other widely employed image annotation methods. / O impacto dos serviços de mídia social em nossa sociedade é crescente. Indivíduos frequentemente utilizam mídias sociais para obter notícias, decidir quais os produtos comprar ou para se comunicar com amigos. Como consequência da adoção generalizada de mídias sociais, um grande volume de dados sobre como os usuários se comportam é gerado diariamente e armazenado em grandes bancos de dados. Aprender a analisar e extrair conhecimentos úteis a partir destes dados tem uma série de potenciais aplicações. Por exemplo, um entendimento mais detalhado sobre como usuários legítimos interagem com serviços de mídia social poderia ser explorado para projetar métodos mais precisos de detecção de spam e fraude. Esta pesquisa de doutorado baseia-se na seguinte hipótese: dados gerados por usuários de mídia social apresentam padrões que podem ser explorados para melhorar a eficácia de tarefas como previsão e modelagem no domínio das mídias sociais. Para validar esta hipótese, foram projetados métodos de mineração de dados adaptados aos dados de mídia social. As principais contribuições desta pesquisa de doutorado podem ser divididas em três partes. Primeiro, foi desenvolvido o Act-M, um modelo matemático que descreve o tempo das ações dos usuários. O autor demonstrou que o Act-M pode ser usado para detectar automaticamente bots entre usuários de mídia social com base apenas nos dados de tempo. A segunda contribuição desta tese é o VnC (Vote-and- Comment), um modelo que explica como o volume de diferentes tipos de interações de usuário evolui ao longo do tempo quando um conteúdo é submetido a um serviço de mídia social. Além de descrever precisamente os dados reais, o VnC é útil, pois pode ser empregado para prever o número de interações recebidas por determinado conteúdo de mídia social. Por fim, nossa terceira contribuição é o método MFS-Map. O MFS-Map fornece automaticamente anotações textuais para imagens de mídias sociais, combinando eficientemente características visuais e de metadados das imagens. As contribuições deste doutorado foram validadas utilizando dados reais de diversos serviços de mídia social. Os experimentos mostraram que os modelos Act-M e VnC forneceram um ajuste mais preciso aos dados quando comparados, respectivamente, a modelos existentes para dinâmica de comunicação e difusão de informação. O MFS-Map obteve precisão superior e tempo de execução reduzido quando comparado com outros métodos amplamente utilizados para anotação de imagens. Data mining Mídia social Mineração de dados Modelagem de usuários Social media User Modeling
134	APLICAÇÃO DA MINERAÇÃO DE DADOS NA DESCOBERTA DE PADRÕES DO PERFIL DE ALUNOS DO CURSO DE SI-UnUCET-UEG Del-fiaco, Ronaldo de Castro 13 March 2012 (has links) Made available in DSpace on 2016-08-10T10:40:15Z (GMT). No. of bitstreams: 1 RONALDO DE CASTRO DEL-FIACO.pdf: 3047529 bytes, checksum: b55c6c1e7ebb7f0baf421ea95eb9683a (MD5) Previous issue date: 2012-03-13 / The Data Mining (DM) is a part of the process of Knowledge Discovery in Databases. Its implementation requires knowledge of various areas such as computer sciences, statistics, management sciences and the business itself. In particular, it can be applied to discover knowledge that allows the manager to improve the quality of the learning process in which he/she is involved. This work presents the theoretical background of data mining, describes and analyzes a case study where the main objective is to apply the Cross-Industry Standard Process for Data Mining - CRISP-DM methodology to identify the profile of the student that graduates in due time from the course of Bachelor of Information Systems of the State University of Goiás at Anápolis. It describes the data preparation that is used in the process and identify the best proposals for analysis of the case study. As input data, both the transcripts and the answers of the socioeconomic and cultural questionnaire applied to the students are used as attributes for the evaluation of decision tree algorithms implemented in the data mining tool known as WEKA. It was possible to realize that data mining requires a professional who mastered the theory of DM to correctly calibrate the tools and extensive knowledge of the business in order to determine the data mining goals and interpret the results. / A mineração de dados (Data Mining - DM) é uma parte do processo para descobrir conhecimento em base de dados. Sua realização exige conhecimentos de várias áreas tais como a computação, a estatística, as ciências administrativas e do próprio negócio. Em particular, pode ser aplicada para descobrir conhecimento que permita ao gestor educacional melhorar a qualidade do processo ensino-aprendizagem no qual esteja envolvido. Este trabalho apresenta o embasamento teórico em mineração de dados, descreve e analisa um estudo de caso, cujo principal objetivo é aplicar a metodologia Cross-Industry Standard Process for Data Mining - CRISP-DM na identificação do padrão do perfil do aluno que integraliza o curso de Bacharelado em Sistemas de Informação da Unidade Universitária de Ciências Exatas e Tecnológicas da Universidade de Estadual de Goiás, no tempo mínimo previsto pelo projeto pedagógico do curso. É realizada a preparação dos dados que são utilizados no processo para, posteriormente, identificar as melhores propostas de análise do estudo de caso. Como dados de entrada, recorre-se às respostas do questionário socioeconômico e cultural aplicados aos vestibulandos e ao histórico escolar dos mesmos, que são utilizados como atributos para a avaliação dos algoritmos de árvore de decisão, através da ferramenta WEKA. Com este estudo, foi possível perceber que, para realizar a mineração de dados, é necessário um profissional que domine a teoria de DM, saiba calibrar uma ferramenta computacional e tenha conhecimento aprofundado do negócio, para determinar os objetivos da DM e interpretar os resultados encontrados. Mineração de dados Descoberta de conhecimento WEKA Classificação Data Mining Knowledge Discovery WEKA Classification
135	MINERAÇÃO DE DADOS APLICADA A CLASSIFICAÇÃO DOS CONTRIBUINTES DO ISS. / DATA MINING APPLIED TO THE CLASSIFICATION OF THE TAXPAYERS OF THE TOWN OF GOIÂNIA. Piccirilli, Tiago Levergger 23 April 2013 (has links) Made available in DSpace on 2016-08-10T10:40:18Z (GMT). No. of bitstreams: 1 TIAGO LEVERGGER PICCIRILLI.pdf: 1547203 bytes, checksum: e65b171ba35efb72a84100fe0a5088d9 (MD5) Previous issue date: 2013-04-23 / The Public Administration is responsible for the institution, receiving and control of taxes paid by taxpayers. This feature is indispensable to maintenance of its administrative structure and establishment public policies. To improve the control performed by the administration, it s necessary to invest in new technologies since the inspection department constantly receives large data movement economic and regularization of taxpayers. The current computational resources store information with a larger human perception of manipulation and knowledge extraction. In this context, appears in science an area called data mining, specific to extract unknown patterns and knowledge through databases. This study aimed to develop a model to classify taxpayers Tax Services (ISS) which showed some irregularity, with resources and techniques of data mining. The study was performed in the city of Goiania in finance secretary specifically of the Department of Revenue, covering the scenario presented in the year 2011. Among the models built with decision tree algorithm, presented as a result, the classification of irregular contributors with a hit rate of 92,03%. / A administração pública é responsável pela instituição, recebimento e controle de tributos pagos pelos contribuintes. Este recurso é imprescindível para manutenção de sua estrutura administrativa e estabelecimento de políticas públicas. Para aperfeiçoar o controle realizado pela administração é necessário investimento em novas tecnologias, visto que o departamento de fiscalização recebe constantemente inúmeros dados da movimentação econômica dos contribuintes e de regularização cadastral. Os recursos computacionais atuais armazenam informações com capacidade superior à condição humana de manipulação e extração de conhecimento. Nesse contexto, surge na ciência uma área denominada Mineração de Dados, especifica para extrair conhecimento e padrões desconhecidos por meio de bases de dados. Este trabalho apresenta um modelo para classificar os contribuintes do Imposto Sobre Serviços de Qualquer Natureza (ISS) que apresentaram alguma irregularidade, de posse dos recursos e técnicas da mineração. O trabalho foi realizado no Município de Goiânia na Secretaria de Finanças especificamente no departamento de Arrecadação, abrangendo o cenário apresentado no ano de 2011. Entre os modelos construídos com algoritmo de árvore de decisão, apresentou como resultado, a classificação dos contribuintes irregulares com um índice de acertos de 92,03%. Mineração de dados detecção de irregularidade ISS Data Mining irregularity detection ISS
136	DESCOBERTA DE CONHECIMENTO NA PLATAFORMA LATTES: UM ESTUDO DE CASO NO INSTITUTO FEDERAL DE GOIÁS. / KNOWLEDGE DISCOVERY IN LATTES PLATFORM: A CASE STUDY IN THE FEDERAL INSTITUTE OF GOIAS. Cavalcante, Renata de Souza Alves Paula 24 February 2014 (has links) Made available in DSpace on 2016-08-10T10:40:21Z (GMT). No. of bitstreams: 1 RENATA DE SOUZA ALVES PAULA CAVALCANTE.pdf: 3920138 bytes, checksum: 5a8a21fa7b849ef942fb6113dc3f6635 (MD5) Previous issue date: 2014-02-24 / Ao longo do tempo, percebeu-se que a velocidade do acúmulo de informações era maior do que a velocidade de processamento e análise das mesmas. Não adianta uma organização ter muita informação, se não souber dela extrair conhecimento útil. É preciso que sejam feitas análises apuradas sobre os dados e descobrir quais são os padrões de comportamentos existentes nos mesmos. Assim, uma organização poderá realizar tomada de decisão de forma mais segura, baseada em fatos reais e não em meras suposições, inclusive no âmbito da gestão de Ciência e Tecnologia. Este trabalho teve como objetivo realizar um estudo de caso no Instituto Federal de Goiás (IFG), aplicando o processo de Knowledge Discovery in Database (KDD), na tentativa de identificar padrões que representem o perfil da produção científica dos docentes da instituição. A maior parte dos dados analisados foram extraídos da Plataforma Lattes (PL) e o período da pesquisa fixado no último triênio. Pretendeu-se obter conhecimento sobre a produtividade dos docentes e provê-los à Pró-Reitoria de Pesquisa e Pós-Graduação do IFG para auxiliar na sua gestão. A pesquisa aborda por meio de um levantamento bibliográfico os conceitos sobre Gestão do Conhecimento (GC), o processo de KDD, incluindo a Mineração de Dados (MD) com suas tarefas e técnicas, a produção científica, a PL e o contexto atual do IFG. Dessa forma, entre os resultados obtidos no trabalho, viu-se que a aplicação do KDD pode ser um poderoso instrumento para a gestão das informações nas instituições de ensino. Descoberta de Conhecimento Plataforma Lattes Mineração de Dados Knowledge Discovery Lattes Platform Data Mining
137	IMPLICAÇÕES DO DIABETES MELLITUS NA QUALIDADE DE VIDA DE INDIVÍDUOS, PARTICIPANTES DO PROGRAMA DE SAÚDE PARA O DIABÉTICO TIPO 2 DO HOSPITAL DO POLICIAL MILITAR (PSPD - HPM) Diniz, Sandra Maria da Fonseca 23 June 2009 (has links) Made available in DSpace on 2016-08-10T10:55:46Z (GMT). No. of bitstreams: 1 SANDRA MARIA DA FONSECA DINIZ.pdf: 904945 bytes, checksum: d43fe1e9a50dffc1c64786ab54cc2ad4 (MD5) Previous issue date: 2009-06-23 / It is about a study intended to evaluate the quality of life of diabetic militaries and his dependants (wives), to identify and associate the main risk factors that interfere on quality of life and make associations between quality of life and the main risk factors in diabetes mellitus 2 (DM2) patients through statistical significance and data mining. The study population was made out of 70 militaries and his wives, all patients with DM2 subscribed to the program entitled Attention, Prevention, Control and Treatment of DM2 of Military Police Hospital in Goiânia, GO, during the following period: from August to November 2008. Two closed questionnaires were applied, the first one referring to social-demographic variables, life style, clinical history, anthropometrical data, and the second one through a specific instrument of World Health Organization (WHO) to evaluate quality of life entitled WHOQOL bref. The most relevant variables and abrangência were: unbalanced diet with 78,6%, altered sugar rate with 91,5%, arterial hypertension with 54,2%, hypertension in the family with 71,4%. The complications referring to DM2 were foot injuries (25,7%), blindness (20,0%) and nephropathy (11,4%). The answers from survey individuals concerning the WHOQOL questionnaire bref detected that: 42 individuals (60,0%) considered their quality of life as good. However, 36 (51,4%) reported that they have negative feelings, sometimes. In relation to WHOQOL-bref domains, the ones of major prevalence were the social one followed by the environmental one. To execute the data mining method (Data Mininig, DM) it was utilized a tool known as Weka which allowed associations between the quality of life variables, risk factors and negative feelings. For the associations, attributes between themselves were strongly related, thus generating two associations. The first one - between quality of life and complications - and the second one - between quality of life, complications and negative feelings. Results demonstrated that the associations between quality of life, negative feelings and complications of DM have individual significance when related to the disease. / Trata-se de um estudo com objetivo de avaliar a qualidade de vida de militares diabéticos e seus dependentes (esposas), identificar e associar os principais fatores de risco que interferem na qualidade de vida, e realizar associações entre a qualidade de vida e os principais fatores de risco, em portadores de diabetes mellitus2 (DM2), através de técnicas estatísticas e da mineração de dados. A população de estudo foi constituída de 70 militares e suas esposas, todos portadores de DM2 inscritos no programa de atenção, prevenção, controle e tratamento de DM 2, do Hospital do Policial Militar em Goiânia, GO, no período de agosto a novembro de 2008. Foram aplicados dois questionários fechados, sendo o primeiro referente às variáveis sociodemográficas, estilo de vida, história clínica, dados antropométricos, e o segundo através de instrumento específico da Organização Mundial de Saúde (OMS), para avaliação da qualidade de vida, denominado WHOQUOL bref. As variáveis de maior relevância e abrangência foram: dieta não equilibrada com 78,6%, taxa de açúcar alterado com 91,5%, hipertensão arterial com 54,2%, hipertensão na família com 71,4%. As complicações referentes ao DM 2 encontradas foram a lesão em pé (25,7%) , a cegueira (20,0%) e a nefropatia (11,4%). As respostas dos sujeitos da pesquisa relativas ao questionário WHOQUOL bref detectaram que: 42 indivíduos (60,0%) consideram a sua qualidade de como boa. Entretanto, 36 (51,4%) relataram ter sentimentos negativos algumas vezes. Em relação aos domínios do WHOQOL-bref, os de maiores prevalência foram o social seguido do ambiental. Para a execução do método data mining (Mineração de Dados, MD) foi utilizada uma ferramenta conhecida como Weka que permitiu associações entre as variáveis qualidades de vida, fatores de risco e sentimentos negativos. Para as associações foram relacionados fortemente atributos entre si que geraram duas associações. A primeira entre qualidade de vida e complicações e a segunda entre qualidade de vida, complicações e sentimentos negativos. Os resultados mostram que as associações entre a qualidade de vida, os sentimentos negativos e as complicações do DM têm significado individual quando relacionados com a doença. Qualidade de Vida Diabetes Mellitus Mineração de Dados Quality of life Diabetes Mellitus Data Mining CNPQ::CIENCIAS DA SAUDE
138	Análise multitemporal do uso da terra e da cobertura vegetal na região de Alfenas - Sul de Minas Gerais, utilizando imagens Landsat-5 TM SOUSA, Diego Gomes de 25 August 2014 (has links) Vários estudos têm mostrado que fragmentos florestais rodeados por diferentes matrizes sofrem diferentes pressões ecológicas sobre a fauna e flora. A luz disto, o presente estudo objetivou avaliar as mudanças no uso da terra e cobertura vegetal na região de Alfenas, sul do estado de Minas Gerais, focando na conservação de fragmentos florestais. Foram utilizadas as bandas 1 a 5 e 7 das imagens do satélite Landsat-5 Thematic Mapper (TM) dos anos de 1987 e 2011. A classificação das imagens foi realizada utilizando o aplicativo Geographic Data Mining Analyst (GeoDMA), um pacote especialmente voltado para mineração de dados espaciais. Os seguintes procedimentos foram adotados para a realização do estudo: segmentação das imagens; extração de atributos espectrais e espaciais; amostragem; geração da árvore de decisão; classificação; edição dos erros e análise das mudanças por meio de uma matriz de detecção de mudanças. Os resultados mostraram a importância da complementaridade das informações disponíveis em cada banda para a classificação do uso da terra e cobertura vegetal. Com relação as mudanças no uso, observou-se um aumento das classes cana-de-açúcar, café e solo exposto em áreas antes utilizadas para pastagem. Estas informações são importantes nos estudos de ecologia da paisagem, pois podem auxiliar na interpretação da dinâmica ecológica dos fragmentos florestais. / Several studies have shown that native forest fragments sur rounded by different landuse matrixes undergo different ecological pressures on fauna and flora. In light this, we studied the land-use and land-cover changes in the region of Alfenas, southern Minas Gerais state, aiming the conservation of forest fragments. Landsat-5 Thematic Mapper (TM) images, bands 1 to 5 and 7, from 1987 and 2011, were used. Image classification was achieved using the Geographic Data Mining Analyst (GeoDMA), a toolbox specially addressed for spatial data mining. To carry out this investigation, the following procedures were adopted: image segmentation, spectral and spatial features extraction, sampling, decision tree generation, classification, error edition, and analysis of land-use and land-cover changes by using a change detection matrix. The results showed the importance of complementarity of information available in each band for classifying different land use and land cover types. As for land use change, an increase of sugar cane, coffee and bare soil were registered on previously areas used for pasture. Such information are important, since they may support interpretations of ecological dynamics of forest fragments. / Fundação de Amparo à Pesquisa do Estado de Minas Gerais - FAPEMIG Sensoriamento remoto Mineração de Dados Imagens de Satélites Geopreocessamento CIENCIAS EXATAS E DA TERRA::GEOCIENCIAS
139	VEDALOGIC - um método para a verificação de dados climatológicos. Henrique Gonçalves Salvador 15 December 2008 (has links) Esta pesquisa aborda o desenvolvimento de um Método para a Verificação de Dados Climatológicos -- VEDALOGIC, que se utiliza de modelos criados com algoritmos de Mineração de Dados. Este método utiliza modelos de clustering para a determinação de grupos homogêneos em um Banco de Dados Climatológicos (BDC). A partir desses grupos pode-se detectar dados suspeitos. Após a detecção de um dado suspeito, este será predito, baseado em um modelo de árvore de decisão gerado a partir de uma série histórica de dados. Em seguida, compara-se o valor predito com o valor do dado suspeito e caso haja uma diferença superior a 4%, o dado suspeito é considerado como um ruído. Uma vez detectado um ruído, uma mensagem é gerada contendo: o campo com o dado ruidoso; o intervalo de valores esperados; e uma sugestão para o ajuste com um valor pontual. A partir de alguns experimentos realizados, constatou-se que os ajustes baseados nas informações fornecidas pelo VEDALOGIC, contribuirão para o aumento da qualidade e da confiabilidade dos dados contidos no BDC. Para a construção dos modelos utilizados no VEDALOGIC, utilizou-se os algoritmos EM e K-means para gerar os modelos de clustering e os algoritmos M5P e REPTree para gerar os modelos de árvore de decisão. Para a verificação do método proposto, inseriu-se ruídos no BDC. Após aplicar o VEDALOGIC o resultado mais significativo foi a detecção de todos os ruídos inseridos e que os valores sugeridos para correção atingiram uma média de precisão acima de 97%. Mineração de dados Banco de dados Climatologia Análise de aglomerados Processamento de dados Algoritmos Computação
140	DocSense - infraestrutura para categorização, atribuição e recuperação semântica de documentos. Adalberto Dias Costa 24 April 2009 (has links) Este trabalho apresenta uma infraestrutura para categorização, atribuição e recuperação semântica de documentos denominada DocSense. O objetivo intrínseco na concepção da infraestrutura é integrar o processo de categorização de documentos à uma ontologia de topo, de forma a possibilitar que essa ontologia seja estendida e enriquecida semanticamente. Ao final, documentos, na forma de instâncias de classes dessa ontologia, podem ser recuperados por meio de um mecanismo de busca oferecido pela infraestrutura que retorna, não só uma coleção de documentos, mas também o caminho semântico que permitiu a descoberta. Arquitetura de software Web semântica Recuperação da informação Documentos eletrônicos Mineração de dados Ontologias (inteligência artificial) Engenharia de software

Search results