Spelling suggestions: "subject:"mineração dde dados."" "subject:"mineração dee dados.""
131 |
O processo de extração de conhecimento de base de dados apoiado por agentes de software. / The process of knowledge discovery in databases supported by software agents.Oliveira, Robson Butaca Taborelli de 01 December 2000 (has links)
Os sistemas de aplicações científicas e comerciais geram, cada vez mais, imensas quantidades de dados os quais dificilmente podem ser analisados sem que sejam usados técnicas e ferramentas adequadas de análise. Além disso, muitas destas aplicações são voltadas para Internet, ou seja, possuem seus dados distribuídos, o que dificulta ainda mais a realização de tarefas como a coleta de dados. A área de Extração de Conhecimento de Base de Dados diz respeito às técnicas e ferramentas usadas para descobrir automaticamente conhecimento embutido nos dados. Num ambiente de rede de computadores, é mais complicado realizar algumas das etapas do processo de KDD, como a coleta e processamento de dados. Dessa forma, pode ser feita a utilização de novas tecnologias na tentativa de auxiliar a execução do processo de descoberta de conhecimento. Os agentes de software são programas de computadores com propriedades, como, autonomia, reatividade e mobilidade, que podem ser utilizados para esta finalidade. Neste sentido, o objetivo deste trabalho é apresentar a proposta de um sistema multi-agente, chamado Minador, para auxiliar na execução e gerenciamento do processo de Extração de Conhecimento de Base de Dados. / Nowadays, commercial and scientific application systems generate huge amounts of data that cannot be easily analyzed without the use of appropriate tools and techniques. A great number of these applications are also based on the Internet which makes it even more difficult to collect data, for instance. The field of Computer Science called Knowledge Discovery in Databases deals with issues of the use and creation of the tools and techniques that allow for the automatic discovery of knowledge from data. Applying these techniques in an Internet environment can be particulary difficult. Thus, new techniques need to be used in order to aid the knowledge discovery process. Software agents are computer programs with properties such as autonomy, reactivity and mobility that can be used in this way. In this context, this work has the main goal of presenting the proposal of a multiagent system, called Minador, aimed at supporting the execution and management of the Knowledge Discovery in Databases process.
|
132 |
"Pós-processamento de regras de associação" / Post-processing of association rulesMelanda, Edson Augusto 30 November 2004 (has links)
A demanda por métodos de análise e descoberta de conhecimento em grandes bases de dados tem fortalecido a pesquisa em Mineração de Dados. Dentre as tarefas associadas a essa área, tem-se Regras de Associação. Vários algoritmos foram propostos para tratamento de Regras de Associação, que geralmente tem como resultado um elevado número de regras, tornando o Pós-processamento do conhecimento uma etapa bastante complexa e desafiadora. Existem medidas para auxiliar essa etapa de avaliação de regras, porém existem lacunas referentes a inexistência de um método intuitivo para priorizar e selecionar regras. Além disso, não é possível encontrar metodologias específicas para seleção de regras considerando mais de uma medida simultaneamente. Esta tese tem como objetivo a proposição, desenvolvimento e implementação de uma metodologia para o Pós-processamento de Regras de Associação. Na metodologia proposta, pequenos grupos de regras identificados como potencialmente interessantes são apresentados ao usuário especialista para avaliação. Para tanto, foram analisados métodos e técnicas utilizadas em Pós-processamento de conhecimento, medidas objetivas para avaliação de Regras de Associação e algoritmos que geram regras. Dessa perspectiva foram realizados experimentos para identificar o potencial das medidas a serem empregadas como filtros de Regras de Associação. Uma avaliação gráfica apoiou o estudo das medidas e a especificação da metodologia proposta. Aspecto inovador da metodologia proposta é a utilização do método de Pareto e a combinação de medidas para selecionar as Regras de Associação. Por fim foi implementado um ambiente para avaliação de Regras de Associação, denominado ARInE, viabilizando o uso da metodologia proposta. / The large demand of methods for knowledge discovery and analysis in large databases has continously increased the research in data mining area. Among the tasks associated to this area, one can find Association Rules. Several algorithms have been proposed for treating Association Rules. However, these algorithms give as results a huge amount of rules, making the knowledge post-processing phase very complex and challeging. There are several measures that can be used in this evaluation phase, but there are also some limitations regarding to the ausence of an intuitive method to rank and select rules. Moreover, it is not possible to find especific methodologies for selecting rules, considering more than one measure simultaneously. This thesis has as objective the proposal, development and implementation of a postprocessing methodology for Association Rules. In the proposed methodology, small groups of rules, which have been identified as potentialy interesting, are presented to the expert for evaluation. In this sense, methods and techniques for knowledge post-processing, objective measures for rules evaluation, and Association Rules algorithms have been analized. From this point of view, several experiments have been realized for identifying the potential of such measures to be used to filter Association Rules. The study of measures and the specification of the proposed methodology have been supported by a graphical evaluation. The novel aspect of the proposed methodology consists on using the Paretos method and combining measures for selecting Association Rules. Finally, an enviroment for evaluating Association Rules, named as ARInE, has been implemented according to the proposed methodology.
|
133 |
Mining User Activity Data in Social Media Services / Mineração de Dados de Atividade de Usuários em Serviços de Mídia SocialCosta, Alceu Ferraz 12 May 2017 (has links)
Social media services have a growing impact in our society. Individuals often rely on social media to get their news, decide which products to buy or to communicate with their friends. As consequence of the widespread adoption of social media, a large volume of data on how users behave is created every day and stored into large databases. Learning how to analyze and extract useful knowledge from this data has a number of potential applications. For instance, a deeper understanding on how legitimate users interact with social media services could be explored to design more accurate spam and fraud detection methods. This PhD research is based on the following hypothesis: data generated by social media users present patterns that can be exploited to improve the effectiveness of tasks such as prediction, forecasting and modeling in the domain of social media. To validate our hypothesis, we focus on designing data mining methods tailored to social media data. The main contributions of this PhD can be divided into three parts. First, we propose Act-M, a mathematical model that describes the timing of users actions. We also show that Act-M can be used to automatically detect bots among social media users based only on the timing (i.e. time-stamp) data. Our second contribution is VnC (Vote-and-Comment), a model that explains how the volume of different types of user interactions evolve over time when a piece of content is submitted to a social media service. In addition to accurately matching real data, VnC is useful, as it can be employed to forecast the number of interactions received by social media content. Finally, our third contribution is the MFS-Map method. MFS-Map automatically provides textual annotations to social media images by efficiently combining visual and metadata features. Our contributions were validated using real data from several social media services. Our experiments show that the Act-M and VnC models provided a more accurate fit to the data than existing models for communication dynamics and information diffusion, respectively. MFS-Map obtained both superior precision and faster speed when compared to other widely employed image annotation methods. / O impacto dos serviços de mídia social em nossa sociedade é crescente. Indivíduos frequentemente utilizam mídias sociais para obter notícias, decidir quais os produtos comprar ou para se comunicar com amigos. Como consequência da adoção generalizada de mídias sociais, um grande volume de dados sobre como os usuários se comportam é gerado diariamente e armazenado em grandes bancos de dados. Aprender a analisar e extrair conhecimentos úteis a partir destes dados tem uma série de potenciais aplicações. Por exemplo, um entendimento mais detalhado sobre como usuários legítimos interagem com serviços de mídia social poderia ser explorado para projetar métodos mais precisos de detecção de spam e fraude. Esta pesquisa de doutorado baseia-se na seguinte hipótese: dados gerados por usuários de mídia social apresentam padrões que podem ser explorados para melhorar a eficácia de tarefas como previsão e modelagem no domínio das mídias sociais. Para validar esta hipótese, foram projetados métodos de mineração de dados adaptados aos dados de mídia social. As principais contribuições desta pesquisa de doutorado podem ser divididas em três partes. Primeiro, foi desenvolvido o Act-M, um modelo matemático que descreve o tempo das ações dos usuários. O autor demonstrou que o Act-M pode ser usado para detectar automaticamente bots entre usuários de mídia social com base apenas nos dados de tempo. A segunda contribuição desta tese é o VnC (Vote-and- Comment), um modelo que explica como o volume de diferentes tipos de interações de usuário evolui ao longo do tempo quando um conteúdo é submetido a um serviço de mídia social. Além de descrever precisamente os dados reais, o VnC é útil, pois pode ser empregado para prever o número de interações recebidas por determinado conteúdo de mídia social. Por fim, nossa terceira contribuição é o método MFS-Map. O MFS-Map fornece automaticamente anotações textuais para imagens de mídias sociais, combinando eficientemente características visuais e de metadados das imagens. As contribuições deste doutorado foram validadas utilizando dados reais de diversos serviços de mídia social. Os experimentos mostraram que os modelos Act-M e VnC forneceram um ajuste mais preciso aos dados quando comparados, respectivamente, a modelos existentes para dinâmica de comunicação e difusão de informação. O MFS-Map obteve precisão superior e tempo de execução reduzido quando comparado com outros métodos amplamente utilizados para anotação de imagens.
|
134 |
APLICAÇÃO DA MINERAÇÃO DE DADOS NA DESCOBERTA DE PADRÕES DO PERFIL DE ALUNOS DO CURSO DE SI-UnUCET-UEGDel-fiaco, Ronaldo de Castro 13 March 2012 (has links)
Made available in DSpace on 2016-08-10T10:40:15Z (GMT). No. of bitstreams: 1
RONALDO DE CASTRO DEL-FIACO.pdf: 3047529 bytes, checksum: b55c6c1e7ebb7f0baf421ea95eb9683a (MD5)
Previous issue date: 2012-03-13 / The Data Mining (DM) is a part of the process of Knowledge Discovery in
Databases. Its implementation requires knowledge of various areas such as computer
sciences, statistics, management sciences and the business itself. In particular, it can be
applied to discover knowledge that allows the manager to improve the quality of the
learning process in which he/she is involved. This work presents the theoretical
background of data mining, describes and analyzes a case study where the main
objective is to apply the Cross-Industry Standard Process for Data Mining - CRISP-DM
methodology to identify the profile of the student that graduates in due time from the
course of Bachelor of Information Systems of the State University of Goiás at Anápolis.
It describes the data preparation that is used in the process and identify the best
proposals for analysis of the case study. As input data, both the transcripts and the
answers of the socioeconomic and cultural questionnaire applied to the students are
used as attributes for the evaluation of decision tree algorithms implemented in the data
mining tool known as WEKA. It was possible to realize that data mining requires a
professional who mastered the theory of DM to correctly calibrate the tools and
extensive knowledge of the business in order to determine the data mining goals and
interpret the results. / A mineração de dados (Data Mining - DM) é uma parte do processo para
descobrir conhecimento em base de dados. Sua realização exige conhecimentos de
várias áreas tais como a computação, a estatística, as ciências administrativas e do
próprio negócio. Em particular, pode ser aplicada para descobrir conhecimento que
permita ao gestor educacional melhorar a qualidade do processo ensino-aprendizagem
no qual esteja envolvido. Este trabalho apresenta o embasamento teórico em mineração
de dados, descreve e analisa um estudo de caso, cujo principal objetivo é aplicar a
metodologia Cross-Industry Standard Process for Data Mining - CRISP-DM na
identificação do padrão do perfil do aluno que integraliza o curso de Bacharelado em
Sistemas de Informação da Unidade Universitária de Ciências Exatas e Tecnológicas da
Universidade de Estadual de Goiás, no tempo mínimo previsto pelo projeto pedagógico
do curso. É realizada a preparação dos dados que são utilizados no processo para,
posteriormente, identificar as melhores propostas de análise do estudo de caso. Como
dados de entrada, recorre-se às respostas do questionário socioeconômico e cultural
aplicados aos vestibulandos e ao histórico escolar dos mesmos, que são utilizados como
atributos para a avaliação dos algoritmos de árvore de decisão, através da ferramenta
WEKA. Com este estudo, foi possível perceber que, para realizar a mineração de dados,
é necessário um profissional que domine a teoria de DM, saiba calibrar uma ferramenta
computacional e tenha conhecimento aprofundado do negócio, para determinar os
objetivos da DM e interpretar os resultados encontrados.
|
135 |
MINERAÇÃO DE DADOS APLICADA A CLASSIFICAÇÃO DOS CONTRIBUINTES DO ISS. / DATA MINING APPLIED TO THE CLASSIFICATION OF THE TAXPAYERS OF THE TOWN OF GOIÂNIA.Piccirilli, Tiago Levergger 23 April 2013 (has links)
Made available in DSpace on 2016-08-10T10:40:18Z (GMT). No. of bitstreams: 1
TIAGO LEVERGGER PICCIRILLI.pdf: 1547203 bytes, checksum: e65b171ba35efb72a84100fe0a5088d9 (MD5)
Previous issue date: 2013-04-23 / The Public Administration is responsible for the institution, receiving and control
of taxes paid by taxpayers. This feature is indispensable to maintenance of its
administrative structure and establishment public policies. To improve the control
performed by the administration, it s necessary to invest in new technologies since the
inspection department constantly receives large data movement economic and
regularization of taxpayers. The current computational resources store information with
a larger human perception of manipulation and knowledge extraction. In this context,
appears in science an area called data mining, specific to extract unknown patterns
and knowledge through databases. This study aimed to develop a model to classify
taxpayers Tax Services (ISS) which showed some irregularity, with resources and
techniques of data mining. The study was performed in the city of Goiania in finance
secretary specifically of the Department of Revenue, covering the scenario presented
in the year 2011. Among the models built with decision tree algorithm, presented as a
result, the classification of irregular contributors with a hit rate of 92,03%. / A administração pública é responsável pela instituição, recebimento e controle
de tributos pagos pelos contribuintes. Este recurso é imprescindível para manutenção
de sua estrutura administrativa e estabelecimento de políticas públicas. Para
aperfeiçoar o controle realizado pela administração é necessário investimento em
novas tecnologias, visto que o departamento de fiscalização recebe constantemente
inúmeros dados da movimentação econômica dos contribuintes e de regularização
cadastral. Os recursos computacionais atuais armazenam informações com
capacidade superior à condição humana de manipulação e extração de conhecimento.
Nesse contexto, surge na ciência uma área denominada Mineração de Dados,
especifica para extrair conhecimento e padrões desconhecidos por meio de bases de
dados. Este trabalho apresenta um modelo para classificar os contribuintes do Imposto
Sobre Serviços de Qualquer Natureza (ISS) que apresentaram alguma irregularidade,
de posse dos recursos e técnicas da mineração. O trabalho foi realizado no Município
de Goiânia na Secretaria de Finanças especificamente no departamento de
Arrecadação, abrangendo o cenário apresentado no ano de 2011. Entre os modelos
construídos com algoritmo de árvore de decisão, apresentou como resultado, a
classificação dos contribuintes irregulares com um índice de acertos de 92,03%.
|
136 |
DESCOBERTA DE CONHECIMENTO NA PLATAFORMA LATTES: UM ESTUDO DE CASO NO INSTITUTO FEDERAL DE GOIÁS. / KNOWLEDGE DISCOVERY IN LATTES PLATFORM: A CASE STUDY IN THE FEDERAL INSTITUTE OF GOIAS.Cavalcante, Renata de Souza Alves Paula 24 February 2014 (has links)
Made available in DSpace on 2016-08-10T10:40:21Z (GMT). No. of bitstreams: 1
RENATA DE SOUZA ALVES PAULA CAVALCANTE.pdf: 3920138 bytes, checksum: 5a8a21fa7b849ef942fb6113dc3f6635 (MD5)
Previous issue date: 2014-02-24 / Ao longo do tempo, percebeu-se que a velocidade do acúmulo de informações
era maior do que a velocidade de processamento e análise das mesmas. Não adianta
uma organização ter muita informação, se não souber dela extrair conhecimento útil. É
preciso que sejam feitas análises apuradas sobre os dados e descobrir quais são os
padrões de comportamentos existentes nos mesmos. Assim, uma organização poderá
realizar tomada de decisão de forma mais segura, baseada em fatos reais e não em
meras suposições, inclusive no âmbito da gestão de Ciência e Tecnologia. Este
trabalho teve como objetivo realizar um estudo de caso no Instituto Federal de Goiás
(IFG), aplicando o processo de Knowledge Discovery in Database (KDD), na tentativa
de identificar padrões que representem o perfil da produção científica dos docentes da
instituição. A maior parte dos dados analisados foram extraídos da Plataforma Lattes
(PL) e o período da pesquisa fixado no último triênio. Pretendeu-se obter
conhecimento sobre a produtividade dos docentes e provê-los à Pró-Reitoria de
Pesquisa e Pós-Graduação do IFG para auxiliar na sua gestão. A pesquisa aborda por
meio de um levantamento bibliográfico os conceitos sobre Gestão do Conhecimento
(GC), o processo de KDD, incluindo a Mineração de Dados (MD) com suas tarefas e
técnicas, a produção científica, a PL e o contexto atual do IFG. Dessa forma, entre os
resultados obtidos no trabalho, viu-se que a aplicação do KDD pode ser um poderoso
instrumento para a gestão das informações nas instituições de ensino.
|
137 |
IMPLICAÇÕES DO DIABETES MELLITUS NA QUALIDADE DE VIDA DE INDIVÍDUOS, PARTICIPANTES DO PROGRAMA DE SAÚDE PARA O DIABÉTICO TIPO 2 DO HOSPITAL DO POLICIAL MILITAR (PSPD - HPM)Diniz, Sandra Maria da Fonseca 23 June 2009 (has links)
Made available in DSpace on 2016-08-10T10:55:46Z (GMT). No. of bitstreams: 1
SANDRA MARIA DA FONSECA DINIZ.pdf: 904945 bytes, checksum: d43fe1e9a50dffc1c64786ab54cc2ad4 (MD5)
Previous issue date: 2009-06-23 / It is about a study intended to evaluate the quality of life of diabetic militaries and
his dependants (wives), to identify and associate the main risk factors that
interfere on quality of life and make associations between quality of life and the
main risk factors in diabetes mellitus 2 (DM2) patients through statistical
significance and data mining. The study population was made out of 70 militaries
and his wives, all patients with DM2 subscribed to the program entitled Attention,
Prevention, Control and Treatment of DM2 of Military Police Hospital in Goiânia,
GO, during the following period: from August to November 2008. Two closed
questionnaires were applied, the first one referring to social-demographic
variables, life style, clinical history, anthropometrical data, and the second one
through a specific instrument of World Health Organization (WHO) to evaluate
quality of life entitled WHOQOL bref. The most relevant variables and
abrangência were: unbalanced diet with 78,6%, altered sugar rate with 91,5%,
arterial hypertension with 54,2%, hypertension in the family with 71,4%. The
complications referring to DM2 were foot injuries (25,7%), blindness (20,0%) and
nephropathy (11,4%). The answers from survey individuals concerning the
WHOQOL questionnaire bref detected that: 42 individuals (60,0%) considered
their quality of life as good. However, 36 (51,4%) reported that they have negative
feelings, sometimes. In relation to WHOQOL-bref domains, the ones of major
prevalence were the social one followed by the environmental one. To execute
the data mining method (Data Mininig, DM) it was utilized a tool known as Weka
which allowed associations between the quality of life variables, risk factors and
negative feelings. For the associations, attributes between themselves were
strongly related, thus generating two associations. The first one - between quality
of life and complications - and the second one - between quality of life,
complications and negative feelings. Results demonstrated that the associations
between quality of life, negative feelings and complications of DM have individual
significance when related to the disease. / Trata-se de um estudo com objetivo de avaliar a qualidade de vida de militares
diabéticos e seus dependentes (esposas), identificar e associar os principais
fatores de risco que interferem na qualidade de vida, e realizar associações entre
a qualidade de vida e os principais fatores de risco, em portadores de diabetes
mellitus2 (DM2), através de técnicas estatísticas e da mineração de dados. A
população de estudo foi constituída de 70 militares e suas esposas, todos
portadores de DM2 inscritos no programa de atenção, prevenção, controle e
tratamento de DM 2, do Hospital do Policial Militar em Goiânia, GO, no período
de agosto a novembro de 2008. Foram aplicados dois questionários fechados,
sendo o primeiro referente às variáveis sociodemográficas, estilo de vida, história
clínica, dados antropométricos, e o segundo através de instrumento específico
da Organização Mundial de Saúde (OMS), para avaliação da qualidade de vida,
denominado WHOQUOL bref. As variáveis de maior relevância e abrangência
foram: dieta não equilibrada com 78,6%, taxa de açúcar alterado com 91,5%,
hipertensão arterial com 54,2%, hipertensão na família com 71,4%. As
complicações referentes ao DM 2 encontradas foram a lesão em pé (25,7%) , a
cegueira (20,0%) e a nefropatia (11,4%). As respostas dos sujeitos da pesquisa
relativas ao questionário WHOQUOL bref detectaram que: 42 indivíduos
(60,0%) consideram a sua qualidade de como boa. Entretanto, 36 (51,4%)
relataram ter sentimentos negativos algumas vezes. Em relação aos domínios do
WHOQOL-bref, os de maiores prevalência foram o social seguido do ambiental.
Para a execução do método data mining (Mineração de Dados, MD) foi utilizada
uma ferramenta conhecida como Weka que permitiu associações entre as
variáveis qualidades de vida, fatores de risco e sentimentos negativos. Para as
associações foram relacionados fortemente atributos entre si que geraram duas
associações. A primeira entre qualidade de vida e complicações e a segunda
entre qualidade de vida, complicações e sentimentos negativos. Os resultados
mostram que as associações entre a qualidade de vida, os sentimentos
negativos e as complicações do DM têm significado individual quando
relacionados com a doença.
|
138 |
Análise multitemporal do uso da terra e da cobertura vegetal na região de Alfenas - Sul de Minas Gerais, utilizando imagens Landsat-5 TMSOUSA, Diego Gomes de 25 August 2014 (has links)
Vários estudos têm mostrado que fragmentos florestais rodeados por diferentes matrizes
sofrem diferentes pressões ecológicas sobre a fauna e flora. A luz disto, o presente estudo
objetivou avaliar as mudanças no uso da terra e cobertura vegetal na região de Alfenas,
sul do estado de Minas Gerais, focando na conservação de fragmentos florestais. Foram
utilizadas as bandas 1 a 5 e 7 das imagens do satélite Landsat-5 Thematic Mapper (TM)
dos anos de 1987 e 2011. A classificação das imagens foi realizada utilizando o aplicativo
Geographic Data Mining Analyst (GeoDMA), um pacote especialmente voltado para
mineração de dados espaciais. Os seguintes procedimentos foram adotados para a
realização do estudo: segmentação das imagens; extração de atributos espectrais e
espaciais; amostragem; geração da árvore de decisão; classificação; edição dos erros e
análise das mudanças por meio de uma matriz de detecção de mudanças. Os resultados
mostraram a importância da complementaridade das informações disponíveis em cada
banda para a classificação do uso da terra e cobertura vegetal. Com relação as
mudanças no uso, observou-se um aumento das classes cana-de-açúcar, café e solo
exposto em áreas antes utilizadas para pastagem. Estas informações são importantes nos
estudos de ecologia da paisagem, pois podem auxiliar na interpretação da dinâmica
ecológica dos fragmentos florestais. / Several studies have shown that native forest fragments sur rounded by different landuse
matrixes undergo different ecological pressures on fauna and flora. In light this, we
studied the land-use and land-cover changes in the region of Alfenas, southern Minas
Gerais state, aiming the conservation of forest fragments. Landsat-5 Thematic Mapper
(TM) images, bands 1 to 5 and 7, from 1987 and 2011, were used. Image classification
was achieved using the Geographic Data Mining Analyst (GeoDMA), a toolbox specially
addressed for spatial data mining. To carry out this investigation, the following
procedures were adopted: image segmentation, spectral and spatial features extraction,
sampling, decision tree generation, classification, error edition, and analysis of land-use
and land-cover changes by using a change detection matrix. The results showed the
importance of complementarity of information available in each band for classifying
different land use and land cover types. As for land use change, an increase of sugar
cane, coffee and bare soil were registered on previously areas used for pasture. Such
information are important, since they may support interpretations of ecological
dynamics of forest fragments. / Fundação de Amparo à Pesquisa do Estado de Minas Gerais - FAPEMIG
|
139 |
VEDALOGIC - um método para a verificação de dados climatológicos.Henrique Gonçalves Salvador 15 December 2008 (has links)
Esta pesquisa aborda o desenvolvimento de um Método para a Verificação de Dados Climatológicos -- VEDALOGIC, que se utiliza de modelos criados com algoritmos de Mineração de Dados. Este método utiliza modelos de clustering para a determinação de grupos homogêneos em um Banco de Dados Climatológicos (BDC). A partir desses grupos pode-se detectar dados suspeitos. Após a detecção de um dado suspeito, este será predito, baseado em um modelo de árvore de decisão gerado a partir de uma série histórica de dados. Em seguida, compara-se o valor predito com o valor do dado suspeito e caso haja uma diferença superior a 4%, o dado suspeito é considerado como um ruído. Uma vez detectado um ruído, uma mensagem é gerada contendo: o campo com o dado ruidoso; o intervalo de valores esperados; e uma sugestão para o ajuste com um valor pontual. A partir de alguns experimentos realizados, constatou-se que os ajustes baseados nas informações fornecidas pelo VEDALOGIC, contribuirão para o aumento da qualidade e da confiabilidade dos dados contidos no BDC. Para a construção dos modelos utilizados no VEDALOGIC, utilizou-se os algoritmos EM e K-means para gerar os modelos de clustering e os algoritmos M5P e REPTree para gerar os modelos de árvore de decisão. Para a verificação do método proposto, inseriu-se ruídos no BDC. Após aplicar o VEDALOGIC o resultado mais significativo foi a detecção de todos os ruídos inseridos e que os valores sugeridos para correção atingiram uma média de precisão acima de 97%.
|
140 |
DocSense - infraestrutura para categorização, atribuição e recuperação semântica de documentos.Adalberto Dias Costa 24 April 2009 (has links)
Este trabalho apresenta uma infraestrutura para categorização, atribuição e recuperação semântica de documentos denominada DocSense. O objetivo intrínseco na concepção da infraestrutura é integrar o processo de categorização de documentos à uma ontologia de topo, de forma a possibilitar que essa ontologia seja estendida e enriquecida semanticamente. Ao final, documentos, na forma de instâncias de classes dessa ontologia, podem ser recuperados por meio de um mecanismo de busca oferecido pela infraestrutura que retorna, não só uma coleção de documentos, mas também o caminho semântico que permitiu a descoberta.
|
Page generated in 0.0772 seconds