• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 190
  • 15
  • 13
  • 13
  • 12
  • 12
  • 5
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 203
  • 203
  • 203
  • 84
  • 82
  • 54
  • 41
  • 40
  • 38
  • 34
  • 32
  • 30
  • 28
  • 28
  • 27
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Desenvolvimento de um modelo de mineração de dados educacionais para identificar a ocorrência de colaboração online

Moraes Neto, Antonio Justiniano de 17 March 2016 (has links)
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Educação, Programa de Pós-Graduação em Educação, 2016. / Submitted by Fernanda Percia França (fernandafranca@bce.unb.br) on 2016-05-19T15:50:22Z No. of bitstreams: 1 2016_AntonioJustinianodeMoraesNeto.pdf: 3330543 bytes, checksum: 7b9de4d5f8c78be622c950726dc170ed (MD5) / Approved for entry into archive by Marília Freitas(marilia@bce.unb.br) on 2016-05-26T16:55:41Z (GMT) No. of bitstreams: 1 2016_AntonioJustinianodeMoraesNeto.pdf: 3330543 bytes, checksum: 7b9de4d5f8c78be622c950726dc170ed (MD5) / Made available in DSpace on 2016-05-26T16:55:41Z (GMT). No. of bitstreams: 1 2016_AntonioJustinianodeMoraesNeto.pdf: 3330543 bytes, checksum: 7b9de4d5f8c78be622c950726dc170ed (MD5) / A Educação Profissional e Tecnológica (EPT) oferece a possibilidade de elevação da escolaridade para os trabalhadores, aumentando as chances de inserção e de ascensão cidadãs na sociedade contemporânea. A Educação a Distância (EAD) permite mais flexibilidade de tempo para que o trabalhador possa realizar seus estudos em momentos diferenciados da forma como são ofertados os cursos presenciais. Nesse contexto ocorre o consequente crescimento dos cursos da EPT oferecidos a distância, nos quais a aprendizagem colaborativa permite a construção do conhecimento de forma coletiva, propiciando o estreitamento das relações em Ambiente Virtual de Aprendizagem (AVA). Esta pesquisa propõe um modelo de Mineração de Dados Educacionais (EDM) para identificar a ocorrência de colaboração online em cursos a distância de EPT, adotando procedimentos metodológicos da EDM e de estudo de caso em pesquisa educacional. A análise dos dados coletados leva a concluir que o modelo de EDM proposto nesta pesquisa identifica ocorrências de colaboração online nos cursos pesquisados, contribuindo para a prática pedagógica de adoção da aprendizagem colaborativa online no âmbito da EAD praticada na EPT. Ao mesmo tempo esta pesquisa indica novas áreas de investigação a partir do modelo de EDM proposto a fim de permitir sua ampliação, como a análise semântica para identificar níveis de maior ou menor percentual de colaboração, o desenvolvimento de uma topologia da colaboração que identifique o número de interações entre estudantes e professor sobre um mesmo tema de discussão e outras mais. ________________________________________________________________________________________________ ABSTRACT / Technological and Professional Education (Portuguese acronym: EPT) offers the possibility for workers to raise their educational level, increasing the chances of integration and social ascension in contemporary society. Distance Education (Portuguese acronym: EAD) allows more time flexibility for the student to undertake his studies in different moments of those offered in classroom courses. EPT courses flourish in this context, allowing the collective knowledge construction through collaborative learning. This leads to the relations strengthening in the Virtual Learning Environment (Portuguese acronym: AVA). This research proposes a model of Educational Data Mining (EDM) aimed to identify the occurrence of online collaboration in distance learning EPT courses through methodological procedures of EDM and educational research case studies. The performed data analysis leads to the conclusion that the proposed model is capable of indicating online collaboration among the researched courses’ students. In addition, the verified results further contribute to the pedagogical practice of online collaborative learning adoption within the EAD practiced in EPT. At the same time, this research indicates new areas for research to allow the proposed data mining model’s expansion, such as the use of semantic analysis to identify levels of collaboration (greater or lesser), or the development of a collaboration topology which identifies the amount of interactions between students and teachers on the same discussion topic and others.
22

Extrator de termos para criação de mapas conceituais

Dalmolin, Luiz Claudio Duarte 25 October 2012 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2010. / Made available in DSpace on 2012-10-25T00:51:45Z (GMT). No. of bitstreams: 1 278054.pdf: 2763537 bytes, checksum: 761ccdc8c89d06e0c2db71a56bd0beb4 (MD5) / Este trabalho consiste no desenvolvimento de um método para extração de termos que podem ser utilizados para a criação de mapas conceituais. O método é fundamentado em técnicas linguísticas e estatísticas para a extração de palavras-chave que podem ser usadas para originar esses tipos de mapas. Parte do método compreende um algoritmo de mineração de texto que, a partir de um conjunto de documentos selecionados pelo usuário, é capaz de extrair termos que podem ser qualificados como conceitos. Esse algoritmo pode também obter conectores semânticos entre conceitos, formando uma proposição válida sobre o tema dos documentos cadastrados. Para aplicar as funcionalidades propostas no método, foi concebida a ferramenta MapXtractor. Esta ferramenta implementa o método de extração, permite a edição de mapas conceituais, a vinculação de objetos de aprendizagem aos conceitos e o controle de acesso aos mapas. Os resultados obtidos com a utilização desse método demonstram quantitativamente e qualitativamente a superioridade da utilização de técnicas híbridas de extração de termos em relação às técnicas estatísticas para extração de termos, quando se trata da criação de mapas conceituais. / This work consists in a development of a term extraction method to create conceptual maps. This method is based in linguistic and statistics techniques to extract keywords that can be used to build conceptual maps. A part of this method is compose by a textmining algorithm which is able to extract concepts from a set of documents, selected or created by an user. This algorithm also can extract semantic connectors between two concepts becoming a valid proposition in the documents' subject . To apply the features propose on the method a tool called MapXtractor was developed. This tool implements the extraction method, allows editing concept maps and link learning objects to concepts, and the access controls to the concept maps. The results show the qualitative and quantitative superiority of hybrid techniques over statistical techniques to term extraction when applied to concept map building.
23

Um Modelo de descoberta de conhecimento inerente à evolução temporal dos relacionamentos entre elementos textuais

Bovo, Alessandro Botelho 25 October 2012 (has links)
Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2011 / Made available in DSpace on 2012-10-25T21:06:31Z (GMT). No. of bitstreams: 1 290620.pdf: 2825568 bytes, checksum: 9be8be63fe404cee4f1b376e58cc501d (MD5) / Há algum tempo tem sido observado e discutido o aumento expressivo na quantidade de informação produzida e publicada pelo mundo. Se por um lado essa situação propicia muitas oportunidades de uso dessa informação para a tomada de decisão, por outro, lança muitos desafios em como armazenar, recuperar e transformar essa informação em conhecimento. Umas das formas de descoberta de conhecimento que tem atraído atenção de pesquisadores é a análise dos relacionamentos presentes nas informações disponíveis. Não obstante, devido à grande velocidade de criação de novos conteúdos a dimensão tempo torna-se uma propriedade intrínseca e relevante presente nestas fontes de informação. Assim, o objetivo é desenvolver um modelo para descoberta de conhecimento a partir de informações não estruturadas analisando a evolução dos relacionamentos entre os elementos textuais ao longo do tempo. O modelo proposto é dividido por fases, assim como os modelos tradicionais de descoberta de conhecimento. As fases deste modelo são: configuração dos temas de análise, identificação das ocorrências dos conceitos, correlação e correlação temporal, associação e associação temporal, criação do repositório de temas de análise, e tarefas intensivas em conhecimento, com ênfase nos relacionamentos diretos e indiretos entre os conceitos do domínio. A demonstração de viabilidade é realizada por meio de um protótipo baseado no modelo proposto e sua aplicação em um estudo de caso. É realizada também uma análise comparativa do modelo proposto com outros modelos de descoberta de conhecimento em textos.
24

Uma abordagem de visualização híbrida para apoiar a exploração de conjuntos de dados /

Silva, Lenon Fachiano. January 2018 (has links)
Orientador: Danilo Medeiros Eler / Banca: José Gustavo de Souza Paiva / Banca: Almir Olivette Artero / Resumo: Técnicas de visualização têm sido largamente utilizadas na exploração de conjuntos de dados. Uma estratégia comum é empregar diferentes técnicas para facilitar a investigação, permitindo que o usuário tenha diferentes perspectivas de um mesmo conjunto de dados. Nessas situações, um mecanismo de coordenação auxilia o usuário na troca de contexto entre diferentes visões. Adicionalmente, uma estratégia adotada por algumas abordagens é a de combinar diferentes técnicas de visualização em uma única visão, criando uma visualização híbrida. Este trabalho apresenta o desenvolvimento de uma abordagem de visualização híbrida que utiliza uma técnica de visualização para destacar o relacionamento entre instâncias com outra técnica de visualização para destacar o relacionamento entre atributos. Como resultado, foi obtida uma metodologia de combinação de técnicas que apoia o processo de exploração de conjuntos de dados multidimensionais e auxilia no entendimento do espaço de característica, permitindo a detecção de fronteiras compartilhadas entre agrupamentos e a resolução de problemas de rotulação / Abstract: Visualization Techniques have been widely used in the exploration of datasets. A common strategy is to employ different techniques to facilitate research, allowing the user to have different perspectives from the same dataset. In these situations, a coordination mechanism helps the user in the exchange of context between different visions. In addition, a strategy adopted by some approaches is to combine different visualizations into a single view, creating a hybrid visualization. This paper shows the development of a hybrid visualization approach that uses a visualization technique to highlight the relationship between instances with another to highlight the relationship between attributes. This approach supports the process of exploring multidimensional datasets and assists in understanding the featuring space, allowing the detection of shared boundaries between groupings and the resolution of labeling problems. As a result, a methodology combining techniques was developed that supports the process of exploring multidimensional data sets and helps in understanding the characteristic space, allowing the detection of shared boundaries between groupings and the resolution of labeling problems / Mestre
25

Uma avaliação das interações de alunos em atividades colaborativas apoiadas em técnicas de mineração para identificação de parâmetros para análise de desempenho

Padilha, Thereza Patrícia Pereira January 2005 (has links)
Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação. / Made available in DSpace on 2013-07-16T02:12:03Z (GMT). No. of bitstreams: 0Bitstream added on 2013-07-16T19:52:06Z : No. of bitstreams: 1 221659.pdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / A facilidade de comunicação introduzida pelo avanço das redes de comunicação tem viabilizado o desenvolvimento de vários ambientes de aprendizado colaborativo para a Educação a Distância via Internet. Esse avanço tem possibilitado a interação síncrona e assíncrona entre os participantes (aluno-aluno ou aluno-professor), independentemente de tempo e local. Um importante tópico de pesquisa relacionado com os ambientes de aprendizado colaborativo diz respeito à análise das interações dos alunos na execução das atividades. Muitas interações de alunos no aprendizado colaborativo podem ser capturadas e armazenadas num banco de dados para análises futuras. Entretanto, a extração de informações úteis nesse banco é quase impossível sem o uso de técnicas de mineração. Este trabalho propõe um modelo de análise das interações dos alunos que integra técnicas de mineração de textos e de dados para identificar o desempenho de colaboração. Dentre as interações analisadas, existem índices quantitativos, que fornecem um aspecto numérico das interações realizadas e índices qualitativos, que representam aspectos cognitivos e sociais das interações. A técnica de mineração de textos atua como uma forma alternativa para categorizar as intenções dos alunos em interações textuais de acordo com a taxonomia de Soller. A técnica de mineração de dados, por sua vez, encontra padrões de classificação para a construção de relatórios de desempenho em três níveis de detalhamento: inter-grupos, grupos e alunos. O modelo proposto foi incorporado ao ambiente de aprendizado colaborativo RESOLVE que dispõe das ferramentas de comunicação chat, editor de texto, votação e agenda para a resolução de problemas. A arquitetura, os aspectos da implementação e as interfaces desse ambiente são apresentados. Experimentos, com dez grupos de três pessoas cada, foram realizados para verificar a viabilidade do modelo, que se mostrou eficiente para auxiliar o professor no acompanhamento das atividades desempenhadas pelos alunos.
26

Proposição de uma metodologia para o desenvolvimento de uma arquitetura de informações como uma etapa de implantação de um datamining de suporte à tomada de decisão gerencial

Mafra, Denis Teixeira January 2005 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Sócio-Econômico. Programa de Pós-Graduação em Administração / Made available in DSpace on 2013-07-16T02:17:29Z (GMT). No. of bitstreams: 0 / A Tecnologia da Informação - TI emerge como uma mudança inevitável para as organizações que almejam a permanência no mercado. Nesse sentido, pode-se afirmar que o uso dessa ferramenta permite às organizações uma rapidez no acesso as informações que são necessárias para um monitoramento eficiente dos seus desempenhos. Nesse sentido, o problema central do estudo é: Como nortear o desenvolvimento de um arquitetura de informações sendo uma etapa de implantação de um Datamining de suporte à tomada de decisão gerencial ? Dessa forma, fixou-se o seguinte objetivo geral: Propor uma metodologia para o desenvolvimento de uma arquitetura de informações como uma etapa de implantação de um Datamining de suporte à tomada de decisão gerencial para o Planejamento e Sistema de Medição de Desempenho - Balanced Scorecard - do SENAI/SC. Para alcançá-lo, foram fixados objetivos específicos. Na caracterização da pesquisa, o método utilizado quanto à abordagem do problema foi qualitativo e a perspectiva de estudo quanto à dimensão temporal consistiu no estudo cross-sectional. A pesquisa foi bibliográfica e estudo de caso.Quanto à classificação com base em seus objetivos gerais, a pesquisa foi exploratória e descritiva. O objeto de estudo foi o SENAI/SC. Foram propostas e apresentadas as seguintes Ferramentas de Gestão e dentre elas, o objeto do estudo em questão - Planejamento e Sistema de Medição de Desempenho - o Balanced Scorecard (BSC). Para o BSC, apresentaram-se: o Mapa Estratégico, as Perspectivas, os Objetivos Estratégicos, e o Painel de Desempenho Balanceado (Indicadores e Iniciativas Estratégicas). Concernente ao objetivo central do trabalho, foram apresentadas as etapas necessárias para o desenvolvimento de uma arquitetura de informações: 1) Mapeamento dos processos; 2) Implantação de um sistema de informações gerenciais (ERP); 3) Mapeamento e descrição dos softwares da organização; 4)Identificação do objetivo e da fórmula de cálculo dos indicadores; 5) Mapeamento e descrição de todas os dados necessários para a medição dos indicadores; 6) Identificação das fontes, responsáveis e prazos de cada um dos dados; e 7) Verificação de possíveis inter-relações do mesmo dado com mais de um indicador. Cada uma dessas etapas foi aplicada no BSC do SENAI/SC, sendo que foram coletadas as principais informações para o desenvolvimento da arquitetura de informações. Com base na arquitetura, demonstrou-se também a construção de Datamart´s de Indicadores do BSC, que irão compor o Datawarehouse necessário para que o Datamining possa filtrar as informações e permitir a geração de informações gerenciais para a tomada de decisão.
27

Teorias de redes sociais aplicada ao problema de classificação online com mudança de conceito / Heitor Murilo Gomes ; orientador, Fabrício Enembreck

Gomes, Heitor Murilo January 2012 (has links)
Dissertação (mestrado) - Pontifícia Universidade Católica do Paraná, Curitiba, 2012 / Bibliografia: p. 107-111 / Este trabalho compreende o desenvolvimento do método de conjunto de classificadores baseado em Redes Sociais SAE (Social Adaptive Ensemble ? Conjunto de Classificadores Adaptativos Sociais) para classificação de streams de dados (Classificação Online). / This work encompasses the development of a new ensemble classifier based on Social Networks named SAE (Social Adaptive Ensemble) for Stream Classification. Within Stream Classification, concept drift is considered one of the most important issues. Ensem
28

Avaliação de métodos de data mining e regressão logística aplicados na análise de traumatismo cranioencefálico grave

Garcia, Merisandra Côrtes de Mattos January 2015 (has links)
Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia Elétrica, Florianópolis, 2015 / Made available in DSpace on 2015-12-22T03:04:44Z (GMT). No. of bitstreams: 1 336613.pdf: 2800332 bytes, checksum: f19c44227d5f66a9bff46e9ee8ea64b8 (MD5) Previous issue date: 2015 / O traumatismo cranioencefálico é um problema de saúde pública constituindo-se em uma das principais causas de morbidade e mortalidade no Brasil e no mundo. A análise das relações entre as suas consequências tem despertado interesse em pesquisas na área, a fim de se identificar os indicadores que auxiliam no seu prognóstico, buscandose evitar o óbito. Estes modelos são tradicionalmente gerados por meio da regressão logística que tem se constituído em uma técnica padrão para análise dos dados em saúde. No entanto, os modelos prognósticos em traumatismo cranioencefálico, como o grave que é o foco desta pesquisa, não conseguem acurácia elevada para a predição do óbito por meio da regressão logística. Sabendo-se disso, avanços em termos da acuracidade da predição podem auxiliar no prognóstico e conduta das pessoas acometidas por traumatismo cranioencefálico do tipo grave. A descoberta de conhecimento em bases de dados por meio da etapa de data mining e da integração de técnicas de diferentes áreas como inteligência computacional, reconhecimento de padrões, aprendizado de máquina, estatística e banco de dados, constitui-se em uma alternativa para identificar as relações nestes conjuntos de dados. Considerando-se isto, esta pesquisa consiste na avaliação comparativa de diferentes métodos de data mining, a fim de se analisar os modelos gerados e compará-los com o de regressão logística, em uma mesma população de estudo. Nesta pesquisa, se objetiva identificar padrões válidos, avaliando se os métodos de data mining empregados se mostram como uma alternativa à regressão logística, baseando-se em critérios de avaliação como acurácia e robustez, os quais se constituem em medidas de qualidade dos padrões descobertos. Os métodos de data mining empregados referem-se a indução de árvores de decisão por meio dos algoritmos C4.5 e Classification And Regression Trees; o aprendizado baseado em instâncias pelo algoritmo k-vizinhos mais próximos; as redes neurais artificiais por Funções de Base Radial; os classificadores bayesianos pelos algoritmos Naive Bayes e Redes de Crença Bayesiana e o metaclassificador pelo algoritmo Adaptive Boosting. No desenvolvimento foram gerados modelos de prognóstico do óbito em traumatismo cranioencefálico grave por meio dos algoritmos supracitados, como também pela regressão logística binária. Os modelos gerados na etapa de data mining foram comparados aplicando-se as medidas de avaliação de desempenho (verdadeiros positivos, verdadeiros negativos, acurácia, sensibilidade e especificidade) e de confiabilidade (coeficiente de concordância kappa e área sob a ReceiverOperating Characteristic Curve). Na comparação entre os modelos de data mining elencados com maior poder de discriminação em relação a regressão logística, utilizaram-se as medidas de confiabilidade citadas anteriormente, considerando-se Intervalos de Confiança de 95%. Dentre as análises realizadas, nos modelos gerados para predição do óbito em traumatismo cranioencefálico grave, os classificadores bayesianos destacaram-se apresentando medidas de desempenho significativamente mais representativas. O modelo gerado pelo algoritmo Naive Bayes destacou-se em relação aos demais métodos de data mining empregados, bem como quando comparado com o modelo de regressão logística binária, classificando corretamente o óbito em 58,2% (IC95%: 55,6- 61,8), a acurácia geral do modelo foi de 80,2% (IC95%: 76,9-85,7), sensibilidade de 72,7% (IC95%: 69,8-75,4), especificidade de 84,2% (IC95%: 81,6-87,5), área sob a Receiver-Operating Characteristic Curve de 0,851 (IC95%: 0,832-0,870) e coeficiente de concordância Kappa 0,530 (IC95%: 0,519-0,541). Comparando-se os resultados, o algoritmo Naive Bayes mostrou-se, no conjunto de dados estudado, significativamente mais representativo que o modelo de regressão logística binária e os outros modelos de data mining. <br> / Abstract : Traumatic brain injury is a public health problem thus becoming a major cause of morbidity and mortality in Brazil and worldwide. The analysis of relations between its consequences has stimulated researches in the area, in order to identify indicators that help its prognosis, seeking avoid death. These models are traditionally generated by logistic regression that has been constituted as a standard technique for analysis of health data. However, the prognostic models in traumatic brain injury, such as severe which is the focus of this research, can not have a high accuracy for prediction of death by logistic regression. Knowing this, advances in terms of prediction accuracy may aid in prognosis and management of people affected by severe brain injury. The knowledge discovery in databases by data mining step and integration of techniques from different areas such as computational intelligence, pattern recognition, machine learning, statistical and database, constitutes an alternative to identify relationships in the data sets. Considering this, this research consists on the comparative evaluation of different data mining methods in order to analyze the generated models and compare them with logistic regression, in the same study population. In this research, the objective is to identify valid standards, assessing whether the data mining methods used are shown as an alternative to logistic regression, based on evaluation criteria such as accuracy and robustness, which constitute quality measures of the discovered patterns. The data mining methods employed refer to decision tree induction through C4.5 algorithms and Classification And Regression Trees; learning based on instances by knearest neighbors algorithm; artificial neural networks Radial Basis Function; Bayesian classifiers by algorithms Naive Bayes and Bayesian Belief Networks and the metaclassificador by Adaptive Boosting algorithm. In the development were generated death of prognostic models in severe traumatic brain injury through the aforesaid algorithms, but also by binary logistic regression. The models in data mining stage were compared applying the performance evaluation measures (true positives, true negatives, accuracy, sensitivity and specificity) and reliability (kappa coefficient and area under the Receiver Operating Characteristic Curve). Comparing the data mining models listed with major discrimination in relation to logistic regression, we used the reliability of measurements mentioned above, considering 95% confidence intervals. Among the analyzes, the generated models for prediction of death in severe traumatic brain injury, the Bayesian classifiers stood out, presenting performance measures significantly more representative. The model generated by Naive Bayes algorithm stood out in relation to other data mining methods employed, as well as when compared to the binary logistic regression model, correctly classifying the death in 58,2% (CI95%: 55,6-61,8), the overall accuracy of the model was 80,2% (CI95%: 76,9-85,7), sensitivity of 72,7% (CI95%: 69,8-75,4), specificity of 84,2% (CI95%: 81,6-87,5), area under the Receiver Operating Characteristic Curve of 0,851 (CI95%: 0,832-0,870) and Kappa coeficient of agreement 0,530 (CI95%: 0,519-0,541). Comparing the results, the Naive Bayes algorithm proved, in the data set studied, significantly more representative than the model of binary logistic regression and other data mining models.
29

Pré-processamento para a mineração de dados

Schmitt, Jeovani January 2005 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Ciência da Computação. / Made available in DSpace on 2013-07-15T23:15:02Z (GMT). No. of bitstreams: 1 223783.pdf: 989944 bytes, checksum: 5339f705a93558e2bbd0069d6c4d34b9 (MD5) / A mineração de dados em grandes bases pode requerer alto tempo computacional. Além do mais, é comum as bases de dados conterem variáveis mensuradas em diferentes níveis: intervalar, ordinal e nominal. Neste caso, técnicas desenvolvidas para variáveis quantitativas não poderiam ser aplicadas sob as variáveis originais. Como exemplo, pode-se citar a análise de agrupamentos pelo método das k-médias. Este exige que as variáveis de entradas sejam quantitativas. Este trabalho apresenta uma metodologia para a fase do pré-processamento em mineração de dados, que utiliza a análise de componentes principais (ACP) com escalonamento ótimo (EO). O pré-processamento é uma etapa fundamental que pode melhorar a performance dos algoritmos de análise, através da redução de dimensionalidade. O escalonamento ótimo permite analisar bases que contenham variáveis observadas em diferentes níveis de mensuração. Através da ACP é possível obter uma redução das variáveis originais em um número de componentes principais, gerando novas coordenadas, menor que o número de variáveis originais. As novas coordenadas podem ser utilizadas na mineração de dados propriamente dita, em tarefas como agrupamentos, classificação entre outras. Essas tarefas podem ser realizadas por métodos estatísticos ou computacionais, como redes neurais, algoritmos genéticos entre outros. A metodologia proposta foi testada em uma base de dados com 118.776 registros de pessoas, pesquisadas pelo Instituto Brasileiro de Geografia e Estatística - IBGE, contendo 13 variáveis observadas em diferentes níveis de mensuração. Através da ACP com EO, as 13 variáveis foram reduzidas a 6 componentes principais, preservando ainda 77% da variabilidade original. Sob o novo conjunto de coordenadas foi aplicada a análise de agrupamentos, utilizando o algoritmo das k-médias para a separação dos grupos, com o objetivo de ilustrar uma tarefa comum em mineração de dados, a identificação de grupos, onde foi possível descrever 6 subgrupos ou clusters.
30

Uso de conjuntos difusos e lógica difusa para cálculo de atração e repulsão

Santos, José Gonçalo dos January 2004 (has links)
Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Ciência da Computação / Made available in DSpace on 2012-10-21T11:15:37Z (GMT). No. of bitstreams: 1 241439.pdf: 2409858 bytes, checksum: 84bba52efd376cd3ac94a5b16b23787d (MD5) / Recentes avanços na forma de aquisição de dados têm mostrado uma revolução de aumento de capacidade tecnológica de armazenamento destes. Notificações de servidores web, dados de transações de clientes, compras com cartão de crédito, uso de cartão fidelidade, entre outros, produzem terabytes de dados, diariamente, que são úteis como dados históricos, mas não tão úteis quanto poderiam ser se fossem efetivamente processados de forma que pudessem fornecer padrões e tendências. Esses padrões e as tendências são conhecimentos extraídos (descobertos) desses dados. A Descoberta de Conhecimento em Base de Dados (DCBD) é um campo interdisciplinar de pesquisa que mescla conceitos de estatística, de inteligência artificial e de banco de dados. O seu estudo é motivado pelo crescimento da complexidade, e da quantidade de dados oriundos de todas as esferas do domínio humano e da necessidade de extrair informações úteis dos dados coletados. A descoberta de regras de associação é uma área da DCBD que tem por objetivo encontrar conjuntos de itens freqüentes em transações de uma base de dados e inferir regras capazes de mostrar como um conjunto de itens sofre influência na presença de outros conjuntos de itens. O uso de regras de associação no processo de DCBD tem sido utilizado por diversos pesquisadores. Contudo, os modelos para descoberta de regras de associação trabalham com medidas numéricas. No cálculo das medidas de atração/repulsão, esses métodos utilizam uma base de dados, considerando a ocorrência ou não do evento. Trabalhando dessa forma com uma matriz denominada de matriz de co-ocorrência, que contém valores binários onde 0 (zero) representa a não ocorrência e 1 (um), a ocorrência do evento. Porém, essa matriz utilizada para o cálculo de atração/repulsão entre produtos, com valores binários, despreza a intensidade da associação dos eventos e a quantidade de produtos comprados. Dessa forma, a matriz de co-ocorrência utilizada para o cálculo das medidas de associação não reconhece a imprecisão da ocorrência ou não ocorrência conjunta dos eventos. Para o tratamento da imprecisão podem ser utilizadas a teoria dos conjuntos difusos e da lógica difusa. A modelagem da imprecisão utilizando a abordagem difusa parece ser adequada para tratar o problema da imprecisão presente, não considerada na matriz de co-ocorrência. Assim, esta pesquisa teve por objetivo verificar a adequação da abordagem difusa para modelar a imprecisão contida na matriz de co-ocorrência utilizada no cálculo da medida atração/repulsão, para propor um modelo difuso para o cálculo de atração/repulsão. Para a modelagem do método proposto foi necessária a identificação dos métodos mais usados em MBA e a identificação dos modelos de regras usados na lógica difusa; a construção de conjuntos difusos para representar termos lingüísticos usados para as variáveis de entrada e a adequação dos limites dos intervalos das funções de pertinência. Foram avaliadas várias combinações de funções de pertinência em conjunto com os principais modelos de regras, usando várias amostras de associações entre produtos oriundas de base de dados de três segmentos comerciais. A partir daí, foi proposto um método que mapeia entradas numéricas de freqüências para termos lingüísticos e que possibilita como saída a classificação de associação. Podendo ser de atração ou repulsão, com grau de associação baixa, moderada ou alta. O método mostrou bons resultados e pode ser aplicado na área comercial para análise de dados históricos de vendas. Além disso, pode ser usado nos pontos de vendas para auxiliar o atendente a oferecer um novo produto a determinados clientes, baseado na sua compra atual, porque a resposta do sistema pode ser dada em linguagem natural, o que torna acessível a qualquer usuário do sistema. Pode-se também usar o método para fazer consultas usando linguagem natural.

Page generated in 0.0791 seconds