• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 591
  • 18
  • 18
  • 13
  • 13
  • 12
  • 12
  • 9
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 629
  • 629
  • 376
  • 373
  • 243
  • 110
  • 104
  • 104
  • 103
  • 102
  • 90
  • 89
  • 87
  • 81
  • 67
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
81

Proposição de uma metodologia para o desenvolvimento de uma arquitetura de informações como uma etapa de implantação de um datamining de suporte à tomada de decisão gerencial

Mafra, Denis Teixeira January 2005 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Sócio-Econômico. Programa de Pós-Graduação em Administração / Made available in DSpace on 2013-07-16T02:17:29Z (GMT). No. of bitstreams: 0 / A Tecnologia da Informação - TI emerge como uma mudança inevitável para as organizações que almejam a permanência no mercado. Nesse sentido, pode-se afirmar que o uso dessa ferramenta permite às organizações uma rapidez no acesso as informações que são necessárias para um monitoramento eficiente dos seus desempenhos. Nesse sentido, o problema central do estudo é: Como nortear o desenvolvimento de um arquitetura de informações sendo uma etapa de implantação de um Datamining de suporte à tomada de decisão gerencial ? Dessa forma, fixou-se o seguinte objetivo geral: Propor uma metodologia para o desenvolvimento de uma arquitetura de informações como uma etapa de implantação de um Datamining de suporte à tomada de decisão gerencial para o Planejamento e Sistema de Medição de Desempenho - Balanced Scorecard - do SENAI/SC. Para alcançá-lo, foram fixados objetivos específicos. Na caracterização da pesquisa, o método utilizado quanto à abordagem do problema foi qualitativo e a perspectiva de estudo quanto à dimensão temporal consistiu no estudo cross-sectional. A pesquisa foi bibliográfica e estudo de caso.Quanto à classificação com base em seus objetivos gerais, a pesquisa foi exploratória e descritiva. O objeto de estudo foi o SENAI/SC. Foram propostas e apresentadas as seguintes Ferramentas de Gestão e dentre elas, o objeto do estudo em questão - Planejamento e Sistema de Medição de Desempenho - o Balanced Scorecard (BSC). Para o BSC, apresentaram-se: o Mapa Estratégico, as Perspectivas, os Objetivos Estratégicos, e o Painel de Desempenho Balanceado (Indicadores e Iniciativas Estratégicas). Concernente ao objetivo central do trabalho, foram apresentadas as etapas necessárias para o desenvolvimento de uma arquitetura de informações: 1) Mapeamento dos processos; 2) Implantação de um sistema de informações gerenciais (ERP); 3) Mapeamento e descrição dos softwares da organização; 4)Identificação do objetivo e da fórmula de cálculo dos indicadores; 5) Mapeamento e descrição de todas os dados necessários para a medição dos indicadores; 6) Identificação das fontes, responsáveis e prazos de cada um dos dados; e 7) Verificação de possíveis inter-relações do mesmo dado com mais de um indicador. Cada uma dessas etapas foi aplicada no BSC do SENAI/SC, sendo que foram coletadas as principais informações para o desenvolvimento da arquitetura de informações. Com base na arquitetura, demonstrou-se também a construção de Datamart´s de Indicadores do BSC, que irão compor o Datawarehouse necessário para que o Datamining possa filtrar as informações e permitir a geração de informações gerenciais para a tomada de decisão.
82

Teorias de redes sociais aplicada ao problema de classificação online com mudança de conceito / Heitor Murilo Gomes ; orientador, Fabrício Enembreck

Gomes, Heitor Murilo January 2012 (has links)
Dissertação (mestrado) - Pontifícia Universidade Católica do Paraná, Curitiba, 2012 / Bibliografia: p. 107-111 / Este trabalho compreende o desenvolvimento do método de conjunto de classificadores baseado em Redes Sociais SAE (Social Adaptive Ensemble ? Conjunto de Classificadores Adaptativos Sociais) para classificação de streams de dados (Classificação Online). / This work encompasses the development of a new ensemble classifier based on Social Networks named SAE (Social Adaptive Ensemble) for Stream Classification. Within Stream Classification, concept drift is considered one of the most important issues. Ensem
83

Determinantes e forças seletivas na evolução das proteínas

Encinas Ponce, Luis Fernando January 2014 (has links)
Made available in DSpace on 2015-11-11T12:12:01Z (GMT). No. of bitstreams: 2 luis_ponce_ioc_dout_2014.pdf: 1486134 bytes, checksum: 9dd0c29de095c29028394b797fd2d769 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2015-06-10 / Fundação Oswaldo Cruz. Instituto Oswaldo Cruz. Rio de Janeiro, RJ, Brasil / A análise de grandes quantidades de dados aproveitando o poder computacional de ferramentas \2015open source\2016 que estão disponíveis na internet é o que veio a conhecer-se como quarto paradigma da investigação científica. Em muitas áreas do conhecimento como a Astronomia, a Física e Geologia, a experimentação, o desenvolvimento teórico e o poder computacional (os três primeiros paradigmas) têm dado lugar à análise rotineira de grandes quantidades de dados e o desenvolvimento de novos métodos, conceitos e teorias que permitam interpretar a informação gerada por novas tecnologias. No campo da biologia, esta mudança nos paradigmas da investigação científica supõe um desafio na hora de encarar uma questão biológica; mas, em contrapartida, ela oferece a oportunidade de validar teorias clássicas e/ou testar hipóteses novas. Precisamente neste contexto, a presente tese aborda duas questões pertinentes ao campo da biologia evolutiva: Quais são os fatores que determinam a evolução de uma proteína? e Qual é a natureza da seleção cinética traducional?. Estas perguntas são, em principio, relevantes no âmbito teórico; por outro lado, sua compreensão, implicações e perspectivas têm também espaço importante na área experimental A tese está estruturada da seguinte forma: No Capitulo um se descreve uma combinação de análise de texto com outras técnicas de mineração de dados para identificar, classificar, integrar e modelar associações existentes entre caracteres genômicos que favorecem ou impedem a acumulação de substituções nucleotídicas ao nível das regiões codificadoras. Nossa metodologia permitiu identificar características genômicas como a eficiência traduçional, a instabilidade estrutural e as regiões de baixa complexidade que em principio poderiam constituir determinantes da evolução das proteínas. Construtos latentes como esquema de integração de dados biológicos mostraram que, em vez de considerar o nível de mRNA como o maior determinante da evolução das proteínas, outras variáveis relacionadas com a expressão de um gene podem ser igualmente importantes Finalmente, graças a um modelo de fatores Bayesiano, foi possível estimar os componentes de um sistema de tradução de proteínas identificado com a eficiência e adaptação da maquinaria celular. No Capitulo dois, o controle cinético exercido pelos códons raros durante a tradução das proteínas é abordado com a ajuda de uma análise de custo-benefício que tenta identificar a natureza do que veio a denominar-se como seleção cinética traducional. Diferenças entre proteínas estáveis e instáveis apóiam permitiram identificar a ação da regulação cinética traducional sobre determinado grupos de genes. Os padrões de substituções sinônimas encontrados nas proteínas instáveis permitiram estender nossa discussão apontando à existência de combinações de códons num espaço genotípico determinado que assegure a conservação da estrutura terciária de uma proteína, mas, ao mesmo tempo procure a otimização da cinética da sua tradução / In scientific discovery, three acknowledged paradigms are experimental, theoretical and computational. In the last ten years however, scientists have been over whelmed with large amounts of data coming from high - throughput technologies that are analyzed tak ing advantage of computational power, the internet and open source data - analysis tools. Late researcher of Microsoft, Dr. James Gray (1944 - 2012 in absentia ) ca lled this ―the fourth paradigm of scientific research‖ and urged the need to acknowledge that making sense of data will turn routine in most areas of science. For biologists and others involved in life sciences, this paradigm shift may address daunting cha llenges, however; in return, it offers the oppo rtunity to examine old theories and test new hypothesis. It is within this context that the thesis presented here tackles two fundamental problems of evolutionary biology: What are the constraints of protein e volution? and what is the underlying nature of the kinetic - translational selection?. Although at first glance these questions might appear exclusively relevant for the theoretical field of evolutionary biology, we consider their implications for other area s such as biotechnology and clinical applications. The thesis is organized as following: In Chapter one , we present a combination of text analysis with other data mining techniques to identify, classify, integrate and model existing associations between g enomic c haracters that favor o r hinder the rate at which proteins evolve Our methodology allowed us to identify genomic features such as translational efficiency, structural instability and low - complexity regions that appear to constitute constraints of p rotein evolution. Latent constructs were used as an alternative to integrate biological data and they showed that instead of using mRNA levels as primary determinants of protein evolution, other expression - related factors should be considered. We devised a Bayesian factor model to estimate the components of a protein translation system identified with the efficiency and adaptation of the cellular machinery. In Chapter two , we aboard the fine - tuning kinetic control of rare codons during protein translation i n the context of a cost - benefit analysis devised to identify the action o f recently proposed ki netic translational selective force. The pattern of synonymous substitutions found in proteins classified as structurally unstable led us to extend our discussio n to the existence of a determined genotypic space in which combinations of codons are ―tested‖ in order to optimize the protein synthesis kinetics maintaining the tridimensional structure.
84

Mineração de textos científicos visando à identificação de componentes bioativos com potencial terapêutico para o tratamento de dengue, malária e doença de Chagas

Jezuz, Milene Pereira Guimarães de January 2013 (has links)
Made available in DSpace on 2016-04-07T13:21:47Z (GMT). No. of bitstreams: 2 milene_jezuz_ioc_dout_2013.pdf: 1977625 bytes, checksum: 319190da9936c6ea521704bed4808f50 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2013 / Fundação Oswaldo Cruz. Instituto Oswaldo Cruz. Rio de Janeiro, RJ, Brasil / As doenças negligenciadas, como a dengue, malária e doença de Chagas, entre outras, que prevalecem em países menos desenvolvidos e em ambientes cercados por condições de pobreza, afetam um sexto da população mundial, matando cerca de três mil pessoas a cada dia no mundo. Porém, pouco investimento tem sido feito em pesquisas sobre essas doenças com o fim de obter fármacos menos agressivos aos seres humanos e com ações mais eficazes. Os fármacos existentes utilizados atualmente em tratamentos para essas doenças datam de 30, 40 ou até 50 anos atrás. Existe um grande volume de trabalhos científicos disponibilizados em bibliotecas digitais que armazenam artigos voltados à descrição da biologia, imunologia e genética dos parasitas que causam estas doenças. Esses trabalhos podem ser acessados através de técnicas para mineração de textos, em busca de compostos bioativos ainda não completamente explorados que venham contribuir para o desenvolvimento de novos tratamentos contra essas doenças Com esse fim, neste trabalho é apresentada uma metodologia organizada a partir do workflow WIMBAT que utiliza métodos e técnicas de mineração de textos para possibilitar a extração de termos que descrevam tais compostos a partir de informações obtidas em bancos de dados biológicos, culminando com a construção de grafos para possibilitar a análise de associações entre os compostos identificados e a sua função aos agentes causadores destas doenças / Neglected diseases such as Dengue, Malaria and Chag as disease among others are prevalent in less developed countries and in environments sur rounded by poverty, affecting one-sixth of the world population, killing about 3000 people eac h day worldwide. However, a small investment has been made in research on these disea ses to obtain less aggressive drugs to humans and accomplish most effective actions and th us, the existing drugs used in treatments date back 30, 40 or even 50 years back. There is a large volume of scientific papers availa ble in digital libraries that store articles related to the description of the biology, immunolo gy and genetics of the parasites that cause these diseases and can be accessed through text min ing techniques, aiming the search of bioactive compounds not properly exploitedyet that might contribute to the development of new treatments against these diseases. To this end, this thesis presents the workflow bas ed methodology called WIMBAT that uses methods and text mining techniques to enable the ex traction of terms describing such compounds from information obtained from biologica l databases, ending within the construction of graphs that enable the specialistth e associations analysis between the identified compounds and their function to the caus ative agents of these diseases
85

UMA ANÁLISE PROBABILÍSTICA DA RETENÇÃO NA UNIVERSIDADE FEDERAL DA BAHIA: UM ESTUDO DE CASO NO CURSO DE CIÊNCIA DA COMPUTAÇÃO

Santos, Marcelo 18 November 2015 (has links)
Submitted by Marcio Filho (marcio.kleber@ufba.br) on 2016-05-31T16:44:21Z No. of bitstreams: 1 DissertaçãoMarceloFinal.pdf: 3898767 bytes, checksum: cfc831a26581e8997c0e83ac926b0492 (MD5) / Approved for entry into archive by Alda Lima da Silva (sivalda@ufba.br) on 2016-06-03T23:24:17Z (GMT) No. of bitstreams: 1 DissertaçãoMarceloFinal.pdf: 3898767 bytes, checksum: cfc831a26581e8997c0e83ac926b0492 (MD5) / Made available in DSpace on 2016-06-03T23:24:17Z (GMT). No. of bitstreams: 1 DissertaçãoMarceloFinal.pdf: 3898767 bytes, checksum: cfc831a26581e8997c0e83ac926b0492 (MD5) / O crescimento nas universidades brasileiras vem permitindo que vários alunos tenham acesso ao ensino superior, porém grande parte destes excedem o tempo médio para obtenção do grau. Ao ultrapassar este tempo médio, tanto a instituição quanto o aluno acumulam prejuízos financeiros. A fim de minimizar o número de alunos que ultrapassem esse tempo, universidades começaram a desenvolver pesquisas cujo o principal objetivo é analisar a retenção destes alunos. É nesse contexto que este trabalho se insere, especificamente na análise dos fatores de retenção através de redes bayesianas dos alunos do curso de Ciência da Computação da UFBA. A partir de inferências probabilísticas na rede bayesiana definida foi possível identificar probabilidades a respeito do sucesso ou o insucesso do aluno em disciplinas que tenham cursado em um dado semestre (1°, 2°,3°,...) em uma determinada tentativa (1°, 2°,3°,...), dado o seu sucesso ou insucesso em outras disciplinas. Através destas probabilidades, foi possível perceber qual o comportamento dos alunos no fluxo de disciplinas da grade curricular, possibilitando a conclusão de uma análise a respeito dos fatores que estão levando os alunos do curso de Ciência da Computação a não concluírem o seu curso no tempo médio para obtenção do grau.
86

Avaliação de métodos de data mining e regressão logística aplicados na análise de traumatismo cranioencefálico grave

Garcia, Merisandra Côrtes de Mattos January 2015 (has links)
Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia Elétrica, Florianópolis, 2015 / Made available in DSpace on 2015-12-22T03:04:44Z (GMT). No. of bitstreams: 1 336613.pdf: 2800332 bytes, checksum: f19c44227d5f66a9bff46e9ee8ea64b8 (MD5) Previous issue date: 2015 / O traumatismo cranioencefálico é um problema de saúde pública constituindo-se em uma das principais causas de morbidade e mortalidade no Brasil e no mundo. A análise das relações entre as suas consequências tem despertado interesse em pesquisas na área, a fim de se identificar os indicadores que auxiliam no seu prognóstico, buscandose evitar o óbito. Estes modelos são tradicionalmente gerados por meio da regressão logística que tem se constituído em uma técnica padrão para análise dos dados em saúde. No entanto, os modelos prognósticos em traumatismo cranioencefálico, como o grave que é o foco desta pesquisa, não conseguem acurácia elevada para a predição do óbito por meio da regressão logística. Sabendo-se disso, avanços em termos da acuracidade da predição podem auxiliar no prognóstico e conduta das pessoas acometidas por traumatismo cranioencefálico do tipo grave. A descoberta de conhecimento em bases de dados por meio da etapa de data mining e da integração de técnicas de diferentes áreas como inteligência computacional, reconhecimento de padrões, aprendizado de máquina, estatística e banco de dados, constitui-se em uma alternativa para identificar as relações nestes conjuntos de dados. Considerando-se isto, esta pesquisa consiste na avaliação comparativa de diferentes métodos de data mining, a fim de se analisar os modelos gerados e compará-los com o de regressão logística, em uma mesma população de estudo. Nesta pesquisa, se objetiva identificar padrões válidos, avaliando se os métodos de data mining empregados se mostram como uma alternativa à regressão logística, baseando-se em critérios de avaliação como acurácia e robustez, os quais se constituem em medidas de qualidade dos padrões descobertos. Os métodos de data mining empregados referem-se a indução de árvores de decisão por meio dos algoritmos C4.5 e Classification And Regression Trees; o aprendizado baseado em instâncias pelo algoritmo k-vizinhos mais próximos; as redes neurais artificiais por Funções de Base Radial; os classificadores bayesianos pelos algoritmos Naive Bayes e Redes de Crença Bayesiana e o metaclassificador pelo algoritmo Adaptive Boosting. No desenvolvimento foram gerados modelos de prognóstico do óbito em traumatismo cranioencefálico grave por meio dos algoritmos supracitados, como também pela regressão logística binária. Os modelos gerados na etapa de data mining foram comparados aplicando-se as medidas de avaliação de desempenho (verdadeiros positivos, verdadeiros negativos, acurácia, sensibilidade e especificidade) e de confiabilidade (coeficiente de concordância kappa e área sob a ReceiverOperating Characteristic Curve). Na comparação entre os modelos de data mining elencados com maior poder de discriminação em relação a regressão logística, utilizaram-se as medidas de confiabilidade citadas anteriormente, considerando-se Intervalos de Confiança de 95%. Dentre as análises realizadas, nos modelos gerados para predição do óbito em traumatismo cranioencefálico grave, os classificadores bayesianos destacaram-se apresentando medidas de desempenho significativamente mais representativas. O modelo gerado pelo algoritmo Naive Bayes destacou-se em relação aos demais métodos de data mining empregados, bem como quando comparado com o modelo de regressão logística binária, classificando corretamente o óbito em 58,2% (IC95%: 55,6- 61,8), a acurácia geral do modelo foi de 80,2% (IC95%: 76,9-85,7), sensibilidade de 72,7% (IC95%: 69,8-75,4), especificidade de 84,2% (IC95%: 81,6-87,5), área sob a Receiver-Operating Characteristic Curve de 0,851 (IC95%: 0,832-0,870) e coeficiente de concordância Kappa 0,530 (IC95%: 0,519-0,541). Comparando-se os resultados, o algoritmo Naive Bayes mostrou-se, no conjunto de dados estudado, significativamente mais representativo que o modelo de regressão logística binária e os outros modelos de data mining. <br> / Abstract : Traumatic brain injury is a public health problem thus becoming a major cause of morbidity and mortality in Brazil and worldwide. The analysis of relations between its consequences has stimulated researches in the area, in order to identify indicators that help its prognosis, seeking avoid death. These models are traditionally generated by logistic regression that has been constituted as a standard technique for analysis of health data. However, the prognostic models in traumatic brain injury, such as severe which is the focus of this research, can not have a high accuracy for prediction of death by logistic regression. Knowing this, advances in terms of prediction accuracy may aid in prognosis and management of people affected by severe brain injury. The knowledge discovery in databases by data mining step and integration of techniques from different areas such as computational intelligence, pattern recognition, machine learning, statistical and database, constitutes an alternative to identify relationships in the data sets. Considering this, this research consists on the comparative evaluation of different data mining methods in order to analyze the generated models and compare them with logistic regression, in the same study population. In this research, the objective is to identify valid standards, assessing whether the data mining methods used are shown as an alternative to logistic regression, based on evaluation criteria such as accuracy and robustness, which constitute quality measures of the discovered patterns. The data mining methods employed refer to decision tree induction through C4.5 algorithms and Classification And Regression Trees; learning based on instances by knearest neighbors algorithm; artificial neural networks Radial Basis Function; Bayesian classifiers by algorithms Naive Bayes and Bayesian Belief Networks and the metaclassificador by Adaptive Boosting algorithm. In the development were generated death of prognostic models in severe traumatic brain injury through the aforesaid algorithms, but also by binary logistic regression. The models in data mining stage were compared applying the performance evaluation measures (true positives, true negatives, accuracy, sensitivity and specificity) and reliability (kappa coefficient and area under the Receiver Operating Characteristic Curve). Comparing the data mining models listed with major discrimination in relation to logistic regression, we used the reliability of measurements mentioned above, considering 95% confidence intervals. Among the analyzes, the generated models for prediction of death in severe traumatic brain injury, the Bayesian classifiers stood out, presenting performance measures significantly more representative. The model generated by Naive Bayes algorithm stood out in relation to other data mining methods employed, as well as when compared to the binary logistic regression model, correctly classifying the death in 58,2% (CI95%: 55,6-61,8), the overall accuracy of the model was 80,2% (CI95%: 76,9-85,7), sensitivity of 72,7% (CI95%: 69,8-75,4), specificity of 84,2% (CI95%: 81,6-87,5), area under the Receiver Operating Characteristic Curve of 0,851 (CI95%: 0,832-0,870) and Kappa coeficient of agreement 0,530 (CI95%: 0,519-0,541). Comparing the results, the Naive Bayes algorithm proved, in the data set studied, significantly more representative than the model of binary logistic regression and other data mining models.
87

Pré-processamento para a mineração de dados

Schmitt, Jeovani January 2005 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Ciência da Computação. / Made available in DSpace on 2013-07-15T23:15:02Z (GMT). No. of bitstreams: 1 223783.pdf: 989944 bytes, checksum: 5339f705a93558e2bbd0069d6c4d34b9 (MD5) / A mineração de dados em grandes bases pode requerer alto tempo computacional. Além do mais, é comum as bases de dados conterem variáveis mensuradas em diferentes níveis: intervalar, ordinal e nominal. Neste caso, técnicas desenvolvidas para variáveis quantitativas não poderiam ser aplicadas sob as variáveis originais. Como exemplo, pode-se citar a análise de agrupamentos pelo método das k-médias. Este exige que as variáveis de entradas sejam quantitativas. Este trabalho apresenta uma metodologia para a fase do pré-processamento em mineração de dados, que utiliza a análise de componentes principais (ACP) com escalonamento ótimo (EO). O pré-processamento é uma etapa fundamental que pode melhorar a performance dos algoritmos de análise, através da redução de dimensionalidade. O escalonamento ótimo permite analisar bases que contenham variáveis observadas em diferentes níveis de mensuração. Através da ACP é possível obter uma redução das variáveis originais em um número de componentes principais, gerando novas coordenadas, menor que o número de variáveis originais. As novas coordenadas podem ser utilizadas na mineração de dados propriamente dita, em tarefas como agrupamentos, classificação entre outras. Essas tarefas podem ser realizadas por métodos estatísticos ou computacionais, como redes neurais, algoritmos genéticos entre outros. A metodologia proposta foi testada em uma base de dados com 118.776 registros de pessoas, pesquisadas pelo Instituto Brasileiro de Geografia e Estatística - IBGE, contendo 13 variáveis observadas em diferentes níveis de mensuração. Através da ACP com EO, as 13 variáveis foram reduzidas a 6 componentes principais, preservando ainda 77% da variabilidade original. Sob o novo conjunto de coordenadas foi aplicada a análise de agrupamentos, utilizando o algoritmo das k-médias para a separação dos grupos, com o objetivo de ilustrar uma tarefa comum em mineração de dados, a identificação de grupos, onde foi possível descrever 6 subgrupos ou clusters.
88

Uso de conjuntos difusos e lógica difusa para cálculo de atração e repulsão

Santos, José Gonçalo dos January 2004 (has links)
Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Ciência da Computação / Made available in DSpace on 2012-10-21T11:15:37Z (GMT). No. of bitstreams: 1 241439.pdf: 2409858 bytes, checksum: 84bba52efd376cd3ac94a5b16b23787d (MD5) / Recentes avanços na forma de aquisição de dados têm mostrado uma revolução de aumento de capacidade tecnológica de armazenamento destes. Notificações de servidores web, dados de transações de clientes, compras com cartão de crédito, uso de cartão fidelidade, entre outros, produzem terabytes de dados, diariamente, que são úteis como dados históricos, mas não tão úteis quanto poderiam ser se fossem efetivamente processados de forma que pudessem fornecer padrões e tendências. Esses padrões e as tendências são conhecimentos extraídos (descobertos) desses dados. A Descoberta de Conhecimento em Base de Dados (DCBD) é um campo interdisciplinar de pesquisa que mescla conceitos de estatística, de inteligência artificial e de banco de dados. O seu estudo é motivado pelo crescimento da complexidade, e da quantidade de dados oriundos de todas as esferas do domínio humano e da necessidade de extrair informações úteis dos dados coletados. A descoberta de regras de associação é uma área da DCBD que tem por objetivo encontrar conjuntos de itens freqüentes em transações de uma base de dados e inferir regras capazes de mostrar como um conjunto de itens sofre influência na presença de outros conjuntos de itens. O uso de regras de associação no processo de DCBD tem sido utilizado por diversos pesquisadores. Contudo, os modelos para descoberta de regras de associação trabalham com medidas numéricas. No cálculo das medidas de atração/repulsão, esses métodos utilizam uma base de dados, considerando a ocorrência ou não do evento. Trabalhando dessa forma com uma matriz denominada de matriz de co-ocorrência, que contém valores binários onde 0 (zero) representa a não ocorrência e 1 (um), a ocorrência do evento. Porém, essa matriz utilizada para o cálculo de atração/repulsão entre produtos, com valores binários, despreza a intensidade da associação dos eventos e a quantidade de produtos comprados. Dessa forma, a matriz de co-ocorrência utilizada para o cálculo das medidas de associação não reconhece a imprecisão da ocorrência ou não ocorrência conjunta dos eventos. Para o tratamento da imprecisão podem ser utilizadas a teoria dos conjuntos difusos e da lógica difusa. A modelagem da imprecisão utilizando a abordagem difusa parece ser adequada para tratar o problema da imprecisão presente, não considerada na matriz de co-ocorrência. Assim, esta pesquisa teve por objetivo verificar a adequação da abordagem difusa para modelar a imprecisão contida na matriz de co-ocorrência utilizada no cálculo da medida atração/repulsão, para propor um modelo difuso para o cálculo de atração/repulsão. Para a modelagem do método proposto foi necessária a identificação dos métodos mais usados em MBA e a identificação dos modelos de regras usados na lógica difusa; a construção de conjuntos difusos para representar termos lingüísticos usados para as variáveis de entrada e a adequação dos limites dos intervalos das funções de pertinência. Foram avaliadas várias combinações de funções de pertinência em conjunto com os principais modelos de regras, usando várias amostras de associações entre produtos oriundas de base de dados de três segmentos comerciais. A partir daí, foi proposto um método que mapeia entradas numéricas de freqüências para termos lingüísticos e que possibilita como saída a classificação de associação. Podendo ser de atração ou repulsão, com grau de associação baixa, moderada ou alta. O método mostrou bons resultados e pode ser aplicado na área comercial para análise de dados históricos de vendas. Além disso, pode ser usado nos pontos de vendas para auxiliar o atendente a oferecer um novo produto a determinados clientes, baseado na sua compra atual, porque a resposta do sistema pode ser dada em linguagem natural, o que torna acessível a qualquer usuário do sistema. Pode-se também usar o método para fazer consultas usando linguagem natural.
89

Proposição de indicadores para avaliação técnica de projetos de data warehouse

Almeida, Alexandre Marques de January 2006 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia de Produção. / Made available in DSpace on 2012-10-22T06:45:28Z (GMT). No. of bitstreams: 1 228102.pdf: 4630922 bytes, checksum: be812a2f5d008d744d121046e1001dcd (MD5) / Como peça fundamental na obtenção do conhecimento, a informação requer cada vez mais o uso de tecnologias de computação. Esta necessidade se traduz na aplicação de ferramentas que possam agregar grandes massas de dados armazenadas ao longo do tempo como base de conhecimento e transformá-las em indicadores sustentáveis para futuras tomadas de decisões. Com a utilização de técnicas de data warehousing é possível obter tais indicadores para tomadas de decisões. Porém, no próprio processo de data warehousing existe dificuldade em se obter indicadores de desenvolvimento, seja na modelagem dos dados, no projeto de back-end ou de front-end de um DW. Esta dissertação propõem com o estudo de caso no data warehouse da Plataforma Lattes do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq), a utilização de indicadores relacionados a modelagem de dados, o projeto de back-end e front-end no processo de data warehousing, encontrados nos data marts de Fomento, Grupos de Pesquisa e DM de Currículos que são integrantes do DW da Plataforma Lattes e que apresentam modelos diferenciados possibilitando a aplicação dos indicadores e verificação da atuação de cada um dos indicadores em cada modelo. O presente trabalho visa auxiliar no desenvolvimento de novos projetos de DW, e diminuir a carência de pesquisas realizadas sobre o levantamento e utilização de indicadores de desenvolvimento de DW.
90

Modelo para análise de dados de gerência de redes utilizando técnicas de KDD

Silva, Adinarte Correa da January 2002 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Ciência da Computação. / Made available in DSpace on 2012-10-20T02:32:25Z (GMT). No. of bitstreams: 0Bitstream added on 2014-09-26T02:46:09Z : No. of bitstreams: 1 208297.pdf: 4084097 bytes, checksum: 7b462f6003d99c52f3001e14a4083b49 (MD5)

Page generated in 0.4738 seconds