Spelling suggestions: "subject:"mineração dde dados (computação)"" "subject:"mineração dde dados (omputação)""
101 |
Aplicação de técnicas de mineração de texto na recuperação de informação clínica em prontuário eletrônico do paciente /Carvalho, Ricardo César de. January 2017 (has links)
Orientador: Virginia Bentes Pinto / Banca: Edberto Ferneda / Banca: Marcos Luiz Mucheroni / Resumo: Na área da saúde, as tecnologias digitais fornecem recursos para a geração, controle, manutenção e arquivamento dos dados vitais dos pacientes, pesquisas biomédicas, captura e disponibilização de imagens diagnósticas. Ao criar grandes bancos de dados sobre a saúde das pessoas, o processamento das informações contidas no prontuário do paciente permitirá uma nova visão a respeito do conhecimento atual do processo de diagnóstico médico. Existem diversos problemas nessa área, porque o acesso ao prontuário analógico é complicado, e em formato eletrônico não está disponível para todos, apesar do conhecido potencial desses documentos como fonte informacional. Uma das formas para a organização desse conhecimento é por meio da mineração de textos, que possibilita o processamento dos dados descritos em linguagem natural. Entretanto, é preciso levar em consideração o fato da redação médica não poder ser padronizada, embora exista a normativa do Conselho Federal de Medicina que orienta nessa direção. É neste contexto, que esta pesquisa se norteia com o objetivo básico de investigar a aplicabilidade da metodologia de mineração de textos para a extração de informações provenientes da anamnese de prontuários eletrônicos do paciente divulgados no ciberespaço visando a qualidade na recuperação de informações. Trata-se de uma pesquisa de cunho exploratório, tendo-se realizado a mineração de textos sobre um conjunto de 46 anamneses divulgadas no ciberespaço visando a recuperação de informação. ... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: In the health area, digital technologies provide resources for the generation, control, maintenance and vital patient data archiving biomedical research, diagnostic images capture and availability. By creating large databases on people's health records, processing the information contained in the patient's medical record, will provide a new insight into current knowledge of the medical diagnostic process. There are several problems in this area, because the access to analogical records is very complex and electronic format is not available for all of them, despite the known potential of these documents as informational source. One of the ways to arrange this knowledge is by the text mining which enables the data processing in natural language. However, it is necessary to consider the fact that medical writing cannot be standardized, although there is a Federal Council of Medicine policy that directs to that path. This is the context which this research is guided by the basic goal of investigating the methodology applicability of text mining for extracting information from the anamnesis of patients' electronic medical records divulged in cyberspace and aiming at the quality of information retrieval. This is an exploratory research, with texts mining on a set of 46 anamnesis published in cyberspace aimed at information retrieval. Then, a comparison was made with the data retrieved manually, to the interpretation of the medical-patient communication language. Those two results w... (Complete abstract click electronic access below) / Mestre
|
102 |
Indução de regras de decisão para análise descritiva de padrões de produtividade em talhões de cana-de-açúcar / Decision rules induction for descriptive analysis of yield patterns in commercial blocks of sugar canePeloia, Paulo Rodrigues, 1982- 28 August 2018 (has links)
Orientador: Luiz Henrique Antunes Rodrigues / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agrícola / Made available in DSpace on 2018-08-28T09:48:01Z (GMT). No. of bitstreams: 1
Peloia_PauloRodrigues_D.pdf: 1851900 bytes, checksum: 758d89c257994cf08ae7c6641daf8619 (MD5)
Previous issue date: 2015 / Resumo: As indústrias do setor sucroalcooleiro coletam anualmente, durante sua operação comercial normal, milhares de dados relacionadas à produção e fatores que podem influenciá-la. A análise descritiva de padrões nos fatores de influência associados à talhões de destacado desempenho relacionado ao potencial produtivo pode ser um ponto chave para tornar o sistema de produção mais eficiente, principalmente quando passíveis de ação e/ou inesperados, assim auxiliando na tomada de decisão ou servindo de hipótese para experimentos específicos futuros em condições controladas. Apesar desta disponibilidade de bases de dados e potenciais resultados, ainda existe uma lacuna em abordagens que contemplem desde a obtenção e preparação dos dados até extração de padrões num formato compreensível. Assim, o objetivo desta pesquisa foi propor uma abordagem baseada na técnica de indução de regras de decisão para análise descritiva de padrões em talhões de alto e baixo desempenho em produtividade na cana-de-açúcar. A abordagem possui 9 etapas, sendo: obtenção da base de dados de produtividade e seu enriquecimento com dados de fatores de influência complementares e sua limpeza; criação de atributos derivados, padronização do potencial produtivo dos talhões e segmentação em baixo e alto desempenho pelo método K-means; extração de regras por indução de regras de decisão usando os algoritmos RIPPER e Classification Tree, seguida pela seleção das principais regras por medidas de interesse (Novidade e Likelihood ratio ou precisão e complexidade); avaliação agronômica das regras selecionadas e dos atributos descritores. A abordagem foi exemplificada numa base de dados de produtividade de talhões de duas safras consecutivas de uma unidade de produção de cana-de-açúcar. Os resultados mostraram que a abordagem foi capaz de descrever 18 padrões, sendo 10 passíveis de ação e 4 inesperados. A abordagem proposta mostrou-se válida para descrever padrões inesperados ou passíveis de ação relacionados à produtividade, reproduzindo o conhecimento de especialistas de forma estruturada (passível de reprodução) e automática (sem a necessidade um especialista durante o processo), podendo ser estendida a outras culturas / Abstract: Industries of sugarcane sector collect annually thousands of information related to production and influence factors during current commercial operation. The descriptive analysis of influence factors patterns related to commercial blocks with outstanding performance related to productive potential may be a key-point to make the sugarcane production system more efficient, mainly when actionable and/or unexpected, thus assisting decision making or being hypothesis for future specific experiments under controlled conditions. Despite of the databases availability and potential results, still exist a gap in approaches that cover from the data obtainment and preparation until patterns extraction in a comprehensive format. Therefore, the objective of this research is to propose a methodology based on decision rules induction technique to descriptively analyze patterns in commercial blocks with high and low performance regarding sugarcane yield. The approach has 9 phases: yield database obtainment and its enrichment with complementary influence factors data and clean up; derived attributes creation, productive potential of commercial blocks standardization and clustering in high and low performance by k-means method; rules induction by algorithms RIPPER and Classification Tree, followed by main rules selection based on interestingness measures (Novelty and Likelihood ratio or precision and complexity); agronomic evaluation of selected rules and descriptive attributes. The approach has been exemplified in a two consecutive season yield database of commercial blocks from a production unit has been analyzed. Results show that the approach was able to describe 18 patterns, where 10 are actionable and 4 unexpected. The proposed approach is valid to describe unexpected patterns or actionable ones related to yield, reproducing the experts knowledge in a structured form (reproducible) and automatically (nor requiring an knowledge expert during the process). It may be extended to other crops / Doutorado / Planejamento e Desenvolvimento Rural Sustentável / Doutor em Engenharia Agrícola / 2012/50049-3 / FAPESP
|
103 |
Mineração de dados educacionais aplicada à busca de perfis de alunos em casos de evasão ou retenção: uma abordagem através de Redes BayesianasCOUTO, Diego da Costa do 12 September 2017 (has links)
Submitted by Carmen Torres (carmensct@globo.com) on 2018-02-09T18:16:07Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_MineraçãoDadosEducacionais.pdf: 1998458 bytes, checksum: 1b7da795e82e32e0d1cbe0b9ffc47830 (MD5) / Approved for entry into archive by Edisangela Bastos (edisangela@ufpa.br) on 2018-02-20T18:02:13Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_MineraçãoDadosEducacionais.pdf: 1998458 bytes, checksum: 1b7da795e82e32e0d1cbe0b9ffc47830 (MD5) / Made available in DSpace on 2018-02-20T18:02:13Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_MineraçãoDadosEducacionais.pdf: 1998458 bytes, checksum: 1b7da795e82e32e0d1cbe0b9ffc47830 (MD5)
Previous issue date: 2017-09-12 / Este trabalho investiga os perfis de alunos de cursos da graduação da Universidade Federal do Pará propensos a dois problemas enfrentados em diversas universidades brasileiras denominados evasão e retenção. Estas problemáticas estimularam o estudo de metodologias que detectassem padrões que suscitam a extrapolação ou o fim prematuro dos estudos. A ferramenta elegida a este fim, a Rede Bayesiana é poderosa ao propiciar raciocínio sobre incertezas, especialmente em diagnósticos de causas e efeitos tendo como pressuposto o relacionamento das variáveis e suas probabilidades de ocorrências conjuntas e marginais. Outro aspecto inerente a estrutura das Redes Bayesianas diz respeito à compreensibilidade da representação e dos resultados, os quais geram subsídios voltados a especialistas e usuários inseridos no domínio. Considerando tais colocações, essas potencialidades da metodologia em questão fortaleceram a sua aplicação nesta pesquisa. Dessa forma, registros acadêmicos contendo dezenas de milhares de amostras oriundas de alunos imersos em ambientes de ensino presencial pertencentes aos alunos de graduação ingressantes na Universidade Federal do Pará até o ano de 2016 foram submetidos ao processo de Descoberta de Conhecimento em Base de Dados, especificamente na etapa de Mineração de Dados os padrões desejados foram extraídos valendo-se da tarefa de classificação. Em adição, realizou-se na etapa de Mineração de Dados várias análises de desempenhos da Rede Bayesiana junto a outros algoritmos clássicos do aprendizado supervisionado, e aquela revelou a sua grande acurácia e eficiência, ressaindo dentre as melhores soluções encontradas, isto posto o seu uso foi certificado sobre a base de dados selecionada. Em três estudos de casos avaliados, os resultados indicaram a qualidade do classificador baseado em Redes Bayesianas que apresentou acurácia superior a 82%, condição que legitima a sua utilidade no domínio pesquisado. Assim, os resultados atingidos foram satisfatórios e apontaram fortes influências de algumas variáveis à propensão da evasão ou retenção. / This work investigates the profiles of undergraduate students at the University of Federal University of Pará prone to two problems faced in several universities evasion and retention. These problems stimulated the study of methodologies that detect patterns that lead to extrapolation or the premature end of the studies. The tool chosen for this purpose, the Bayesian Network is powerful in providing reasoning about uncertainties, especially in causes and effects diagnoses. Assumption of the relationship of the variables and their probability of occurrence and marginal. Another aspect inherent in the structure of Bayesian Networks is the comprehensibility of representation and results, which generate specialists and users entered into the domain. Considering such placements, these potential of the methodology in question strengthened its application in this research. So, academic records containing tens of thousands of samples from students immersed in presential teaching environments belonging to undergraduate students at the Federal University of Pará until the year 2016 were submitted to the of Knowledge Discovery in the Database, specifically in Data Mining the desired patterns were extracted using the classification task. In addition, several performance analyzes were performed during Data Mining stage The Bayesian Network together with other classic algorithms of supervised learning, and which revealed its great accuracy and efficiency, rising from the best solutions found, its use has been certified on the selected database. In three Study of Case, the results shows classifier’s quality based on Bayesian Networks, which presented an accuracy of more than 82%, a condition that its usefulness in the researched domain. Thus, the results achieved were satisfactory and strong influences of some variables on the propensity of evasion or retention.
|
104 |
GVwise: uma aplicação de learning analytics para a redução da evasão na educação à distânciaCambruzzi, Wagner Luiz 15 April 2014 (has links)
Submitted by William Justo Figueiro (williamjf) on 2015-07-28T20:32:18Z
No. of bitstreams: 1
27d.pdf: 4180188 bytes, checksum: 617cda1d8cedaa910bb66676e96c33d1 (MD5) / Made available in DSpace on 2015-07-28T20:32:18Z (GMT). No. of bitstreams: 1
27d.pdf: 4180188 bytes, checksum: 617cda1d8cedaa910bb66676e96c33d1 (MD5)
Previous issue date: 2014-04-15 / Nenhuma / Aplicações que fazem uso de tecnologias como Mineração de Dados Educacionais (MDE) e Learning Analytics (LA) vêm sendo adotadas na mitigação da evasão escolar, disponibilizando informações sobre os alunos que são utilizadas em intervenções pedagógicas. Os trabalhos estudados sobre a implementação destas aplicações priorizam a descrição das técnicas empregadas e existem poucas avaliações da sua utilização em larga escala, além da falta de detalhamento sobre as causas da evasão. Este trabalho apresenta um estudo de fatores envolvidos no fenô- meno de evasão escolar e descreve a utilização de um sistema para MDE e LA durante 18 meses em cursos de graduação na modalidade de Educação a Distância. É ampliada a análise dos fatores tradicionalmente monitorados e utilizados nos sistemas de MDA e LA, com a inclusão de elementos associados ao papel exercido pelos docentes e pelo conjunto de aspectos metodológicos de cada instituição. O sistema possui como diferencial a flexibilidade na integração e utilização dos dados gerados no processo de mediação digital, o que permite que necessidades de diferentes ferramentas de apoio sejam disponibilizadas. Resultados positivos destacados são a identificação de perfis de alunos evasores e a realização de intervenções pedagógicas, com redução das médias da evasão. / Educational Data mining (EDM) and Learning Analytics (LA) applications have been adopted in mitigation of dropout, providing information about students who are employed in pedagogical interventions. The most papers about the implementation of these systems describe the techniques employed, there are few evaluations of their large-scale use, apart from the lack of detail about the causes of dropout. This work presents a study of factors involved in dropout and describes the use of a system for EDM and LA during 18 months for undergraduate courses in distance education. The analysis of the factors traditionally monitored and used in EDM and LA systems is extended, with the inclusion of elements associated with the role exercised by the teachers and by institutional methodological aspects. The system has flexibility in integration and use of data generated in the process of digital mediation, which allows different support tools to be available. Some results are the identification of evaders students profiles and the realization of pedagogical actions with reducing evasion.
|
105 |
Abordagem probabilística para caracterização do sistema de marcação de sequenciamento multiplex na plataforma ABI SOLIDLOBATO, Fábio Manoel França 01 July 2011 (has links)
Submitted by Samira Prince (prince@ufpa.br) on 2012-06-01T14:22:25Z
No. of bitstreams: 2
Dissertacao_AbordagemProbabilisticaCaracterizacao.pdf: 2216925 bytes, checksum: 41db7a9e13836866a105b019e2d7ea99 (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Approved for entry into archive by Samira Prince(prince@ufpa.br) on 2012-06-01T14:23:08Z (GMT) No. of bitstreams: 2
Dissertacao_AbordagemProbabilisticaCaracterizacao.pdf: 2216925 bytes, checksum: 41db7a9e13836866a105b019e2d7ea99 (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Made available in DSpace on 2012-06-01T14:23:08Z (GMT). No. of bitstreams: 2
Dissertacao_AbordagemProbabilisticaCaracterizacao.pdf: 2216925 bytes, checksum: 41db7a9e13836866a105b019e2d7ea99 (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Previous issue date: 2011 / CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico / Os sequenciadores de nova geração como as plataformas Illumina e SOLiD geram uma
grande quantidade de dados, comumente, acima de 10 Gigabytes de arquivos-texto. Particularmente, a plataforma SOLiD permite o sequenciamento de múltiplas amostras em uma única corrida (denominada de corrida multiplex) por meio de um sistema de marcação chamado Barcode. Esta funcionalidade requer um processo computacional para separação dos dados por amostra, pois, o sequenciador fornece a mistura de todas amostras em uma única saída. Este processo deve ser seguro a fim de evitar eventuais embaralhamentos que possam prejudicar as análises posteriores. Neste contexto, o presente trabalho propõe desenvolvimento de um modelo probabilístico capaz de caracterizar sistema de marcação utilizado em sequenciamentos multiplex. Os resultados obtidos corroboraram a suficiência do modelo obtido, o qual permite,
dentre outras coisas, identificar faltas em algum passo do processo de sequenciamento; adaptar e desenvolver de novos protocolos para preparação de amostras, além de atribuir um Grau de Confiança aos dados gerados e guiar um processo de filtragem que respeite as características de cada sequenciamento, não descartando sequências úteis de forma arbitrária. / The next generation sequencers such as Illumina and SOLiD platforms generate a large amount of data, commonly above 10 Gigabytes of text files. Particularly, the SOLiD platform allows the sequencing of multiple samples in a single run (called multiplex run) through a marking
system called Barcode. This feature requires a computational process for separation of
data per sample, therefore, the sequencer provides a mixture of all samples in a single output. This process must be secure to avoid any harm that may scramble further analysis. In this context, this dissertation proposes development of a probabilistic model capable of characterizing the marking system used in multiplex sequencing. The results corroborate the adequacy of the
model obtained, which allows, among other things, identify faults in some step in the sequencing process, adapt and develop new protocols for sample preparation, and assign a grade to the reliability of data generated and guide a filtering process that respects the characteristics of each sequence, without discarding sequences useful in an arbitrary manner.
|
106 |
Uso de árvore de decisão para avaliação da segurança estática em tempo real de sistemas elétricos de potênciaRODRIGUES, Benedito das Graças Duarte 12 September 2014 (has links)
Submitted by Edisangela Bastos (edisangela@ufpa.br) on 2015-02-04T20:46:44Z
No. of bitstreams: 2
license_rdf: 22974 bytes, checksum: 99c771d9f0b9c46790009b9874d49253 (MD5)
Dissertacao_UsoArvoreDecisao.pdf: 2624946 bytes, checksum: 662b4b1511a21632291f49b15365859c (MD5) / Approved for entry into archive by Ana Rosa Silva (arosa@ufpa.br) on 2015-02-05T16:23:15Z (GMT) No. of bitstreams: 2
license_rdf: 22974 bytes, checksum: 99c771d9f0b9c46790009b9874d49253 (MD5)
Dissertacao_UsoArvoreDecisao.pdf: 2624946 bytes, checksum: 662b4b1511a21632291f49b15365859c (MD5) / Made available in DSpace on 2015-02-05T16:23:15Z (GMT). No. of bitstreams: 2
license_rdf: 22974 bytes, checksum: 99c771d9f0b9c46790009b9874d49253 (MD5)
Dissertacao_UsoArvoreDecisao.pdf: 2624946 bytes, checksum: 662b4b1511a21632291f49b15365859c (MD5)
Previous issue date: 2014 / As técnicas utilizadas para avaliação da segurança estática em sistemas elétricos de potência dependem da execução de grande número de casos de fluxo de carga para diversas topologias e condições operacionais do sistema. Em ambientes de operação de tempo real, esta prática é de difícil realização, principalmente em sistemas de grande porte onde a execução de todos os casos de fluxo de carga que são necessários, exige elevado tempo e esforço computacional mesmo para os recursos atuais disponíveis. Técnicas de mineração de dados como árvore de decisão estão sendo utilizadas nos últimos anos e tem alcançado bons resultados nas aplicações de avaliação da segurança estática e dinâmica de sistemas elétricos de potência. Este trabalho apresenta uma metodologia para avaliação da segurança estática em tempo real de sistemas elétricos de potência utilizando árvore de decisão, onde a partir de simulações off-line de fluxo de carga, executadas via software Anarede (CEPEL), foi gerada uma extensa base de dados rotulada relacionada ao estado do sistema, para diversas condições operacionais. Esta base de dados foi utilizada para indução das árvores de decisão, fornecendo um modelo de predição rápida e precisa que classifica o estado do sistema (seguro ou inseguro) para aplicação em tempo real. Esta metodologia reduz o uso de computadores no ambiente on-line, uma vez que o processamento das árvores de decisão exigem apenas a verificação de algumas instruções lógicas do tipo if-then, de um número reduzido de testes numéricos nos nós binários para definição do valor do atributo que satisfaz as regras, pois estes testes são realizados em quantidade igual ao número de níveis hierárquicos da árvore de decisão, o que normalmente é reduzido. Com este processamento computacional simples, a tarefa de avaliação da segurança estática poderá ser executada em uma fração do tempo necessário para a realização pelos métodos tradicionais mais rápidos.
Para validação da metodologia, foi realizado um estudo de caso baseado em um sistema elétrico real, onde para cada contingência classificada como inseguro, uma ação de controle corretivo é executada, a partir da informação da árvore de decisão sobre o atributo crítico que mais afeta a segurança. Os resultados mostraram ser a metodologia uma importante ferramenta para avaliação da segurança estática em tempo real para uso em um centro de operação do sistema. / The techniques used to Static Security Assessment in power systems depend on the implementation of a large number of cases of load flow for various topologies and system operating conditions. In real-time operation environments, this practice is difficult to implement, especially in large systems where the execution of all cases of load flow needed, requires high time and computational effort even for the current resources available. Data Mining techniques such as decision tree have been used in recent years and have achieved good results in the applications of static and dynamic security assessment of electrical power systems.
This work presents a methodology for static security assessment in real-time of electrical power systems using the decision tree, where off-line load flow simulations, performed by software ANAREDE (CEPEL), has been generated an extensive labeled database related to the state of the system for various operating conditions. This database was used for induction of decision trees, providing a model for fast and accurate prediction that classifies the state of the system (secure or insecure) for real time application. This methodology reduces the use of computers in the on-line environment, since the processing of the decision tree requires only checking some if-then logical instructions of a limited number of numerical tests in the binary nodes for the attribute value definition that satisfies the rules, because these tests are performed in a same number of hierarchical levels of the decision tree, which is usually reduced. With this simple computational processing, the task of the static security evaluating will be able to be performed in a fraction of the time required to perform by faster traditional methods.
To validate the methodology, a case study based on a real power system was performed, where for every contingency classified as insecure a corrective control action was executed from the decision tree information on the critical attribute that affects the security. The results showed the methodology is an important tool for static security assessment in real time for use in a center's operation system.
|
107 |
Um sistema imunológico artificial para classificação hierárquica e multi-label de funções de proteínasAlves, Roberto Teixeira 26 February 2010 (has links)
CAPES / Esta tese propõe um novo algoritmo baseado em Sistemas Imunológicos Artificiais (SIA) para classificação hierárquica e multi-label, onde os classificadores gerados são representados na forma de regras SE-ENTÃO. A classificação hierárquica e multi-label é considerada desafiadora uma vez que um exemplo está associado a uma ou mais classes organizadas hierarquicamente, sendo que esta organização estrutural de classes deve ser considerada na construção dos classificadores. A técnica proposta aborda a construção de classificadores hierárquicos locais (onde cada classificador processa apenas exemplos de classes em uma região local da hierarquia) e globais (onde um único classificador processa exemplos de todas as classes ao mesmo tempo). A área de aplicação utilizada para validação desta tese foi a predição de função biológica de proteínas usando termos da ontologia gênica como classes a serem preditas pelo SIA. O desempenho do algoritmo é avaliado experimentalmente para 10 bases de proteínas. Os critérios de avaliação do algoritmo nos experimentos computacionais são a precisão preditiva (taxa de acerto e área da curva precision-recall) e a simplicidade do conhecimento descoberto (medida pelo número de regras e número total de condições nas regras descobertas). Os experimentos computacionais permitem identificar parâmetros e procedimentos que influenciam no desempenho da técnica proposta. Os testes comparativos com outras abordagens mostram que sobre alguns conjuntos de experimentos a abordagem proposta se mostrou superior, enquanto em outros conjuntos não foi possível superar a técnica da literatura usada para comparação. / This thesis proposes a new approach based on Artificial Immune System (AIS) for hierarchical multi-label classification, where the classifiers produced by the system are represented in the form of IF-THEN classification rules. Hierarchical multi-label classification is a challenging problem, because an example is associated with one or more classes organized into a hierarchy and the class hierarchy must be considered in the construction of the classifiers. The proposed method addresses the construction of local hierarchical classifiers (where each classifier processes only examples of classes in a local region of the hierarchy) and global hierarchical classifiers (where a single classifier processes examples of all classes at the same time). The application domain used to validate the proposed methods was the prediction of the biological function of proteins, using terms of the Gene Ontology as classes to be predicted by the AIS. The performance of the algorithm was evaluated in computational experiments with 10 datasets of proteins. The evaluation criteria in these experiments were the predictive accuracy (accuracy rate and the area under the precision-recall curve) and the simplicity of the discovered knowledge (measured by the number of rules and total number of conditions in the discovered rules). The computational experiments allowed the identification of parameter settings and procedures that significantly influence the performance of the proposed method. The experiments comparing the proposed method with other methods have shown that in some datasets the proposed method outperformed other methods, whilst in other datasets it was not possible to outperform other methods proposed in the literature.
|
108 |
Sistema de informação gerencial para previsão de produtividade do trabalho na alvenaria de elevaçãoMori, Luci Mercedes De January 2008 (has links)
Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia Civil. / Made available in DSpace on 2012-10-24T02:02:31Z (GMT). No. of bitstreams: 1
258217.pdf: 1699115 bytes, checksum: f8595ab04b4b5403ce241da4014d8519 (MD5) / Os indicadores de produtividade de mão-de-obra são elementos importantes para o sistema de produção da construção civil, no fornecimento de informações para a elaboração de planejamento financeiro do empreendimento, da programação físicofinanceira e para o controle do processo produtivo. Neste sentido, o objetivo deste trabalho consiste no desenvolvimento de um sistema de informação gerencial, para fazer predição dos níveis de produtividade que devem ocorrer frente a condições ambientais predeterminadas, considerando o conjunto de fatores mais influentes na produtividade do trabalho do serviço de alvenaria de elevação. A metodologia se baseou na seleção de atributos, mineração de dados e redes neurais. Foram coletados indicadores diários de produtividade, cada um deles associados a 24 fatores passíveis de afetá-los, nas cidades de Florianópolis-SC e Maringá-PR. Esses dados, após serem tratados e normalizados, foram selecionados pelas ferramentas de seleção de atributos information gain, Qui-quadrado e heurística Correlationbased Feature Selection (CFS). Para se identificar os fatores de maior influência, os dados passaram por processo de mineração de dados, com o uso de um algoritmo de classificação. O sistema de informação desenvolvido foi baseado em redes neurais de múltiplas camadas alimentadas adiante, treinadas com o algoritmo de retropropagação do erro (error back-propagation), sendo sua capacidade de generalização analisada em experimentos mediante matriz de confusão e coeficiente Kappa. Os métodos de seleção de atributos associados à mineração de dados permitiram reduzir o número de fatores a serem analisados, bem como selecionar aqueles de maior impacto nos indicadores de produtividade, sem a presença de considerações subjetivas. A partir da mineração de dados, constatou-se diferentes níveis de influência dos atributos na produtividade, entretanto ficou evidente a influência da forma de pagamento da mão-de-obra nos níveis de produtividade. O sistema de informações desenvolvido é capaz de fazer a predição de índices de produtividade e selecionar o conjunto de atributos que proporcionam maior acurácia de generalização. Nos resultados das experimentações, as predições atingiram uma mediana acurácia, em torno de 70% de acerto para o conjunto de teste.
Indicators of labour productivity are important factors for the system of production of civil construction, in the information delivery of the project#s financial planning, and for the physical-financial programming, and control of the production process. On the basis of these considerations, the purpose of this research is to develop a management information system to predict the levels of productivity that should occur due to the predetermined environmental conditions, considering the factors that significantly affect masonry productivity. The methodology was based on the selection of attributes, data mining and neural networks. Daily indicators of productivity were collected, each one of them was associated to 24 factors that could
affect them in the cities of Florianopolis-SC and Maringá-PR. These data, after being treated and standardized, were selected by the tools of attributes selection information gain, chi-square and heuristic-based Correlation Feature Selection (CFS). To identify the factors that have the most influence, the data went through a data mining, with the use of decision tree algorithm. The developed information system was based on neural networks of multiple layers fed ahead, trained with the algorithm of error back-propagation. Its ability of generation was analyzed in experiments by matrix of confusion and Kappa coefficient. The attribute selection methods associated with data mining allowed to reduce the number of factors to be analyzed as well select the ones with greater impact on indicators of productivity, without the presence of subjective considerations. From the data mining it was verified different levels of influence of the attributes of productivity, however the influence of the labour form of payment was evident. The information system developed is capable of generating prediction of the productivity rates and selects the group of attributes that provide greater generalization accuracy. In the results of experiments, the predictions reached a median accuracy, around 70% of hit for the whole test.
|
109 |
O campo da Ciência da Informação : contribuições, desafios e perspectivas da mineração de dados para o conhecimento pós-moderno /Nhacuongue, Januário Albino. January 2015 (has links)
Orientador: Edberto Ferneda / Banca: Zaira Regina Zefalon / Banca: Guilherme Ataíde Dias / Banca: Maria José Vicentini Jorente / Banca: Elvis Fusco / Resumo: O trabalho faz uma abordagem sobre a gênese do campo da Ciência da Informação (CI) e analisa as principais contribuições e desafios impostos pela tecnologia, no que tange à representação e recuperação da informação. O objeto da pesquisa é a Ciência da Informação e o contexto, por um lado, resulta da revolução das ciências, na dicotomia entre a busca pela essência e o foco nos problemas humanos, em concomitância com a relação entre a ciência e a tecnologia. Por outro, do aumento dos recursos informacionais digitais e da complexidade, tanto dos ambientes de produção, comunicação e uso da informação, como dos modelos de representação. Para tal, usou o método qualitativo de caráter descritivo, cujos procedimentos técnicos foram centrados na pesquisa bibliográfica e documental de materiais relativos às variáveis. A partir do delineamento sobre a origem e desdobramentos da CI enleados à tecnologia e do respectivo objeto (informação), identificou como problema da pesquisa, a intangibilidade de algumas informações da Web Social, no ponto de vista do acesso. Assim, a pesquisa partiu da seguinte pergunta de partida: é possível utilizar-se da Mineração de Dados (MD) como uma forma de garantir a recuperação da informação intangível na Web Social? Por conseguinte, a pesquisa identificou como objetivo geral: propor a mineração de dados como solução para a recuperação da informação intangível em ambientes da Web Social. Assim, o trabalho chegou às seguintes conclusões: com base na noção de campo proposta por Pierre Bordieu, a CI é um campo científico e a sua gênese está aliada aos problemas informacionais humanos e à tecnologia. A maioria das suas abordagens é anterior à explosão informacional no período Pós-Guerra e foram incorporadas a partir de relações... resumo completo, clicar acesso eletrônico abaixo) / Abstract: The work is a discussion of the genesis of the field of Information Science (IS) and analyzes the main contributions and challenges posed by technology, regarding the information representation and retrieval. The object of research is the Information Science and the context on the one hand, results of the revolution of the sciences, in the dichotomy between the search for the essence and the focus on human problems, in tandem with the relationship between science and technology. On the other, the increase in digital information resources and the complexity of both production environments, communication and use of information, such as the representation models. To do this, it used the qualitative method of descriptive character, whose technical procedures were focused on bibliographical and documentary research materials related to variables. From the design of the origin and developments of IS ensnared technology and its object (information), identified as the research problem, the intangibility of some information from the Social Web, the point of view of access. Thus, the research came from the following starting question: is it possible to use the Data Mining (DM) as a way to ensure the retrieval of intangible information in the Social Web? Therefore, the survey identified the general objective: propose the data mining as a solution for the retrieval of intangible information in the Social Web environments. Thus, the work reached the following conclusions: based on the notion of field proposed by Pierre Bourdieu, Information Science is a scientific field and its genesis is allied to human problems and informational technology. Most of their approaches is prior to the informational explosion in the postwar period and were incorporated from interdisciplinary relations, especially with the Library, Archival, Documenta ... (Complete abstract click electronic access below) / Doutor
|
110 |
Um estudo comparativo das técnicas de predição na identificação de insucesso acadêmico dos estudantes durante cursos de programação introdutória / A comparative study of prediction techniques in identifying academic failure of students for programming introductory coursesSantana, Marcelo Almeida 06 November 2015 (has links)
The high failure rates of students in the introductory programming course within the universities worldwide have alarmed and worried many educators. Those rates can lead to losses of various types and interests. Thus, there are important reasons to try to clarify the main factors that possibly influence such failures. Furthermore, one of the major challenges is on how to early identify the students likely to in the introductory programming course, eventually allowing effective pedagogical interventions. Thus, in this study we aim to explore educational data mining techniques, in order to compare the effectiveness of prediction algorithms capable of identifying students likely to fail, in a timely manner suitable for pedagogical intervention. This study evaluated the efficacy of prediction algorithms in two different and independent data sources one in the classroom teaching mode and the other in the distance education mode in the disciplines in the introductory programming. The results showed that the techniques discussed in this study are effective in this task of prediction. In addition, it was shown also that after the completion of the pre-processing and adjustments to the parameters of the algorithms analyzed had an improvement in their results. At the end of the process, the Supported Vector Machine (SVM) algorithm showed the best results, both in the classroom teaching mode as in the distance, reaching an f-measure rate of 83% and 93% respectively. / As altas taxas de insucesso nas universidades nos cursos que contemplam a disciplina de programação introdutória na sua grade curricular tem alarmado e preocupado muitos educadores, pois o insucesso dos estudantes podem gerar prejuízos dos mais diversos tipos e interesses. Assim, há relevantes motivos para se tentar esclarecer eventuais fatores que afetam tal insucesso. Ainda neste contexto, um dos desafios importantes é o de identificar antecipadamente os estudantes propensos ao insucessos na disciplina de programação introdutória, assumindo-se em tempo hábil para permitir intervenção pedagógica eficaz. Deste modo, buscou-se neste trabalho um estudo em técnicas de mineração de dados educacionais , objetivando-se comparar a eficácia dos algoritmos de predição capazes de identificar, em tempo hábil para intervenção pedagógica, os estudantes propensos ao insucesso. Neste estudo, avaliou-se a eficácia de algoritmos de predição em duas fontes de dados diferentes e independentes, uma na modalidade presencial e outra na modalidade de ensino a distância sobre as disciplinas de programação introdutória. Os resultados mostraram que as técnicas analisadas no estudo são eficazes na identificação dos estudantes propensos ao insucesso no início da disciplina. Além disso, mostrou-se também que após a realização das etapas de pré-processamento e ajustes nos parâmetros de algoritmos, tais algoritmos analisados tiveram uma melhora em seus resultados. Ao fim do processo, o algoritmo máquina de vetor de suporte (SVM: Support Vector Machine) apresentou os melhores resultados, tanto na modalidade de ensino presencial quanto na modalidade a distância, alcançando uma taxa de f-measure de 83% e 92%, respectivamente.
|
Page generated in 0.0744 seconds