Global ETD Search

201	Framework de mineração de dados para análise de experimentos com eye tracking: uma aplicação em bioética / Data mining framework for analysis of experiments with eye tracking: an application in bioethics Fernandes, Daniel Louzada 18 July 2017 (has links) Submitted by Reginaldo Soares de Freitas (reginaldo.freitas@ufv.br) on 2018-02-27T13:12:41Z No. of bitstreams: 1 texto completo.pdf: 6906430 bytes, checksum: f20c4e4d2f18d2c9f5f72c7ceee9769d (MD5) / Made available in DSpace on 2018-02-27T13:12:41Z (GMT). No. of bitstreams: 1 texto completo.pdf: 6906430 bytes, checksum: f20c4e4d2f18d2c9f5f72c7ceee9769d (MD5) Previous issue date: 2017-07-18 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A capacidade de tomar decisões e de resolver problemas representa uma habilidade cognitiva importante para o cotidiano das pessoas. Na prática clínica, principalmente nas situações que envolvem questões bioéticas, a tomada de decisão do profissional da saúde advém de uma complexa interação entre o ambiente de trabalho e os processos neurais subjacentes a cognição e a emoção, resultando em escolhas e julgamentos que levam em consideração diversos aspectos. Com o avanço da tecnologia, pesquisadores têm desenvolvido novas técnicas que investigam a tomada de decisão por meio da mensuração da carga cognitiva durante a realização de tarefas. Nos últimos anos, houve um aumento do interesse em pesquisas relacionadas com a atenção visual por meio de dispositivos de rastreamento ocular. Por consequência, este tornou-se um importante tema de investigação, aplicado em vários campos para estudar e compreender os padrões entre sujeitos. No entanto, a grande quantidade de dados brutos derivados pelo rastreador torna a tarefa de análise de dados complexas, dificultando, o processo de descoberta de padrões. Além disso, uma vez que as ferramentas existentes apresentam limitações para suportar grandes conjuntos de dados e há uma ausência de registros na literatura para auxiliar na condução desse tipo de pesquisa, este estudo tornou-se um desafio. Portanto, torna-se recomendado a combinação de metodologias para aprimorar a apreciação dos dados produzidos, otimizando a avaliação da atenção visual no processo cognitivo. Nesta dissertação, é proposta duas abordagens que além de funcionar como um arcabouço computacional para processamento dos dados oculares e extração de importantes padrões, também direciona para futuras pesquisas na área. A primeira abordagem é baseada em algoritmos de aprendizagem de máquina (redes multilayer perceptron e árvores de decisão C4.5) para construir modelos capazes de prever a decisão bioética por meio de padrões extraídos de dados oculares. Já a segunda abordagem se baseia na utilização de métodos de visualização de dados e estatística para facilitar a interpretação e avaliação dos dados por meio da validação estatística e análise exploratória. O resultados de ambas as abordagens mostraram uma conexão entre comportamento cognitivo e a tomada de decisão. Desta forma, infere-se que os pipelines dos procedimentos propostos são eficientes para testar hipóteses científicas relacionadas com o papel da atenção visual e tomadas de decisões clínicas. / The ability to make decisions and solve problems represents an important cognitive ability for people’s daily lives. In clinical practice, especially in situations involving bioethical issues, decision making by healthcare professionals comes from a complex interaction between the work environment and the neural processes underlying cognition and emotion, resulting in choices and judgments that take into account different aspects. With the advancement of technology, researchers have developed new techniques that investigate decision making by measuring cognitive load while performing tasks. In recent years, there has been an increased interest in research related to visual attention through eye tracking devices. Consequently, this has become an important research topic, applied in various fields to study and understand the patterns between subjects. However, the large amount of raw data derived from the device makes the task of data analysis complex, making it difficult to discover patterns. In addition, as existing tools have limitations to support large datasets and due to a lack of records in the literature to assist in conducting this type of research, studies with eye tracking data have become a challenge. Therefore, it is recommended the combination of methodologies to improve the appreciation of the produced data, optimizing the evaluation of visual attention in the cognitive process. In this dissertation, two approaches are proposed to serve as a computational framework for processing eye data and extracting important patterns, as well as to direct future research in the area. The first approach is based on machine learning algorithms (multilayer perceptron networks and decision trees C4.5) to construct models capable of predicting bioethical decision using patterns extracted from eye data. The second approach is based on the use of data visualization and statistical xvimethods to facilitate the interpretation and evaluation of the data through statistical validation and exploratory analysis. The results of both approaches showed a connection between cognitive behavior and decision making. In this way, it is inferred that the pipelines of the proposed procedures are efficient to test scientific hypotheses related to the role of visual attention and clinical decision making. Mineração de dados (Computação) Processamento de dados oculares Bioética Medicina - Processo decisório Estatística Ciência da Computação
202	Melhoria da Sensibilidade em dados de proteômica Shotgun usando redes neurais artificiais sensíveis ao custo e o algoritmo threshold selector / Improving sensitivity in shotgun proteomics using cost sensitive artificial neural networks and a threshold selector algorithm Ricardo, Adilson Mendes 07 December 2015 (has links) Submitted by Marco Antônio de Ramos Chagas (mchagas@ufv.br) on 2016-02-16T08:33:17Z No. of bitstreams: 1 texto completo.pdf: 4266396 bytes, checksum: 856cd30ea465e06e8c9ff8dc295ffd91 (MD5) / Made available in DSpace on 2016-02-16T08:33:17Z (GMT). No. of bitstreams: 1 texto completo.pdf: 4266396 bytes, checksum: 856cd30ea465e06e8c9ff8dc295ffd91 (MD5) Previous issue date: 2015-12-07 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Antecedentes: Este trabalho apresenta uma estratégia de aprendizagem de máquina para aumentar sensibilidade na análise de dados de espectrometria de massa para identificação de peptídeos / proteínas. A espectrometria de massa em tandem é uma técnica de química analítica amplamente utilizada para identificar as proteínas em misturas complexas, dando origem a milhares de espectros em uma única corrida que são depois interpretados por software. A maioria destas abordagens computacionais usam bancos de dados de proteínas para realizar a interpretação dos espectros, ou seja, para cada um, obter a melhor correspondência entre o mesmo e a sequência de um peptídeo obtido computacionalmente, a partir das sequências de proteínas do banco de dados. As correspondências espectro-peptídeo (PSM - peptide-spectrum matches) também devem ser avaliadas por ferramentas computacionais já que a análise manual não é possível em função do volume. A estratégia do banco de dados target-decoy é largamente utilizada para avaliação de PSMs. No entanto, em geral, o método não considera a sensibilidade, apenas a estimativa de erro. Resultados: Em trabalho de pesquisa anterior, o método MUMAL aplica uma rede neural artificial para gerar um modelo para classificar PSMs usando a estratégia do banco de dados target-decoy para o aumento da sensibilidade. Entretanto, o presente trabalho de pesquisa mostra que a sensibilidade pode ser melhorada com a utilização de uma matriz de custo associada com o algoritmo de aprendizagem. Demonstra-se também que a utilização do algoritmo threshold selector para o ajuste de probabilidades conduz a valores mais coerentes de probabilidade atribuídos para os PSMs, o que afeta positivamente a etapa de inferência de proteínas. Portanto, a abordagem aqui proposta, denominada MUMAL2, fornece duas contribuições para proteômica shotgun. Em primeiro lugar, o aumento no número de espectros corretamente interpretados no nível de peptídeo aumenta a chance de identificar mais proteínas. Em segundo lugar, os valores mais adequados de pro- babilidade dos PSMs produzidos pelo algoritmo threshold selector impactam de forma positiva a fase de inferência de proteínas, realizada por programas que levam em conta estas probabilidades, tais como o ProteinProphet. Os experimentos demonstraram que o MUMAL2 fornece um maior número de verdadeiros positivos em comparação com métodos convencionais para avaliação de PSMs. Esta nova abordagem atingiu cerca de 15% de melhoria na sensibilidade em comparação com o melhor método atual. Além disso, a área sob a curva ROC obtida foi de 0,93, o que demonstra que as probabi- lidades geradas pelo MUMAL2 são, de fato, apropriadas. Finalmente, diagramas de Venn comparando o MUMAL2 com o melhor método atual mostram que o número de peptídeos exclusivos encontrado pelo MUMAL2 foi quase quatro vezes superior, o que impacta diretamente a cobertura do proteoma. Conclusões: A inclusão de uma matriz de custos e do algoritmo threshold selector na tarefa de aprendizagem melhora, ainda mais, a análise pela estratégia banco de dados target-decoy para identificação dos peptídeos, e contribui de forma eficaz para a difícil tarefa de identificação no nível de proteínas, resultando em uma poderosa ferramenta computacional para a proteômica shotgun. / Background: This work presents a machine learning strategy to increase sensitivity in mass spectrometry data analysis for peptide/protein identification. Tandem mass spectrometry is a widely used analytical chemistry technique used to identify proteins in complex mixtures, yielding thousands of spectra in a single run which are then inter- preted by software. Most of these computer programs use a protein database to match peptide sequences to the observed spectra. The peptide-spectrum matches (PSMs) must also be assessed by computational tools since manual evaluation is not practica- ble. The target-decoy database strategy is largely used for PSM assessment. However, in general, the method does not account for sensitivity, only for error estimate. Re- sults: In a previous study, we proposed the method MUMAL that applies an artificial neural network to effectively generate a model to classify PSMs using decoy hits with increased sensitivity. Nevertheless, the present approach shows that the sensitivity can be further improved with the use of a cost matrix associated with the learning algo- rithm. We also demonstrate that using a threshold selector algorithm for probability adjustment leads to more coherent probability values assigned to the PSMs. Our new approach, termed MUMAL2, provides a two-fold contribution to shotgun proteomics. First, the increase in the number of correctly interpreted spectra in the peptide level augments the chance of identifying more proteins. Second, the more appropriate PSM probability values that are produced by the threshold selector algorithm impact the protein inference stage performed by programs that take probabilities into account, such as ProteinProphet. Our experiments demonstrated that MUMAL2 provides a higher number of true positives compared with standard methods for PSM evaluation. This new approach reached around 15% of improvement in sensitivity compared to the best current method. Furthermore, the area under the ROC curve obtained was 0.93, demonstrating that the probabilities generated by our model are in fact appro- priate. Finally, Venn diagrams comparing MUMAL2 with the best current method show that the number of exclusive peptides found by our method was nearly 4-fold higher, which directly impacts the proteome coverage. Conclusions: The inclusion of a cost matrix and a probability threshold selector algorithm to the learning task further improves the target-decoy database analysis for identifying peptides, which optimally contributes to the challenging task of protein level identification, resulting in a powerful computational tool for shotgun proteomics. Bioinformática Redes neurais (Computação) Mineração de dados (Computação) Algoritmos Proteômica Ciência da Computação
203	Análise de "outliers" para o controle do risco de evasão tributária do ICMS Bittencourt Neto, Sérgio Augusto Pará 03 July 2018 (has links) Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2018. / Submitted by Fabiana Santos (fabianacamargo@bce.unb.br) on 2018-11-07T18:38:41Z No. of bitstreams: 1 2018_SérgioAugustoParáBittencourtNeto.pdf: 5650773 bytes, checksum: 743dbdc02efa3ebbf053f062cbc76e28 (MD5) / Approved for entry into archive by Fabiana Santos (fabianacamargo@bce.unb.br) on 2018-11-12T17:44:26Z (GMT) No. of bitstreams: 1 2018_SérgioAugustoParáBittencourtNeto.pdf: 5650773 bytes, checksum: 743dbdc02efa3ebbf053f062cbc76e28 (MD5) / Made available in DSpace on 2018-11-12T17:44:26Z (GMT). No. of bitstreams: 1 2018_SérgioAugustoParáBittencourtNeto.pdf: 5650773 bytes, checksum: 743dbdc02efa3ebbf053f062cbc76e28 (MD5) Previous issue date: 2018-11-12 / Esta dissertação apresenta a aplicação associada de selecionados modelos estatísticos e de métodos de mineração de dados para a análise de outliers sobre as informações da Notas Fiscais Eletrônicas e do Livro Fiscal Eletrônico, proporcionando a investigação de novas modalidades de evasão fiscal no ICMS. São combinados: 1. o método de programação matemática da Análise Envoltória de Dados (DEA) para diferenciar as empresas com desempenho relativo de arrecadação ineficiente, dentro de um segmento econômico, e eleger os contribuintes suspeitos para investigação; 2. modelos de análise de séries temporais para avaliação dos dados fiscais atinentes à apuração do imposto (comparação gráfica dos valores reais e respectivas escriturações, gráficos boxplots, decomposição das componentes de tendência e sazonalidade e o modelo de alisamento exponencial Holtz-Winter), com o objetivo de detectar períodos de tempo anômalos (outliers); e 3. outras técnicas estatísticas descritivas (gráficos analíticos da distribuição de frequência), probabilísticas (Desigualdade de Chebyshev e Lei de Newcomb Benford) e o método de mineração por clusterização K-Means sobre as informações fiscais dos contribuintes selecionados, para identificar os registros escriturais e os documentos fiscais sob suspeição. É proposto um recurso computacional construído em linguagem R (plataforma R Studio) para: extrair do banco de dados (ORACLE) da Receita do Distrito Federal, processar as informações aplicando-lhes os modelos e métodos designados, e em conclusão, disponibilizar os resultados em painéis analíticos que facilitam e otimizam o trabalho de auditoria. Assim, a identificação das circunstâncias anômalas, a partir de um tratamento sistemático dos dados, proporciona maior eficiência à atividade de programação fiscal de auditorias tributárias. / This dissertation presents the associated application of selected statistical models and data mining methods for the analysis of outliers on the information of the Electronic Fiscal Notes and the Electronic Fiscal Book, providing the investigation of new types of tax evasions in ICMS. The following methods are applied: 1. the mathematical programming method of Data Envelopment Analysis (DEA) to differentiate companies with inefficient performance relative in the tax collection within an economic segment and to choose suspected taxpayers for research; 2. the analysis of time series used in the evaluation of fiscal data related to the calculation of the ICMS tax (graphical comparison of actual values and respective deeds, boxplot graphs, the decomposition of trend and seasonality components and the Holtz-Winter method), capable of anomalous time periods (outliers) detection; and 3. descriptive statistical analysis (frequency distribution), probabilistic analysis (Chebyshev Inequality and Newcomb Benford Law) and K-Means clustering techniques on selected taxpayers’ tax information to identify book entries and tax documents under suspicion. A computational code in R language (R Studio platform) is developed for: extraction of data from the Federal District Revenue database (ORACLE), processing of the extracted information while applying the designated models and methods and generating the results in panels that facilitate and optimize audit work. Thus, in conclusion, the identification of the anomalous circumstances, based on a systematic treatment of the data, provides greater efficiency to the fiscal programming activity of tax audits. Outliers Evasão fiscal Análise envoltória de dados Mineração de dados (Computação) Evasão tributária
204	Um modelo baseado em ontologia e extração de informação como suporte ao processo de design instrucional na geração de mídias do conhecimento Braglia, Israel de Alcântara January 2014 (has links) Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, 2014. / Made available in DSpace on 2015-04-29T21:00:03Z (GMT). No. of bitstreams: 1 333108.pdf: 6863674 bytes, checksum: 460045d7c24d77f60339f4c26a00dc6a (MD5) Previous issue date: 2014 / A educação à distância (EAD) é uma realidade em expansão. Sobre esta evolução está o design instrucional permeando as equipes de produção para cursos em EAD. Nesta tese o objetivo foi propor um modelo baseado em ontologia e extração da informação como suporte ao processo de design instrucional na geração de mídias do conhecimento. Sendo assim, esta tese propõe um modelo que tivesse como suporte ontologias de domínio para a EAD - pois todo material instrucional de um curso de EAD nasce de um texto bruto (corpus). Com a intuição de auxiliar a fase de implementação do designer instrucional sob a leitura deste texto bruto, foi criado um modelo de representação baseado em ontologia para que o mesmo possa projetar ao designer instrucional as categorias básicas sobre o texto. Para isso, ao trabalhar o texto bruto, o designer instrucional pode se atribuir de uma ferramenta de extração de informação e, por consequência, agilizar seus insumos de trabalho. É importante destacar que o modelo aqui proposto se expande e funciona em sua totalidade através da integração com outras ontologias para realizar uma representação gráfica do corpus: que expõe conexões existentes entre os termos e como eles podem ainda, em uma visão geral, se inter-relacionar com outros termos do texto. Esta representação gráfica é um mapa conceitual gerado a partir das regras da ontologia que contemplam o modelo. A mídia do conhecimento no modelo são os mapas conceituais gerados. Para exemplifica-lo, três disciplinas do curso Letras/LIBRAS da UFSC foram selecionadas. Os textos brutos destas disciplinas foram marcados de acordo com as regras estipuladas. Sobre estes termos marcados, a ontologia criada foi aplicada e sobre ela, outras ontologias de domínio alimentaram os termos para conceituação e explicação dos mesmos. Com o modelo aplicado, através de verificação com especialistas entende-se que o mesmo é tido como válido e que apresenta possibilidades positivas ao fluxo de design instrucional.<br> / Abstract : The distance learning (ODL) is an expanding reality. About this evolution, appears the instructional design permeating the production teams for courses in distance education. In this thesis the aim was to propose a model based on ontology and extraction of information to support the process of instructional design in the generation of knowledge media. Therefore, we sought to create a model that would have as support domain ontologies for EAD - because all instructional material an ODL course stems from a raw text (corpus). With the intention to assist the implementation phase of the instructional designer in reading this raw text, a representation system of the content was created to project for the instructional designer the basic categories on the text. For this to happen, while the plain text is worked, the instructional designer can use an extraction tool information and, consequently, expedite his work. Importantly, the model proposed here expands and works in his totality with other ontologies and it can take others to realize a graphical representation of the corpus: it exposes existing connections between terms and how they can still, in an overview, interrelate itself with other terms of the text. This graphical representation is a conceptual map generated from the rules of the ontology that include the model. To exemplify it, three courses subjects Lestras/LIBRAS - UFSC were selected. The raw texts of these disciplines were scored according to the stipulated rules. Marked on these terms, the ontology was created and applied on it, other domain ontologies fed to the conceptualization terms and explanation thereof. With the model applied by the experts verification, it is understood that the same is considered valid and presents positive possibilities to the flow of instructional design. Engenharia e gestão do conhecimento Ensino a distancia Mineração de dados (Computação) Mídia digital
205	Mineração de textos aplicada na previsão e detecção de eventos adversos no Hospital de Clínicas de Porto Alegre Silva, Daniel Antonio da January 2017 (has links) Este trabalho apresenta os resultados de uma pesquisa que teve como objetivo avaliar o desempenho de métodos de mineração de textos na previsão e detecção de Eventos Adversos (EA). A primeira etapa foi a revisão sistemática da literatura que buscou identificar os métodos de mineração de textos e as áreas da saúde que esses estão sendo aplicados para prever e detectar EA. Após essa etapa foi realizada uma aplicação de métodos de mineração de textos para prever Infecções do Sítio Cirúrgico (ISC) a partir do texto livre de descrições cirúrgicas no Hospital de Clínicas de Porto Alegre (HCPA). Por fim, métodos de mineração de textos foram aplicados para detectar ISC a partir do texto das evoluções de pacientes 30 (trinta) dias após uma cirurgia. Como resultados, destaca-se a identificação dos melhores métodos de pré-processamento e mineração de textos para prever e detectar ISC no HCPA, podendo ser aplicados a outros EA. O método Stochastic Gradient Descent (SGD) apresentou o melhor desempenho, 79,7% de ROC-AUC na previsão de EA. Já para detecção de EA o melhor método foi o Logistic Regression, com desempenho 80,6% de ROC-AUC. Os métodos de mineração de textos podem ser usados para apoiar de maneira eficaz a previsão e detecção de EA, direcionando ações de vigilância para a melhoria da segurança do paciente. / This work presents the results of a research that aimed to evaluate the performance of text mining methods in the prediction and detection of Adverse Events (AE). The first step was the systematic review of the literature that sought to identify the methods of text mining and the health areas they are being applied to predict and detect AE. After this step, an application of text mining methods was performed to predict Surgical Site Infections (SSI) from the free text of medical records at Hospital de Clínicas de Porto Alegre (HCPA). Finally, text mining methods were applied to detect SSI from the text of medical records 30 (thirty) days after surgery. As results, is highlight the identification of the best methods of pre-processing and text mining to predict and detect SSI in the HCPA, and can be applied to other AE. The Stochastic Gradient Descent (SGD) presented the best performance, 79.7% of ROC-AUC in the prediction of AE. Already for the detection of AE the best method was the Logistic Regression, with performance 80.6% of ROC-AUC. Text mining methods can be used to effectively support the prediction and detection of AE by directing surveillance actions to improve patient safety. Mineração de dados Controle de infecções Hospital de Clínicas de Porto Alegre Adverse Events Surgical Infection Text Mining
206	Utilização de modelos de classificação para mineração de dados relacionados à aprendizagem de matemática e ao perfil de professores do ensino fundamental / Application of classification models for mining of data related to mathematics learning and elementary school teachers profile Stella Oggioni da Fonseca 20 February 2014 (has links) Conselho Nacional de Desenvolvimento Científico e Tecnológico / No presente trabalho foram utilizados modelos de classificação para minerar dados relacionados à aprendizagem de Matemática e ao perfil de professores do ensino fundamental. Mais especificamente, foram abordados os fatores referentes aos educadores do Estado do Rio de Janeiro que influenciam positivamente e negativamente no desempenho dos alunos do 9 ano do ensino básico nas provas de Matemática. Os dados utilizados para extrair estas informações são disponibilizados pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira que avalia o sistema educacional brasileiro em diversos níveis e modalidades de ensino, incluindo a Educação Básica, cuja avaliação, que foi foco deste estudo, é realizada pela Prova Brasil. A partir desta base, foi aplicado o processo de Descoberta de Conhecimento em Bancos de Dados (KDD - Knowledge Discovery in Databases), composto das etapas de preparação, mineração e pós-processamento dos dados. Os padrões foram extraídos dos modelos de classificação gerados pelas técnicas árvore de decisão, indução de regras e classificadores Bayesianos, cujos algoritmos estão implementados no software Weka (Waikato Environment for Knowledge Analysis). Além disso, foram aplicados métodos de grupos e uma metodologia para tornar as classes uniformemente distribuídas, afim de melhorar a precisão dos modelos obtidos. Os resultados apresentaram importantes fatores que contribuem para o ensino-aprendizagem de Matemática, assim como evidenciaram aspectos que comprometem negativamente o desempenho dos discentes. Por fim, os resultados extraídos fornecem ao educador e elaborador de políticas públicas fatores para uma análise que os auxiliem em posteriores tomadas de decisão. / Classification models were applied in this work in order to mine data related to elementary school teachers profiles and students' mathematics learning. More specifically, teacher characteristics which in uence positively and negatively on the Mathematics tests performance of the students in the 9th grade of elementary education in Rio de Janeiro State were addressed. The data used to extract this information are provided by the National Institute of Studies and Educational Research Anisio Teixeira (INEP), which evaluates the Brazilian educational system at various levels and types of education, including Elementary Education. The Knowledge Discovery in Databases (KDD) process was applied comprising the steps of preparation, mining and post processing of data. The patterns were extracted from the classification models generated by decision tree, rule induction and Bayesian classifiers, whose algorithms are implemented in software Weka (Waikato Environment for Knowledge Analysis). In addition, group methods were used as well as a methodology for making uniformly distributed classes in order to improve the accuracy of the models obtained. The results showed important factors that contribute to the learning of mathematics and aspects that negatively compromise the performance of students. The extracted results can provide to educators and public policies makers the support for analysis and decision making. Modelos de classificação Aprendizagem de matemática Mineração de dados Data mining Classification models Learning of mathematics CIENCIA DA COMPUTACAO
207	Uma nova metodologia para estudar proteínas com região de desordem Kliousoff Junior, André January 2015 (has links) Orientador: Prof. Dr. Luis Paulo Barbour Scott / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia da Informação, 2015. / Proteínas são macromoléculas essenciais para a maioria dos processos biológicos, atuando com grande versatilidade de funções. Existem, porém, proteínas chamadas desordenadas ou com regiões de desordem em sua cadeia de aminoácidos. A literatura discute a participação de proteínas com regiões de desordem em processos biológicos chaves, como controle celular, regulação, reconhecimento e sinalização e também em processos biológicos importantes de doenças como câncer, diabetes, distúrbios cardiovasculares e doenças neurodegenerativas. A existência de proteínas desordenadas como agentes funcionais contraria a visão clássica de que uma proteína deva apresentar uma estrutura tridimensional para assumir uma função. O estudo de proteínas intrinsicamente desordenadas ganhou mais atenção na última década, com o surgimento de algoritmos e técnicas de predição voltadas a essas proteínas. Além dos estudos de predição de proteínas com regiões de desordem, hoje há também necessidades como a de entender sua relação com outros processos. A identificação de propriedades estruturais de proteínas intrinsicamente desordenadas permanece sendo um dos desafios nesta área. Neste trabalho investigamos padrões na estrutura primária/secundária e nas propriedades físico-quimicas das regiões de desordem e em suas vizinhanças, por meio de mineração de dados. Os resultados obtidos nesta pesquisa visam contribuir para os trabalhos de predição de regiões de desordem, as características físico-químicas que determinam tais regiões e sua diferenciação em relação a regiões ordenadas. / Proteins are essential macromolecules for almost biological processes. Several works indicated the involvement of proteins with disordered regions in important biological processes such as control, cell regulation, recognition and signaling and also in important processes of diseases like cancer, diabetes, cardiovascular disorders and neurodegenerative diseases. The presence of disordered proteins as functional agents contradicts the classical view that a protein needs to have a three-dimensional structure to assume a function. The intrinsically disordered proteins research has been growing in the last decade, with the advent of predictive algorithms and techniques applied to study these proteins. Nowadays, there is the necessity to understand its relationship with other processes. One of the challenges in this subject is to identify structural properties of intrinsically disordered proteins. This research work investigates patterns in primary/secondary structures, looking for physicochemical properties of the regions of disorder and in their neighborhoods through data mining techniques. The results achieved in this research aims to contribute to disorder predict research, studies about the physicochemical properties of the regions of disorder and its differentiation compared to ordered regions. BIOINFORMÁTICA PROTEÍNAS MINERAÇÃO DE DADOS BIOINFORMATICS PROTEIN DATA MINING
208	DEOPSMiner : mineração de dados em documentos da Ditadura Militar brasileira Navarro, Daniel de Moraes January 2016 (has links) Orientador: Prof. Dr. Ronaldo Cristiano Prati / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2016. / O processamento de grandes bases de dados tem atraido a atenção da comunidade acadêmica. Recentemente, esse interesse se expandiu para processamento de bases de dados historicas. Tal processamento é utilizado para se obter um melhor entendimento de períodos historicos a partir do processamento de documentos daqueles periodos. No entanto, nesse cenario, a quantidade de dados e documentos disponiveis é tão grande que a utilização de técnicas tradicionais de programação ou de banco de dados se tornam inapropriadas para um correto e efetivo processamento dessas bases de dados. Esse cenário ainda mais complicado quando se trata de documentos historicos onde as bases de dados são geralmente formadas por copias escaneadas de documentos em papel. Como consequencia, tais documentos são comumente deteriorados devido a fatores naturais, como o envelhecimento natural do papel, ou ainda por efeitos químicos, como a tinta utilizada no documento. Outros fatores, como más condições de armazenamento, tais como umidade, por exemplo, podem acelerar e agravar o deterioramento de tais documentos. Nesse trabalho é proposta uma metodologia que utiliza reconhecimento toptico de caracteres, crowdsourcing, extração de informação e tecnicas de processamento de imagens para processar a base de dados de documentos do Departamento de Ordem Política e Social do Estado de São Paulo (DEOPS-SP), no Brasil. O DEOPS-SP foi o orgao do governo brasileiro de inteligência e repressão durante o Regime Militar que durou de 1964 a 1985. A base de dados do DEOPS-SP é composta por aproximadamente 3 milh~oes de documentos, incluindo mais de um milh~ao de registros politicos em formato de fichas que identifcam um envolvido e listam informações relacionadas ao envolvido. A metodologia proposta nesse trabalho e validada atraves dos resultados obtidos com sua aplicação a uma amostra de 500 desses registros politicos que fazem parte da base de dados do DEOPS-SP. Como resultado de utilidade publica, pela primeira vez e possvel utilizar palavras-chave para pesquisa do conteudo textual dos registros do DEOPS-SP através do website DEOPSMiner Online (<https://deopsminer.online/>), desenvolvido pelos autores. Tais resultados, portanto, animam e motivam o desenvolvimento de futuros trabalhos. / Processing large data sets for knowledge extraction has recently became one of the main research topics that the scientic community has been focusing their attention on. Particularly, processing historical data sets might provide better and deeper understanding of historical periods. However, in many applications, the amount of data is so large that makes it difficult to process these data sets using traditional database and software techniques. A more complicated case is frequently found when such historical data sets consist of scanned copies of deteriorated paper documents. Deterioration of documents occurs naturally as a result of aging, but it can also be accelerated by chemical efects, e.g. ink, or poor storage conditions, e.g. humidity. We propose to develop of a pipeline composed by the use of image processing techniques, optical character recognition, crowdsourcing and information extraction to process the data base of the Department of Social and Political Order of the the State of S~ao Paulo (DEOPS-SP), Brazil. The DEOPS-SP was the Brazilian intelligence and repression agency during the military government that took place in Brazil between 1964 and 1985. The DEOPS-SP archive currently holds approximately 3 million documents, including more than one thousand police records (index cards listing the subject's name and personal data). The pipeline proposed in this dissertation is tested and validated by its on a subset of 500 records that are part of the DEOPS-SP's data base. The results obtained in this work led to the developing by the authors of DEOPSMiner Online (<https://deopsminer.online/>), an online platform to explore DEOPS-SP records allowing for the rst time the use of keywords to search the real textual content of the data base. These results motivate the development of further research. MINERAÇÃO DE DADOS PROCESSAMENTO DE DADOS GOVERNOS MILITARES (1964-1985) - BRASIL
209	Redes neurais artificiais e máquinas de vetores suporte Gozer, Isabel Cristina January 2012 (has links) Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-graduação em Engenharia de Produção, Florianópolis, 2013. / Made available in DSpace on 2016-01-15T14:31:22Z (GMT). No. of bitstreams: 1 318899.pdf: 1604655 bytes, checksum: 691cb832dc0af84cb9324823c4cc71f0 (MD5) Previous issue date: 2012 / A presente tese teve como objetivo a avaliação de insolvência do cooperativismo de crédito mútuo do Estado do Paraná através da utilização de duas técnicas de data mining, redes neurais artificiais (RNAs) e máquinas de vetores suporte (SVMs), a proposta foi, por meio do aprendizado de máquina, a de criar um modelo de capaz de avaliar a solvência das cooperativas de crédito, para tanto foram utilizados os indicadores do sistema PEARLS, indicadores esses recomendados internacionalmente pelo WOCCU (Word Council of Credit Unions) como os melhores para a avaliação do cooperativismo de crédito mútuo. Para a realização do estudo foram utilizadas as demonstrações financeiras das 31 cooperativas de crédito mútuo do estado do Paraná no ano de 2010, divulgadas pelo Banco Central do Brasil (BACEN) como solventes e como insolventes as cooperativas que deixaram de enviar suas demonstrações para o Banco Central, o que caracteriza a descontinuidade operacional de fato, isso num período de 10 anos, que totalizou 31 cooperativas de crédito. Os algoritmos de redes neurais utilizados neste trabalho foram RBFNetwork, MultilayerPerceptron e MultilayerPerceptronCS; e o algoritmo escolhido de Support Vector Machine foi o LibSVM, todos pertencentes ao pacote de software Weka, ferramenta bastante utilizada em Data Mining e Aprendizado de Máquina. Ao analisar os resultados das RNAs e da SVM ficou evidente a superioridade das SVMs como classificador binário de avaliação de solvência, pois o seu algoritmo LibSVMs apresentou os melhores resultados em todas as avaliações de desempenho propostas nesta pesquisa, destacando a avaliação de desempenho denominada de F-Measure, que evidenciou que o algoritmo LibSVMs foi melhor também nos três grupos de indicadores. O único indicador de desempenho em que LibSVM teve desempenho inferior às RNAs foi na taxa de erro da classe negativa, verifica-se a RNA com os algoritmos MultilayerPerceptron e MultilayerPerceptron; que possuem melhores índices para 27, 10 e 11 indicadores, já o algoritmo da LibSVMs possui desempenho igual para 10 e 11 indicadores. Observando o gráfico Receiver Operating Characteristic (ROC), é possível perceber que os algoritmos de redes neurais apresentaram as maiores TP Rate e FP Rate, resultando em modelos liberais, enquanto o algoritmo LibSVM resultou em modelos conservadores e teve bom resultado em relação à FP Rate, mas poucas taxas altas de TP Rate. O desempenho apresentado pelas Redes Neurais MultilayerPerceptron, MultilayerPerceptronCS e RBFNetwork, na classificação dos exemplos, foi inferior ao LibSVM. O melhor resultado alcançado pelos algoritmos está nas tabelas (indicadores de desempenho). Ainda que fosse utilizado apenas um algoritmo de rede neural, o desempenho ainda seria melhor na probabilidade de classificação de um novo exemplo como verdadeiro positivo (INSOLVENTE), bastando observar isoladamente as curvas de desempenho no gráfico ROC. Em relação ao número de indicadores do Sistema PEARLS para a avaliação da Solvência do Cooperativismo de crédito, foi confirmado também que não há a necessidade de calcular os 39 indicadores iniciais, bem como a planilha com os 27 indicadores, porém somente os 10 sugeridos pelos analistas de mercado são suficientes para tal avaliação. <br> / Abstract : This work aims at assessing the insolvency of mutual credit unions in the Parana State (Brazil) by two different data mining techniques: Artificial Neural Networks (ANNs) and Support Vector Machines (SVMs). The proposal is to create a model that can evaluate the solvency of credit unions from the Machine Learning, and for this, PEARLS System indicators were selected since they are internationally recommended by WOCCU (Word Council of Credit Unions) as the most suitable for the evaluation of mutual credit cooperatives. The study used financial statements of 31 credit unions, either solvent or insolvent, disclosed by Central Bank of Brazil (BACEN) in 2010, for the State of Paraná. The insolvent cooperatives are those which stopped sending statements to the Central Bank, which in fact characterizes the operational discontinuity. This study considered a 10-year period, totaling 31 credit unions. The algorithms used in this work were RBFNetwork, MultilayerPerceptron and MultilayerPerceptronCS for Artificial Neural Networks and LibSVM for Support Vector Machine, all composing the Weka software, which is widely used in Data Mining and Machine Learning. The results of ANN and SVM showed the superiority of SVM for the binary classification of solvency evaluation. Its algorithm LibSVMs showed the best results in all performance evaluations proposed in this research, mainly by the F-Measure, which indicates that this algorithm was the best across the three groups of indicators. However, with respect to the rate of error of the negative class, the LibSVM showed lower performance than those ANNs, where the MultilayerPerceptron and MultilayerPerceptron algorithms had better indices for 27, 10 and 11 indicators in comparison with the LibSVM that achieved the same performance for 10 and 11 indicators. The Receiver Operating Characteristic (ROC) graph demonstrates that the neural network algorithms had the highest TP Rate and FP Rate, resulting in liberal models, while the LibSVM algorithm resulted in conservative models with good result for FP Rate but few high rates for TP Rate. The performance of classification of samples shown by the MultilayerPerceptron, MultilayerPerceptronCS and RBFNetwork Neural Networks was lower than the LibSVM. The best results achieved by algorithms are presented in the tables (performance indicators). The individual observation of each curve in the ROC graph suggests that even using only one neural network algorithm, the performance would still be better in the probability of classifying a new example as "true positive" (INSOLVENT). With respect to the number of PEARL System indicators recommended to assess the solvency of credit unions, this study demonstrated that there is no need to calculate all those 39 initial indicators or that spreadsheet with 27 adapted indicators. Only those 10 suggested by the market analysts were sufficient for the purpose of this study. Engenharia de produção Redes neurais (Computação) Cooperativas de credito Administração Aprendizado do computador Falencia Mineração de dados (Computação) Cooperativismo Brasil
210	Utilização de data mining em um sistema de informação gerencial para o diagnóstico da formação de professores da graduação Schenatz, Biancca Nardelli January 2005 (has links) Dissertação (mestrado) - Universidade Federal de Santa Catarina. Programa de Pós-Graduação de Engenharia de Produção. / Made available in DSpace on 2013-07-16T01:11:50Z (GMT). No. of bitstreams: 1 224929.pdf: 3271607 bytes, checksum: 36c75285989898980b2259d7d98cd715 (MD5) / A inexistência de um Sistema de Informação Gerencial eficiente e a dificuldade em buscar informações em uma base de dados/cadastro de professores, de forma a permitir análises estratégicas, pode comprometer o processo decisório de uma instituição de ensino superior, principalmente para os profissionais que atuam diretamente com a formação continuada e qualificação dos docentes. Novas tecnologias envolvendo recursos de inteligência artificial e análises estatísticas, entre elas o Data Mining, vem de encontro às necessidades atuais das grandes organizações em obter informações que podem gerar um grande diferencial, numa velocidade maior do que as formas tradicionais, com o objetivo de encontrar facilidades na hora de utilizar estes dados na tomada de decisões. Um dos propósitos deste trabalho é o estudo sobre o processo de descoberta de conhecimento em uma base de dados, pelo desenvolvimento e implementação de um Sistema de Informação Gerencial que serve de suporte à tomada de decisões no processo de identificação e diagnóstico do perfil dos professores de graduação da Universidade Regional de Blumenau. A busca de novos padrões e relacionamento entre diferentes variáveis através da aplicação de técnicas de mineração de dados, mais especificamente algoritmos de árvores de decisão, demonstra que estas ferramentas são de grande utilidade na prospecção do conhecimento, comprovando sua importância na administração do ensino superior. Engenharia de produção Professores - Formação Processamento de dados Mineração de dados (Computação) Sistemas de informação gerencial

Search results