Spelling suggestions: "subject:"mineração dde dados"" "subject:"mineração dde lados""
321 |
Análise de padrões operacionais da frota de ônibus de transporte público no município de São Paulo e a influência de fatores climáticos em sua dinâmica. / Understanding temporal, weather and spatialvariation patterns in São Paulo urban bus travel speeds.Gonçalves, Erick Sobreiro 04 December 2017 (has links)
Atualmente existem muitas fontes de dados oriundos de movimentação de pessoas e veículos. Deduzir o comportamento do tráfego a partir desses dados pode ser de grande utilidade para a gestão do tráfego. Entretanto, os métodos existentes podem não abordar todas as dimensões referentes ao comportamento do tráfego, em especial sob efeito de adversidades, como por exemplo - eventos climáticos. O objetivo dessa dissertação é apresentar uma combinação de métodos estatísticos e de análise espacial, para uso na compreensão dos padrões temporais e espaciais de variabilidade das velocidades, em condições normais e sob o impacto da precipitação. O método consiste na mineração de dados de micro trechos de deslocamento (microviagens), através da combinação de estatísticas descritivas, árvores de regressão CHAID (Chi square automatic interaction detection) e análises espaciais (Krigagem). Para a validação do método foram utilizados dados obtidos, durante março de 2014, de operação da frota de ônibus municipal da cidade de São Paulo, fornecidos pela São Paulo Transportes (SPTrans). Os dados de precipitação de chuva foram fornecidos pelo Instituto Nacional de Meteorologia (INMET). Os resultados demonstraram o impacto da precipitação sobre a variabilidade das velocidades por dia da semana e hora do dia. Adicionalmente, com base nos conjuntos de dados classificados via CHAID, foram produzidas representações da distribuição das velocidades sobre a superfície através uso da Krigagem. Observou-se uma consistente queda das velocidades no período vespertino, principalmente entre 16:00 e 19:00 horas, frequentemente agravados pela presença de precipitação. Foram selecionados casos de alta variabilidade, a partir da técnica CHAID, que foram analisados espacialmente. Os efeitos da queda da variabilidade foram observados geograficamente, demonstrando que a infraestrutura de transporte é um importante fator em sua caracterização. O estudo demonstra a viabilidade desta abordagem e a importância de incorporar a geografia no entendimento da variabilidade das velocidades em geral. / Nowadays there is a wide number of movement data sources which can be useful in transportation management. However, the existing methods may not cover all traffic dimensions, especially under inclement weather. The objective of this work is presenting a combination of statistical and spatial methods which allows to understand space and time speed patterns, considering regular operation conditions in comparison with rainfall events. The method consists in sequential bus tracking data segments (micro travel) mining by the combination of descriptive statistics, CHAID (Chi square automatic interaction detection) regression trees and spatial analysis (Kriging). To validate the method, São Paulo bus fleet tracking data provided by SPTrans, and rainfall precipitation, provided by INMET was combined and processed. The results presented rainfall as a relevant factor of speed variability by day of week and time of the day. A consistent speed decrease in the afternoon period, mainly between 4:00 PM and 7:00 PM, was observed. Such effects are more intense in face of rainfall precipitation. The highest variability cases obtained by CHAID classification was selected and spatially analyzed showing the transportation infrastructure is an important variability component. Such results show the importance of a geographic approach over speed variability.
|
322 |
Mineração de dados educacionais aplicada à busca de perfis de alunos em casos de evasão ou retenção: uma abordagem através de Redes BayesianasCOUTO, Diego da Costa do 12 September 2017 (has links)
Submitted by Carmen Torres (carmensct@globo.com) on 2018-02-09T18:16:07Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_MineraçãoDadosEducacionais.pdf: 1998458 bytes, checksum: 1b7da795e82e32e0d1cbe0b9ffc47830 (MD5) / Approved for entry into archive by Edisangela Bastos (edisangela@ufpa.br) on 2018-02-20T18:02:13Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_MineraçãoDadosEducacionais.pdf: 1998458 bytes, checksum: 1b7da795e82e32e0d1cbe0b9ffc47830 (MD5) / Made available in DSpace on 2018-02-20T18:02:13Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_MineraçãoDadosEducacionais.pdf: 1998458 bytes, checksum: 1b7da795e82e32e0d1cbe0b9ffc47830 (MD5)
Previous issue date: 2017-09-12 / Este trabalho investiga os perfis de alunos de cursos da graduação da Universidade Federal do Pará propensos a dois problemas enfrentados em diversas universidades brasileiras denominados evasão e retenção. Estas problemáticas estimularam o estudo de metodologias que detectassem padrões que suscitam a extrapolação ou o fim prematuro dos estudos. A ferramenta elegida a este fim, a Rede Bayesiana é poderosa ao propiciar raciocínio sobre incertezas, especialmente em diagnósticos de causas e efeitos tendo como pressuposto o relacionamento das variáveis e suas probabilidades de ocorrências conjuntas e marginais. Outro aspecto inerente a estrutura das Redes Bayesianas diz respeito à compreensibilidade da representação e dos resultados, os quais geram subsídios voltados a especialistas e usuários inseridos no domínio. Considerando tais colocações, essas potencialidades da metodologia em questão fortaleceram a sua aplicação nesta pesquisa. Dessa forma, registros acadêmicos contendo dezenas de milhares de amostras oriundas de alunos imersos em ambientes de ensino presencial pertencentes aos alunos de graduação ingressantes na Universidade Federal do Pará até o ano de 2016 foram submetidos ao processo de Descoberta de Conhecimento em Base de Dados, especificamente na etapa de Mineração de Dados os padrões desejados foram extraídos valendo-se da tarefa de classificação. Em adição, realizou-se na etapa de Mineração de Dados várias análises de desempenhos da Rede Bayesiana junto a outros algoritmos clássicos do aprendizado supervisionado, e aquela revelou a sua grande acurácia e eficiência, ressaindo dentre as melhores soluções encontradas, isto posto o seu uso foi certificado sobre a base de dados selecionada. Em três estudos de casos avaliados, os resultados indicaram a qualidade do classificador baseado em Redes Bayesianas que apresentou acurácia superior a 82%, condição que legitima a sua utilidade no domínio pesquisado. Assim, os resultados atingidos foram satisfatórios e apontaram fortes influências de algumas variáveis à propensão da evasão ou retenção. / This work investigates the profiles of undergraduate students at the University of Federal University of Pará prone to two problems faced in several universities evasion and retention. These problems stimulated the study of methodologies that detect patterns that lead to extrapolation or the premature end of the studies. The tool chosen for this purpose, the Bayesian Network is powerful in providing reasoning about uncertainties, especially in causes and effects diagnoses. Assumption of the relationship of the variables and their probability of occurrence and marginal. Another aspect inherent in the structure of Bayesian Networks is the comprehensibility of representation and results, which generate specialists and users entered into the domain. Considering such placements, these potential of the methodology in question strengthened its application in this research. So, academic records containing tens of thousands of samples from students immersed in presential teaching environments belonging to undergraduate students at the Federal University of Pará until the year 2016 were submitted to the of Knowledge Discovery in the Database, specifically in Data Mining the desired patterns were extracted using the classification task. In addition, several performance analyzes were performed during Data Mining stage The Bayesian Network together with other classic algorithms of supervised learning, and which revealed its great accuracy and efficiency, rising from the best solutions found, its use has been certified on the selected database. In three Study of Case, the results shows classifier’s quality based on Bayesian Networks, which presented an accuracy of more than 82%, a condition that its usefulness in the researched domain. Thus, the results achieved were satisfactory and strong influences of some variables on the propensity of evasion or retention.
|
323 |
Tomada de decisões em sistemas financeiros utilizando algoritmos de aprendizado de máquina supervisionado / Decision making in financial systems using supervised machine learning algorithmsLuís Carlos Otte Júnior 17 October 2018 (has links)
Embora existam soluções para sistemas de cobrança e telecomunicações que apresentem relatórios para auxílio à cobrança de clientes, ambas carecem de informações que apoiem a tomada de decisões, nas análises estratégicas e na propensão de pagamento. Desse modo, o objetivo deste projeto é implementar ferramentas e soluções inteligentes a fim de reduzir o desperdício de tempo e aumentar a produtividade do gestor, decorrentes da necessidade da análise e cruzamento de todos os dados para tomar qualquer ação durante os processos de cobrança e gestão de custos. / Although there are solutions for billing and telecommunications systems to present reports to support debt collection, both lack information to support decision making in strategic analysis and propensity to pay. Thus, the goal of this project is to implement intelligent tools and solutions taht are able to increase their productivity and reduce waste of managers time, due to the need of analyzing and crossing all the data to take action during the collection processes and cost management.
|
324 |
Um estudo para identificar fatores que conduzem ao atraso no processo de reembolso de contas hospitalares via mineração de processos e mineração de dadosGerhardt, Ricardo 28 March 2018 (has links)
Submitted by JOSIANE SANTOS DE OLIVEIRA (josianeso) on 2018-07-10T13:52:54Z
No. of bitstreams: 1
Ricardo Gerhardt_.pdf: 1506176 bytes, checksum: 17a8809b35aefa1b7cc92caf3c5be35d (MD5) / Made available in DSpace on 2018-07-10T13:52:54Z (GMT). No. of bitstreams: 1
Ricardo Gerhardt_.pdf: 1506176 bytes, checksum: 17a8809b35aefa1b7cc92caf3c5be35d (MD5)
Previous issue date: 2018-03-28 / Nenhuma / O impacto do processo de reembolso das despesas médico-hospitalares das prestadoras de serviço de saúde tem sido enorme. Com o surgimento de novos procedimentos clínicos, mudanças em regulamentações e políticas há uma elevação da complexidade do processo de reembolso e consequentemente a sua duração e seus custos. Desse modo, métodos de análise de processos têm sido empregados como estratégia básica para melhorar a eficácia organizacional de instituições hospitalares. Perante a isso, o presente trabalho investiga fatores que levam ao atraso da submissão das contas hospitalares às respectivas seguradoras de saúde no sentido de reduzir seu tempo de faturamento. A abordagem proposta constitui-se em combinar técnicas da Mineração de Processos e Mineração de Dados com o intuito de identificar fatores que contribuem para o atraso do processo de reembolso. A Mineração de Processos permite vislumbrar detalhadamente o impacto causado pela realização de atividades durante a execução de processos, bem como a ocorrência de gargalos que podem indicar a necessidade de uma investigação mais apurada para detectar as suas prováveis causas. Nesse ponto, a Mineração de Dados pode ser empregada através de técnicas, como as regras associativas que possibilitam identificar relacionamentos não tão evidentes. Desta forma, este estudo investigativo demonstra sobre um caso real os benefícios do emprego da Mineração de Processos e da Mineração de Dados objetivando fornecer suporte as atividades de auditoria e de faturamento do processo de reembolso. A avaliação subjetiva das regras associativas mostrou que quase 45% das regras associativas geradas foram consideradas relevantes ou muito relevantes para a identificação de fatores que contribuem para o atraso no processo de reembolso de contas hospitalares. / The healthcare reimbursement process impact has been enormous for the healthcare providers and the economy. The arising of new clinical procedures, changes in regulations and policies have been increasing the complexity of the reimbursement process and consequently its duration and costs. Therefore, methods of process analysis have been used as a basic strategy to improve the organizational effectiveness of healthcare institutions. In this context, the present study investigates factors that cause delays in the reimbursement process. The proposed approach aims to combine Process Mining and Data Mining techniques to identify factors that can explain the reimbursement process delay. Process Mining techniques allow exploring in detail how activities can impact the process execution, as well as the occurrence of bottlenecks that may indicate the need for a systematic investigation to detect its root causes. Considering this, Data Mining can be employed through techniques, such as associative rules that can be used to identify unknown relationships. Hence, this study demonstrates through a real case the benefits that the combination of Process Mining and Data Mining techniques to support the audit and billing activities of the reimbursement process. A subjective evaluation of the mined rules showed that almost 45% of them were considered relevant or very relevant for the identification of factors that can lead to delay in the reimbursement process.
|
325 |
GVwise: uma aplicação de learning analytics para a redução da evasão na educação à distânciaCambruzzi, Wagner Luiz 15 April 2014 (has links)
Submitted by William Justo Figueiro (williamjf) on 2015-07-28T20:32:18Z
No. of bitstreams: 1
27d.pdf: 4180188 bytes, checksum: 617cda1d8cedaa910bb66676e96c33d1 (MD5) / Made available in DSpace on 2015-07-28T20:32:18Z (GMT). No. of bitstreams: 1
27d.pdf: 4180188 bytes, checksum: 617cda1d8cedaa910bb66676e96c33d1 (MD5)
Previous issue date: 2014-04-15 / Nenhuma / Aplicações que fazem uso de tecnologias como Mineração de Dados Educacionais (MDE) e Learning Analytics (LA) vêm sendo adotadas na mitigação da evasão escolar, disponibilizando informações sobre os alunos que são utilizadas em intervenções pedagógicas. Os trabalhos estudados sobre a implementação destas aplicações priorizam a descrição das técnicas empregadas e existem poucas avaliações da sua utilização em larga escala, além da falta de detalhamento sobre as causas da evasão. Este trabalho apresenta um estudo de fatores envolvidos no fenô- meno de evasão escolar e descreve a utilização de um sistema para MDE e LA durante 18 meses em cursos de graduação na modalidade de Educação a Distância. É ampliada a análise dos fatores tradicionalmente monitorados e utilizados nos sistemas de MDA e LA, com a inclusão de elementos associados ao papel exercido pelos docentes e pelo conjunto de aspectos metodológicos de cada instituição. O sistema possui como diferencial a flexibilidade na integração e utilização dos dados gerados no processo de mediação digital, o que permite que necessidades de diferentes ferramentas de apoio sejam disponibilizadas. Resultados positivos destacados são a identificação de perfis de alunos evasores e a realização de intervenções pedagógicas, com redução das médias da evasão. / Educational Data mining (EDM) and Learning Analytics (LA) applications have been adopted in mitigation of dropout, providing information about students who are employed in pedagogical interventions. The most papers about the implementation of these systems describe the techniques employed, there are few evaluations of their large-scale use, apart from the lack of detail about the causes of dropout. This work presents a study of factors involved in dropout and describes the use of a system for EDM and LA during 18 months for undergraduate courses in distance education. The analysis of the factors traditionally monitored and used in EDM and LA systems is extended, with the inclusion of elements associated with the role exercised by the teachers and by institutional methodological aspects. The system has flexibility in integration and use of data generated in the process of digital mediation, which allows different support tools to be available. Some results are the identification of evaders students profiles and the realization of pedagogical actions with reducing evasion.
|
326 |
Projeção multidimensional aplicada a visualização de resultados de busca textual / Multidimensional projection applied to textual search results visualizationNieto, Erick Mauricio Gómez 30 August 2012 (has links)
Usuários da Internet estão muito familiarizados que resultados de uma consulta sejam exibidos como uma lista ordenada de snippets. Cada snippet possui conteúdo textual que mostra um resumo do documento referido (ou página web) e um link para o mesmo. Esta representação tem muitas vantagens como, por exemplo, proporcionar uma navegação fácil e simples de interpretar. No entanto, qualquer usuário que usa motores de busca poderia reportar possivelmente alguma experiência de decepção com este modelo. Todavia, ela tem limitações em situações particulares, como o não fornecimento de uma visão geral da coleção de documentos recuperados. Além disso, dependendo da natureza da consulta - por exemplo, pode ser muito geral, ou ambígua, ou mal expressa - a informação desejada pode ser mal classificada, ou os resultados podem contemplar temas variados. Várias tarefas de busca seriam mais fáceis se fosse devolvida aos usuários uma visão geral dos documentos organizados de modo a refletir a forma como são relacionados, em relação ao conteúdo. Propomos uma técnica de visualização para exibir os resultados de consultas web que visa superar tais limitações. Ela combina a capacidade de preservação de vizinhança das projeções multidimensionais com a conhecida representação baseada em snippets. Essa visualização emprega uma projeção multidimensional para derivar layouts bidimensionais dos resultados da pesquisa, que preservam as relações de similaridade de texto, ou vizinhança. A similaridade é calculada mediante a aplicação da similaridade do cosseno sobre uma representação bag-of-words vetorial de coleções construídas a partir dos snippets. Se os snippets são exibidos diretamente de acordo com o layout derivado, eles se sobrepõem consideravelmente, produzindo uma visualização pobre. Nós superamos esse problema definindo uma energia funcional que considera tanto a sobreposição entre os snippets e a preservação da estrutura de vizinhanças como foi dada no layout da projeção. Minimizando esta energia funcional é fornecida uma representação bidimensional com preservação das vizinhanças dos snippets textuais com sobreposição mínima. A visualização transmite tanto uma visão global dos resultados da consulta como os agrupamentos visuais que refletem documentos relacionados, como é ilustrado em vários dos exemplos apresentados / Internet users are very familiar with the results of a search query displayed as a ranked list of snippets. Each textual snippet shows a content summary of the referred document (or web page) and a link to it. This display has many advantages, e.g., it affords easy navigation and is straightforward to interpret. Nonetheless, any user of search engines could possibly report some experience of disappointment with this metaphor. Indeed, it has limitations in particular situations, as it fails to provide an overview of the document collection retrieved. Moreover, depending on the nature of the query - e.g., it may be too general, or ambiguous, or ill expressed - the desired information may be poorly ranked, or results may contemplate varied topics. Several search tasks would be easier if users were shown an overview of the returned documents, organized so as to reflect how related they are, content-wise. We propose a visualization technique to display the results of web queries aimed at overcoming such limitations. It combines the neighborhood preservation capability of multidimensional projections with the familiar snippet-based representation by employing a multidimensional projection to derive two-dimensional layouts of the query search results that preserve text similarity relations, or neighborhoods. Similarity is computed by applying the cosine similarity over a bag-of-words vector representation of collection built from the snippets. If the snippets are displayed directly according to the derived layout they will overlap considerably, producing a poor visualization. We overcome this problem by defining an energy functional that considers both the overlapping amongst snippets and the preservation of the neighborhood structure as given in vii the projected layout. Minimizing this energy functional provides a neighborhood preserving two-dimensional arrangement of the textual snippets with minimum overlap. The resulting visualization conveys both a global view of the query results and visual groupings that reflect related results, as illustrated in several examples shown
|
327 |
Arcabouço teórico para mineração de dados de defeitos construtivos em modelos BIM. / Theoretical framework for data mining of construction defects in BIM models.Delattorre, Joyce Paula Martin 15 September 2016 (has links)
No mercado de construção civil, o BIM ou Modelagem da Informação da Construção, deixou de ser um modismo com poucos pioneiros, para ser a peça central da tecnologia do mercado de Arquitetura, Engenharia e Construção (AEC), abordando aspectos de projeto, construção e operação de edifícios. Além das informações de projeto, pode-se agregar ao modelo BIM dados externos oriundos da execução, avaliação e manutenção da construção. Cresce, com isso, o número de informações que podem ser armazenadas nos modelos e a oportunidade para identificação de padrões não explícitos, relacionados à geometria e topologia de seus componentes. Para análise destas informações, faz-se necessária a utilização de técnicas que permitam o seu processamento. Dentre as técnicas existentes para a descoberta de conhecimento em bases de dados está o KDD (Descoberta de Conhecimento em Bases de Dados) e, especificamente, a mineração de dados. Focando especificamente os dados oriundos do registro de defeitos da construção e considerando que o modelo BIM não é um repositório de dados no qual técnicas padrão podem ser aplicadas diretamente, esta pesquisa teve como objetivo o desenvolvimento de um arcabouço teórico que define os pontos relevantes para a utilização de técnicas de mineração de dados de defeitos construtivos em modelos BIM, fornecendo uma base conceitual para a sua aplicação prática. Acredita-se que a aplicação de mineração de dados em modelos BIM pode propiciar a identificação de padrões que são influenciados de alguma forma pela geometria dos elementos construtivos, padrões estes que podem ser úteis tanto para a análise de problemas de qualidade de execução, quanto para produtividade, manutenção, pós-ocupação, entre outros. Além da proposta de arcabouço teórico para mineração de dados em modelo BIM, esta pesquisa propôs um conjunto de componentes BIM para registro de informações de defeitos de construção, bem como uma proposta para categorização das relações entre os defeitos e os componentes do modelo BIM, de forma a tornar explícitas informações relevantes para mineração de seus dados. / In the construction market, BIM - Building Information Modeling is no longer a fad adopted by few pioneers, but the centerpiece of technology in the Architecture, Engineering and Construction market (AEC), addressing aspects of design, construction and operation of buildings. In addition to engineering design information, the BIM model allows for storage and management of information from the construction process, facilities operations and building maintenance. Alongside with this, the amount of information stored in models and the opportunity to identify patterns related to geometry and topology of construction components also increase. For the analysis of this information, the use of appropriate data processing techniques is essential. Use of KDD (Knowledge Database Discovery) and Data Mining are among the existing techniques used for knowledge extraction in large databases. While focusing on data from construction defects and considering that a BIM model is not a standard data repository, in which standard data mining techniques could be applied directly, this research aimed to develop a theoretical framework that defines the requirements and procedures for the use of Data Mining Techniques for construction defects in BIM models, while providing a conceptual basis for its practical application. It is based on the concept that the application of data mining in BIM models is able to retrieve patterns that are influenced by the geometry of building elements and that these patterns can be useful for analyzing issues of construction quality, productivity, maintenance, and post-occupancy, among others. In addition to the proposition of a theoretical framework, this research developed a standard set of BIM components for the record of construction defects data, and suggested a structure for the categorization of correlations between defects and BIM components, with the purpose of clearly identifying relevant information for the data mining process.
|
328 |
Abordagem probabilística para caracterização do sistema de marcação de sequenciamento multiplex na plataforma ABI SOLIDLOBATO, Fábio Manoel França 01 July 2011 (has links)
Submitted by Samira Prince (prince@ufpa.br) on 2012-06-01T14:22:25Z
No. of bitstreams: 2
Dissertacao_AbordagemProbabilisticaCaracterizacao.pdf: 2216925 bytes, checksum: 41db7a9e13836866a105b019e2d7ea99 (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Approved for entry into archive by Samira Prince(prince@ufpa.br) on 2012-06-01T14:23:08Z (GMT) No. of bitstreams: 2
Dissertacao_AbordagemProbabilisticaCaracterizacao.pdf: 2216925 bytes, checksum: 41db7a9e13836866a105b019e2d7ea99 (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Made available in DSpace on 2012-06-01T14:23:08Z (GMT). No. of bitstreams: 2
Dissertacao_AbordagemProbabilisticaCaracterizacao.pdf: 2216925 bytes, checksum: 41db7a9e13836866a105b019e2d7ea99 (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Previous issue date: 2011 / CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico / Os sequenciadores de nova geração como as plataformas Illumina e SOLiD geram uma
grande quantidade de dados, comumente, acima de 10 Gigabytes de arquivos-texto. Particularmente, a plataforma SOLiD permite o sequenciamento de múltiplas amostras em uma única corrida (denominada de corrida multiplex) por meio de um sistema de marcação chamado Barcode. Esta funcionalidade requer um processo computacional para separação dos dados por amostra, pois, o sequenciador fornece a mistura de todas amostras em uma única saída. Este processo deve ser seguro a fim de evitar eventuais embaralhamentos que possam prejudicar as análises posteriores. Neste contexto, o presente trabalho propõe desenvolvimento de um modelo probabilístico capaz de caracterizar sistema de marcação utilizado em sequenciamentos multiplex. Os resultados obtidos corroboraram a suficiência do modelo obtido, o qual permite,
dentre outras coisas, identificar faltas em algum passo do processo de sequenciamento; adaptar e desenvolver de novos protocolos para preparação de amostras, além de atribuir um Grau de Confiança aos dados gerados e guiar um processo de filtragem que respeite as características de cada sequenciamento, não descartando sequências úteis de forma arbitrária. / The next generation sequencers such as Illumina and SOLiD platforms generate a large amount of data, commonly above 10 Gigabytes of text files. Particularly, the SOLiD platform allows the sequencing of multiple samples in a single run (called multiplex run) through a marking
system called Barcode. This feature requires a computational process for separation of
data per sample, therefore, the sequencer provides a mixture of all samples in a single output. This process must be secure to avoid any harm that may scramble further analysis. In this context, this dissertation proposes development of a probabilistic model capable of characterizing the marking system used in multiplex sequencing. The results corroborate the adequacy of the
model obtained, which allows, among other things, identify faults in some step in the sequencing process, adapt and develop new protocols for sample preparation, and assign a grade to the reliability of data generated and guide a filtering process that respects the characteristics of each sequence, without discarding sequences useful in an arbitrary manner.
|
329 |
Classificação de dados utilizando algoritmos genéticos e lógica difusaKATO, Rodrigo Bentes 14 December 2008 (has links)
Submitted by Edisangela Bastos (edisangela@ufpa.br) on 2013-01-14T17:33:42Z
No. of bitstreams: 2
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Dissertacao_ClassificacaoDadosUtilizando.pdf: 1117784 bytes, checksum: 44e9b4e473a61cec39eaf31d03ae8dfb (MD5) / Approved for entry into archive by Ana Rosa Silva(arosa@ufpa.br) on 2013-01-14T18:15:00Z (GMT) No. of bitstreams: 2
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Dissertacao_ClassificacaoDadosUtilizando.pdf: 1117784 bytes, checksum: 44e9b4e473a61cec39eaf31d03ae8dfb (MD5) / Made available in DSpace on 2013-01-14T18:15:00Z (GMT). No. of bitstreams: 2
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Dissertacao_ClassificacaoDadosUtilizando.pdf: 1117784 bytes, checksum: 44e9b4e473a61cec39eaf31d03ae8dfb (MD5)
Previous issue date: 2008 / Várias das técnicas tradicionais de Mineração de Dados têm sido aplicadas com êxito e outras esbarram em limitações, tanto no desempenho como na qualidade do conhecimento gerado. Pesquisas recentes têm demonstrado que as técnicas na área de IA, tais como Algoritmo Genético (AG) e Lógica Difusa (LD), podem ser utilizadas com sucesso. Nesta pesquisa o interesse é revisar algumas abordagens que utilizam AG em combinação com LD de forma híbrida para realizar busca em espaços grandes e complexos. Este trabalho apresenta
o Algoritmo Genético (AG), utilizando Lógica Difusa, para a codificação, avaliação e
reprodução dos cromossomos, buscando classificar dados através de regras extraídas de maneira automática com a evolução dos cromossomos. A Lógica Difusa é utilizada para deixar as regras mais claras e próximas da linguagem humana, utilizando representações lingüísticas para identificar dados contínuos. / Several of the traditional techniques of Data Mining have been applied successfully
and others have some limitations. Both, in performance and the quality of knowledge
generated. Recent research has shown that the techniques in the field of IA, such as GA and
Fuzzy sets, can be used successfully. In this research we are interested in investigating the
applicability of a hybrid combination of genetic algorithms and fuzzy sets to find rules in
large and complex spaces. This paper presents a Genetic Algorithm (GA), using Fuzzy Logic,
for coding, assessment and reproduction of chromosomes, looking for classifying data using
extracted rules for the automatic way with the evolution of chromosomes. The Fuzzy Logic is
used to make the rules clearer and closer to human language, using linguistic representations
to identify continuous data.
|
330 |
Geração de modelos de predição para estudantes em risco de evasão em cursos técnicos a distância utilizando técnicas de mineração de dados / Generating predictive models for at-risk students in distance technical courses using data mining techniquesQueiroga, Emanuel Marques 10 July 2017 (has links)
Submitted by Aline Batista (alinehb.ufpel@gmail.com) on 2018-04-19T13:12:18Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_Emanuel_Marques_Queiroga.pdf: 2432628 bytes, checksum: 15970ee4296421fce77cc535487acfdb (MD5) / Approved for entry into archive by Aline Batista (alinehb.ufpel@gmail.com) on 2018-04-19T14:44:10Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_Emanuel_Marques_Queiroga.pdf: 2432628 bytes, checksum: 15970ee4296421fce77cc535487acfdb (MD5) / Made available in DSpace on 2018-04-19T14:44:21Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_Emanuel_Marques_Queiroga.pdf: 2432628 bytes, checksum: 15970ee4296421fce77cc535487acfdb (MD5)
Previous issue date: 2017-07-10 / Sem bolsa / A evasão é considerada um dos principais problemas relacionados com a Educação a Distância (EAD). Nessa modalidade de ensino, a interação entre estudantes e professores geralmente é mediada por um Ambiente Virtual de Aprendizagem (AVA), onde ficam registradas em seus logs de interações as ações realizadas pelos estudantes e professores durante o processo de ensino-aprendizagem. O grande volume de dados gerados por essas interações permite a utilização de técnicas de mineração
para analisar os dados dos estudantes. Este trabalho aplica técnicas de mineração de dados e aprendizagem de máquina em logs das interações dos estudantes de cursos técnicos a distância dentro dos AVAs com o objetivo de identificar estudantes em situação de risco de evasão, utilizando como variáveis principais de entrada para os modelos de predição apenas a contagem dessas interações e atributos variados das mesmas. Foram utilizados dados de logs no AVA (contagens de interações e situação final dos estudantes) de quatro cursos técnicos EAD. As interações dos
estudantes foram contabilizadas separadamente da seguinte forma: quantidade de interações diárias, soma das interações semanais, média semanal das interações, desvio padrão e situação final. Foram avaliados dois cenários diferentes, sendo eles: 1) Geração de modelos de predição com treinamento e teste utilizando dados do próprio curso e a partir de validação cruzada e 2) Treinamento dos modelos com dados de três cursos e teste dos modelos com dados do curso restante. No primeiro cenário, foram obtidos modelos de predição da evasão com ACG de até 84% antes da décima semana de curso, alcançado 95% até a semana 52. No segundo, a maioria dos modelos de predição apresentam resultados de até 80% nas primeiras dez semanas de curso alcançando 98% antes da metade do curso. Um dos modelos alcançou uma ACG de até 95% desde as primeiras semanas. Na comparação direta com o modelo estatístico, ambas as técnicas apresentaram resultados próximos nas primeiras semanas. Entretanto, a partir da décima semana, os modelos gerados por meio de mineração de dados apresentaram um crescimento significativo nas ACG, enquanto que o modelo estatístico se manteve estável. Assim a contribuição deste trabalho é a geração de modelos de predição que possam auxiliar de forma mais precisa no combate a evasão. / Evasion is considered one of the main problems related to e-learning (EAD). In this teaching modality, the interaction between students and teachers is usually mediated by a Virtual Learning Environment (AVA), where the actions taken by students and teachers during the teaching-learning process are recorded in their interaction logs. The large volume of data generated by these interactions allows the
use of mining techniques to analyze student data. This work applies data mining and machine learning techniques to logs of students’ interactions of distance technical courses within AVA’s in order to identify students at risk of evasion, using as main input variables for the prediction models Only the count of these interactions and varied attributes of them. Data from logs in the AVA (interaction counts and students’ final situation) of four EAD technical courses were used. Student interactions were counted
separately as follows: number of daily interactions, sum of weekly interactions, weekly mean of interactions, standard deviation and final situation. Two different scenarios were evaluated: 1) Generation of prediction models with training and test using data from the course itself and from cross validation and 2) Training of the models with data from three courses and test of the models with data from the course remaining. In the first scenario, prediction models of prediction of ACG evasion up to 84% were obtained before the tenth week of course, reaching 95% until week 52. In the second scenario, most of the prediction models present results of up to 80% In the first ten weeks of the
course reaching 98% before the middle of the course. One of the models has achieved an ACG of up to 95% since the first few weeks. In the direct comparison with the statistical model, both techniques showed close results in the first weeks. However, from the tenth week, the models generated through data mining showed a significant growth in the GCA, while the statistical model remained stable. The contribution of this work is the generation of models able to early predict dropout students.
|
Page generated in 0.4435 seconds