Global ETD Search

261	Seleção e construção de features relevantes para o aprendizado de máquina. / Relevant feature selection and construction for machine learning. Lee, Huei Diana 27 April 2000 (has links) No Aprendizado de Máquina Supervisionado - AM - é apresentado ao algoritmo de indução um conjunto de instâncias de treinamento, no qual cada instância é um vetor de features rotulado com a classe. O algoritmo de indução tem como tarefa induzir um classificador que será utilizado para classificar novas instâncias. Algoritmos de indução convencionais baseam-se nos dados fornecidos pelo usuário para construir as descrições dos conceitos. Uma representação inadequada do espaço de busca ou da linguagem de descrição do conjunto de instâncias, bem como erros nos exemplos de treinamento, podem tornar os problemas de aprendizado difícies. Um dos problemas centrais em AM é a Seleção de um Subconjunto de Features - SSF - na qual o objetivo é tentar diminuir o número de features que serão fornecidas ao algoritmo de indução. São várias as razões para a realização de SSF. A primeira é que a maioria dos algoritmos de AM, computacionalmente viáveis, não trabalham bem na presença de muitas features, isto é a precisão dos classificadores gerados pode ser melhorada com a aplicação de SSF. Ainda, com um número menor de features, a compreensibilidade do conceito induzido pode ser melhorada. Uma terceira razão é o alto custo para coletar e processar grande quantidade de dados. Existem, basicamente, três abordagens para a SSF: embedded, filtro e wrapper. Por outro lado, se as features utilizadas para descrever os exemplos de treinamento são inadequadas, os algoritmos de aprendizado estão propensos a criar descrições excessivamente complexas e imprecisas. Porém, essas features, individualmente inadequadas, podem algumas vezes serem, convenientemente, combinadas gerando novas features que podem mostrar-se altamente representativas para a descrição de um conceito. O processo de construção de novas features é conhecido como Construção de Features ou Indução Construtiva - IC. Neste trabalho são enfocadas as abordagens filtro e wrapper para a realização de SSF, bem como a IC guiada pelo conhecimento. É descrita uma série de experimentos usando SSF e IC utilizando quatro conjuntos de dados naturais e diversos algoritmos simbólicos de indução. Para cada conjunto de dados e cada indutor, são realizadas várias medidas, tais como, precisão, tempo de execução do indutor e número de features selecionadas pelo indutor. São descritos também diversos experimentos realizados utilizando três conjuntos de dados do mundo real. O foco desses experimentos não está somente na avaliação da performance dos algoritmos de indução, mas também na avaliação do conhecimento extraído. Durante a extração de conhecimento, os resultados foram apresentados aos especialistas para que fossem feitas sugestões para experimentos futuros. Uma parte do conhecimento extraído desses três estudos de casos foram considerados muito interessantes pelos especialistas. Isso mostra que a interação de diferentes áreas de conhecimento, neste caso específico, áreas médica e computacional, pode produzir resultados interessantes. Assim, para que a aplicação do Aprendizado de Máquina possa gerar frutos é necessário que dois grupos de pesquisadores sejam unidos: aqueles que conhecem os métodos de AM existentes e aqueles com o conhecimento no domínio da aplicação para o fornecimento de dados e a avaliação do conhecimento adquirido. / In supervised Machine Learning - ML - an induction algorithm is typically presented with a set of training instances, where each instance is described by a vector of feature values and a class label. The task of the induction algorithm (inducer) is to induce a classifier that will be useful in classifying new cases. Conventional inductive-learning algorithms rely on existing (user) provided data to build their descriptions. Inadequate representation space or description language as well as errors in training examples can make learning problems be difficult. One of the main problems in ML is the Feature Subset Selection - FSS - problem, i.e. the learning algorithm is faced with the problem of selecting some subset of features upon which to focus its attention, while ignoring the rest. There are a variety of reasons that justify doing FSS. The first reason that can be pointed out is that most of the ML algorithms, that are computationally feasible, do not work well in the presence of a very large number of features. This means that FSS can improve the accuracy of the classifiers generated by these algorithms. Another reason to use FSS is that it can improve comprehensibility, i.e. the human ability of understanding the data and the rules generated by symbolic ML algorithms. A third reason for doing FSS is the high cost in some domains for collecting data. Finally, FSS can reduce the cost of processing huge quantities of data. Basically, there are three approaches in Machine Learning for FSS: embedded, filter and wrapper approaches. On the other hand, if the provided features for describing the training examples are inadequate, the learning algorithms are likely to create excessively complex and inaccurate descriptions. These individually inadequate features can sometimes be combined conveniently, generating new features which can turn out to be highly representative to the description of the concept. The process of constructing new features is called Constructive Induction - CI. Is this work we focus on the filter and wrapper approaches for FSS as well as Knowledge-driven CI. We describe a series of experiments for FSS and CI, performed on four natural datasets using several symbolic ML algorithms. For each dataset, various measures are taken to compare the inducers performance, for example accuracy, time taken to run the inducers and number of selected features by each evaluated induction algorithm. Several experiments using three real world datasets are also described. The focus of these three case studies is not only comparing the induction algorithms performance, but also the evaluation of the extracted knowledge. During the knowledge extraction step results were presented to the specialist, who gave many suggestions for the development of further experiments. Some of the knowledge extracted from these three real world datasets were found very interesting by the specialist. This shows that the interaction between different areas, in this case, medical and computational areas, may produce interesting results. Thus, two groups of researchers need to be put together if the application of ML is to bear fruit: those that are acquainted with the existing ML methods, and those with expertise in the given application domain to provide training data. aprendizado de máquina bases de dados médicos construção de features extração de conhecimentos Feature Construction Feature Selection knowledge extraction machine learning medical databases seleção de features
262	Uso de meta-aprendizado na recomendação de meta-heurísticas para o problema do caixeiro viajante / Using meta-learning on the recommendation of meta-heuristics for the traveling salesman problem Kanda, Jorge Yoshio 07 December 2012 (has links) O problema do caixeiro viajante (PCV) é um problema clássico de otimização que possui diversas variações, aplicações e instâncias. Encontrar a solução ótima para muitas instâncias desse problema é geralmente muito difícil devido o alto custo computacional. Vários métodos de otimização, conhecidos como meta-heurísticas (MHs), são capazes de encontrar boas soluções para o PCV. Muitos algoritmos baseados em diversas MHs têm sido propostos e investigados para diferentes variações do PCV. Como não existe um algoritmo universal que encontre a melhor solução para todas as instâncias de um problema, diferentes MHs podem prover a melhor solução para diferentes instâncias do PCV. Desse modo, a seleção a priori da MH que produza a melhor solução para uma dada instância é uma tarefa difícil. A pesquisa desenvolvida nesta tese investiga o uso de abordagens de meta-aprendizado para selecionar as MHs mais promissoras para novas instâncias de PCV. Essas abordagens induzem meta-modelos preditivos a partir do treinamento das técnicas de aprendizado de máquina em um conjunto de meta-dados. Cada meta-exemplo, em nosso conjunto de meta-dados, representa uma instância de PCV descrita por características (meta-atributos) do PCV e pelo desempenho das MHs (meta-atributo alvo) para essa instância. Os meta-modelos induzidos são usados para indicar os valores do meta-atributo alvo para novas instâncias do PCV. Vários experimentos foram realizados durante a investigação desta pesquisa e resultados importantes foram obtidos / The traveling salesman problem (TSP) is a classical optimization problem that has several variations, applications and instances. To find the optimal solution for many instances of this problem is usually a very hard task due to high computational cost. Various optimization methods, known as metaheuristics (MHs), are capable to generate good solutions for the TSP. Many algorithms based on different MHs have been proposed and investigated for different variations of the TSP. Different MHs can provide the best optimization solution for different TSP instances, since there is no a universal algorithm able to find the best solution for all instances. Thus, a priori selection of the MH that produces the best solution for a given instance is a hard task. The research developed in this thesis investigates the use of meta-learning approaches to select the most promising MHs for new TSP instances. These approaches induce predictive meta-models from the training of machine learning techniques on a set of meta-data. In our meta-data, each meta-example is a TSP instance described by problem characteristics (meta-features) and performance of MHs (target meta-features) for this instance. The induced meta-models are used to indicate the values of the target meta-feature for new TSP instances. During the investigation of this research, several experiments were performed and important results were obtained Algorithm selection problem Aprendizado de máquina Machine learning Meta-aprendizado Meta-heurísticas Meta-heuristics Meta-learning Problema de seleção de algoritmos Problema do caixeiro viajante Traveling salesman problem
263	Diretrizes metodológicas e validação estatística de dados para a construção de data warehouses / Methodological guidelines and statistical data validation for the construction of data warehouses Takecian, Pedro Losco 14 August 2014 (has links) Os sistemas de integração de dados que usam a arquitetura de data warehouse (DW) têm se tornado cada vez maiores e mais difíceis de gerenciar devido à crescente heterogeneidade das fontes de dados envolvidas. Apesar dos avanços tecnológicos e científicos, os projetos de DW ainda são muito lentos na geração de resultados pragmáticos. Este trabalho busca responder à seguinte questão: como pode ser reduzida a complexidade do desenvolvimento de sistemas de DW que integram dados provenientes de sistemas transacionais heterogêneos? Para isso, apresenta duas contribuições: 1) A criação de diretrizes metodológicas baseadas em ciclos de modelagem conceitual e análise de dados para guiar a construção de um sistema modular de integração de dados. Essas diretrizes foram fundamentais para reduzir a complexidade do desenvolvimento do projeto internacional Retrovirus Epidemiology Donor Study-II (REDS-II), se mostrando adequadas para serem aplicadas em sistemas reais. 2) O desenvolvimento de um método de validação de lotes de dados candidatos a serem incorporados a um sistema integrador, que toma decisões baseado no perfil estatístico desses lotes, e de um projeto de sistema que viabiliza o uso desse método no contexto de sistemas de DW. / Data integration systems that use data warehouse (DW) architecture are becoming bigger and more difficult to manage due to the growing heterogeneity of data sources. Despite the significant advances in research and technologies, many integration projects are still too slow to generate pragmatic results. This work addresses the following question: how can the complexity of DW development for integration of heterogeneous transactional information systems be reduced? For this purpose, we present two contributions: 1) The establishment of methodological guidelines based on cycles of conceptual modeling and data analysis to drive construction of a modular data integration system. These guidelines were fundamental for reducing the development complexity of the international project Retrovirus Epidemiology Donor Study-II (REDS-II), proving suited to be applied in real systems. 2) The development of a validation method of data batches that are candidates to be incorporated into an integration system, which makes decisions based on the statistical profile of these batches, and a project of a system that enables the use of this method in DW systems context. análise de dados aprendizado de máquina arquitetura modular conceptual modeling data analysis data validation data warehouse data warehouse machine learning modelagem conceitual modular architecture validação de dados
264	Visual urban road features detection using Convolutional Neural Network with application on vehicle localization / Detecção de características visuais de vias urbanas usando Rede Neural Convolutiva com aplicação em localização de veículo Horita, Luiz Ricardo Takeshi 28 February 2018 (has links) Curbs and road markings were designed to provide a visual low-level spatial perception of road environments. In this sense, a perception system capable of detecting those road features is of utmost importance for an autonomous vehicle. In vision-based approaches, few works have been developed for curb detection, and most of the advances on road marking detection have aimed lane markings only. Therefore, to detect all these road features, multiple algorithms running simultaneously would be necessary. Alternatively, as the main contribution of this work, it was proposed to employ an architecture of Fully Convolutional Neural Network (FCNN), denominated as 3CSeg-Multinet, to detect curbs and road markings in a single inference. Since there was no labeled dataset available for training and validation, a new one was generated with Brazilian urban scenes, and they were manually labeled. By visually analyzing experimental results, the proposed approach has shown to be effective and robust against most of the clutter present on images, running at around 10 fps in a Graphics Processing Unit (GPU). Moreover, with the intention of granting spatial perception, stereo vision techniques were used to project the detected road features in a point cloud. Finally, as a way to validate the applicability of the proposed perception system on a vehicle, it was also introduced a vision-based metric localization model for the urban scenario. In an experiment, compared to the ground truth, this localization method has revealed consistency on its pose estimations in a map generated by LIDAR. / Guias e sinalizações horizontais foram projetados para fornecer a percepção visual de baixo nível do espaço das vias urbanas. Deste modo, seria de extrema importância para um veículo autônomo ter um sistema de percepção capaz de detectar tais características visuais. Em abordagens baseadas em visão, poucos trabalhos foram desenvolvidos para detecção de guias, e a maioria dos avanços em detecção de sinalizações horizontais foi focada na detecção de faixas apenas. Portanto, para que fosse possível detectar todas essas características visuais, seria necessário executar diversos algoritmos simultaneamente. Alternativamente, como sendo a principal contribuição deste trabalho, foi proposto a adoção de uma Rede Neural Totalmente Convolutiva, denominado 3CSeg-Multinet, para detectar guias e sinalizações horizontais em apenas uma inferência. Como não havia um conjunto de dados rotulados disponível para treinar e validar a rede, foi gerado um novo conjunto com imagens capturadas em ambiente urbano brasileiro, e foi realizado a rotulação manual. Através de uma análise visual dos resultados experimentais obtidos, o método proposto mostrou-se eficaz e robusto contra a maioria dos fatores que causam confusão nas imagens, executando a aproximadamente 10 fps em uma GPU. Ainda, com o intuito de garantir a percepção espacial, foram usados métodos de visão estéreo para projetar as características detectadas em núvem de pontos. Finalmente, foi apresentado também um modelo de localização métrica baseado em visão para validar a aplicabilidade do sistema de percepção proposto em um veículo. Em um experimento, este método de localização revelou-se capaz de manter as estimativas consistentes com a verdadeira pose do veículo em um mapa gerado a partir de um sensor LIDAR. Aprendizado de máquina Convolutional Neural Network Curb detection Detecção de guia Detecção de sinalização horizontal Localização de veículos Machine learning Rede Neural Convolutiva Road marking detection Stereo vision Vehicle localization Visão estéreo
265	Análise de grandezas cinemáticas e dinâmicas inerentes à hemiparesia através da descoberta de conhecimento em bases de dados / Analysis of kinematic and dynamic data inherent to hemiparesis through knowledge discovery in databases Moretti, Caio Benatti 31 March 2016 (has links) Em virtude de uma elevada expectativa de vida mundial, faz-se crescente a probabilidade de ocorrer acidentes naturais e traumas físicos no cotidiano, o que ocasiona um aumento na demanda por reabilitação. A terapia física, sob o paradigma da reabilitação robótica com serious games, oferece maior motivação e engajamento do paciente ao tratamento, cujo emprego foi recomendado pela American Heart Association (AHA), apontando a mais alta avaliação (Level A) para pacientes internados e ambulatoriais. No entanto, o potencial de análise dos dados coletados pelos dispositivos robóticos envolvidos é pouco explorado, deixando de extrair informações que podem ser de grande valia para os tratamentos. O foco deste trabalho consiste na aplicação de técnicas para descoberta de conhecimento, classificando o desempenho de pacientes diagnosticados com hemiparesia crônica. Os pacientes foram inseridos em um ambiente de reabilitação robótica, fazendo uso do InMotion ARM, um dispositivo robótico para reabilitação de membros superiores e coleta dos dados de desempenho. Foi aplicado sobre os dados um roteiro para descoberta de conhecimento em bases de dados, desempenhando pré-processamento, transformação (extração de características) e então a mineração de dados a partir de algoritmos de aprendizado de máquina. A estratégia do presente trabalho culminou em uma classificação de padrões com a capacidade de distinguir lados hemiparéticos sob uma precisão de 94%, havendo oito atributos alimentando a entrada do mecanismo obtido. Interpretando esta coleção de atributos, foi observado que dados de força são mais significativos, os quais abrangem metade da composição de uma amostra. / As a result of a higher life expectancy, the high probability of natural accidents and traumas occurences entails an increasing need for rehabilitation. Physical therapy, under the robotic rehabilitation paradigm with serious games, offers the patient better motivation and engagement to the treatment, being a method recommended by American Heart Association (AHA), pointing the highest assessment (Level A) for inpatients and outpatients. However, the rich potential of the data analysis provided by robotic devices is poorly exploited, discarding the opportunity to aggregate valuable information to treatments. The aim of this work consists of applying knowledge discovery techniques by classifying the performance of patients diagnosed with chronic hemiparesis. The patients, inserted into a robotic rehabilitation environment, exercised with the InMotion ARM, a robotic device for upper-limb rehabilitation which also does the collection of performance data. A Knowledge Discovery roadmap was applied over collected data in order to preprocess, transform and perform data mining through machine learning methods. The strategy of this work culminated in a pattern classification with the abilty to distinguish hemiparetic sides with an accuracy rate of 94%, having eight attributes feeding the input of the obtained mechanism. The interpretation of these attributes has shown that force-related data are more significant, comprising half of the composition of a sample. Aprendizado de máquina Data mining KDD KDD Knowledge discovery in databases Machine learning Mineração de dados Reabilitação Rehabilitation Rehabilitation robotics Robótica de reabilitação
266	Caracterização e identificação de displasias corticais focais em pacientes com epilepsia refratária através de análise de imagens estruturais de ressonância magnética nuclear / Characterization and identification of focal cortical dysplasia in patients with refractory epilepsy through analysis of structural magnetic resonance images Simozo, Fabrício Henrique 11 April 2018 (has links) A displasia cortical focal (DCF) é uma das causas mais frequentes de epilepsia refratária. Na clínica, diferentes informações são usadas para localizar o foco epileptogênico, mas nenhum método é autossuficiente para evidenciar o local original das crises, associado com a presença da DCF. Embora haja relatos na literatura indicando alterações no padrão de distribuição de tons de cinza e morfologia dos voxels decorrentes da DCF, algumas limitações dos métodos desenvolvidos ainda impedem a utilização clínica. Nossa proposta foi investigar a capacidade de identificar DCF através de análises de espessura cortical e padrões de textura em imagens estruturais de Ressonância Magnética (RM), validando os métodos desenvolvidos a partir uma base de imagens retrospectiva, cujo tecido epileptogênico já havia sido ressecado e a DCF confirmada em análise histológica. A caracterização das DCF foi feita a partir da segmentação automática de tecido cortical saudável em conjunto com a segmentação manual da DCF feita por um especialista, e consiste na geração de mapas de característica e extração de valores de distribuições para comparação em análise estatística. Investigamos também a eficácia da detecção de DCF através do uso de algoritmos de aprendizado de máquina para classificação automática. Obtivemos precisão 0,81 e sensitividade 0,87, colocando o método desenvolvido em par com outros métodos presentes na literatura. Entretanto, foi identificada uma grande dependência do desempenho de métodos de pré-processamento, como corregistro e segmentação automática. / Focal Cortical Dysplasia (FCD) is one of the most frequent causes of refractory epilepsy. In clinical procedures, the information gathered from different techniques is used in order to locate the epileptogenic focus, associated with the presence of FCD. However, there is no self sufficient method to evidence the presence and location of such lesions and especially its extension. Although there are reports indicating change in gray scale intensity patterns and voxel morphology in the presence of DCF, limitations in developed methods still prevent their clinical use. Our proposal was to investigate the capability of identifying FCD through cortical thickness and texture patter analysis in structural MRI images, validating developed methods by utilizing a retrospective base of images from patients that were subjected to surgery, with the FCD being confirmed in histological analysis. Characterization of FCD was achieved from automatic segmentation of healthy cortex and manual segmentation of FCD tissue made by an specialist, and consists in the generation of texture or structural feature maps and comparison of distribution values in healthy or FCD tissue with statistical analysis. We also investigate the efficiency of FCD detection with Machine Learning automatic classification, obtaining precision of 0,81 and sensitivity of 0,87, placing our method on par with other methods in the literature. However, there is a major performance dependency of proposed method with pre-processing steps, like registration and automatic segmentation.
267	Desenvolvimento de sistema especialista com operacionalidade de aprendizado para operar em tempo real com sistemas industriais automatizados. / Development of expert system operating in real time with industrial automated systems with learning capacity. Andrade, Alexandre Acácio de 23 November 2007 (has links) Os Sistemas Supervisórios (SS) executam diversas funções vitais em um processo automatizado e também operam como interface homem-máquina. Os mesmos recebem informações de dispositivos como Controladores Lógicos Programáveis (CLP), inversores de freqüência, etc, e ao mesmo tempo enviam parâmetros de controle fornecidos pelos operadores do processo aos equipamentos de controle. Na operação de SS, a atuação correta e a experiência dos operadores humanos é portanto também vital no controle do processo automatizado. Em recente trabalho(Andrade-2001) de pesquisa na Escola Politécnica da USP foi desenvolvido um Sistema Especialista para operar em tempo real com Sistemas Supervisórios para auxiliar na tomada de decisão dos operadores do sistema. Ao longo do tempo de operação de uma planta automatizada ocorrem novas situações que passam a compor os novos cenários do sistema e também contribuem para o aumento do conhecimento e da experiência dos operadores humanos. Assim sendo, Sistemas Especialistas constantemente devem ser atualizados com novas regras para atender às novas demandas da planta automatizada. Este trabalho de pesquisa apresenta os resultados obtidos com o Sistema Especialista desenvolvido para operar em tempo real com Sistemas Supervisórios, como também o andamento das pesquisas no campo de aprendizado de máquina e mineração de dados com o objetivo de desenvolver e de habilitar Sistemas Especialistas que operam em tempo real com a capacidade de aprender conforme ocorrem eventos durante o funcionamento de uma planta industrial automatizada. / Supervision systems ( SS ) perform diverse vital functions in an automated process and also operate as a man machine interface. The SS receive informations from devices as programmable logical Controllers (PLC), frequency inverters , etc, and at the same time send parameters of control supplied by the process users to the control equipment. In the SS operation, the correct actions and the experience of the human users are therefore vital in the control of the automated process. In a recent research work(Andrade-2001) of the USP Polytechnic School an Expert System was developed to interact in real time with a SS aiming to help in the decision-making process of the system users. During the operation time of an automated plant new situations occur, which come to compose the new system settings and also contribute to the increasing of the human users\' knowledge and experience. Thus, Expert Systems should be constantly brought up to date with these new rules for attend the new demands of the automated plant. This research work shows the results obtained by the expert system, developed to operate in real time with the supervisory systems. It also shows the course of the researches in the fields of machine learning and data mining with the objective of developing and enabling Expert Systems that operate in real time with the capacity to learn events as they happen during the operation of an automated industrial plant. Aprendizado de máquina Automação industrial Data mining Industrial automation Machine learning Mineração de dados
268	Detecção de vazamentos e alterações em redes de distribuição de água para abastecimento, durante a operação, usando sinais de pressão / Leak and anomaly detection on water supply networks, while operating, using pressure signals Gamboa Medina, Maria Mercedes 16 August 2017 (has links) O controle ativo de vazamentos é fundamental para o gerenciamento dos recursos hídricos, e particularmente o problema de sua detecção precisa de alternativas de solução. Nesta pesquisa foram desenvolvidos três métodos para detecção da ocorrência de vazamentos ou outras alterações em redes de distribuição de água para abastecimento, durante operação, com base na análise dos sinais de pressão adquiridos por monitoramento permanente na rede. Os métodos foram desenvolvidos com informações de um estudo de caso real, e fundamentam-se em cadeias de Markov, em controle estatístico de processos, e em comparação com padrões, respetivamente. Seu desempenho global foi quantificado com a área abaixo da curva ROC, obtendo valores médios de 0,67, 0,65 e 0,71, respetivamente. Foi encontrado que a ocorrência de vazamentos produz mudanças nas pressões medidas na rede, mas tais mudanças podem ser próximas às que acontecem pela operação normal, de forma que os métodos propostos constituem ferramentas de suporte ao gerenciamento úteis, sem atingir a detecção e diferenciação da totalidade dos vazamentos e alterações. / Active leak control is fundamental on water resources managment, and particullary the detection problem needs alternative solutions. On this research three methods for leak or anomaly detection on operating supply systems were developed, based on analisys of pressure signals acquired by network monitoring. The proposed methods used real data from a case study, and are based on Markov chains, statistical process control, and pattern comparison, respectively. Their overall performances on case study were measured using the area under ROC curve, reaching averages 0,67, 0,65 and 0,71, respectively. It was found that a leak onset result in disturbances on measured preassure, but sometimes those disturbances are close to those of normal operation, therefore proposed methods are useful decision tools, not reaching detection and distinction for all the leaks or anomalies. Aprendizado de máquina Burst Leak Machine learning Pressure signals Redes de abastecimento de água Séries temporais Sinais de pressão Time series Vazamentos Water supply network
269	Avaliação de mecanismos de suporte à tomada de decisão e sua aplicabilidade no auxílio à priorização de casos em regulações de urgências e emergências / Evaluation of decision support mechanisms and their aplicability to aid prioritization of cases from medical coordination of emergency requests Pollettini, Juliana Tarossi 23 November 2016 (has links) Introdução: A Regulação Médica, que representa a aplicação de técnicas de logística ao contexto de emergência, é responsável pela disponibilização de recursos apropriados, nas condições apropriadas para pacientes apropriados. Um sistema para Regulação Médica de Urgências e Emergências foi desenvolvido em 2009 e foi implantado na forma de um projeto-piloto. Técnicas nas áreas de processamento de linguagem natural, recuperação de informação e aprendizado de máquina podem ser utilizadas para processar registros clínicos e auxiliar processos de tomada de decisão. Objetivos: No presente trabalho busca-se: (i) comparar diferentes metodologias para representação e extração de informação de documentos em texto livre, tais como solicitações de regulação; (ii) proporcionar suporte à decisão na definição de prioridade de casos, com processamento textual e semântico do resumo clínico dos casos; e (iii) analisar as contribuições dos dados clínicos e prioridade definida durante o processo de regulação para o desfecho do caso. Metodologia: Foram utilizados dados do projeto-piloto, assim como dados relativos ao desfecho do caso de pacientes regulados e admitidos na Unidade de Emergência do HCFMRP-USP. Os dados foram processados com o auxílio de tecnologias de Aprendizado de Máquina, Mineração de Textos e Recuperação de Informação para extrair informações organizadas em atributos a serem utilizados pra permitir suporte à decisão na prioridade do caso. Resultados: Os dados de pedidos de regulação apresentam uma grande quantidade de casos com valores de atributos muito parecidos (algumas vezes idênticos), contudo com classes (prioridades) diferentes, caracterizando uma base de dados com grande quantidade de ruídos, o que dificulta a aplicação de tecnologias como Aprendizado de Máquina. Resultados evidenciam o caráter subjetivo na definição de prioridades, que talvez seja influenciada por outros fatores que não estão presentes no texto do registro clínico do paciente. Resultados de suporte à decisão na definição de prioridade e desfecho do caso indicam que aplicar processamento semântico, mapeando termos para conceitos médicos do UMLS, reduz o problema da dimensionalidade quando comparado a abordagens menos robustas de mineração de textos. A abordagem apoiada por recuperação de informação, permite que sejam classificados apenas pedidos de regulação que sejam mais similares que um limiar (threshold) desejado em relação a algum caso do banco de dados. Desta maneira, esta abordagem pode ser utilizada para reduzir sobrecarga, permitindo que reguladores concentrem sua atenção em casos mais críticos e casos de maior particularidade (não similares a casos históricos). Conclusões: O presente trabalho proporcionou suporte à decisão na priorização de casos em regulações de urgência e emergência, com processamento textual e semântico do resumo clínico dos casos. Definiu-se como proposta para suporte à decisão na priorização de casos um processo composto por três etapas: (i) análise do risco de óbito; (ii) pré-priorização automática de casos de alta similaridade com casos históricos; e (iii) apoio à decisão com base em casos históricos (aprendizagem baseada em exemplos). / Introduction: The Medical Coordination, which is the application of logistics techniques to the emergency context, is responsible for providing appropriate resources, in appropriate conditions to appropriate patients. A system for medical coordination of emergency requests was developed in 2009 and was implemented as a pilot project, although some activities related to medical coordination decision making are extremely subjective. Techniques from the areas of natural language processing, information retrieval and machine learning can be used to process clinical records and assist decision-making processes. Objectives: The present study aims to: (i) compare different methodologies for representation and information extraction from free text documents, such as coordination requests; (ii) provide decision support to prioritization of requests, with textual and semantic processing of clinical summaries of the cases; and (iii) analyze the contributions of clinical data and priority defined during the coordination process to the final case outcome. Methodology: Data from the pilot project, as well as data on the case outcome of coordinated patients admitted to the HCFMRP-USP Emergency Unit we used. Data was processed with the aid of Machine Learning, Information Retrival and Text Mining techniques to extract information organized into attributes to be used to enable decision support on the priority of the case. Results: The coordination requests data contain a large number of cases with very similar attribute values (sometimes identical), but with different classes (priorities), characterizing a database with a large amount of noise, making it hard to apply technologies such as Machine Learning. Results denote the subjective aspect in the definition of priorities, which may be influenced by other factors that are not present in the patient\'s clinical record text. Decision support results in prioritization and case outcome indicate that applying semantic processing, mapping terms to UMLS medical concepts, reduces the dimensionality problem when compared to less robust text mining approaches. The approach supported by information retrieval allows to classify only coordination requests that are more similar than a defined threshold to a historical case. Thus, this approach can be used to reduce overhead, allowing coordinators to focus their attention on the most critical cases and cases of greater particularity (not similar to historical cases). Conclusions: This work provided decision support in prioritizing cases of urgency and emergency coordination requests, with textual and semantic processing of clinical summary cases. It was defined as a proposal for decision support in prioritization of requestes a process consisting of three steps: (i) analysis of the risk of death; (ii) automatic pre-prioritization of cases of high similarity with historical cases; and (iii) decision support based on historical cases (examples-based learning). Aprendizado de Máquina Emergency Medicine Information Retrieval Machine Learning Medical Coordination Medicina de Emergência Mineração de Textos Natural Language Processing Recuperação de Informação Regulação Médica
270	Redes neurais e algoritmos genéticos para problemas de classificação hierárquica multirrótulo / Neural networks and genetic algorithms for hierarchical multi-label classification Cerri, Ricardo 05 December 2013 (has links) Em problemas convencionais de classificação, cada exemplo de um conjunto de dados é associado a apenas uma dentre duas ou mais classes. No entanto, existem problemas de classificação mais complexos, nos quais as classes envolvidas no problema são estruturadas hierarquicamente, possuindo subclasses e superclasses. Nesses problemas, exemplos podem ser atribuídos simultaneamente a classes pertencentes a dois ou mais caminhos de uma hierarquia, ou seja, exemplos podem ser classificados em várias classes localizadas em um mesmo nível hierárquico. Tal hierarquia pode ser estruturada como uma árvore ou como um grafo acíclico direcionado. Esses problemas são chamados de problemas de classificação hierárquica multirrótulo, sendo mais difíceis devido à alta complexidade, diversidade de soluções, difícil modelagem e desbalanceamento dos dados. Duas abordagens são utilizadas para tratar esses problemas, chamadas global e local. Na abordagem global, um único classificador é induzido para lidar com todas as classes do problema simultaneamente, e a classificação de novos exemplos é realizada em apenas um passo. Já na abordagem local, um conjunto de classificadores é induzido, sendo cada classificador responsável pela predição de uma classe ou de um conjunto de classes, e a classificação de novos exemplos é realizada em vários passos, considerando as predições dos vários classificadores. Nesta Tese de Doutorado, são propostos e investigados dois métodos para classificação hierárquica multirrótulo. O primeiro deles é baseado na abordagem local, e associa uma rede neural Multi-Layer Perceptron (MLP) a cada nível da hierarquia, sendo cada MLP responsável pelas predições no seu nível associado. O método é chamado Hierarchical Multi- Label Classification with Local Multi-Layer Perceptrons (HMC-LMLP). O segundo método é baseado na abordagem global, e induz regras de classificação hierárquicas multirrótulo utilizando um Algoritmo Genético. O método é chamado Hierarchical Multi-Label Classification with a Genetic Algorithm (HMC-GA). Experimentos utilizando hierarquias estruturadas como árvores mostraram que o método HMC-LMLP obteve desempenhos de classificação superiores ao método estado-da-arte na literatura, e desempenhos superiores ou competitivos quando utilizando hierarquias estruturadas como grafos. O método HMC-GA obteve resultados competitivos com outros métodos da literatura em hierarquias estruturadas como árvores e grafos, sendo capaz de induzir, em muitos casos, regras menores e em menor quantidade / conventional classification problems, each example of a dataset is associated with just one among two or more classes. However, there are more complex classification problems where the classes are hierarchically structured, having subclasses and superclasses. In these problems, examples can be simultaneously assigned to classes belonging to two or more paths of a hierarchy, i.e., examples can be classified in many classes located in the same hierarchical level. Such a hierarchy can be structured as a tree or a directed acyclic graph. These problems are known as hierarchical multi-label classification problems, being more difficult due to the high complexity, diversity of solutions, modeling difficulty and data imbalance. Two main approaches are used to deal with these problems, called global and local. In the global approach, only one classifier is induced to deal with all classes simultaneously, and the classification of new examples is done in just one step. In the local approach, a set of classifiers is induced, where each classifier is responsible for the predictions of one class or a set of classes, and the classification of new examples is done in many steps, considering the predictions of all classifiers. In this Thesis, two methods for hierarchical multi-label classification are proposed and investigated. The first one is based on the local approach, and associates a Multi-Layer Perceptron (MLP) to each hierarchical level, being each MLP responsible for the predictions in its associated level. The method is called Hierarchical Multi-Label Classification with Local Multi-Layer Perceptrons (HMC-LMLP). The second method is based on the global approach, and induces hierarchical multi-label classification rules using a Genetic Algorithm. The method is called Hierarchical Multi-Label Classification with a Genetic Algorithm (HMC-GA). Experiments using hierarchies structured as trees showed that HMC-LMLP obtained classification performances superior to the state-of-the-art method in the literature, and superior or competitive performances when using graph-structured hierarchies. The HMC-GA method obtained competitive results with other methods of the literature in both tree and graph-structured hierarchies, being able of inducing, in many cases, smaller and in less quantity rules Algoritmos genéticos Aprendizado de máquina Bioinformática bioinformatics Genetic algorithms Hierarchical multi-label classification Machine learning Neural networks Redes neurais

Search results