Global ETD Search

1	[en] PRODUCT OFFERING CLASSIFICATION / [pt] CLASSIFICAÇÃO DE OFERTAS DE PRODUTOS FELIPE REIS GOMES 26 February 2014 (has links) [pt] Este trabalho apresenta o EasyLearn, um framework para apoiar o desenvolvimento de aplicações voltadas ao aprendizado supervisionado. O EasyLearn define uma camada intermediaria, de simples configuração e entendimento, entre a aplicação e o WEKA, um framework de aprendizado de máquina criado pela Universidade de Waikato. Todos os classificadores e filtros implementados pelo WEKA podem ser facilmente encapsulados para serem utilizados pelo EasyLearn. O EasyLearn recebe como entrada um conjunto de arquivos de configuração no formato XML contendo a definição do fluxo de processamento a ser executado, além da fonte de dados a ser processada, independente do formato. Sua saída é adaptável e pode ser configurada para produzir, por exemplo, relatórios de acurácia da classificação, a própria da fonte de dados classificada, ou o modelo de classificação já treinado. A arquitetura do EasyLearn foi definida após a análise detalhada dos processos de classificação, permitindo identificar inúmeras atividades em comum entre os três processos estudados aprendizado, avaliação e classificação). Através desta percepção e tomando as linguagens orientadas a objetos como inspiração, foi criado um framework capaz de comportar os processos de classificação e suas possíveis variações, além de permitir o reaproveitamento das configurações, através da implementação de herança e polimorfismo para os seus arquivos de configuração. A dissertação ilustra o uso do framework criado através de um estudo de caso completo sobre classificação de produtos do comércio eletrônico, incluindo a criação do corpus, engenharia de atributos e análise dos resultados obtidos. / [en] This dissertation presents EasyLearn, a framework to support the development of supervised learning applications. EasyLearn dfines an intermediate layer, which is easy to configure and understand, between the application and WEKA, a machine learning framework created by the University of Waikato. All classifiers and filters implemented by WEKA can be easily encapsulated to be used by EasyLearn. EasyLearn receives as input a set of configuration files in XML format containing the definition of the processing flow to be executed, in addition to the data source to be classified, regardless of format. Its output is customizable and can be configured to produce classification accuracy reports, the classified data source, or the trained classification model. The architecture of EasyLearn was defined after a detailed analysis of the classification process, which identified a set of common activities among the three analyzed processes (learning, evaluation and classification). Through this insight and taking the object-oriented languages as inspiration, a framework was created which is able to support the classification processes and its variations, and which also allows reusing settings by implementing inheritance and polymorphism in their configuration files. This dissertation also illustrates the use of the created framework presenting a full case study about e-commerce product classification, including corpus creation, attribute engineering and result analysis. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] APRENDIZADO SUPERVISIONADO [pt] CLASSIFICACAO DE ENTIDADES [pt] WEKA [pt] FRAMEWORK APRENDIZADO DE MAQUINA [pt] CLASSIFICACAO DE PRODUTOS
2	[en] ENVIRONMENT CHANGES DETECTION: A PROACTIVE SYSTEM TO MONITOR MOVING OBJECTS / [pt] DETECÇÃO DE MUDANÇAS NO AMBIENTE: UM SISTEMA PROATIVO PARA MONITORAR OBJETOS MÓVEIS FABIO DA COSTA ALBUQUERQUE 13 February 2017 (has links) [pt] Sistemas de posicionamento, combinados com tecnologias de comunicação de baixo custo, abrem possibilidades interessantes para implementar aplicações em tempo real que monitoram objetos móveis e que apoiam sistemas de tomada de decisão. Inicialmente, esta dissertação discute requisitos básicos para aplicações proativas de monitoramento em tempo real. Em seguida, propõe uma arquitetura para aplicações proativas que monitoram objetos móveis, explorando a semântica da trajetória e a dinâmica do ambiente. Por fim, fornece um exemplo sobre como uma aplicação que monitora uma frota de caminhões pode se tornar proativa, utilizando notícias sobre condições da malha viária, a partir da publicação de dados em texto não estruturado através da Internet. A dissertação descreve como estruturar e georreferenciar as notícias, utilizando serviços de geocodificação. / [en] Positioning systems, combined with inexpensive communication technologies, open interesting possibilities to implement real-time applications that monitor moving objects and that support decision making. This dissertation first discusses basic requirements for proactive real-time monitoring applications. Then, it proposes an architecture to deploy applications that monitor moving objects, are pro-active, explore trajectory semantics and are sensitive to environment dynamics. Lastly, this dissertation provides an example of how an application that monitors a fleet of trucks can become proactive, using unstructured text information available on Internet focused on road conditions change. The dissertation describes how to structure and geo-reference the text, using available geocoding services. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] SISTEMAS DE INFORMACAO GEOGRAFICA [en] GEOGRAPHICAL INFORMATION SYSTEMS [pt] EXTRACAO DE INFORMACAO [en] EXTRATION OF INFORMATION [pt] APRENDIZADO SUPERVISIONADO [pt] MONITORAMENTO PROATIVO [pt] NOTICIAS RELACIONADAS AO TRAFEGO
3	[en] ARTIFICIAL INTELLIGENCE METHODS APPLIED TO MECHANICAL ENGINEERING PROBLEMS / [pt] MÉTODOS DE INTELIGÊNCIA ARTIFICIAL APLICADOS A PROBLEMAS DE ENGENHARIA MECÂNICA PEDRO HENRIQUE LEITE DA SILVA PIRES DOMINGUES 05 June 2020 (has links) [pt] Problemas reais de engenharia mecânica podem compreender tarefas de i) otimização multi-objetivo (MO) ou ii) regressão, classificação e predição. Os métodos baseados em inteligência artificial (AI) são bastante difundidos na resolução desses problemas por i) demandarem menor custo computacional e informações do domínio do problema para a resolução de uma MO, quando comparados com métodos de programação matemática, por exemplo; e ii) apresentarem melhores resultados com estrutura mais simples, adaptabilidade e interpretabilidade, em contraste com outros métodos. Sendo assim, o presente trabalho busca i) otimizar um controle proporcional-integral-derivativo (PID) aplicado a um sistema de frenagem anti-travamento de rodas (ABS) e o projeto de trocadores de calor de placas aletadas (PFHE) e casco-tubo (STHE) através de métodos de otimização baseados AI, buscando o desenvolvimento de novas versões dos métodos aplicados, e.g. multi-objective salp swarm algorithm (MSSA) e multi-objective heuristic Kalman algorithm (MOHKA), que melhorem a performance da otimização; ii) desenvolver um sistema de detecção de vazamento em dutos (LDS) sensível ao roubo de combustível a partir do treinamento de árvores de decisão (DTs) com features baseadas no tempo e na análise de componentes principais (PCA), ambas exraídas de dados de transiente de pressão de operação normal do duto e de roubo de combustível; iii) constituir um guia de aplicação para problemas de MO de controle e projeto, processo de extração de features e treinamento de classificadores baseados em aprendizado de máquina (MLCs), através de aprendizado supervisionado; e, por fim iv) demonstrar o potencial das técnicas baseadas em AI. / [en] Real-world mechanical engineering problems may comprise tasks of i) multi-objective optimization (MO) or ii) regression, classification and prediction. The use of artificial intelligence (AI) based methods for solving these problems are widespread for i) demanding less computational cost and problem domain information to solve the MO, when compared with mathematical programming for an example; and ii) presenting better results with simpler structure, adaptability and interpretability, in contrast to other methods. Therefore, the present work seeks to i) optimize a proportional-integral-derivative control (PID) applied to an anti-lock braking system (ABS) and the heat exchanger design of plate-fin (PFHE) and shell-tube (STHE) types through AI based optimization methods, seeking to develop new versions of the applied methods, e.g. multi-objective salp swarm algorithm (MSSA) and multi-objective heuristic Kalman algorithm (MOHKA), which enhance the optimization performance; ii) develop a pipeline leak detection system (LDS) sensitive to fuel theft by training decision trees (DTs) with features based on time and principal component analysis (PCA), both extracted from pressure transient data of regular pipeline operation and fuel theft; iii) constitute an application guide for control and design MO problems, feature extraction process and machine learning classifiers (MLCs) training through supervised learning; and, finally, iv) demonstrate the potential of AI-based techniques. [pt] APRENDIZADO DE MAQUINA [pt] ALGORITMOS BIOINSPIRADOS [pt] OTIMIZACAO MULTIOBJETIVO [pt] APRENDIZADO SUPERVISIONADO [pt] INTELIGENCIA ARTIFICIAL [en] MACHINE LEARNING [en] BIO INSPIRED ALGORITHMS [en] MULTIOBJECTIVE OPTIMIZATION [en] SUPERVISED LEARNING [en] ARTIFICIAL INTELLIGENCE
4	[pt] MONITORAMENTO DE VIBRAÇÃO EM SISTEMAS MECÂNICOS USANDO APRENDIZADO PROFUNDO E RASO EM COMPUTADORES NA PONTA / [en] VIBRATION MONITORING OF MECHANICAL SYSTEMS USING DEEP AND SHALLOW LEARNING ON EDGE-COMPUTERS CAROLINA DE OLIVEIRA CONTENTE 30 June 2022 (has links) [pt] O monitoramento de integridade estrutural tem sido o foco de desenvolvimentos recentes no campo da avaliação baseada em vibração e, mais recentemente, no escopo da internet das coisas à medida que medição e computação se tornam distribuídas. Os dados se tornaram abundantes, embora a transmissão nem sempre seja viável em frequências mais altas especialmente em aplicações remotas. Portanto, é importante conceber fluxos de trabalho de modelo orientados por dados que garantam a melhor relação entre a precisão do modelo para avaliação de condição e os recursos computacionais necessários para soluções incorporadas, tópico que não tem sido amplamente utilizado no contexto de medições baseadas em vibração. Neste contexto, a presente pesquisa propõe abordagens para duas aplicações: na primeira foi proposto um fluxo de trabalho de modelagem capaz de reduzir a dimensão dos parâmetros de modelos autorregressivos usando análise de componentes principais e classificar esses dados usando algumas técnicas de aprendizado de máquina como regressão logística, máquina de vetor de suporte, árvores de decisão, k-vizinhos próximos e floresta aleatória. O exemplo do prédio de três andares foi usado para demonstrar a eficácia do método. No segundo caso, é utilizado um equipamento de teste composto por inércias rotativas onde a solução de monitoramento foi testada em uma plataforma baseada em GPU embarcada. Os modelos implementados para distinguir eficazmente os diferentes estados de atrito foram análise de componentes principais, deep autoencoders e redes neurais artificiais. Modelos rasos têm melhor desempenho em tempo de execução e precisão na detecção de condições de falha. / [en] Structural health monitoring has been the focus of recent developments in vibration-based assessment and, more recently, in the scope of the internet of things as measurement and computation become distributed. Data has become abundant even though the transmission is not always feasible, especially in remote applications. It is thus essential to devise data-driven model workflows that ensure the best compromise between model accuracy for condition assessment and the computational resources needed for embedded solutions. This topic has not been widely used in the context of vibration-based measurements. In this context, the present research proposes two approaches for two applications, a static and a rotating one. In case one, a modeling workflow capable of reducing the dimension of autoregressive model features using principal component analysis and classifying this data using some of the main machine learning techniques such as logistic regression, support vector machines, decision tree classifier, k-nearest neighborhood and random forest classifier was proposed. The three-story building example was used to demonstrate the method s effectiveness, together with ways to assess the best compromise between accuracy and model size. In case two, a test rig composed of rotating inertias and slender connecting rods is used, and the monitoring solution was tested in an embedded GPU-based platform. The models implemented to effectively distinguish between different friction states were principal component analysis, deep autoencoder and artificial neural networks. Shallow models perform better concerning running time and accuracy in detecting faulty conditions. [pt] APRENDIZADO DE MAQUINA [pt] APRENDIZADO NAO SUPERVISIONADO [pt] IDENTIFICACAO DE SISTEMAS [pt] APRENDIZADO SUPERVISIONADO [en] MACHINE LEARNING [en] UNSUPERVISED LEARNING [en] SYSTEM IDENTIFICATION [en] STRUCTURAL HEALTH MONITORING [en] SUPERVISED LEARNING
5	[pt] AVALIAÇÃO DE DANOS ESTRUTURAIS BASEADA EM ONDAS GUIADAS ULTRASSÔNICAS E APRENDIZADO DE MÁQUINA / [en] GUIDED WAVES-BASED STRUCTURAL DAMAGE EVALUATION WITH MACHINE LEARNING MATEUS GHEORGHE DE CASTRO RIBEIRO 25 February 2021 (has links) [pt] Recentemente, ondas guiadas por ultrassom têm mostrado grande potencial para ensaios não destrutivos e monitoramento de integridade estrutural (SHM) em um cenário de avaliação de danos. As medições obtidas por meio de ondas elásticas são particularmente úteis devido a sua capacidade de se propagarem em diferentes materiais, como meios sólidos e fluidos e, também, a capacidade de abrangerem áreas amplas. Ao possuir suficientes medições oriundas de ondas guiadas, técnicas avançadas baseadas em dados, como aprendizado de máquina, podem ser aplicadas ao problema, tornando o procedimento de avaliação de danos ainda mais poderoso e robusto. Com base nessas circunstâncias, o presente trabalho trata da aplicação de modelos de aprendizado de máquina para fornecer inferências de avaliação de falhas baseadas em informações de ondas guiadas por ultrassom. Dois principais estudos de caso são abordados. Primeiramente, uma placa de polímero reforçado com fibra de carbono (PRFC) é avaliada, utilizando dados da literatura de sinais de onda guiada do tipo Lamb na detecção de defeitos pontuais. Os resultados demonstraram que uma abordagem que utiliza um sinal de referência foi capaz de obter excelentes acurácias ao usar a extração de características baseadas em técnicas de identificação de sistemas. Em um segundo momento, defeitos semelhantes à corrosão em uma placa de alumínio são classificados de acordo com sua gravidade. A metodologia é auxiliada por um esquema de separação de modos em sinais de ondas guiadas do tipo SH pré-adquiridos. Os resultados obtidos mostraram que a adoção da separação de modos pode, de fato, melhorar os resultados do aprendizado de máquina. / [en] Recently ultrasonic guided waves have shown great potential for nondestructive testing and structural health monitoring (SHM) in a damage evaluation scenario. Measurements utilizing elastic waves are particularly useful due to their capability to propagate in different materials such as solid and fluid bounded media, and, also, the ability to cover broad areas. When enough guided waves measurements are available and advanced data-driven techniques such as machine learning can be applied to the problem, the damage evaluation procedure becomes then even more powerful and robust. Based on these circumstances, the present work deals with the application of machine learning models to provide fault evaluation inferences based on ultrasonic guided waves information. Two main case studies are tackled in the mentioned subject. Firstly, a carbon fiber reinforced polymer (CFRP) plate is assessed using open data of Lamb guided wave signals in the detection of dot type defects. Results demonstrated that a baseline dependent approach can obtain excellent results when using system identification feature extraction. Secondly, corrosion-like defects in an aluminium plate are classified according to their severity. The methodology is assisted by a mode separation scheme of SH guided waves signals of pre-acquired data. Results have shown that the adoption of mode separation can in fact improve the machine learning results. [pt] APRENDIZADO DE MAQUINA [pt] CONVERSAO DE MODO [pt] MONITORAMENTO DE SAUDE ESTRUTURAL [pt] APRENDIZADO SUPERVISIONADO [pt] ONDAS GUIADAS [en] MACHINE LEARNING [en] MODE CONVERSION [en] STRUCTURAL HEALTH MONITORING [en] SUPERVISED LEARNING [en] ELASTIC GUIDED WAVES
6	[en] SEMANTIC ROLE-LABELING FOR PORTUGUESE / [pt] ANOTADOR DE PAPEIS SEMÂNTICOS PARA PORTUGUÊS ARTHUR BELTRAO CASTILHO NETO 23 June 2017 (has links) [pt] A anotação de papeis semânticos (APS) é uma importante tarefa do processamento de linguagem natural (PLN), que possibilita estabelecer uma relação de significado entre os eventos descritos em uma sentença e seus participantes. Dessa forma, tem o potencial de melhorar o desempenho de inúmeros outros sistemas, tais como: tradução automática, correção ortográfica, extração e recuperação de informações e sistemas de perguntas e respostas, uma vez que reduz as ambiguidades existentes no texto de entrada. A grande maioria dos sistemas de APS publicados no mundo realiza a tarefa empregando técnicas de aprendizado supervisionado e, para obter melhores resultados, usam corpora manualmente revisados de tamanho considerável. No caso do Brasil, o recurso lexical que possui anotações semânticas (Propbank.br) é muito menor. Por isso, nos últimos anos, foram feitas tentativas de melhorar esse resultado utilizando técnicas de aprendizado semisupervisionado ou não-supervisionado. Embora esses trabalhos tenham contribuido direta e indiretamente para a área de PLN, não foram capazes de superar o desempenho dos sistemas puramente supervisionados. Este trabalho apresenta uma abordagem ao problema de anotação de papéis semânticos no idioma português. Utilizamos aprendizado supervisionado sobre um conjunto de 114 atributos categóricos e empregando duas técnicas de regularização de domínio, combinadas para reduzir o número de atributos binários em 96 por cento. O modelo gerado usa uma support vector machine com solver L2-loss dual support vector classification e é testado na base PropBank.br, apresentando desempenho ligeiramente superior ao estado-da-arte. O sistema é avaliado empiricamente pelo script oficial da CoNLL 2005 Shared Task, obtendo 82,17 por cento de precisão, 82,88 por cento de cobertura e 82,52 por cento de F1 ao passo que o estado-da-arte anterior atinge 83,0 por cento de precisão, 81,7 por cento de cobertura e 82,3 por cento de F1. / [en] Semantic role-labeling (SRL) is an important task of natural language processing (NLP) which allows establishing meaningful relationships between events described in a given sentence and its participants. Therefore, it can potentially improve performance on a large number of NLP systems such as automatic translation, spell correction, information extraction and retrieval and question answering, as it decreases ambiguity in the input text. The vast majority of SRL systems reported so far employed supervised learning techniques to perform the task. For better results, large sized manually reviewed corpora are used. The Brazilian semantic role labeled lexical resource (Propbank.br) is much smaller. Hence, in recent years, attempts have been made to improve performance using semi supervised and unsupervised learning. Even making several direct and indirect contributions to NLP, those studies were not able to outperform exclusively supervised systems. This paper presents an approach to the SRL task in Portuguese language using supervised learning over a set of 114 categorical features. Over those, we apply a combination of two domain regularization methods to cut binary features down to 96 percent. We test a SVM model (L2-loss dual support vector classification) on PropBank.Br dataset achieving results slightly better than state-of-the-art. We empirically evaluate the system using official CoNLL 2005 Shared Task script pulling 82.17 percent precision, 82.88 percent coverage and 82.52 percent F1. The previous state-of-the-art Portuguese SRL system scores 83.0 percent precision, 81.7 percent coverage and 82.3 percent F1. [pt] SELECAO DE ATRIBUTOS [en] FEATURE SELECTION [pt] SUPPORT VECTOR MACHINES [en] SUPPORT VECTOR MACHINES [pt] SVM [en] SVM [pt] APRENDIZADO SUPERVISIONADO [pt] ANOTACAO DE PAPEIS SEMANTICOS [pt] APS [pt] PROCESSAMENTO DE LINGUA NATURAL [pt] PLN [pt] LIBLINEAR [pt] PROPBANK BR [pt] REGULARIZACAO DE DOMINIO
7	[pt] ESTIMAÇÃO DA TENSÃO MECÂNICA USANDO ONDAS ULTRASSÔNICAS GUIADAS E MACHINE LEARNING / [en] MECHANICAL STRESS ESTIMATION USING GUIDED ULTRASONIC WAVES AND MACHINE LEARNING CHRISTIAN DEYVI VILLARES HOLGUIN 11 July 2022 (has links) [pt] Devido ao efeito acoustoelástico, as Ondas guiadas ultrassônicas (UGWs) têm sido usadas para estimar a tensão mecânica com baixo custo de forma não destrutiva. O Aprendizado de maquina (ML) tem sido aplicado para mapear formas complexas de ondas para estimar a tensão mecânica, embora aspectos importantes como precisão e consumo computacional não tenham sido explorados. Na literatura também não há muito trabalho sobre o uso do aprendizado não supervisionado para a rotulagem automática de amostras com diferentes estados de tensão. Portanto, esta tese apresenta duas abordagens: i) a abordagem supervisionada propõe uma metodologia de modelagem de dados que otimiza a precisão e a implementação computacional, para a estimação da tensão baseada em UGWs em tempo real e ii) a abordagem não supervisionada compara estruturas não supervisionadas para rotular um pequeno conjunto de dados de acordo com o estado de tensão. Para o primeiro, foram avaliados modelos de aprendizagem superficial e profunda com redução de dimensionalidade, estes modelos são criados e testados usando um procedimento de hold-out Monte-Carlo para avaliar sua robustez. Os resultados mostram que, utilizando modelos superficiais e Análise de componentes principais (PCA), foi obtida uma melhoria de precisão e no consumo de hardware em comparação com o estado da arte com modelos de redes neurais profundas. Para o segundo, métodos de redução de dimensionalidade: PCA e t-distributed stochastic neighbor embedding (t-SNE), são usados para extrair características de sinais UGWs. As características são usadas para agrupar as amostras em estados de baixa, média e alta tensão. Uma análise qualitativa e quantitativa dos resultados foi realizada, considerando a análise de métricas para agrupamento, o PCA realizou o melhor agrupamento, qualitativamente, mostrando menos sobreposição en grupos do que t-SNE. As duas abordagens utilizadas nesta tese, conseguiram extrair características significativas que ajudam tanto na estimativa quanto tanto na rotulagem de dados, contribuindo para a criação de modelos de ML mais eficientes e no problema de interpretação de UGWs. / [en] Due to the acoustoelastic effect, Ultrasonic Guided Waves (UGWs) have been used to estimate mechanical stress in a non-expensive and nondestructively fashion. Machine Learning (ML) has been applied to map complex waveforms to stress estimates, though important aspects, such as accuracy and hardware consumption, have not been explored. Previously in the literature, there are also not many works on the use of unsupervised learning for automatic labeling of samples with different stress states. Therefore, this thesis presents two approaches, (i) the supervised approach aims to propose a data modeling methodology that optimizes accuracy and computational implementation, for real-time ultrasonic based stress estimation and (ii) the unsupervised approach aims at comparing unsupervised frameworks to label a small dataset according to the stress state. For the former, shallow and deep learning models with dimensionality reduction were evaluated, these models are created and tested using a Monte-Carlo holdout procedure to evaluate their robustness under different stress conditions. The results show that, using shallow models and Principal Component Analysis (PCA), an accuracy improvement and hardware consumption as compared to the state of the art reported with deep neural network models were obtained. For the latter, dimensionality reduction methods: PCA and t-distributed stochastic neighbor embedding (t-SNE), are used to extract features from UGWs signals with different stress levels. The features are used to group the samples into low, medium and high stress states. A qualitative and quantitative analysis of the results was performed. Considering the analysis of metrics for clustering, PCA performed the best clustering, qualitatively, showing less overlapping of clusters than t-SNE. The two approaches used in this thesis, managed to extract meaningful features which helped in both estimation and stress labeling, contributing to the creation of more efficient ML models and in the problem of interpreting UGWs. [pt] APRENDIZADO AUTOMATICO [pt] ESTIMACAO DE TRACAO [pt] APRENDIZADO NAO-SUPERVISIONADO [pt] APRENDIZADO SUPERVISIONADO [pt] ONDAS GUIADAS ULTRASSONICAS [en] MACHINE LEARNING [en] TENSILE STRESS ESTIMATION [en] UNSUPERVISED LEARNING [en] SUPERVISED LEARNING [en] GUIDED WAVE ULTRASSONIC
8	[en] PREDICTING DRUG SENSITIVITY OF CANCER CELLS BASED ON GENOMIC DATA / [pt] PREVENDO A EFICÁCIA DE DROGAS A PARTIR DE CÉLULAS CANCEROSAS BASEADO EM DADOS GENÔMICOS SOFIA PONTES DE MIRANDA 22 April 2021 (has links) [pt] Prever com precisão a resposta a drogas para uma dada amostra baseado em características moleculares pode ajudar a otimizar o desenvolvimento de drogas e explicar mecanismos por trás das respostas aos tratamentos. Nessa dissertação, dois estudos de caso foram gerados, cada um aplicando diferentes dados genômicos para a previsão de resposta a drogas. O estudo de caso 1 avaliou dados de perfis de metilação de DNA como um tipo de característica molecular que se sabe ser responsável por causar tumorigênese e modular a resposta a tratamentos. Usando perfis de metilação de 987 linhagens celulares do genoma completo na base de dados Genomics of Drug Sensitivity in Cancer (GDSC), utilizamos algoritmos de aprendizado de máquina para avaliar o potencial preditivo de respostas citotóxicas para oito drogas contra o câncer. Nós comparamos a performance de cinco algoritmos de classificação e quatro algoritmos de regressão representando metodologias diversas, incluindo abordagens tree-, probability-, kernel-, ensemble- e distance-based. Aplicando sub-amostragem artificial em graus variados, essa pesquisa procura avaliar se o treinamento baseado em resultados relativamente extremos geraria melhoria no desempenho. Ao utilizar algoritmos de classificação e de regressão para prever respostas discretas ou contínuas, respectivamente, nós observamos consistentemente excelente desempenho na predição quando os conjuntos de treinamento e teste consistiam em dados de linhagens celulares. Algoritmos de classificação apresentaram melhor desempenho quando nós treinamos os modelos utilizando linhagens celulares com valores de resposta a drogas relativamente extremos, obtendo valores de area-under-the-receiver-operating-characteristic-curve de até 0,97. Os algoritmos de regressão tiveram melhor desempenho quando treinamos os modelos utilizado o intervalo completo de valores de resposta às drogas, apesar da dependência das métricas de desempenho utilizadas. O estudo de caso 2 avaliou dados de RNA-seq, dados estes comumente utilizados no estudo da eficácia de drogas. Aplicando uma abordagem de aprendizado semi-supervisionado, essa pesquisa busca avaliar o impacto da combinação de dados rotulados e não-rotulados para melhorar a predição do modelo. Usando dados rotulados de RNA-seq do genoma completo de uma média de 125 amostras de tumor AML rotuladas da base de dados Beat AML (separados por tipos de droga) e 151 amostras de tumor AML não-rotuladas na base de dados The Cancer Genome Atlas (TCGA), utilizamos uma estrutura de modelo semi-supervisionado para prever respostas citotóxicas para quatro drogas contra câncer. Modelos semi-supervisionados foram gerados, avaliando várias combinações de parâmetros e foram comparados com os algoritmos supervisionados de classificação. / [en] Accurately predicting drug responses for a given sample based on molecular features may help to optimize drug-development pipelines and explain mechanisms behind treatment responses. In this dissertation, two case studies were generated, each applying different genomic data to predict drug response. Case study 1 evaluated DNA methylation profile data as one type of molecular feature that is known to drive tumorigenesis and modulate treatment responses. Using genome-wide, DNA methylation profiles from 987 cell lines in the Genomics of Drug Sensitivity in Cancer (GDSC) database, we used machine-learning algorithms to evaluate the potential to predict cytotoxic responses for eight anti-cancer drugs. We compared the performance of five classification algorithms and four regression algorithms representing diverse methodologies, including tree-, probability-, kernel-, ensemble- and distance-based approaches. By applying artificial subsampling in varying degrees, this research aims to understand whether training based on relatively extreme outcomes would yield improved performance. When using classification or regression algorithms to predict discrete or continuous responses, respectively, we consistently observed excellent predictive performance when the training and test sets consisted of cell-line data. Classification algorithms performed best when we trained the models using cell lines with relatively extreme drug-response values, attaining area-under-the-receiver-operating-characteristic-curve values as high as 0.97. The regression algorithms performed best when we trained the models using the full range of drug-response values, although this depended on the performance metrics we used. Case study 2 evaluated RNA-seq data as one of the most popular molecular data used to study drug efficacy. By applying a semi-supervised learning approach, this research aimed to understand the impact of combining labeled and unlabeled data to improve model prediction. Using genome-wide RNA-seq labeled data from an average of 125 AML tumor samples in the Beat AML database (varying by drug type) and 151 unlabeled AML tumor samples in The Cancer Genome Atlas (TCGA) database, we used a semi-supervised model structure to predict cytotoxic responses for four anti-cancer drugs. Semi-supervised models were generated, while assessing several parameter combinations and were compared against supervised classification algorithms. [pt] APRENDIZADO DE MAQUINA [pt] PREDICAO DA EFICACIA A DROGA [pt] MODELOS DE CLASSIFICACAO [pt] SEQUENCIAMENTO DE RNA [pt] METILACAO [pt] GENOMICA [pt] APRENDIZADO SEMI-SUPERVISIONADO [pt] APRENDIZADO SUPERVISIONADO [pt] MODELOS DE REGRESSAO [pt] CANCER [en] MACHINE LEARNING [en] DRUG RESPONSE PREDICTION [en] CLASSIFICATION MODELS [en] RNA-SEQ [en] METHYLATION [en] GENOMICS [en] SEMI-SUPERVISED LEARNING [en] SUPERVISED LEARNING [en] REGRESSION MODELS [en] CANCER
9	[en] CONVOLUTIONAL NETWORKS APPLIED TO SEMANTIC SEGMENTATION OF SEISMIC IMAGES / [pt] REDES CONVOLUCIONAIS APLICADAS À SEGMENTAÇÃO SEMÂNTICA DE IMAGENS SÍSMICAS MATEUS CABRAL TORRES 10 August 2021 (has links) [pt] A partir de melhorias incrementais em uma conhecida rede neural convolucional (U-Net), diferentes técnicas são avaliadas quanto às suas performances na tarefa de segmentação semântica em imagens sísmicas. Mais especificamente, procura-se a identificação e delineamento de estruturas salinas no subsolo, o que é de grande relevância na indústria de óleo e gás para a exploração de petróleo em camadas pré-sal, por exemplo. Além disso, os desafios apresentados no tratamento destas imagens sísmicas se assemelham em muito aos encontrados em tarefas de áreas médicas como identificação de tumores e segmentação de tecidos, o que torna o estudo da tarefa em questão ainda mais valioso. Este trabalho pretende sugerir uma metodologia adequada de abordagem à tarefa e produzir redes neurais capazes de segmentar imagens sísmicas com bons resultados dentro das métricas utilizadas. Para alcançar estes objetivos, diferentes estruturas de redes, transferência de aprendizado e técnicas de aumentação de dados são testadas em dois datasets com diferentes níveis de complexidade. / [en] Through incremental improvements in a well-known convolutional neural network (U-Net), different techniques are evaluated regarding their performance on the task of semantic segmentation of seismic images. More specifically, the objective is the better identification and outline of subsurface salt structures, which is a task of great relevance for the oil and gas industry in the exploration of pre-salt layers, for example. Besides that application, the challenges imposed by the treatment of seismic images also resemble those found in medical fields like tumor detection and tissue segmentation, which makes the study of this task even more valuable. This work seeks to suggest a suitable methodology for the task and to yield neural networks that are capable of performing semantic segmentation of seismic images with good results regarding specific metrics. For that purpose, different network structures, transfer learning and data augmentation techniques are applied in two datasets with different levels of complexity. [pt] PROCESSAMENTO DE IMAGENS [pt] FCN [pt] U-NET [pt] DETECCAO DE SAL [pt] AUMENTO DE DADOS [pt] SEGMENTACAO SEMANTICA [pt] REDES NEURAIS CONVOLUCIONAIS [pt] TRANSFERENCIA DE APRENDIZADO [pt] APRENDIZADO PROFUNDO [pt] APRENDIZADO SUPERVISIONADO [en] IMAGE PROCESSING [en] FCN [en] U-NET [en] SALT DETECTION [en] DATA AUGMENTATION [en] PIXEL-WISE SEMANTIC SEGMENTATION [en] CONVOLUTIONAL NEURAL NETWORKS [en] TRANSFER LEARNING [en] DEEP LEARNING [en] SUPERVISED LEARNING

Search results