Global ETD Search

171	Localização de danos em estruturas isotrópicas com a utilização de aprendizado de máquina / Localization of damages in isotropic strutures with the use of machine learning Oliveira, Daniela Cabral de [UNESP] 28 June 2017 (has links) Submitted by DANIELA CABRAL DE OLIVEIRA null (danielacaboliveira@gmail.com) on 2017-07-31T18:25:34Z No. of bitstreams: 1 Dissertacao.pdf: 4071736 bytes, checksum: 8334dda6779551cc88a5687ed7937bb3 (MD5) / Approved for entry into archive by Luiz Galeffi (luizgaleffi@gmail.com) on 2017-08-03T16:52:18Z (GMT) No. of bitstreams: 1 oliveira_dc_me_ilha.pdf: 4071736 bytes, checksum: 8334dda6779551cc88a5687ed7937bb3 (MD5) / Made available in DSpace on 2017-08-03T16:52:18Z (GMT). No. of bitstreams: 1 oliveira_dc_me_ilha.pdf: 4071736 bytes, checksum: 8334dda6779551cc88a5687ed7937bb3 (MD5) Previous issue date: 2017-06-28 / Este trabalho introduz uma nova metodologia de Monitoramento da Integridade de Estruturas (SHM, do inglês Structural Health Monitoring) utilizando algoritmos de aprendizado de máquina não-supervisionado para localização e detecção de dano. A abordagem foi testada em material isotrópico (placa de alumínio). Os dados experimentais foram cedidos por Rosa (2016). O banco de dados disponibilizado é abrangente e inclui medidas em diversas situações. Os transdutores piezelétricos foram colados na placa de alumínio com dimensões de 500 x 500 x 2mm, que atuam como sensores e atuadores ao mesmo tempo. Para manipulação dos dados foram analisados os sinais definindo o primeiro pacote do sinal (first packet), considerando apenas o intervalo de tempo igual ao tempo da força de excitação. Neste caso, na há interferência dos sinais refletidos nas bordas da estrutura. Os sinais são obtidos na situação sem dano (baseline) e, posteriormente nas diversas situações de dano. Como método de avaliação do quanto o dano interfere em cada caminho, foram implementadas as seguintes métricas: pico máximo, valor médio quadrático (RMSD), correlação entre os sinais, normas H2 e H∞ entre os sinais baseline e sinais com dano. Logo após o cálculo das métricas para as diversas situações de dano, foi implementado o algoritmo de aprendizado de máquina não-supervisionado K-Means no matlab e também testado no toolbox Weka. No algoritmo K-Means há a necessidade da pré-determinação do número de clusters e isto pode dificultar sua utilização nas situações reais. Então, fez se necessário a implementação de um algoritmo de aprendizado de máquina não-supervisionado que utiliza propagação de afinidades, onde a determinação do número de clusters é definida pela matriz de similaridades. O algoritmo de propagação de afinidades foi desenvolvido para todas as métricas separadamente para cada dano. / This paper introduces a new Structural Health Monitoring (SHM) methodology using unsupervised machine learning algorithms for locating and detecting damage. The approach was tested with isotropic material in an aluminum plate. Experimental data were provided by Rosa (2016). This provided database is open and includes measures in a variety of situations. The piezoelectric transducers were bonded to the aluminum plate with dimensions 500 x 500 x 2mm, and act as sensors and actuators simultaneously. In order to manipulate the data, signals defining the first packet were analyzed. It considers strictly the time interval equal to excitation force length. In this case, there is no interference of reflected signals in the structure boundaries. Signals are gathered at undamaged situation (baseline) and at several damage situations. As an evaluating method of how damage interferes in each path, it was implemented the following metrics: maximum peak, root-mean-square deviation (RMSD), correlation between signals, H2 and H∞ norms regarding baseline and damaged signals. The metrics were computed for numerous damage situations. The data were evaluated in an unsupervised K-Means machine learning algorithm implemented in matlab and also tested in Weka toolbox. However, the K-Means algorithm requires the specification of the number of clusters and it is a problem for practical applications. Therefore, an implementation of an unsupervised machine learning algorithm, which uses affinity propagation was made. In this case, the determination of the number of clusters is defined by the data similarity matrix. The affinity propagation algorithm was developed for all metrics separately for each damage. SHM Algoritmo K-Means Algoritmo propagação de afinidade Unsupervised machine learning K-Means algorithm Affinity propagation algorithm
172	Previsão de horários dos ônibus do sistema de transporte público coletivo de Campina Grande. MACIEL, Matheus de Araújo. 24 May 2018 (has links) Submitted by Maria Medeiros (maria.dilva1@ufcg.edu.br) on 2018-05-24T12:09:46Z No. of bitstreams: 1 MATHEUS DE ARAÚJO MACIEL - DISSERTAÇÃO (PPGCC) 2016.pdf: 1452809 bytes, checksum: 4919281053ceb7031a223f7bff5b2678 (MD5) / Made available in DSpace on 2018-05-24T12:09:46Z (GMT). No. of bitstreams: 1 MATHEUS DE ARAÚJO MACIEL - DISSERTAÇÃO (PPGCC) 2016.pdf: 1452809 bytes, checksum: 4919281053ceb7031a223f7bff5b2678 (MD5) Previous issue date: 2016 / A previsibilidade dos serviços de transporte público é um aspecto central para a melhoria da experiência de seus usuários. Contudo, por funcionar dentro de um ambiente estocástico, essa previsibilidade é tipicamente prejudicada. Neste trabalho investigamos a possibilidade de tornar um sistema de transporte público mais previsível através do uso das informações históricas em um contexto onde não há disponível tecnologia de localização tempo real dos veículos ou informação atualizada sobre a operação do serviço. Embora GPS e outras tecnologias de Automatic vehicle location (AVL) em tempo real existam, muitos municípios brasileiros não as têm disponíveis. Considerando essa situação, utilizamos dados históricos de operação do sistema de ônibus da cidade de Campina Grande para avaliar o desempenho de quatro algoritmos de regressão na tarefa de prever no início do dia como os horários programados para os ônibus serão cumpridos. Os resultados apontam que embora a falta de informação em tempo real prejudique a capacidade preditiva dos algoritmos em determinadas situações, utilizá-los torna possível a previsão dos horários de saída reais dos ônibus com erro mediano de 28 segundos, e a previsão dos horários de ﬁm de viagem com erro de mediano de -167 segundos. / Predictability of public transport services is essential to improving its user experience. However,by working within a stochastic environment, predictability is typically impaired. In this work, we investigate the possibility of making a more predictable public transport system through the use of historical information, in a context where there is no available real-time vehicle location technology or updated information on the operation of the system. While GPS and other real- time Automatic Vehicle Location technologies (AVL) exists, many Brazilian cities do not have them available. Aware of this situation, we used data from the Campina Grande city bus system to evaluate the performance of four regression algorithms on the task of predicting, early in the day, how buses scheduled times will be fulﬁlled. Results show, although the lack of real time information may harm algorithms predictive ability in certain situations, using them makes it possible to forecast actual buses departure times with a median error of 28 seconds and buses arrival time with a median error of -167 seconds. Ciências Ciência da Computação Inteligência Artificial Aprendizado de Máquina Horários dos Ônibus - Previsão Sistemas de Transportes Inteligentes Ciência da Computação - Dissertação
173	Uso potencial de ferramentas de classificação de texto como assinaturas de comportamentos suicidas : um estudo de prova de conceito usando os escritos pessoais de Virginia Woolf Berni, Gabriela de Ávila January 2018 (has links) A presente dissertação analisa o conteúdo dos diários e cartas de Virginia Woolf para avaliar se um algoritmo de classificação de texto poderia identificar um padrão escrito relacionado aos dois meses anteriores ao suicídio de Virginia Woolf. Este é um estudo de classificação de texto. Comparamos 46 entradas de textos dos dois meses anteriores ao suicídio de Virginia Woolf com 54 textos selecionados aleatoriamente do trabalho de Virginia Woolf durante outro período de sua vida. O texto de cartas e dos diários foi incluído, enquanto livros, romances, histórias curtas e fragmentos de artigos foram excluídos. Os dados foram analisados usando um algoritmo de aprendizagem mecânica Naïve-Bayes. O modelo mostrou uma acurácia de 80,45%, sensibilidade de 69% e especificidade de 91%. A estatística Kappa foi de 0,6, o que significa um bom acordo, e o valor P do modelo foi de 0,003. A Área Sob a curva ROC foi 0,80. O presente estudo foi o primeiro a analisar a viabilidade de um modelo de machine learning, juntamente com dados de texto, a fim de identificar padrões escritos associados ao comportamento suicida nos diários e cartas de um romancista. Nossa assinatura de texto foi capaz de identificar o período de dois meses antes do suicídio com uma alta precisão / The present study analyzes the content of Virginia Woolf’s diaries and letters to assess whether a text classification algorithm could identify written pattern related to the two months previous to Virginia Woolf’s suicide. This is a text classification study. We compared 46 texts entries from the two months previous to Virginia Woolf’s suicide with 54 texts randomly selected from Virginia Woolf’s work during other period of her life. Letters and diaries were included, while books, novels, short stories, and article fragments were excluded. The data was analyzed by using a Naïve-Bayes machine-learning algorithm. The model showed a balanced accuracy of 80.45%, sensitivity of 69%, and specificity of 91%. The Kappa statistic was 0.6, which means a good agreement, and the p value of the model was 0.003. The Area Under the ROC curve was 0.80. The present study was the first to analyze the feasibility of a machine learning model coupled with text data in order to identify written patterns associated with suicidal behavior in the diaries and letters of a novelist. Our text signature was able to identify the period of two months preceding suicide with a high accuracy. Woolf, Virginia, 1882-1941 Transtorno bipolar Suicídio Aprendizado de máquina Manuscritos Bipolar disorder Machine learning Suicide Naïve-Bayes
174	Aprendizado de máquina para análise de recaída para depressão em pacientes com transtorno bipolar / Machine learning to analyse depression relapse in bipolar disorder patients Borges Júnior, Renato Gomes 04 October 2018 (has links) Submitted by Liliane Ferreira (ljuvencia30@gmail.com) on 2018-11-01T11:52:17Z No. of bitstreams: 2 Dissertação - Renato Gomes Borges Júnior - 2018.pdf: 2871076 bytes, checksum: fe8f76b09f6d264386f643ee3195313e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2018-11-01T15:47:35Z (GMT) No. of bitstreams: 2 Dissertação - Renato Gomes Borges Júnior - 2018.pdf: 2871076 bytes, checksum: fe8f76b09f6d264386f643ee3195313e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2018-11-01T15:47:35Z (GMT). No. of bitstreams: 2 Dissertação - Renato Gomes Borges Júnior - 2018.pdf: 2871076 bytes, checksum: fe8f76b09f6d264386f643ee3195313e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2018-10-04 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Depression relapse in patients with Bipolar Disorder (BD) have 70% rate of recurrence in the first 4 years of treatment and may cause a severe loss of quality of life and even lead to suicide. BD is a mood disorder characterized by recurrent episodes of depression or mania. To study the disorder and find more efficient treatments, the Harvard Medical School created the Systematic Treatment Enhancement Program for Bipolar Disorder (STEP-BD). It is a widely used dataset that comprises data of 4,360 patients with BD, which can be considered one of the most complete databases in terms of scope nowadays. Several studies have been developed to discover more efficient treatments to prevent relapses in BD. However, most of them used only classical statistical methods, mainly aimed at measuring its correlation to specific features. This study presents an analysis of the use of machine learning algorithms to discover patterns related to depression relapse in BD with the use of longitudinal data provided by STEP-BD. This longitudinal data includes 148 features collected in 50,987 visits of patients spread across different weeks over the years. Thus, several experiments were conducted and the results show that the algorithms attained limited performance. We concluded that features related to depression and mania mood states, collected by the STEP-BD, cannot be used properly to predict the relapse to depression before it occurs, being suited only as an indicator that the patient is already in the state of depression. / A recaída para depressão em pacientes com Transtorno Afetivo Bipolar (TAB) atinge taxas de 70% de recorrência nos 4 primeiros anos de tratamento e pode causar uma drástica redução na qualidade de vida e levar até o suicídio. O TAB é uma desordem do humor caracterizada por episódios recorrentes de depressão ou mania. Para estudar o transtorno e encontrar tratamentos mais eficientes, o Systematic Treatment Enhancement Program for Bipolar Disorder (STEP-BD) foi criado pela Escola de Medicina de Harvard. O STEP-BD é um conjunto de dados composto por informações de 4.360 pacientes com TAB, o qual pode ser considerado atualmente uma das mais completas bases de dados em termos de escopo. Vários estudos foram desenvolvidos para descobrir tratamentos mais eficientes para prevenir recaídas. Porém, a maioria destes estudos usaram apenas métodos clássicos de estatística, principalmente com o objetivo de medir a sua correlação com atributos específicos. Este trabalho apresenta uma análise do uso de algoritmos de aprendizado de máquina para encontrar padrões relacionados a recaída para depressão no TAB com o uso de dados longitudinais providos pelo STEP-BD. Estes dados longitudinais incluem 148 atributos coletados em um total de 50.987 visitas de pacientes espalhadas ao longo de semanas durante anos. Assim, diversos experimentos foram conduzidos neste trabalho e os resultados mostram que os algoritmos obtiveram desempenho limitado. Foi possível perceber que atributos relacionados ao estado de humor de depressão e mania, coletados pelo STEP-BD, não podem ser usados propriamente para predizer recaída para depressão antes de sua ocorrência, sendo apropriados apenas para uso como um indicador que o paciente já se encontra no estado de depressão. Transtorno bipolar Depressão Aprendizado de máquina Mineração de dados Bipolar disorder Depression Machine learning Data mining
175	Classificadores baseados em vetores de suporte gerados a partir de dados rotulados e não-rotulados. / Learning support vector machines from labeled and unlabeled data. Clayton Silva Oliveira 30 March 2006 (has links) Treinamento semi-supervisionado é uma metodologia de aprendizado de máquina que conjuga características de treinamento supervisionado e não-supervisionado. Ela se baseia no uso de bases semi-rotuladas (bases contendo dados rotulados e não-rotulados) para o treinamento de classificadores. A adição de dados não-rotulados, mais baratos e geralmente disponíveis em maior quantidade do que os dados rotulados, pode aumentar o desempenho e/ou baratear o custo de treinamento desses classificadores (a partir da diminuição da quantidade de dados rotulados necessários). Esta dissertação analisa duas estratégias para se executar treinamento semi-supervisionado, especificamente em Support Vector Machines (SVMs): formas direta e indireta. A estratégia direta é atualmente mais conhecida e estudada, e permite o uso de dados rotulados e não-rotulados, ao mesmo tempo, em tarefas de aprendizagem de classificadores. Entretanto, a inclusão de muitos dados não-rotulados pode tornar o treinamento demasiadamente lento. Já a estratégia indireta é mais recente, sendo capaz de agregar os benefícios do treinamento semi-supervisionado direto com tempos menores para o aprendizado de classificadores. Esta opção utiliza os dados não-rotulados para pré-processar a base de dados previamente à tarefa de aprendizagem do classificador, permitindo, por exemplo, a filtragem de eventuais ruídos e a reescrita da base em espaços de variáveis mais convenientes. Dentro do escopo da forma indireta, está a principal contribuição dessa dissertação: idealização, implementação e análise do algoritmo split learning. Foram obtidos ótimos resultados com esse algoritmo, que se mostrou eficiente em treinar SVMs de melhor desempenho e em períodos menores a partir de bases semi-rotuladas. / Semi-supervised learning is a machine learning methodology that mixes features of supervised and unsupervised learning. It allows the use of partially labeled databases (databases with labeled and unlabeled data) to train classifiers. The addition of unlabeled data, which are cheaper and generally more available than labeled data, can enhance the performance and/or decrease the costs of learning such classifiers (by diminishing the quantity of required labeled data). This work analyzes two strategies to perform semi-supervised learning, specifically with Support Vector Machines (SVMs): direct and indirect concepts. The direct strategy is currently more popular and studied; it allows the use of labeled and unlabeled data, concomitantly, in learning classifiers tasks. However, the addition of many unlabeled data can lead to very long training times. The indirect strategy is more recent; it is able to attain the advantages of the direct semi-supervised learning with shorter training times. This alternative uses the unlabeled data to pre-process the database prior to the learning task; it allows denoising and rewriting the data in better feature espaces. The main contribution of this Master thesis lies within the indirect strategy: conceptualization, experimentation, and analysis of the split learning algorithm, that can be used to perform indirect semi-supervised learning using SVMs. We have obtained promising empirical results with this algorithm, which is efficient to train better performance SVMs in shorter times from partially labeled databases. Aprendizado de máquina Inteligência artificial Máquinas de vetores de suporte Treinamento semi-supervisionado Artificial intelligence Machine learning Semi-supervised learning Support vector machines
176	Extração automática de termos simples baseada em aprendizado de máquina / Automatic simple term extraction based on machine learning Merley da Silva Conrado Laguna 06 May 2014 (has links) A Mineração de Textos (MT) visa descobrir conhecimento inovador nos textos não estruturados. A extração dos termos que representam os textos de um domínio é um dos passos mais importantes da MT, uma vez que os resultados de todo o processo da MT dependerão, em grande parte, da qualidade dos termos obtidos. Nesta tese, considera-se como termos as unidades lexicais realizadas para designar conceitos em um cenário tematicamente restrito. Para a extração dos termos, pode-se fazer uso de abordagens como: estatística, linguística ou híbrida. Normalmente, para a Mineração de Textos, são utilizados métodos estatísticos. A aplicação desses métodos é computacionalmente menos custosa que a dos métodos linguísticos, entretanto seus resultados são geralmente menos interpretáveis. Ambos métodos, muitas vezes, não são capazes de identificar diferenças entre termos e não-termos, por exemplo, os estatísticos podem não identificar termos raros ou que têm a mesma frequência de não-termos e os linguísticos podem não distinguir entre termos que seguem os mesmo padrões linguísticos dos não-termos. Uma solução para esse problema é utilizar métodos híbridos, de forma a combinar as estratégias dos métodos linguísticos e estatísticos, visando atenuar os problemas inerentes a cada um deles. Considerando as características dos métodos de extração de termos, nesta tese, foram investigados métodos estatísticos, formas de obtenção de conhecimento linguístico e métodos híbridos para a extração de termos simples - aqueles constituídos de somente um radical, com ou sem afixos - na língua portuguesa do Brasil. Quatro medidas estatísticas (tvq, tv, tc e comGram), originalmente utilizadas em outras tarefas, foram avaliadas na extração de termos simples, sendo que duas delas (tvq e tv) foram consideradas relevantes para essa tarefa. Quatro novas medidas híbridas (n_subst., n_adj., n_po e n_verbo) foram propostas, sendo que três delas (n_subst,. n_adj., e n_po) auxiliaram na extração de termos. Normalmente os métodos de extração de termos selecionam candidatos a termos com base em algum conhecimento linguístico. Depois disso, eles aplicam a esses candidatos medidas ou combinação de medidas (e/ou heurísticas) para gerar um ranking com tais candidatos. Quanto mais ao topo desse ranking os candidatos estão, maior a chance de que eles sejam termos. A escolha do liminar a ser considerado nesse ranking é feita, em geral de forma manual ou semiautomática por especialistas do domínio e/ou terminólogos. Automatizar a forma de escolha dos candidatos a termos é a primeira motivação da extração de termos realizada nesta pesquisa. A segunda motivação desta pesquisa é minimizar o elevado número de candidatos a termos presente na extração de termos. Esse alto número, causado pela grande quantidade de palavras contidas em um corpus, pode aumentar a complexidade de tempo e os recursos computacionais utilizados para se extrair os termos. A terceira motivação considerada nesta pesquisa é melhorar o estado da arte da extração automática de termos simples da língua portuguesa do Brasil, uma vez que os resultados dessa extração (medida F = 16%) ainda são inferiores se comparados com a extração de termos em línguas como a inglesa (medida F = 92%) e a espanhola (medida F = 68%). Considerando essas motivações, nesta tese, foi proposto o método MATE-ML (Automatic Term Extraction based on Machine Learning) que visa extrair automaticamente termos utilizando técnicas da área de aprendizado de máquina. No método MATE-ML, é sugerido o uso de filtros para reduzir o elevado número de candidatos a termos durante a extração de termos sem prejudicar a representação do domínio em questão. Com isso, acredita-se que os extratores de termos podem gerar listas menores de candidatos extraídos, demandando, assim , menos tempo dos especialistas para avaliar esses candidatos. Ainda, o método MATE-ML foi instanciado em duas abordagens: (i) ILATE (Inductive Learning for Automatic Term Extraction), que utiliza a classificação supervisionada indutiva para rotular os candidatos a termos em termos e não termos, e (ii) TLATE (Transductive Learning for Automatic Term Extraction), que faz uso da classificação semissupervisionada transdutiva para propagar os rótulos dos candidatos rotulados para os não rotulados. A aplicação do aprendizado transdutivo na extração de termos e a aplicação ao mesmo tempo de um conjunto rico de características de candidatos pertencentes a diferentes níveis de conhecimento - linguístico, estatístico e híbrido também são consideradas contribuições desta tese. Nesta tese, são discutidas as vantagens e limitações dessas duas abordagens propostas, ILATE e TLATE. Ressalta-se que o uso dessas abordagens alcança geralmente resultados mais altos de precisão (os melhores casos alcançam mais de 81%), altos resultados de cobertura (os melhores casos atingem mai de 87%) e bons valores de medida F (máximo de 41%) em relação aos métodos e medidas comparados nas avaliações experimentais realizadas considerando três corpora de diferentes domínios na língua portuguesa do Brasil / Text Mining (TM) aims at discovering innovating knowledge in unstructured texts. The extraction of terms that represent that texts of a specific domain is one of the most important steps of TM, since the results of the overall TM process will mostly depend on the quality of these terms. In this thesis, we consider terms as lexical units used to assign concepts in thematically restricted scenarios. The term extraction task may use approaches such as: statistical, linguistic, or hybrid. Typically, statistical methods are the most common for Text Mining. These methods are computationally less expensive than the linguistic ones, however their results tend to be less human-interpretable. Both methods are not often capable of identifying differences between terms and non-terms. For example, statistical methods may not identify terms that have the same frequency of non-terms and linguistic methods may not distinguish between terms that follow the same patterns of non-terms. One solution to this problem is to use hybrid methods, combining the strategies of linguistic and ststistical methods, in order to attenuate their inherent problems. Considering the features of the term extraction methods, in this thesis, we investigated statistical melhods, ways of obtaining linguistic knowledge, and hybrid methods for extracting simple terms (only one radical, with or without the affixes) for the Braziian Portuguese language. We evaluated, in term extraction, four new hybrid measures (tvq, tv, and comGram) originally proposed for other tasks; and two of them (tvq and tv) were considered relevant for this task. e proposed four new hybrid measures(n_subs., n_adj., n_po, and n_verb); and there of them (n_subst., n_adj., and n_po) were helpful in the term extraction task. Typically, the extraction methods select term candidates based on some linguistic knowledge. After this process, they apply measures or combination of measures (and/or heuristics) to these candidates in order to generate a ranking. The higher the candidates are in the ranking, the better the chances of being terms. To decide up to which position must be considered in this ranking normally, a domain expert and/or terminologist manually or semiautomatically analyse the ranking. The first motivation of this thesis is to automate how to choose the candidates during the term extraction process. The second motivation of this research is to minimize the high number of candidates present in the term extraction. The high number of candidate, caused by the large amount of words in a corpus, could increase the time complexity and computational resources for extracting terms. The third motivation considered in this research is to improve the state of the art of the automatic simple term extraction for Brazilian Portuguese since the results of this extraction (F-measure = 16%) are still low when compared to other languages like English (F-measure = 92%) and Spanish (F-measure =68%). Given these motivations, we proposed the MATE-ML method (Automatic Term Extraction Based on Machine Learning), which aims to automatically extract simple terms using the machine learning techniques. MATE-ML method suggests the use of filters to reduce the high number of term candidates during the term extraction task without harming the domain representation. Thus, we believe the extractors may generate smaller candidate lists, requiring less time to evaluate these candidates. The MATE-ML method was instantiated in two approaches.: (i) ILATE (Inductive Learning for Automatic Term Extraction),. which uses the supervised inductive classification to label term candidates, and (ii) TLATE (Trnasductive Learning for Automatic Term Extraction), which uses transductive semi-supervised classification to propagate the classes from labeled candidates to unlabeled candidates. Using transductive learning in term extraction and using, at the same time, a rich set of candidate features belonging to different levels of knowledge (linguistic,statistical, and hybrid) are also considered as contributions. In this thesis, we discuss the advantages and limitations of these two proposed approaches. We emphasize taht the use of these approaches usually with higher precision (the best case is above of 81%), high coverage results (the best case is above of 87%), and good F-measure value (maximum of 41%) considering three corpora of different domains in the Brazilian Portuguese language Aprendizado de máquina Conhecimento linguístico estatístico e híbrido Extração automática de termos Automatic term extraction Linguistic Machine learning statistical statistical and hybrid
177	Classificação de fluxos de dados com mudança de conceito e latência de verificação / Data stream classification with concept drift and verification latency Denis Moreira dos Reis 27 September 2016 (has links) Apesar do grau relativamente alto de maturidade existente na área de pesquisa de aprendizado supervisionado em lote, na qual são utilizados dados originários de problemas estacionários, muitas aplicações reais lidam com fluxos de dados cujas distribuições de probabilidade se alteram com o tempo, ocasionando mudanças de conceito. Diversas pesquisas vêm sendo realizadas nos últimos anos com o objetivo de criar modelos precisos mesmo na presença de mudanças de conceito. A maioria delas, no entanto, assume que tão logo um evento seja classificado pelo algoritmo de aprendizado, seu rótulo verdadeiro se torna conhecido. Este trabalho explora as situações complementares, com revisão dos trabalhos mais importantes publicados e análise do impacto de atraso na disponibilidade dos rótulos verdadeiros ou sua não disponibilização. Ainda, propõe um novo algoritmo que reduz drasticamente a complexidade de aplicação do teste de hipótese não-paramétrico Kolmogorov-Smirnov, tornado eficiente seu uso em algoritmos que analisem fluxos de dados. A exemplo, mostramos sua potencial aplicação em um método de detecção de mudança de conceito não-supervisionado que, em conjunto com técnicas de Aprendizado Ativo e Aprendizado por Transferência, reduz a necessidade de rótulos verdadeiros para manter boa performance de um classificador ao longo do tempo, mesmo com a ocorrência de mudanças de conceito. / Despite the relatively maturity of batch-mode supervised learning research, in which the data typifies stationary problems, many real world applications deal with data streams whose statistical distribution changes over time, causing what is known as concept drift. A large body of research has been done in the last years, with the objective of creating new models that are accurate even in the presence of concept drifts. However, most of them assume that, once the classification algorithm labels an event, its actual label become readily available. This work explores the complementary situations, with a review of the most important published works and an analysis over the impact of delayed true labeling, including no true label availability at all. Furthermore, this work proposes a new algorithm that heavily reduces the complexity of applying Kolmogorov- Smirnov non-parametric hypotheis test, turning it into an uselful tool for analysis on data streams. As an instantiation of its usefulness, we present an unsupervised drift-detection method that, along with Active Learning and Transfer Learning approaches, decreases the number of true labels that are required to keep good classification performance over time, even in the presence of concept drifts. Aprendizado de máquina Árvore cartesiana Fluxo de dados Kolmogorov-Smirnov Mudança de conceito Cartesian tree Concept drift Data stream Kolmogorov-Smirnov Machine learning
178	Transcrição automática do baixo em músicas populares com processamento de sinais baseado em predição linear / Automatic transcription of the bass in popular music with signal processing based on linear prediction Tavares, Tiago Fernandes, 1984- 16 August 2018 (has links) Orientadores: Amauri Lopes, Jayme Garcia Arnal Barbedo / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-16T06:17:57Z (GMT). No. of bitstreams: 1 Tavares_TiagoFernandes_M.pdf: 763143 bytes, checksum: cfba6871d2749e15550eaebf61615c90 (MD5) Previous issue date: 2010 / Resumo: Este trabalho aborda o problema da transcrição automática de música aplicado à transcrição do baixo em músicas populares. Conceitos teóricos básicos em música e acústica são apresentados. Um método de transcrição existente na literatura científica é descrito e implementado. Na tentativa de melhorar a resolução das analises realizadas no domínio da freqüência, são utilizadas técnicas de predição linear. Verifica-se que o uso de tais técnicas traz ganhos consideráveis ao desempenho do transcritor automático implementado / Abstract: In this work, the problem of automatic transcription of the bass in popular music is studied. Basic theoretical concepts are presented. An automatic transcription method, obtained in scientific literature, is described and implemented. In order to improve the resolution of necessary frequency domain analysis, linear prediction techniques are used. It is observed that the use of such techniques brings sensible improvements to the accuracy of the implemented transcriptor / Mestrado / Telecomunicações e Telemática / Mestre em Engenharia Elétrica Música por computador Aprendizado de máquina Signal processing - Digital techniques Computer music Machine learning
179	Arcabouço genérico baseado em técnicas de agrupamento para sistemas de recomendação / Cluster-based generic framework for recommender systems Panaggio, Ricardo Luís Zanetti 10 January 2010 (has links) Orientador: Ricardo da Silva Torres / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-17T10:19:12Z (GMT). No. of bitstreams: 1 Panaggio_RicardoLuisZanetti_M.pdf: 1050987 bytes, checksum: f88ede3a681c880be4489f30662ec451 (MD5) Previous issue date: 2010 / Resumo: A diferença entre o conjunto de dados disponíveis e o conjunto dos dados que interessam a um usuário é enorme e, em geral, cresce diariamente, uma vez que o volume de dados produzidos todos os dias só aumenta. Identificar todo o conjunto de dados de interesse de um usuário utilizando mecanismos tradicionais é muito difícil - talvez impossível. Nesse cenário, ferramentas que possam ajudar usuários a identificar itens de interesse, como sistemas de recomendação, têm um grande valor. Esta dissertação apresenta um modelo genérico que pode ser utilizado para a criação de sistemas de recomendação, e sua instanciação utilizando técnicas de agrupamento. Essa dissertação apresenta também a validação desse modelo, a partir de sua implementação e experimentação com dados das bases Movielens e Jester. As principais contribuições são: definição de um modelo de recomendação baseado em grafos, até onde se sabe mais rico e mais genérico que os encontrados na literatura; especificação e implementação de uma arquitetura modular de um sistema de recomendação baseada nesse modelo, com enfoque em técnicas de agrupamento de dados; validação da arquitetura e do modelo de recomendação propostos, comparando eficácia e eficiência de técnicas de agrupamento de dados em sistemas de recomendação / Abstract: The difference between the data available and the set of interesting data to a certain user is enormous and, in general, is becoming greater daily, as the amount of data produced increases. Identifying all the interesting data set using traditional mechanisms is difficult- sometimes impossible. In this scenario, providing tools that can help users on identifying items that are of interest, such as recommendation systems, is of great importance. This dissertation presents a generic model that can be used to create recommender systems, and its instantiation using clustering techniques. It also discusses the validation of this model, by showing results obtained from experiments with data from Movielens and Jester datasets. The main contributions are: a graph-based generic model for recommender systems, which is more generic and richer than the ones found in literature; the specification and implementation of a modular architecture for recommender systems based on that model, focused on clustering techniques; validation of both model and architecture, by comparing efficiency and effectiveness of clustering-based recommender systems / Mestrado / Sistemas de Recuperação da Informação / Mestre em Ciência da Computação Recuperação da informação Aprendizado de máquina - Técnica Information retrieval Machine learning - Technique
180	Avaliação e desenvolvimento de algoritmos de controle aplicado a um processo extrativo de fermentação alcoolica continua / Development and evaluating the performance of predictive and adaptative controllers applied to an extractive fermentative process Duarte, Elis Regina 14 August 2007 (has links) Orientadores: Rubens Maciel Filho, Laercio Ender / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Quimica / Made available in DSpace on 2018-08-08T18:03:43Z (GMT). No. of bitstreams: 1 Duarte_ElisRegina_D.pdf: 5707651 bytes, checksum: d1348f1129ff1981af5a94400a0f9040 (MD5) Previous issue date: 2007 / Resumo:0 objetivo deste trabalho foi desenvolver e avaliar diferentes algoritmos de controle para o processo extrativo de fermentação alcoólica contínua. Para isto foram comparados controladores do tipo preditivo e adaptativo. Para o controle preditivo, foi avaliado o Controle por Matriz Dinâmica (DMC) e foi desenvolvido um algoritmo de controle preditivo baseado em modelo usando redes neurais artificiais (MPC Neural) com aprendizagem em tempo real das redes. Para o controle adaptativo, foi proposto o aperfeiçoamento do algoritmo de controle CONDEG (Controle Neural Direto Baseado no Erro Global) Modificado, desenvolvido por Duarte (2004), O algoritmo está baseado em redes neurais artificiais, com aprendizagem em tempo real, de acordo com as alterações que ocorrem no processo. Os parâmetros de penalização das ações de controle, que são parâmetros de projeto do controlador, foram ajustados ao longo do tempo através da aplicação de um algoritmo do Filtro de Kalman. Para o procedimento de investigação foi utilizada a simulação computacional para o qual todos os algoritmos de controle estudados foram implementados em linguagem de programação Fortran 90 e aplicados a um processo extrativo de fermentação alcoólica contínua para produção de etanol desenvolvido por Silva (1999). O modelo matemático utilizado foi desenvolvido por Costa et al(2001). As simulações em malha fechada realizadas utilizando os algoritmos propostos mostraram melhores resultados para os algoritmos de controle usando redes com aprendizagem ao longo do tempo e que o algoritmo de controle CONDEG Modificado usando filtro de Kalman com fator de velocidade associado foi eficiente e robusto, pois apresentou bons resultados em problemas dos tipos servos e regulador. / Abstract: The objective of the present work is to develop and to evaluate the performance of predictive and adaptive controllers, applied to an extractive fermentative process. As predictive controllers the Dynamical Matrix Control (DMC) and a model predictive control based on artificial neural networks with on-line learning were considered. The adaptive controller is an improvement of the Modified Condeg strategy control (Direct Neural Control based on Global Error), developed by Duarte (2004). The strategy is based on artificial neural networks, with on-line learning, according to modifications that occur in the process. The control actions penalization parameters, that are in fact controller design parameters, are on-line adjusted through an algorithm based on Kalman filter. The performance evaluation was carried out through computer simulation with all algorithms implemented in Fortran 90,.As a case study, an extractive fermentation alcoholic process developed by Silva (1999) was taken into account with the mathematical model developed by Costa et. al (2001). The results obtained from closed-loop simulations using the proposed algorithms showed better results for the neural networks with on-line learning. The Modified Condeg wsth Kalman Filter plus velocity factor is efficient and robust for servo and regulatory applications. / Doutorado / Desenvolvimento de Processos Químicos / Doutor em Engenharia Química Álcool Controle preditivo Redes neurais (Computação) Aprendizado de máquina Ethanol Predictive control Adaptative control Artificial neural network On-line learning

Search results