Global ETD Search

21	Reconhecimento de imagens de marcas de gado utilizando redes neurais convolucionais e máquinas de vetores de suporte Santos, Carlos Alexandre Silva dos 26 September 2017 (has links) Submitted by Marlucy Farias Medeiros (marlucy.farias@unipampa.edu.br) on 2017-10-31T17:44:17Z No. of bitstreams: 1 Carlos_Alexandre Silva_dos Santos - 2017.pdf: 27850839 bytes, checksum: c4399fa8396d3b558becbfa67b7dd777 (MD5) / Approved for entry into archive by Marlucy Farias Medeiros (marlucy.farias@unipampa.edu.br) on 2017-10-31T18:24:21Z (GMT) No. of bitstreams: 1 Carlos_Alexandre Silva_dos Santos - 2017.pdf: 27850839 bytes, checksum: c4399fa8396d3b558becbfa67b7dd777 (MD5) / Made available in DSpace on 2017-10-31T18:24:21Z (GMT). No. of bitstreams: 1 Carlos_Alexandre Silva_dos Santos - 2017.pdf: 27850839 bytes, checksum: c4399fa8396d3b558becbfa67b7dd777 (MD5) Previous issue date: 2017-09-26 / O reconhecimento automático de imagens de marca de gado é uma necessidade para os órgãos governamentais responsáveis por esta atividade. Para auxiliar neste processo, este trabalho propõe uma arquitetura que seja capaz de realizar o reconhecimento automático dessas marcas. Nesse sentido, uma arquitetura foi implementada e experimentos foram realizados com dois métodos: Bag-of-Features e Redes Neurais Convolucionais (CNN). No método Bag-of-Features foi utilizado o algoritmo SURF para extração de pontos de interesse das imagens e para criação do agrupa mento de palavras visuais foi utilizado o clustering K-means. O método Bag-of-Features apresentou acurácia geral de 86,02% e tempo de processamento de 56,705 segundos para um conjunto de 12 marcas e 540 imagens. No método CNN foi criada uma rede completa com 5 camadas convolucionais e 3 camadas totalmente conectadas. A 1 ª camada convolucional teve como entrada imagens transformadas para o formato de cores RGB. Para ativação da CNN foi utilizada a função ReLU, e a técnica de maxpooling para redução. O método CNN apresentou acurácia geral de 93,28% e tempo de processamento de 12,716 segundos para um conjunto de 12 marcas e 540 imagens. O método CNN consiste de seis etapas: a) selecionar o banco de imagens; b) selecionar o modelo de CNN pré-treinado; c) pré-processar as imagens e aplicar a CNN; d) extrair as características das imagens; e) treinar e classificar as imagens utilizando SVM; f) avaliar os resultados da classificação. Os experimentos foram realizados utilizando o conjunto de imagens de marcas de gado de uma prefeitura municipal. Para avaliação do desempenho da arquitetura proposta foram utilizadas as métricas de acurácia geral, recall, precisão, coeficiente Kappa e tempo de processamento. Os resultados obtidos foram satisfatórios, nos quais o método CNN apresentou os melhores resultados em comparação ao método Bag-of-Features, sendo 7,26% mais preciso e 43,989 segundos mais rápido. Também foram realizados experimentos com o método CNN em conjuntos de marcas com número maior de amostras, o qual obteve taxas de acurácia geral de 94,90% para 12 marcas e 840 imagens, e 80,57% para 500 marcas e 22.500 imagens, respectivamente. / The automatic recognition of cattle branding is a necessity for government agencies responsible for this activity. In order to improve this process, this work proposes an architecture which is able of performing the automatic recognition of these brandings. The proposed software implements two methods, namely: Bag-of-Features and CNN. For the Bag-of-Features method, the SURF algorithm was used in order to extract points of interest from the images. We also used K-means clustering to create the visual word cluster. The Bag-of-Features method presented a overall accuracy of 86.02% and a processing time of 56.705 seconds in a set containing 12 brandings and 540 images. For the CNN method, we created a complete network with five convolutional layers, and three layers fully connected. For the 1st convolutional layer we converted the input images into the RGB color for mat. In order to activate the CNN, we performed an application of the ReLU, and used the maxpooling technique for the reduction. The CNN method presented 93.28% of overall accuracy and a processing time of 12.716 seconds for a set containing 12 brandings and 540 images. The CNN method includes six steps: a) selecting the image database; b) selecting the pre-trained CNN model; c) pre-processing the images and applying the CNN; d) extracting the features from the images; e) training and classifying the images using SVM; f) assessing the classification results. The experiments were performed using the cattle branding image set of a City Hall. Metrics of overall accuracy, recall, precision, Kappa coefficient, and processing time were used in order to assess the performance of the proposed architecture. Results were satisfactory. The CNN method showed the best results when compared to Bag-of-Features method, considering that it was 7.26% more accurate and 43.989 seconds faster. Also, some experiments were conducted with the CNN method for sets of brandings with a greater number of samples. These larger sets presented a overall accuracy rate of 94.90% for 12 brandings and 840 images, and 80.57% for 500 brandings and 22,500 images, respectively. CNPQ::ENGENHARIAS Aprendizagem profunda Redes neurais convolucionais Máquinas de vetores de suporte Reconhecimento de imagens Marcas de gado Engenharia elétrica Deep learning Convolutional neural networks Support vector machines Image recognition Cattle branding
22	Uso de inteligência artificial para estimativa da capacidade de suporte de carga do solo / Use of artificial intelligence to soil load support capacity estimate Pereira, Tonismar dos Santos 13 February 2017 (has links) The knowledge of the relationships between physical and mechanical properties of the soil may contribute to the development of pedotransfer functions (PTFs), to estimate other soil properties are difficult to measure. The objectives of this work were to estimate the preconsolidation pressure and soil resistance to penetration, using predictive methodologies, using data available in the literature, with physical-hydrological and mineralogical characteristics of soils. The development of PTFs was based on three modeling methods: (i) multiple linear regression (MLR), (ii) artificial neural networks (ANNs) and (iii) support vector machines (SVM). The first proposed methodology for the development of PTFs was the stepwise option of the IBM-SPSS 20.0® software. The models generated from the second methodology, ie RNA were implemented through the multilayer perceptron with backpropagation algorithm and Levenberg-Marquardt optimization of Matlab®2008b software, with variations of the number of neurons in the input layer and number of neurons In the middle layer. The third methodology was to generate PTFs from SVM that fit within the data mining process by exercising the Waikato Environment for Knowledge Analysis software (RapidMiner 5). The SVM training was performed by varying the number of input data, the kernel function and coefficients of these functions. Once the estimates were made, the performance indices (id) and classified according to Camargo and Sentelhas (1997) were calculated, thus comparing the methods between themselves and others already established. The obtained results showed that artificial intelligence models (RNA and MVS) are efficient and have predictive capacity superior to the established models, in data conditions of soils with textural classes and diverse managements, and similar, although with higher performance index values for Conditions of soils of the same textural class exposed to the same management. / O conhecimento das relações entre propriedades físicas e mecânicas do solo pode contribuir no desenvolvimento de funções de pedotransferência (FPTs), que permitam estimar outras propriedades do solo de difícil mensuração. Os objetivos deste trabalho foram estimar a pressão de preconsolidação e a resistência do solo à penetração, com o uso de metodologias de predição, utilizando-se de dados disponíveis na literatura, com valores de características físico-hídricas e mineralógicas dos solos. Os valores estimados foram obtidos a partir de três métodos de modelagem: (i) regressão linear múltipla (RLM), (ii) redes neurais artificiais (RNA) e (iii) máquinas de vetores de suporte (MVS). A primeira metodologia proposta para o desenvolvimento dos modelos preditivos foi a opção stepwise do software IBM-SPSS 20.0®. Os modelos geradas a partir da segunda metodologia, ou seja, das RNA foram implementadas através do perceptron multicamadas com algoritmo backpropagation e otimização Levenberg-Marquardt do software Matlab®2008b, efetuando-se variações do número de neurônios na camada de entrada e número de neurônios na camada intermediária. A terceira metodologia foi gerar FPTs a partir de MVS que se enquadra dentro dos processos de mineração de dados utilizando para tal o software Waikato Environment for Knowledge Analysis® (RapidMiner 5). O treinamento das MVS foi realizado variando-se o número de dados de entrada, a função kernel e coeficientes destas funções. Realizadas as estimativas, foram calculados os índices de desempenho (id) e classificados segundo Camargo e Sentelhas (1997), podendo-se assim comparar os métodos entre si e a outros já consagrados. Os resultados obtidos mostraram que modelos de inteligência artificial (RNA e MVS) são eficientes e possuem capacidade preditiva superior aos modelos consagrados, em condições de dados de solos com classes texturais e manejos diversos, e semelhantes ainda que com valores de índice de desempenho superiores para condições de solos de mesma classe textural expostos ao mesmo manejo. Pedofunções Compactação do solo Redes neurais artificiais Máquinas de vetores de suporte Inteligência artificial Pedofunctions Soil compaction Artificial neural networks Support vector machine Artificial intelligence
23	Improving face recognition with multispectral fusion and support vector machines Chiachia, Giovani [UNESP] 19 June 2009 (has links) (PDF) Made available in DSpace on 2014-06-11T19:29:40Z (GMT). No. of bitstreams: 0 Previous issue date: 2009-06-19Bitstream added on 2014-06-13T18:07:45Z : No. of bitstreams: 1 chiachia_g_me_sjrp.pdf: 1197775 bytes, checksum: a782f5b01605aa2a8b8bb080a56b3cad (MD5) / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / O reconhecimento facial é uma das principais formas de identificação humana. Apesar das pesquisas em reconhecimento facial automático terem crescido substancialmente ao longo dos últimos 35 anos, identificar pessoas a partir da face continua sendo um desafio para as áreas de Visão Computacional e Reconhecimento de Padrões. Em função dos cenários variarem desde a identificação a partir de fotografias até o reconhecimento baseado em vídeos sem nenhum tipo de controle ao serem gravados, os maiores desafios estão relacionados à independência contra diferentes tipos de iluminação, pose e expressão. O objetivo desta dissertação é propor técnicas que possam contribuir para a melhoria dos sistemas de reconhecimento facial. A primeira técnica endereça o problema da iluminação através da fusão dos espectros visível e infravermelho da face. Através desta abordagem, as taxas de reconhecimento foram melhoradas em 2.07% enquanto a taxa de erro igual (EER) foi reduzida em 45.47%. A segunda técnica trata do caso da extração e classificação de características faciais. Ela propõe um novo modelo para reconhecimento facial através do uso de características extraídas por Histogramas Census e de uma técnica de reconhecimento de padrões baseada em Máquinas de Vetores de Suporte (SVMs). Este outro grupo de experimentos nos possibilitou aumentar a precisão do reconhecimento no teste FERET fa/fb em 0.5%. Além destes resultados, algumas contribuições adicionais deste trabalho que merecem ser destacadas são a análise da dependência estatística entre classificadores de espectros diferentes e considerações sobre o comportamento de uma única C-SVC SVM para identificação de pessoas de forma eficaz. / Face recognition is one of the primary ways of human identification. Although researches on automated face recognition have broadly increased along the last 35 years, it remains a challenging task in the fields of Computer Vision and Pattern Recognition. As the scenarios varies from static and constrained photographs to uncontrolled video images, the challenging issues on automatic face recognition are usually related with variations in illumination, pose and expressions. The goal of this master thesis is to propose techniques for the improvement of face recognition systems. The first technique addresses the problem of illumination by fusing the visible and the infrared spectra of the face. With this approach the recognition rates were improved in 2.07% while the Equal Error Rate (EER) were reduced in 45.47%. The second technique addresses the issue of face features extraction and classification. It proposes a new framework for face recognition by using features extracted by Census Histograms and a pattern recognition technique based on Support Vector Machines (SVMs). This other group of experiments enabled us to increase the recognition accuracy in the FERET fa/fb test in 0.5%. Beyond these results, additional contributions of this work that deserve to be highlighted are the statistical dependency analysis between face recognition systems based on different spectra and a better comprehension about the behavior of a single C-SVC SVM to reliably predict faces identities. Processamento de imagens Reconhecimento de padrões Visão por computador Imagens infravermelho Multibiometria Máquinas de vetores de suporte Transformação census Face recognition Infrared images Multibiometrics Support vector machines Census transform
24	Aplicação de máquinas de vetores de suporte na identificação de perfis de alunos de acordo com características da teoria das inteligências múltiplas / Lázaro, Diego Henrique Emygdio. January 2016 (has links) Orientador: Norian Marranghello / Banca: Renata Spolon Lobato / Banca: Henrique Dezani / Resumo: Nesta dissertação foi desenvolvido um mecanismo de classificação capaz de identificar o perfil de um aluno de acordo com características da teoria das inteligências múltiplas, baseado em Support Vector Machines (SVMs, sigla em inglês para Máquinas de Vetores de Suporte), métodos de agrupamento e balanceamento de classes. O objetivo dessa classificação consiste em permitir que os tutores responsáveis por gerar o material para aulas em ferramentas de apoio ao ensino à distância possam utilizar este método de classificação para direcionar o conteúdo ao aluno de forma a explorar sua inteligência múltipla predominante. Para realização dos experimentos, duas SVMs foram criadas, utilizando o método de classificação baseado em k problemas binários, que reduzem o problema de múltiplas classes a um conjunto de problemas binários. Os resultados obtidos durante as fases de treino e teste das SVMs foram apresentados em percentuais por meio de um algoritmo de agrupamento particionado. Esses percentuais ajudam a interpretar a classificação do perfil de acordo com as inteligências predominantes. Além disso, com o uso de métodos de balanceamento de classes, obteve-se melhora no desempenho do classificador, assim, aumentando a eficácia do mecanismo, pois, suas taxas de incorreções foram baixas / Abstract: In this work, it was developed a mechanism in order to classify students' profiles according to the Theory of Multiple Intelligences, based on Support Vector Machines (SVMs), cluster methods and classes balancing. By using these classifications, tutors, who prepare materials for classes in specific tools for distance education purposes, are able to suggest contents for students so that they are able to explore their predominant multiple intelligence. To perform these experiments, SVMs were created by using classification methods based on binary problems that reduce multiple classes problems into a set of binary problems. The results generated during the training and the SVM test stages were presented in percentages by using partitioning clustering algorithm. These percentages are helpful for analysis of profiles classifications according to multiple intelligences. Besides that, by using classes balancing methods, it was possible to obtain improvements on the classifier performance and, consequently, the mechanism efficiency was increased as well, considering the fact that inaccuracy rates were low / Mestre Ciência da computação - Matemática. Máquinas de vetores de suporte Agrupamento por aptidão (Educação) Inteligências múltiplas. Aprendizado do computador. Computer science
25	"Investigação de estratégias para a geração de máquinas de vetores de suporte multiclasses" / Investigation of strategies for the generation of multiclass support vector machines Ana Carolina Lorena 16 February 2006 (has links) Diversos problemas envolvem a classificação de dados em categorias, também denominadas classes. A partir de um conjunto de dados cujas classes são conhecidas, algoritmos de Aprendizado de Máquina (AM) podem ser utilizados na indução de um classificador capaz de predizer a classe de novos dados do mesmo domínio, realizando assim a discriminação desejada. Dentre as diversas técnicas de AM utilizadas em problemas de classificação, as Máquinas de Vetores de Suporte (Support Vector Machines - SVMs) se destacam por sua boa capacidade de generalização. Elas são originalmente concebidas para a solução de problemas com apenas duas classes, também denominados binários. Entretanto, diversos problemas requerem a discriminação dos dados em mais que duas categorias ou classes. Nesta Tese são investigadas e propostas estratégias para a generalização das SVMs para problemas com mais que duas classes, intitulados multiclasses. O foco deste trabalho é em estratégias que decompõem o problema multiclasses original em múltiplos subproblemas binários, cujas saídas são então combinadas na obtenção da classificação final. As estratégias propostas visam investigar a adaptação das decomposições a cada aplicação considerada, a partir de informações do desempenho obtido em sua solução ou extraídas de seus dados. Os algoritmos implementados foram avaliados em conjuntos de dados gerais e em aplicações reais da área de Bioinformática. Os resultados obtidos abrem várias possibilidades de pesquisas futuras. Entre os benefícios verificados tem-se a obtenção de decomposições mais simples, que requerem menos classificadores binários na solução multiclasses. / Several problems involve the classification of data into categories, also called classes. Given a dataset containing data whose classes are known, Machine Learning (ML) algorithms can be employed for the induction of a classifier able to predict the class of new data from the same domain, thus performing the desired discrimination. Among the several ML techniques applied to classification problems, the Support Vector Machines (SVMs) are known by their high generalization ability. They are originally conceived for the solution of problems with only two classes, also named binary problems. However, several problems require the discrimination of examples into more than two categories or classes. This thesis investigates and proposes strategies for the generalization of SVMs to problems with more than two classes, known as multiclass problems. The focus of this work is on strategies that decompose the original multiclass problem into multiple binary subtasks, whose outputs are then combined to obtain the final classification. The proposed strategies aim to investigate the adaptation of the decompositions for each multiclass application considered, using information of the performance obtained for its solution or extracted from its examples. The implemented algorithms were evaluated on general datasets and on real applications from the Bioinformatics domain. The results obtained open possibilities of many future work. Among the benefits observed is the obtainment of simpler decompositions, which require less binary classifiers in the multiclass solution. algoritmos genéticos árvores geradoras mínimas Bioinformática problemas multiclasses Bioinformatics genetic algorithms minimum spanning trees multiclass problems support vector machines
26	Algoritmos de inteligência computacional utilizados na detecção de fraudes nas redes de distribuição de energia elétrica / Fraud detection in distribution networks using computacional intelligence algorithms Queiroz, Altamira de Souza 19 February 2016 (has links) Made available in DSpace on 2017-07-10T16:41:32Z (GMT). No. of bitstreams: 1 Dissertacao Altamira Queiroz2.pdf: 2299194 bytes, checksum: 07ecb127ebc11ad21a0cb551e23c2f1b (MD5) Previous issue date: 2016-02-19 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / One of the main problems currently faced by electric utilities is the occurrence of energy losses in the distribution network caused by fraud and electricity theft. Because of the financial losses and risks to public safety, the development of solutions to detect and combat fraud in the distribution networks is of the utmost importance. This work presents an analysis of computational intelligence algorithms to extract knowledge in databases with information from monthly energy consumption to identify consumption patterns with anomalies which could represent fraud. The algorithms Artificial Neural Networks and Support Vector Machines were tested to see which one perform better on the identification consumption patterns with abnormalities. Tests have shown that the algorithms used are able to detect patterns in electricity consumption curves, including special situations of fraud that manual techniques did not detect. / Um dos principais problemas que enfrentam atualmente as empresas concessionárias de energia elétrica é a ocorrência de perdas de energia na rede de distribuição, causadas por fraudes e furtos de energia elétrica. Sendo que tais problemas provocam prejuízos financeiros e também colocam em risco a segurança pública, é de grande interesse das concessionárias encontrar soluções para detectar e combater fraudes nas redes de distribuição de energia elétrica. Neste conceito, o presente trabalho apresenta uma análise dos algoritmos de Inteligência Computacional para extrair conhecimento de bases de dados de informações de consumo mensal de energia elétricas de usuários de uma determinada concessionária, a fim de identificar padrões de consumo com anomalias que representem possíveis fraudes nas redes de distribuição de energia elétrica. Para detectar padrões nas curvas de consumo, foram utilizados algoritmos de Redes Neurais Artificiais e Máquinas de Vetores de Suporte. Após a criação dos modelos, estes foram testados para verificar qual seria o melhor algoritmo para a detecção de padrões de consumo com anomalias, e os resultados obtidos, foram então, comparados com uma base de dados fornecida pela concessionária com a verificação manual dos usuários. Os testes demonstraram que os algoritmos utilizados são capazes de detectar padrões nas curvas de consumo de energia elétrica, inclusive detectando situações especiais de fraudes que técnicas manuais não detectaram. Padrões de consumo perdas de energia inteligência computacional redes neurais artificiais máquinas de vetores de suporte Consumption patterns energy losses computational intelligence artificial neural networks support vector machines electric power distribution network
27	Alinhamento do modelo de forma ativa com máquinas de vetores de suporte aplicado na deteção de veículos Aragão, Maria Géssica dos Santos 13 May 2016 (has links) Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Many applications of digital image processing uses object detection techniques. Detecting an object is usually related to locate the area around it, while shape detection is related to nd, precisely, the set of points that constitutes its shape. When the problem involves detecting shapes that have predictable changes, deformable models show to be an e ective solution. The approach developed in this work refers to the vehicle shape detection in frontal position by methods which are divided into two levels, the rst level is composed by a cascade of support vector machines and the second one is a deformable model. The use of deformable models favors the detection of vehicle shape same when its image is occluded by objects such as trees / Muitas aplicações de processamento de imagens digitais utilizam técnicas de detecção de objetos. Detectar um objeto normalmente está relacionado a localizar a área em torno do mesmo, já a deteção da forma está relacionada a localizar precisamente em uma imagem um conjunto de pontos que constituem sua forma. Quando o problema envolve a detecção de formas que apresentam variações previsíveis, os modelos deformáveis se apresentam como uma alternativa eficaz. A abordagem desenvolvida neste trabalho se refere à detecção da forma de veículos em posição frontal através de métodos que se dividem em dois níveis, o primeiro nível é composto por uma cascata de máquinas de vetores de suporte e oo segundo é um modelo deformável. O uso de modelos deformáveis favorece a deteção de formas de veículos mesmo quando sua imagem está ocluída por objetos, tais como árvores. Computação Processamento de imagens Técnicas digitais Campos vetor Segmentação Veículos Máquinas de vetores de suporte Modelos deformáveis Modelos de forma ativa Vehicle Segmentation Support vector machines Deformable models Active shape models
28	RAMBLE: robust acoustic modeling for Brazilian learners of English / RAMBLE: modelagem acústica robusta para estudantes brasileiros de Inglês Shulby, Christopher Dane 08 August 2018 (has links) The gains made by current deep-learning techniques have often come with the price tag of big data and where that data is not available, a new solution must be found. Such is the case for accented and noisy speech where large databases do not exist and data augmentation techniques, which are less than perfect, present an even larger obstacle. Another problem is that state-of-the-art results are rarely reproducible because they use proprietary datasets, pretrained networks and/or weight initializations from other larger networks. An example of a low resource scenario exists even in the fifth largest land in the world; home to most of the speakers of the seventh most spoken language on earth. Brazil is the leader in the Latin-American economy and as a BRIC country aspires to become an ever-stronger player in the global marketplace. Still, English proficiency is low, even for professionals in businesses and universities. Low intelligibility and strong accents can damage professional credibility. It has been established in the literature for foreign language teaching that it is important that adult learners are made aware of their errors as outlined by the Noticing Theory, explaining that a learner is more successful when he is able to learn from his own mistakes. An essential objective of this dissertation is to classify phonemes in the acoustic model which is needed to properly identify phonemic errors automatically. A common belief in the community is that deep learning requires large datasets to be effective. This happens because brute force methods create a highly complex hypothesis space which requires large and complex networks which in turn demand a great amount of data samples in order to generate useful networks. Besides that, the loss functions used in neural learning does not provide statistical learning guarantees and only guarantees the network can memorize the training space well. In the case of accented or noisy speech where a new sample can carry a great deal of variation from the training samples, the generalization of such models suffers. The main objective of this dissertation is to investigate how more robust acoustic generalizations can be made, even with little data and noisy accented-speech data. The approach here is to take advantage of raw feature extraction provided by deep learning techniques and instead focus on how learning guarantees can be provided for small datasets to produce robust results for acoustic modeling without the dependency of big data. This has been done by careful and intelligent parameter and architecture selection within the framework of the statistical learning theory. Here, an intelligently defined CNN architecture, together with context windows and a knowledge-driven hierarchical tree of SVM classifiers achieves nearly state-of-the-art frame-wise phoneme recognition results with absolutely no pretraining or external weight initialization. A goal of this thesis is to produce transparent and reproducible architectures with high frame-level accuracy, comparable to the state of the art. Additionally, a convergence analysis based on the learning guarantees of the statistical learning theory is performed in order to evidence the generalization capacity of the model. The model achieves 39.7% error in framewise classification and a 43.5% phone error rate using deep feature extraction and SVM classification even with little data (less than 7 hours). These results are comparable to studies which use well over ten times that amount of data. Beyond the intrinsic evaluation, the model also achieves an accuracy of 88% in the identification of epenthesis, the error which is most difficult for Brazilian speakers of English This is a 69% relative percentage gain over the previous values in the literature. The results are significant because it shows how deep feature extraction can be applied to little data scenarios, contrary to popular belief. The extrinsic, task-based results also show how this approach could be useful in tasks like automatic error diagnosis. Another contribution is the publication of a number of freely available resources which previously did not exist, meant to aid future researches in dataset creation. / Os ganhos obtidos pelas atuais técnicas de aprendizado profundo frequentemente vêm com o preço do big data e nas pesquisas em que esses grandes volumes de dados não estão disponíveis, uma nova solução deve ser encontrada. Esse é o caso do discurso marcado e com forte pronúncia, para o qual não existem grandes bases de dados; o uso de técnicas de aumento de dados (data augmentation), que não são perfeitas, apresentam um obstáculo ainda maior. Outro problema encontrado é que os resultados do estado da arte raramente são reprodutíveis porque os métodos usam conjuntos de dados proprietários, redes prétreinadas e/ou inicializações de peso de outras redes maiores. Um exemplo de um cenário de poucos recursos existe mesmo no quinto maior país do mundo em território; lar da maioria dos falantes da sétima língua mais falada do planeta. O Brasil é o líder na economia latino-americana e, como um país do BRIC, deseja se tornar um participante cada vez mais forte no mercado global. Ainda assim, a proficiência em inglês é baixa, mesmo para profissionais em empresas e universidades. Baixa inteligibilidade e forte pronúncia podem prejudicar a credibilidade profissional. É aceito na literatura para ensino de línguas estrangeiras que é importante que os alunos adultos sejam informados de seus erros, conforme descrito pela Noticing Theory, que explica que um aluno é mais bem sucedido quando ele é capaz de aprender com seus próprios erros. Um objetivo essencial desta tese é classificar os fonemas do modelo acústico, que é necessário para identificar automaticamente e adequadamente os erros de fonemas. Uma crença comum na comunidade é que o aprendizado profundo requer grandes conjuntos de dados para ser efetivo. Isso acontece porque os métodos de força bruta criam um espaço de hipóteses altamente complexo que requer redes grandes e complexas que, por sua vez, exigem uma grande quantidade de amostras de dados para gerar boas redes. Além disso, as funções de perda usadas no aprendizado neural não fornecem garantias estatísticas de aprendizado e apenas garantem que a rede possa memorizar bem o espaço de treinamento. No caso de fala marcada ou com forte pronúncia, em que uma nova amostra pode ter uma grande variação comparada com as amostras de treinamento, a generalização em tais modelos é prejudicada. O principal objetivo desta tese é investigar como generalizações acústicas mais robustas podem ser obtidas, mesmo com poucos dados e/ou dados ruidosos de fala marcada ou com forte pronúncia. A abordagem utilizada nesta tese visa tirar vantagem da raw feature extraction fornecida por técnicas de aprendizado profundo e obter garantias de aprendizado para conjuntos de dados pequenos para produzir resultados robustos para a modelagem acústica, sem a necessidade de big data. Isso foi feito por meio de seleção cuidadosa e inteligente de parâmetros e arquitetura no âmbito da Teoria do Aprendizado Estatístico. Nesta tese, uma arquitetura baseada em Redes Neurais Convolucionais (RNC) definida de forma inteligente, junto com janelas de contexto e uma árvore hierárquica orientada por conhecimento de classificadores que usam Máquinas de Vetores Suporte (Support Vector Machines - SVMs) obtém resultados de reconhecimento de fonemas baseados em frames quase no estado da arte sem absolutamente nenhum pré-treinamento ou inicialização de pesos de redes externas. Um objetivo desta tese é produzir arquiteturas transparentes e reprodutíveis com alta precisão em nível de frames, comparável ao estado da arte. Adicionalmente, uma análise de convergência baseada nas garantias de aprendizado da teoria de aprendizagem estatística é realizada para evidenciar a capacidade de generalização do modelo. O modelo possui um erro de 39,7% na classificação baseada em frames e uma taxa de erro de fonemas de 43,5% usando raw feature extraction e classificação com SVMs mesmo com poucos dados (menos de 7 horas). Esses resultados são comparáveis aos estudos que usam bem mais de dez vezes essa quantidade de dados. Além da avaliação intrínseca, o modelo também alcança uma precisão de 88% na identificação de epêntese, o erro que é mais difícil para brasileiros falantes de inglês. Este é um ganho relativo de 69% em relação aos valores anteriores da literatura. Os resultados são significativos porque mostram como raw feature extraction pode ser aplicada a cenários de poucos dados, ao contrário da crença popular. Os resultados extrínsecos também mostram como essa abordagem pode ser útil em tarefas como o diagnóstico automático de erros. Outra contribuição é a publicação de uma série de recursos livremente disponíveis que anteriormente não existiam, destinados a auxiliar futuras pesquisas na criação de conjuntos de dados. Acoustic modeling Aprendizado profundo Computer vision Convolutional neural networks Deep learning Máquinas de vetores de suporte Modelagem acústica Non-native phoneme recognition Processamento de fala Reconhecimento de fonemas não nativos Redes neurais convolucionais Speech processing Statistical learning theory Support vector machines Teoria do aprendizado estatístico Visão computacional
29	Classificação de dados cinéticos da inicialização da marcha utilizando redes neurais artificiais e máquinas de vetores de suporte Takáo, Thales Baliero 01 July 2015 (has links) Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2016-05-20T12:55:18Z No. of bitstreams: 2 Dissertação - Thales Baliero Takáo - 2015.pdf: 2798998 bytes, checksum: f90a7c928230875abd5873753316f766 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2016-05-20T12:56:48Z (GMT) No. of bitstreams: 2 Dissertação - Thales Baliero Takáo - 2015.pdf: 2798998 bytes, checksum: f90a7c928230875abd5873753316f766 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Made available in DSpace on 2016-05-20T12:56:48Z (GMT). No. of bitstreams: 2 Dissertação - Thales Baliero Takáo - 2015.pdf: 2798998 bytes, checksum: f90a7c928230875abd5873753316f766 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) Previous issue date: 2015-07-01 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The aim of this work was to assess the performance of computational methods to classify ground reaction force (GRF) to identify on which surface was done the gait initiation. Twenty-five subjects were evaluated while performing the gait initiation task in two experimental conditions barefoot on hard surface and barefoot on soft surface (foam). The center of pressure (COP) variables were calculate from the GRF and the principal component analysis was used to retain the main features of medial-lateral, anterior-posterior and vertical force components. The principal components representing each force component were retained using the broken stick test. Then the support vector machines and multilayer neural networks ware trained with Backpropagation and Levenberg-Marquartd algorithm to perform the GRF classification . The evaluation of classifier models was done based on area under ROC curve and accuracy criteria. The Bootstrap cross-validation have produced area under ROC curve a and accuracy criteria using 500 samples database. The support vector machine with linear kernel and margin parameter equal 100 produced the best result using medial-lateral force as input. It registered area under ROC curve and accuracy with 0.7712 and 0.7974. Those results showed significance difference from the vertical and anterior-posterior force. Then we may conclude that the choice of GRF component and the classifier model directly influences the performance of the classification. / O objetivo deste trabalho foi avaliar o desempenho de ferramentas de inteligência computacional para a classificação da força de reação do solo (FRS) identificando em que tipo de superfície foi realizada a inicialização da marcha. A base de dados foi composta pela força de reação do solo de 25 indivíduos, adquiridas por duas plataformas de força, durante a inicialização da marcha sobre uma superfície macia (SM - colchão), e depois sobre uma superfície dura (SD). A partir da FRS foram calculadas as variáveis que descrevem o comportamento do centro de pressão (COP) e também foram extraídas as características relevantes das forças mediolateral (Fx), anteroposterior (Fy) e vertical (Fz) por meio da análise de componentes principais (ACP). A seleção das componentes principais que descrevem cada uma das forças foi feita por meio do teste broken stick . Em seguida, máquinas de vetores de suporte (MVS) e redes neurais artificiais multicamada (MLP) foram treinadas com o algoritmo Backpropagation e de Levenberg-Marquartd (LMA) para realizar a classificação da FRS. Para a avaliação dos modelos implementados a partir das ferramentas de inteligência computacional foram utilizados os índices de acurácia (ACC) e área abaixo da curva ROC (AUC). Estes índices foram obtidos na validação cruzada utilizando a técnicas bootstrap com 500 bases de dados de amostras. O melhor resultado foi obtido para a máquina de vetor de suporte com kernel linear com parâmetro de margem igual a 100 utilizando a Fx como entrada para classificação das amostras. Os índices AUC e ACC foram 0.7712 e 0.7974, respectivamente. Estes resultados apresentaram diferença estatística em relação aos modelos que utilizaram as componentes principais da Fy e Fz, permitindo concluir que a escolha da componente da FRS assim como o modelo a ser implementado influencia diretamente no desempenho dos índices que avaliam a classificação. Redes neurais artificiais Máquinas de vetores de suporte Análise de componentes principais Inicialização da marcha Acurácia, área abaixo da curva ROC Força de reação do solo Artificial neural network Support vector machine Principal component analysis Gait initiation Accuracy Area under a ROC curve Ground reaction force ENGENHARIA BIOMEDICA::BIOENGENHARIA
30	RAMBLE: robust acoustic modeling for Brazilian learners of English / RAMBLE: modelagem acústica robusta para estudantes brasileiros de Inglês Christopher Dane Shulby 08 August 2018 (has links) The gains made by current deep-learning techniques have often come with the price tag of big data and where that data is not available, a new solution must be found. Such is the case for accented and noisy speech where large databases do not exist and data augmentation techniques, which are less than perfect, present an even larger obstacle. Another problem is that state-of-the-art results are rarely reproducible because they use proprietary datasets, pretrained networks and/or weight initializations from other larger networks. An example of a low resource scenario exists even in the fifth largest land in the world; home to most of the speakers of the seventh most spoken language on earth. Brazil is the leader in the Latin-American economy and as a BRIC country aspires to become an ever-stronger player in the global marketplace. Still, English proficiency is low, even for professionals in businesses and universities. Low intelligibility and strong accents can damage professional credibility. It has been established in the literature for foreign language teaching that it is important that adult learners are made aware of their errors as outlined by the Noticing Theory, explaining that a learner is more successful when he is able to learn from his own mistakes. An essential objective of this dissertation is to classify phonemes in the acoustic model which is needed to properly identify phonemic errors automatically. A common belief in the community is that deep learning requires large datasets to be effective. This happens because brute force methods create a highly complex hypothesis space which requires large and complex networks which in turn demand a great amount of data samples in order to generate useful networks. Besides that, the loss functions used in neural learning does not provide statistical learning guarantees and only guarantees the network can memorize the training space well. In the case of accented or noisy speech where a new sample can carry a great deal of variation from the training samples, the generalization of such models suffers. The main objective of this dissertation is to investigate how more robust acoustic generalizations can be made, even with little data and noisy accented-speech data. The approach here is to take advantage of raw feature extraction provided by deep learning techniques and instead focus on how learning guarantees can be provided for small datasets to produce robust results for acoustic modeling without the dependency of big data. This has been done by careful and intelligent parameter and architecture selection within the framework of the statistical learning theory. Here, an intelligently defined CNN architecture, together with context windows and a knowledge-driven hierarchical tree of SVM classifiers achieves nearly state-of-the-art frame-wise phoneme recognition results with absolutely no pretraining or external weight initialization. A goal of this thesis is to produce transparent and reproducible architectures with high frame-level accuracy, comparable to the state of the art. Additionally, a convergence analysis based on the learning guarantees of the statistical learning theory is performed in order to evidence the generalization capacity of the model. The model achieves 39.7% error in framewise classification and a 43.5% phone error rate using deep feature extraction and SVM classification even with little data (less than 7 hours). These results are comparable to studies which use well over ten times that amount of data. Beyond the intrinsic evaluation, the model also achieves an accuracy of 88% in the identification of epenthesis, the error which is most difficult for Brazilian speakers of English This is a 69% relative percentage gain over the previous values in the literature. The results are significant because it shows how deep feature extraction can be applied to little data scenarios, contrary to popular belief. The extrinsic, task-based results also show how this approach could be useful in tasks like automatic error diagnosis. Another contribution is the publication of a number of freely available resources which previously did not exist, meant to aid future researches in dataset creation. / Os ganhos obtidos pelas atuais técnicas de aprendizado profundo frequentemente vêm com o preço do big data e nas pesquisas em que esses grandes volumes de dados não estão disponíveis, uma nova solução deve ser encontrada. Esse é o caso do discurso marcado e com forte pronúncia, para o qual não existem grandes bases de dados; o uso de técnicas de aumento de dados (data augmentation), que não são perfeitas, apresentam um obstáculo ainda maior. Outro problema encontrado é que os resultados do estado da arte raramente são reprodutíveis porque os métodos usam conjuntos de dados proprietários, redes prétreinadas e/ou inicializações de peso de outras redes maiores. Um exemplo de um cenário de poucos recursos existe mesmo no quinto maior país do mundo em território; lar da maioria dos falantes da sétima língua mais falada do planeta. O Brasil é o líder na economia latino-americana e, como um país do BRIC, deseja se tornar um participante cada vez mais forte no mercado global. Ainda assim, a proficiência em inglês é baixa, mesmo para profissionais em empresas e universidades. Baixa inteligibilidade e forte pronúncia podem prejudicar a credibilidade profissional. É aceito na literatura para ensino de línguas estrangeiras que é importante que os alunos adultos sejam informados de seus erros, conforme descrito pela Noticing Theory, que explica que um aluno é mais bem sucedido quando ele é capaz de aprender com seus próprios erros. Um objetivo essencial desta tese é classificar os fonemas do modelo acústico, que é necessário para identificar automaticamente e adequadamente os erros de fonemas. Uma crença comum na comunidade é que o aprendizado profundo requer grandes conjuntos de dados para ser efetivo. Isso acontece porque os métodos de força bruta criam um espaço de hipóteses altamente complexo que requer redes grandes e complexas que, por sua vez, exigem uma grande quantidade de amostras de dados para gerar boas redes. Além disso, as funções de perda usadas no aprendizado neural não fornecem garantias estatísticas de aprendizado e apenas garantem que a rede possa memorizar bem o espaço de treinamento. No caso de fala marcada ou com forte pronúncia, em que uma nova amostra pode ter uma grande variação comparada com as amostras de treinamento, a generalização em tais modelos é prejudicada. O principal objetivo desta tese é investigar como generalizações acústicas mais robustas podem ser obtidas, mesmo com poucos dados e/ou dados ruidosos de fala marcada ou com forte pronúncia. A abordagem utilizada nesta tese visa tirar vantagem da raw feature extraction fornecida por técnicas de aprendizado profundo e obter garantias de aprendizado para conjuntos de dados pequenos para produzir resultados robustos para a modelagem acústica, sem a necessidade de big data. Isso foi feito por meio de seleção cuidadosa e inteligente de parâmetros e arquitetura no âmbito da Teoria do Aprendizado Estatístico. Nesta tese, uma arquitetura baseada em Redes Neurais Convolucionais (RNC) definida de forma inteligente, junto com janelas de contexto e uma árvore hierárquica orientada por conhecimento de classificadores que usam Máquinas de Vetores Suporte (Support Vector Machines - SVMs) obtém resultados de reconhecimento de fonemas baseados em frames quase no estado da arte sem absolutamente nenhum pré-treinamento ou inicialização de pesos de redes externas. Um objetivo desta tese é produzir arquiteturas transparentes e reprodutíveis com alta precisão em nível de frames, comparável ao estado da arte. Adicionalmente, uma análise de convergência baseada nas garantias de aprendizado da teoria de aprendizagem estatística é realizada para evidenciar a capacidade de generalização do modelo. O modelo possui um erro de 39,7% na classificação baseada em frames e uma taxa de erro de fonemas de 43,5% usando raw feature extraction e classificação com SVMs mesmo com poucos dados (menos de 7 horas). Esses resultados são comparáveis aos estudos que usam bem mais de dez vezes essa quantidade de dados. Além da avaliação intrínseca, o modelo também alcança uma precisão de 88% na identificação de epêntese, o erro que é mais difícil para brasileiros falantes de inglês. Este é um ganho relativo de 69% em relação aos valores anteriores da literatura. Os resultados são significativos porque mostram como raw feature extraction pode ser aplicada a cenários de poucos dados, ao contrário da crença popular. Os resultados extrínsecos também mostram como essa abordagem pode ser útil em tarefas como o diagnóstico automático de erros. Outra contribuição é a publicação de uma série de recursos livremente disponíveis que anteriormente não existiam, destinados a auxiliar futuras pesquisas na criação de conjuntos de dados. Aprendizado profundo Máquinas de vetores de suporte Modelagem acústica Processamento de fala Reconhecimento de fonemas não nativos Redes neurais convolucionais Teoria do aprendizado estatístico Visão computacional Acoustic modeling Computer vision Convolutional neural networks Deep learning Non-native phoneme recognition Speech processing Statistical learning theory Support vector machines

Search results