• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 262
  • 17
  • 4
  • 1
  • Tagged with
  • 285
  • 285
  • 229
  • 212
  • 67
  • 63
  • 61
  • 47
  • 47
  • 41
  • 39
  • 35
  • 35
  • 34
  • 32
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
271

Métodos de visão computacional aplicados a extração de características de ambientes urbanos em imagens de satélite de baixa resolução / Computer vision methods applied to extraction of characteristics of urban environments in low resolution satellite imagery

Almeida, Dyego de Oliveira 03 October 2018 (has links)
Submitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2018-11-05T18:46:12Z No. of bitstreams: 2 Dissertação - Dyego Oliveira Almeida - 2018.pdf: 32110237 bytes, checksum: 4d30b2227be666802bbb2e5437450fc2 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2018-11-06T10:03:22Z (GMT) No. of bitstreams: 2 Dissertação - Dyego Oliveira Almeida - 2018.pdf: 32110237 bytes, checksum: 4d30b2227be666802bbb2e5437450fc2 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2018-11-06T10:03:22Z (GMT). No. of bitstreams: 2 Dissertação - Dyego Oliveira Almeida - 2018.pdf: 32110237 bytes, checksum: 4d30b2227be666802bbb2e5437450fc2 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2018-10-03 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The urban growth of the population and the deforestation of greenareas are one of the most critical problems currently in Brazil. Due to mobilization of rural people to the urban, high solar irradiation and the deforestation, the Government is creating sustainable actions sustainable in order to enlarge the green areas and permeable. In this perspective, to promote this mapping effectively in large areas necessary to the use of technologies of recognition of facial features. Low-resolution satellite imagery have low cost and great coverage area coverage, and therefore apply them in identifying features is advantageous over other types of images. However, to accomplish this identification is computationally complex due to the different features present in images of this type. This work proposes an effective method of digital processing of low resolution images in the identification of features, in particular the pertinent green aáreas with average accuracy of 80.5% and detection of buildings with an average accuracy of 63%. / O crescimento urbano da população e o desmatamento de áreas verdes são um dos problemas mais críticos atualmente no Brasil. Devido a mobilização da população rural para o âmbito urbano, elevação da irradiação solar e o desmatamento, o governo está criando ações sustentáveis a fim de ampliar as áreas verdes e permeáveis. Nesta perspectiva, para promover esse mapeamento de forma eficaz em grandes áreas se faz necessário o uso de tecnologias de reconhecimento de feições. Imagens de satélite de baixa resolução possuem baixo custo e grande abrangência de área, e portanto aplicá-las na identificação de feições é vantajoso em relação a outros tipos de imagens. No entanto, realizar essa identificação é computacionalmente complexo devido as diferentes características existentes em imagens desse tipo. Este trabalho propõe um método eficaz de processamento digital de imagens de baixa resolução na identificação de feições, em particular as pertinentes a áreas verdes com acurácia média de 80,5% e detecção de edificações com precisão média de 63%.
272

Pupilometria na investigação de diabetes mellitus tipo II / Pupilometry in the Investigation of diabetes mellitus type II

Silva, Cleyton Rafael Gomes 28 September 2018 (has links)
Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2018-11-14T12:45:33Z No. of bitstreams: 2 Dissertação - Cleyton Rafael Gomes Silva - 2018.pdf: 3259568 bytes, checksum: 21f7d8194e8929ef29e8df95ef8f6a0a (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2018-11-14T13:02:15Z (GMT) No. of bitstreams: 2 Dissertação - Cleyton Rafael Gomes Silva - 2018.pdf: 3259568 bytes, checksum: 21f7d8194e8929ef29e8df95ef8f6a0a (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2018-11-14T13:02:15Z (GMT). No. of bitstreams: 2 Dissertação - Cleyton Rafael Gomes Silva - 2018.pdf: 3259568 bytes, checksum: 21f7d8194e8929ef29e8df95ef8f6a0a (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2018-09-28 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Examining human pupillary behavior is a non-invasive, low-cost method for assessing neurological activity. Changes in this behavior are correlated to various health conditions, such as: Parkinson’s, Alzheimer’s, autism and diabetes. In order to obtain information about the pupillary behavior, it is necessary to measure the pupil diameter in procedures that induce pupillary reflexes, known as Pupilometry. Pupillary measurement is made by filming the procedures when applying computer vision techniques for pupil recognition. The objective of this research was to develop an Automated Pupilometry System (SAP) to support the investigation of patients with type II diabetes mellitus. SAP was able to record, induce, and extract 96 pupil features. In the experiment with 15 healthy patients and 16 diabetics, a 94% accuracy in the identification of diabetics type II was obtained, demonstrating the efficiency of SAP for the performance of examinations, and evidencing the potential of pupil use in the investigation of diabetes mellitus type II. / Examinar o comportamento pupilar humano é um método não-invasivo e de baixo-custo para avaliar atividade neurológica. Alterações neste comportamento são correlacionadas a várias condições de saúde, como: Parkinson, Alzheimer, autismo e diabetes. Para se obter informações do comportamento pupilar é necessário medir o diâmetro da pupila em procedimentos que induzem os reflexos pupilares, conhecidos como Pupilometria. A medição pupilar é feita por meio da filmagem dos procedimentos ao aplicar-se técnicas de visão computacional para reconhecimento da pupila. O objetivo desta pesquisa foi desenvolver um Sistema Automatizado de Pupilometria (SAP) para apoiar a investigação de pacientes com diabetes mellitus tipo II. O SAP foi capaz de gravar, induzir, e extrair 96 característicaspupilares. No experimento com 15 pacientes saudáveis e 16 diabéticos foi obtida uma acurácia de 94% na identificação de diabéticos tipo II, demonstrando a eficiência do SAP para a performance de exames, e evidenciando o potencial do uso da pupila na investigação de diabetes mellitus tipo II.
273

TSS e TSB: novos descritores de forma baseados em tensor scale / TSS & TSB: new shape descriptors based on tensor scale

Anderson Meirelles Freitas 24 October 2017 (has links)
Neste trabalho são apresentados dois novos descritores de forma para tarefas de recuperação de imagens por conteúdo (CBIR) e análise de formas, que são construídos sobre uma extensão do conceito de tensor scale baseada na Transformada de Distância Euclidiana (EDT). Primeiro, o algoritmo de tensor scale é utilizado para extrair informações da forma sobre suas estruturas locais (espessura, orientação e anisotropia) representadas pela maior elipse contida em uma região homogênea centrada em cada pixel da imagem. Nos novos descritores, o limite do intervalo das orientações das elipses do modelo de tensor scale é estendido de 180º para 360º, de forma a melhor discriminar a descrição das estruturas locais. Então, com base em diferentes abordagens de amostragem, visando resumir informações mais relevantes, os novos descritores são construídos. No primeiro descritor proposto, Tensor Scale Sector (TSS), a distribuição das orientações relativas das estruturas locais em setores circulares é utilizada para compor um vetor de características de tamanho fixo, para uma caracterização de formas baseada em região. No segundo descritor, o Tensor Scale Band (TSB), foram considerados histogramas das orientações relativas extraídos de bandas concêntricas, formando também um vetor de características de tamanho fixo, com uma função de distância de tempo linear. Resultados experimentais com diferentes bases de formas (MPEG-7 e MNIST) são apresentados para ilustrar e validar os métodos. TSS demonstra resultados comparáveis aos métodos estado da arte, que geralmente dependem de algoritmos custosos de otimização de correspondências. Já o TSB, com sua função de distância em tempo linear, se demonstra como uma solução adequada para grandes coleções de formas. / In this work, two new shape descriptors are proposed for tasks in Content-Based Image Retrieval (CBIR) and Shape Analysis tasks, which are built upon an extended tensor scale based on the Euclidean Distance Transform (EDT). First, the tensor scale algorithm is applied to extract shape attributes from its local structures (thickness, orientation, and anisotropy) as represented by the largest ellipse within a homogeneous region centered at each image pixel. In the new descriptors, the upper limit of the interval of local orientation of tensor scale ellipses is extended from 180º to 360º, to better discriminate the description of local structures. Then, the new descriptors are built based on different sampling approaches, aiming to summarize the most relevant features. In the first proposed descriptor, Tensor Scale Sector descriptor (TSS), the local distributions of relative orientations within circular sectors are used to compose a fixed-length feature vector, for a region-based shape characterization. For the second method, the Tensor Scale Band (TSB) descriptor, histograms of relative orientations are considered for each circular concentric band, to also compose a fixed-length feature vector, with linear time distance function for matching. Experimental results for different shape datasets (MPEG-7 and MNIST) are presented to illustrate and validate the methods. TSS can achieve high retrieval values comparable to state-of-the-art methods, which usually rely on time-consuming correspondence optimization algorithms, but uses a simpler and faster distance function, while the even faster linear complexity of TSB leads to a suitable solution for very large shape collections.
274

Dois problemas em análise de formas de estruturas de ramificação / Two Problems in Shape Analysis of Branching Structures

Leandro, Jorge de Jesus Gomes 17 July 2008 (has links)
O presente texto descreve métodos e apresenta resultados do projeto de pesquisa de mestrado intitulado \"Dois Problemas em Análise de Formas de Estruturas de Ramificação\". Ambos os problemas abordados estão relacionados às sub-áreas da Análise de Formas denominadas Caracterização e Descrição de Formas. O primeiro problema consiste na investigação de um conjunto de características propostas para distingüir, primeiramente, entre estruturas de ramificação de vasos sangüíneos em imagens de retina segmentadas manualmente e automaticamente. A seguir, as mesmas características são aplicadas para discernir entre estruturas de ramificação de vasos sangüíneos em imagens de retina com e sem retinopatia diabética proliferativa (Proliferative Diabetic Retinopathy - PDR). A PDR é uma das patologias associadas à diabetes, que pode culminar na cegueira do indivíduo. Diagnósticos são possíveis por meio de imagens de fundo de olho e, quando efetuados precocemente, viabilizam intervenções oportunas evitando a perda da visão. Neste trabalho, 27 imagens digitais de fundo de olho foram segmentadas por dois processos distintos, isto é, segmentação manual por um especialista e a segmentação automática, mediante a transformada contínua Wavelet - CWT e classificadores estatísticos. Visando à caracterização destas formas, um conjunto de 08 características foi proposto. Este conjunto foi formado por três grupos, a saber: descritores tradicionais geométricos (Área, Perímetro e Circularidade), descritores associados à transformada wavelet ( 2o momento estatístico da distribuição de módulos da CWT, Entropia de Orientação da distribuição de fases da CWT e Curvatura) e um descritor fractal (Dimensão de Correlação - Global e Mediana). Uma Análise Discriminante Linear LDA revelou que as características geométricas tradicionais não detectam o início da retinopatia diabética proliferativa. A maior capacidade discriminante individual foi exibida pela Curvatura, com Área sob a curva ROC de 0.76. Um subconjunto com 6 características apresentou grande capacidade discriminante com Área sob a curva ROC de 0.90. O segundo problema diz respeito à extração de contorno de estruturas de ramificação bidimensionais de neurônios tridimensionais. Este trabalho contribui originalmente com uma solução para este problema, propondo dois algoritmos desenvolvidos para Rastreamento de Ramos e Extração do Contorno Paramétrico de estruturas de ramificação, capazes de transpor regiões críticas formadas por cruzamentos ocasionados pela projeção de estruturas 3D no plano das imagens 2D. Grande parte dos métodos baseados em contorno para análise de formas de estruturas de ramificação de células neuronais não produz representações corretas destas formas, devido à presença de sobreposições entre processos neuronais, levando os algoritmos tradicionais de extração de contorno a ignorar as regiões mais internas destas estruturas, gerando representações incompletas. O sistema proposto neste trabalho foi desenvolvido objetivando a solução do problema de extração de contorno, mesmo na presença de múltiplas sobreposições. Inicialmente, a imagem de entrada é pré-processada, gerando um esqueleto 8-conexo com ramos de um pixel de largura, um conjunto de sementes de sub-árvores dendríticas e um conjunto de regiões críticas (bifurcações e cruzamentos). Para cada sub-árvore, o algoritmo de rastreamento rotula todos os pixels válidos de um ramo, até chegar em uma região crítica, onde o algoritmo decide a direção em que deve continuar o rastreamento. Nosso algoritmo mostrou-se robusto, mesmo quando aplicado a imagens com segmentos paralelos muito próximos. Resultados obtidos com imagens reais (neurônios) são apresentados. / This document describes methods and presents results from the Master of Science\'s research project in computer science entitled \"Two Problems in Shape Analysis of Branching Structures\". Both tackled problems herein are related to Shape Analysis sub-fields, namely Characterization and Description of shapes. The former problem consists of an investigation on a proposed set of features aimed at discriminating, firstly, between blood vessels branching structures manually and automatically segmented. In the sequel, the same features are used to assess their discriminative capability in distinguishing between blood vessels branching structures with and withoud proliferative diabetic retinopathy (PDR). The PDR is a pathology related to diabetes, which may lead to the blindness. Diagnosis is possible through optic fundus image analysis, which may allow timely interventions preventing vision loss. In this work, 27 digital optic fundus images were segmented by two distinct segmentation processes, i.e. manual segmentation carried out by an especialist and automated segmentation, through the CWT (Continuous Wavelet Transform) and statistical classifiers. In order to characterize such a shapes, a set of 8 features has been proposed. The aforementioned set was comprised of three features groups, that is: traditional geometric descriptors (Area, Perimeter and Circularity), wavelet-based descriptors (2nd statistical moment from the CWT Modulus distribution, Orientation Entropy from the CWT Phase distribution and Curvature) and a fractal descriptor (Correlation Dimension - global and median). Linear Discriminant Analysis LDA revelead that the traditional geometric features are not able to detect early proliferative diabetic retinopathy. The largest singular discriminant capability was shown by the Curvature, with area under the ROC curve of 0.76. A subset of 6 features presented a good discriminating power with area under the curve of 0.90. The second problem concerns contour extraction from 2D branching structures of 3D neurons. This work contributes with an original solution for such a problem, proposing two algorithms devised for Branches Tracking and Branching Structures Contour Extraction. The proposed algorithms are able to traverse critical regions implied by the projection of 3D structures onto a 2D image plane. Most of contour-based methods intended to shape analysis of neuronal branching structures fall short of yielding proper shape representations, owing to the presence of overlapings among neuronal processes, causing the traditional algorithms for contour following to ignore the innermost regions, thus generating incomplete representations. The proposed framework system was developed aiming at the solution of the contour extraction problem, even in the presence of multiple overlapings. The input image is pre-processed, so as to obtain an 8-connected skeleton with one-pixel wide branches, a set of seeds of dendritic sub-trees and a set of critical regions (bifurcations, crossings and superpositions). For each sub-tree, the Branches Tracking Algorithm labels all valid pixels of a branch, until reaching a critical region, where the algorithm decides about the direction to go on with the tracking. Our algorithm has shown robustness, even in images plenty of very close parallel segments. Results with real images (neurons) are presented.
275

Análise de formas usando wavelets em grafos / Shape analysis using wavelets on graphs

Leandro, Jorge de Jesus Gomes 11 February 2014 (has links)
O presente texto descreve a tese de doutorado intitulada Análise de Formas usando Wavelets em Grafos. O tema está relacionado à área de Visão Computacional, particularmente aos tópicos de Caracterização, Descrição e Classificação de Formas. Dentre os métodos da extensa literatura em Análise de Formas 2D, percebe-se uma presença menor daqueles baseados em grafos com topologia arbitrária e irregular. As contribuições desta tese procuram preencher esta lacuna. É proposta uma metodologia baseada no seguinte pipeline : (i) Amostragem da forma, (ii) Estruturação das amostras em grafos, (iii) Função-base definida nos vértices, (iv) Análise multiescala de grafos por meio da Transformada Wavelet Espectral em grafos, (v) Extração de Características da Transformada Wavelet e (vi) Discriminação. Para cada uma das etapas (i), (ii), (iii), (v) e (vi), são inúmeras as abordagens possíveis. Um dos desafios é encontrar uma combinação de abordagens, dentre as muitas alternativas, que resulte em um pipeline eficaz para nossos propósitos. Em particular, para a etapa (iii), dado um grafo que representa uma forma, o desafio é identificar uma característica associada às amostras que possa ser definida sobre os vértices do grafo. Esta característica deve capturar a influência subjacente da estrutura combinatória de toda a rede sobre cada vértice, em diversas escalas. A Transformada Wavelet Espectral sobre os Grafos revelará esta influência subjacente em cada vértice. São apresentados resultados obtidos de experimentos usando formas 2D de benchmarks conhecidos na literatura, bem como de experimentos de aplicações em astronomia para análise de formas de galáxias do Sloan Digital Sky Survey não-rotuladas e rotuladas pelo projeto Galaxy Zoo 2 , demonstrando o sucesso da técnica proposta, comparada a abordagens clássicas como Transformada de Fourier e Transformada Wavelet Contínua 2D. / This document describes the PhD thesis entitled Shape Analysis by using Wavelets on Graphs. The addressed theme is related to Computer Vision, particularly to the Characterization, Description and Classication topics. Amongst the methods presented in an extensive literature on Shape Analysis 2D, it is perceived a smaller presence of graph-based methods with arbitrary and irregular topologies. The contributions of this thesis aim at fullling this gap. A methodology based on the following pipeline is proposed: (i) Shape sampling, (ii) Samples structuring in graphs, (iii) Function dened on vertices, (iv) Multiscale analysis of graphs through the Spectral Wavelet Transform, (v) Features extraction from the Wavelet Transforms and (vi) Classication. For the stages (i), (ii), (iii), (v) and (vi), there are numerous possible approaches. One great challenge is to nd a proper combination of approaches from the several available alternatives, which may be able to yield an eective pipeline for our purposes. In particular, for the stage (iii), given a graph representing a shape, the challenge is to identify a feature, which may be dened over the graph vertices. This feature should capture the underlying inuence from the combinatorial structure of the entire network over each vertex, in multiple scales. The Spectral Graph Wavelet Transform will reveal such an underpining inuence over each vertex. Yielded results from experiments on 2D benchmarks shapes widely known in literature, as well as results from astronomy applications to the analysis of unlabeled galaxies shapes from the Sloan Digital Sky Survey and labeled galaxies shapes by the Galaxy Zoo 2 Project are presented, demonstrating the achievements of the proposed technique, in comparison to classic approaches such as the 2D Fourier Transform and the 2D Continuous Wavelet Transform.
276

Estudo de porosidade por processamento de imagens aplicada a patologias do concreto / Computer vision system for identification of alkali aggregate in concrete image

Rodrigo Erthal Wilson 11 August 2015 (has links)
A reação álcali-agregado - RAA é uma patologia de ação lenta que tem sido observada em construções de concreto capaz de comprometer suas estruturas. Sabe-se que a reação álcali-agregado é um fenômeno bastante complexo em virtude da grande variedade de rochas na natureza que são empregadas como agregados no preparo do concreto, podendo cada mineral utilizado afetar de forma distinta a reação ocorrida. Em função dos tipos de estrutura, das suas condições de exposição e dos materiais empregados, a RAA não se comporta sempre da mesma forma, em virtude disto a pesquisa constante neste tema é necessária para o meio técnico e a sociedade. Pesquisas laboratoriais, empíricas e experimentais tem sido rotina em muitos dos estudos da RAA dada ainda à carência de certas definições mais precisas a respeito dos métodos de ensaio, mas também em função da necessidade do melhor conhecimento dos materiais de uso em concretos como os agregados, cimentos, adições, aditivos entre outros e do comportamento da estrutura. Embora técnicas de prevenção possam reduzir significativamente a incidência da RAA, muitas estruturas foram construídas antes que tais medidas fossem conhecidas, havendo no Brasil vários casos de estruturas afetadas, sendo custosos os reparos dessas estruturas. Em estudos recentes sobre o tamanho das partículas de álcali-agregado e sua distribuição foi concluído que o tamanho do agregado está relacionado com o potencial danoso da RAA. Existem ainda indícios de que o tamanho e a distribuição dos poros do concreto também sejam capazes de influenciar o potencial reativo do concreto. Neste trabalho desenvolvemos um Sistema de Visão Artificial (SVA) que, com o uso de técnicas de Processamento de Imagens, é capaz de identificar em imagens de concreto, agregado e poros que atendam em sua forma, às especificações do usuário, possibilitando o cálculo da porosidade e produzindo imagens segmentadas à partir das quais será possível extrair dados relativos à geometria desses elementos. Serão feitas duas abordagens para a obtenção das imagens, uma por Escâner Comercial, que possui vantagens relacionadas à facilidade de aquisição do equipamento, e outra por micro tomógrafo. Uma vez obtidas informações sobre as amostras de concreto, estas podem ser utilizadas para pesquisar a RAA, comparar estruturas de risco com estruturas antigas de forma a melhorar a previsão de risco de ocorrência, bem como serem aplicadas a outras no estudo de outras patologias do concreto menos comuns no nosso país, como o efeito gelo/degelo. / The alkali-aggregate reaction - RAA is a condition of slow action that has been observed in concrete constructions that could affect their structures. It is known that the alkali-aggregate reaction is a very complex phenomenon because of the great variety of rocks in nature that are used as aggregates for concrete, and each mineral used differently affects the reaction occurred. Depending on the type of structure, its exposure conditions and the materials used, this phenomenon does not always behaves the same way, because of this, constant research in this area is needed for the technical means and the society. Laboratory, empirical and experimental research has been routine in many of the RAA studies still given the lack of certain more precise definitions concerning the testing methods, but also because of the need for better understanding of the use of materials in concrete as aggregate, cement, additions, additives etc. and structure behavior. Prevention techniques could significantly reduce the incidence of RAA. Still, many structures were built before such measures were known, several cases of affected structures were discovered in Brazil, all with large spending on repairs of the affected structures. In recent studies on the particle size of the alkaliaggregate and its distribution was concluded that the aggregate size is related to the damaging potential of the RAA. There are also indications that the size and distribution of concrete pores are also capable of influencing the reactive potential of the concrete. In the present work we developed an Artificial Vision System ( VAS ) that uses image processing techniques to identify aggregate and pores in hardened concrete images, enabling the calculation of porosity and producing segmented images that can be used to investigate data about the geometry of these elements. Were made two approaches for obtaining the images, one by Scanner Commercial, which has related advantages will ease the acquisition of equipment, and other micro CT scanner. Once obtained information on the concrete samples, these can be used to search the AAR compared risk structures with old structures so as to enhance the occurrence of risk prediction, as well as be applied to other concrete in the study of other pathologies less common in our country, as ice effect / thaw.
277

RAMBLE: robust acoustic modeling for Brazilian learners of English / RAMBLE: modelagem acústica robusta para estudantes brasileiros de Inglês

Shulby, Christopher Dane 08 August 2018 (has links)
The gains made by current deep-learning techniques have often come with the price tag of big data and where that data is not available, a new solution must be found. Such is the case for accented and noisy speech where large databases do not exist and data augmentation techniques, which are less than perfect, present an even larger obstacle. Another problem is that state-of-the-art results are rarely reproducible because they use proprietary datasets, pretrained networks and/or weight initializations from other larger networks. An example of a low resource scenario exists even in the fifth largest land in the world; home to most of the speakers of the seventh most spoken language on earth. Brazil is the leader in the Latin-American economy and as a BRIC country aspires to become an ever-stronger player in the global marketplace. Still, English proficiency is low, even for professionals in businesses and universities. Low intelligibility and strong accents can damage professional credibility. It has been established in the literature for foreign language teaching that it is important that adult learners are made aware of their errors as outlined by the Noticing Theory, explaining that a learner is more successful when he is able to learn from his own mistakes. An essential objective of this dissertation is to classify phonemes in the acoustic model which is needed to properly identify phonemic errors automatically. A common belief in the community is that deep learning requires large datasets to be effective. This happens because brute force methods create a highly complex hypothesis space which requires large and complex networks which in turn demand a great amount of data samples in order to generate useful networks. Besides that, the loss functions used in neural learning does not provide statistical learning guarantees and only guarantees the network can memorize the training space well. In the case of accented or noisy speech where a new sample can carry a great deal of variation from the training samples, the generalization of such models suffers. The main objective of this dissertation is to investigate how more robust acoustic generalizations can be made, even with little data and noisy accented-speech data. The approach here is to take advantage of raw feature extraction provided by deep learning techniques and instead focus on how learning guarantees can be provided for small datasets to produce robust results for acoustic modeling without the dependency of big data. This has been done by careful and intelligent parameter and architecture selection within the framework of the statistical learning theory. Here, an intelligently defined CNN architecture, together with context windows and a knowledge-driven hierarchical tree of SVM classifiers achieves nearly state-of-the-art frame-wise phoneme recognition results with absolutely no pretraining or external weight initialization. A goal of this thesis is to produce transparent and reproducible architectures with high frame-level accuracy, comparable to the state of the art. Additionally, a convergence analysis based on the learning guarantees of the statistical learning theory is performed in order to evidence the generalization capacity of the model. The model achieves 39.7% error in framewise classification and a 43.5% phone error rate using deep feature extraction and SVM classification even with little data (less than 7 hours). These results are comparable to studies which use well over ten times that amount of data. Beyond the intrinsic evaluation, the model also achieves an accuracy of 88% in the identification of epenthesis, the error which is most difficult for Brazilian speakers of English This is a 69% relative percentage gain over the previous values in the literature. The results are significant because it shows how deep feature extraction can be applied to little data scenarios, contrary to popular belief. The extrinsic, task-based results also show how this approach could be useful in tasks like automatic error diagnosis. Another contribution is the publication of a number of freely available resources which previously did not exist, meant to aid future researches in dataset creation. / Os ganhos obtidos pelas atuais técnicas de aprendizado profundo frequentemente vêm com o preço do big data e nas pesquisas em que esses grandes volumes de dados não estão disponíveis, uma nova solução deve ser encontrada. Esse é o caso do discurso marcado e com forte pronúncia, para o qual não existem grandes bases de dados; o uso de técnicas de aumento de dados (data augmentation), que não são perfeitas, apresentam um obstáculo ainda maior. Outro problema encontrado é que os resultados do estado da arte raramente são reprodutíveis porque os métodos usam conjuntos de dados proprietários, redes prétreinadas e/ou inicializações de peso de outras redes maiores. Um exemplo de um cenário de poucos recursos existe mesmo no quinto maior país do mundo em território; lar da maioria dos falantes da sétima língua mais falada do planeta. O Brasil é o líder na economia latino-americana e, como um país do BRIC, deseja se tornar um participante cada vez mais forte no mercado global. Ainda assim, a proficiência em inglês é baixa, mesmo para profissionais em empresas e universidades. Baixa inteligibilidade e forte pronúncia podem prejudicar a credibilidade profissional. É aceito na literatura para ensino de línguas estrangeiras que é importante que os alunos adultos sejam informados de seus erros, conforme descrito pela Noticing Theory, que explica que um aluno é mais bem sucedido quando ele é capaz de aprender com seus próprios erros. Um objetivo essencial desta tese é classificar os fonemas do modelo acústico, que é necessário para identificar automaticamente e adequadamente os erros de fonemas. Uma crença comum na comunidade é que o aprendizado profundo requer grandes conjuntos de dados para ser efetivo. Isso acontece porque os métodos de força bruta criam um espaço de hipóteses altamente complexo que requer redes grandes e complexas que, por sua vez, exigem uma grande quantidade de amostras de dados para gerar boas redes. Além disso, as funções de perda usadas no aprendizado neural não fornecem garantias estatísticas de aprendizado e apenas garantem que a rede possa memorizar bem o espaço de treinamento. No caso de fala marcada ou com forte pronúncia, em que uma nova amostra pode ter uma grande variação comparada com as amostras de treinamento, a generalização em tais modelos é prejudicada. O principal objetivo desta tese é investigar como generalizações acústicas mais robustas podem ser obtidas, mesmo com poucos dados e/ou dados ruidosos de fala marcada ou com forte pronúncia. A abordagem utilizada nesta tese visa tirar vantagem da raw feature extraction fornecida por técnicas de aprendizado profundo e obter garantias de aprendizado para conjuntos de dados pequenos para produzir resultados robustos para a modelagem acústica, sem a necessidade de big data. Isso foi feito por meio de seleção cuidadosa e inteligente de parâmetros e arquitetura no âmbito da Teoria do Aprendizado Estatístico. Nesta tese, uma arquitetura baseada em Redes Neurais Convolucionais (RNC) definida de forma inteligente, junto com janelas de contexto e uma árvore hierárquica orientada por conhecimento de classificadores que usam Máquinas de Vetores Suporte (Support Vector Machines - SVMs) obtém resultados de reconhecimento de fonemas baseados em frames quase no estado da arte sem absolutamente nenhum pré-treinamento ou inicialização de pesos de redes externas. Um objetivo desta tese é produzir arquiteturas transparentes e reprodutíveis com alta precisão em nível de frames, comparável ao estado da arte. Adicionalmente, uma análise de convergência baseada nas garantias de aprendizado da teoria de aprendizagem estatística é realizada para evidenciar a capacidade de generalização do modelo. O modelo possui um erro de 39,7% na classificação baseada em frames e uma taxa de erro de fonemas de 43,5% usando raw feature extraction e classificação com SVMs mesmo com poucos dados (menos de 7 horas). Esses resultados são comparáveis aos estudos que usam bem mais de dez vezes essa quantidade de dados. Além da avaliação intrínseca, o modelo também alcança uma precisão de 88% na identificação de epêntese, o erro que é mais difícil para brasileiros falantes de inglês. Este é um ganho relativo de 69% em relação aos valores anteriores da literatura. Os resultados são significativos porque mostram como raw feature extraction pode ser aplicada a cenários de poucos dados, ao contrário da crença popular. Os resultados extrínsecos também mostram como essa abordagem pode ser útil em tarefas como o diagnóstico automático de erros. Outra contribuição é a publicação de uma série de recursos livremente disponíveis que anteriormente não existiam, destinados a auxiliar futuras pesquisas na criação de conjuntos de dados.
278

Sistema de visão computacional para detecção do uso de telefones celulares ao dirigir / A computer vision system tor detecting use of mobile phones while driving

Berri, Rafael Alceste 21 February 2014 (has links)
Made available in DSpace on 2016-12-12T20:22:52Z (GMT). No. of bitstreams: 1 RAFAEL ALCESTE BERRI.pdf: 28428368 bytes, checksum: 667b9facc9809bfd5e0847e15279b0e6 (MD5) Previous issue date: 2014-02-21 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / In this work, three proposals of systems have been developed using a frontal camera to monitor the driver and enabling to identificate if a cell phone is being used while driving the vehicle. It is estimated that 80% of crashes and 65% of near collisions involved drivers who were inattentive in traffic for three seconds before the event. Five videos in real environment were generated to test the systems. The pattern recognition system (RP) uses adaptive skin segmentation, feature extraction, and machine learning to detect cell phone usage on each frame. The cell phone detection happens when, in periods of 3 seconds, 60% (threshold) of frames or more are identified as a cell phone use, individually. The average accuracy on videos achieved was 87.25% with Multilayer Perceptron (MLP), Gaussian activation function, and two neurons of the intermediate layer. The movement detection system (DM) uses optical flow, filtering the most relevant movements of the scene, and three successive frames for detecting the movements to take the phone to the ear and take it off. The DM proposal was not demonstrated as being an effective solution for detecting cell phone use, reaching an accuracy of 52.86%. The third solution is a hybrid system. It uses the RP system for classification and the DM for choosing the RP parameters. The parameters chosen for RP are the threshold and the classification system. The definition of these two parameters occurs at the end of each period, based on movement detected by the DM. Experimentally it was established that, when the movement induces to use cell phone, it is proper to use the threshold of 60%, and the classifier as MLP/Gaussian with seven neurons of the intermediate layer; otherwise, it is used threshold 85%, and MLP/Gaussian with two neurons of the intermediate layer for classification. The hybrid solution is the most robust system with average accuracy of 91.68% in real environment. / Neste trabalho, são desenvolvidas três propostas de sistemas que permitem identificar o uso de celular, durante o ato de dirigir um veículo, utilizando imagens capturadas de uma câmera posicionada em frente ao motorista. Estima-se que 80% das colisões e 65% das quase colisões envolveram motoristas que não estavam prestando a devida atenção ao trânsito por três segundos antes do evento. Cinco vídeos em ambiente real foram gerados com o intuito de testar os sistemas. A proposta de reconhecimento de padrões (RP) emprega segmentação de pele adaptativa, extração de características e aprendizado de máquina (classificador) na detecção do celular em cada quadro processado. A detecção do uso do celular ocorre quando, em períodos de 3 segundos, ao menos em 60% dos quadros (corte) são identificados com celular. A acurácia média nos vídeos alcançou 87, 25% ao utilizar Perceptron Multi-camadas (MLP) com função de ativação gaussiana e dois neurônios na camada intermediária como classificador. A proposta de detecção de movimento (DM) utiliza o fluxo ótico, filtragem dos movimentos mais relevantes da cena e três quadros consecutivos para detectar os momentos de levar o celular ao ouvido e o retirá-lo. A aplicação do DM, como solução para detectar o uso do celular, não se demostrou eficaz atingindo uma acurácia de 52, 86%. A terceira proposta, uma solução híbrida, utiliza o sistema RP como classificador e o de DM como seu parametrizador. Os parâmetros escolhidos para o sistema de RP são o corte e o sistema classificador. A definição desses dois parâmetros ocorre ao final de cada período, baseada na movimentação detectada pela DM. Com experimentações definiu-se que, caso a movimentação induza ao uso do celular, é adequado o uso do corte de 60% e o classificador MLP/Gaussiana com sete neurônios na camada intermediária, caso contrário, utiliza-se o corte de 85% e classificador MLP/Gaussiana com dois neurônios na mesma camada. A versão híbrida é a solução desenvolvida mais robusta, atingindo a melhor acurácia média de 91, 68% em ambiente real.
279

Estudo da aplicação do algoritmo Viola-Jones à detecção de pneus com vistas ao reconhecimento de automóveis. / Study of the application of the Viola-Jones algorithm to the detection of tires with a view to car recognition.

RODRIGUES, Matheus Bezerra Estrela. 01 October 2018 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-10-01T15:06:04Z No. of bitstreams: 1 MATHEUS BEZERRA ESTRELA RODRIGUES - DISSERTAÇÃO PPGCC 2012..pdf: 7068761 bytes, checksum: 4b1283a1da5ca466fcf0357c33091a30 (MD5) / Made available in DSpace on 2018-10-01T15:06:04Z (GMT). No. of bitstreams: 1 MATHEUS BEZERRA ESTRELA RODRIGUES - DISSERTAÇÃO PPGCC 2012..pdf: 7068761 bytes, checksum: 4b1283a1da5ca466fcf0357c33091a30 (MD5) Previous issue date: 2012-02-29 / Impulsionado pelo crescimento no uso de vigilância eletrônica, essa pesquisa introduz o uso de uma técnica que demonstra eficiência no reconhecimento de faces em imagens, alterando o objeto de busca para pneus de veículos, visando o reconhecimento da presença do veículo na cena. A técnica aplicada para o reconhecimento é o algoritmo Viola-Jones. Essa técnica é dividida em dois momentos: o treinamento e a detecção. Na primeira etapa, vários treinamentos são executados, usando aproximadamente 7000 imagens diferentes. Para a etapa final, um detector de faces foi adaptado para reconhecer pneus, utilizando o treinamento da etapa anterior, e sua eficiência em reconhecer os pneus foi comparável à eficiência do detector de faces que usa treinamento de referência da biblioteca em software que é referência nesta área, OpenCV. O detector desenvolvido apresentou taxa de reconhecimento de 77%, quando o reconhecimento de faces obteve 80%. A taxa de falsos negativos também foi próxima, apresentando o detector de pneus 2% e o de faces 1%. / Motivated by the growing use of electronic surveillance, this research introduces the use of the Viola-Jones algorithm, which is known to be efficient in recognition of human faces in images, changing the object to be recognized to vehicle tires, aiming to detect vehicles in a scene. This approach divides the process in two steps: training and detection. Training was done using around 7000 different images of vehicles. For the detection step, work was done to adapt a face detector to detect vehicles tires. The tire detector was compared to a face detector that used a reference training for faces from OpenCV library. The tire detector showed 77% efficiency, whereas the face detector showed 80%. False negative numbers also showed similar closeness, as 2% for the tire detector and 1% for the reference face detector.
280

Análise de formas usando wavelets em grafos / Shape analysis using wavelets on graphs

Jorge de Jesus Gomes Leandro 11 February 2014 (has links)
O presente texto descreve a tese de doutorado intitulada Análise de Formas usando Wavelets em Grafos. O tema está relacionado à área de Visão Computacional, particularmente aos tópicos de Caracterização, Descrição e Classificação de Formas. Dentre os métodos da extensa literatura em Análise de Formas 2D, percebe-se uma presença menor daqueles baseados em grafos com topologia arbitrária e irregular. As contribuições desta tese procuram preencher esta lacuna. É proposta uma metodologia baseada no seguinte pipeline : (i) Amostragem da forma, (ii) Estruturação das amostras em grafos, (iii) Função-base definida nos vértices, (iv) Análise multiescala de grafos por meio da Transformada Wavelet Espectral em grafos, (v) Extração de Características da Transformada Wavelet e (vi) Discriminação. Para cada uma das etapas (i), (ii), (iii), (v) e (vi), são inúmeras as abordagens possíveis. Um dos desafios é encontrar uma combinação de abordagens, dentre as muitas alternativas, que resulte em um pipeline eficaz para nossos propósitos. Em particular, para a etapa (iii), dado um grafo que representa uma forma, o desafio é identificar uma característica associada às amostras que possa ser definida sobre os vértices do grafo. Esta característica deve capturar a influência subjacente da estrutura combinatória de toda a rede sobre cada vértice, em diversas escalas. A Transformada Wavelet Espectral sobre os Grafos revelará esta influência subjacente em cada vértice. São apresentados resultados obtidos de experimentos usando formas 2D de benchmarks conhecidos na literatura, bem como de experimentos de aplicações em astronomia para análise de formas de galáxias do Sloan Digital Sky Survey não-rotuladas e rotuladas pelo projeto Galaxy Zoo 2 , demonstrando o sucesso da técnica proposta, comparada a abordagens clássicas como Transformada de Fourier e Transformada Wavelet Contínua 2D. / This document describes the PhD thesis entitled Shape Analysis by using Wavelets on Graphs. The addressed theme is related to Computer Vision, particularly to the Characterization, Description and Classication topics. Amongst the methods presented in an extensive literature on Shape Analysis 2D, it is perceived a smaller presence of graph-based methods with arbitrary and irregular topologies. The contributions of this thesis aim at fullling this gap. A methodology based on the following pipeline is proposed: (i) Shape sampling, (ii) Samples structuring in graphs, (iii) Function dened on vertices, (iv) Multiscale analysis of graphs through the Spectral Wavelet Transform, (v) Features extraction from the Wavelet Transforms and (vi) Classication. For the stages (i), (ii), (iii), (v) and (vi), there are numerous possible approaches. One great challenge is to nd a proper combination of approaches from the several available alternatives, which may be able to yield an eective pipeline for our purposes. In particular, for the stage (iii), given a graph representing a shape, the challenge is to identify a feature, which may be dened over the graph vertices. This feature should capture the underlying inuence from the combinatorial structure of the entire network over each vertex, in multiple scales. The Spectral Graph Wavelet Transform will reveal such an underpining inuence over each vertex. Yielded results from experiments on 2D benchmarks shapes widely known in literature, as well as results from astronomy applications to the analysis of unlabeled galaxies shapes from the Sloan Digital Sky Survey and labeled galaxies shapes by the Galaxy Zoo 2 Project are presented, demonstrating the achievements of the proposed technique, in comparison to classic approaches such as the 2D Fourier Transform and the 2D Continuous Wavelet Transform.

Page generated in 0.0931 seconds