• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 8
  • Tagged with
  • 8
  • 8
  • 6
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Classificação de séries temporais por similaridade e extração de atributos com aplicação na identificação automática de insetos / Classification of time series similarity and feature extraction with application to automatic identification of insects

Silva, Diego Furtado 27 February 2014 (has links)
Um dos grandes desafios em mineração de dados é a integração de dados temporais ao seu processo. Existe um grande número de aplicações emergentes que envolvem dados temporais, incluindo a identificação de transações fraudulentas em cartões de crédito e ligações telefônicas, a detecção de intrusão em sistemas computacionais, a predição de estruturas secundárias de proteínas, a análise de dados provenientes de sensores, entre muitas outras. Neste trabalho, tem-se interesse na classificação de séries temporais que representam sinais de áudio. Como aplicação principal, tem-se interesse em classificar sinais de insetos coletados por um sensor óptico, que deve ser capaz de contar e classificar os insetos de maneira automática. Apesar de serem coletados opticamente, os sinais capturados se assemelham a sinais de áudio. O objetivo desta pesquisa é comparar métodos de classificação por similaridade e por extração de atributos que possam ser utilizados no contexto da classificação de insetos. Para isso, foram empregados os principais métodos de classificação de sinais de áudio, que têm sido propostos para problemas como reconhecimento de instrumentos musicais, fala e espécies animais. Neste trabalho, é mostrado que, de modo geral, a abordagem por extração de atributos é mais eficaz do que a classificação por similaridade. Mais especificamente, os melhores resultados são obtidos com a utilização de coeficientes mel-cepstrais. Este trabalho apresenta contribuições significativas em outras aplicações, também relacionadas à análise de séries temporais e sinais de áudio, por similaridade e por extração de atributos / One of the major challenges in data mining is the integration of temporal data to its process. There are a number of emerging applications that involve temporal data, including fraud detection in credit card transactions and phone calls, intrusion detection in computer systems, the prediction of secondary structures of proteins, the analysis of data from sensors, and many others. In this work, our main interest is the classification of time series that represent audio signals. Our main interest is an application for classifying signals of insects collected from an optical sensor, which should count and classify insects automatically. Although these signals are optically collected, they resemble audio signals. The objective of this research is to compare classification methods based on similarity and feature extraction in the context of insects classification. For this purpose, we used the main classification methods for audio signals, which have been proposed for problems such as musical instrument, speech and animal species recognition. This work shows that, in general, the approach based on feature extraction is more accurate than the classification by similarity. More specifically, the best results are obtained with mel-frequency cepstrum coefficients. This work also presents significant contributions in other applications, also related to the analysis of time series and audio signals by similarity and feature extraction
2

Classificação de séries temporais por similaridade e extração de atributos com aplicação na identificação automática de insetos / Classification of time series similarity and feature extraction with application to automatic identification of insects

Diego Furtado Silva 27 February 2014 (has links)
Um dos grandes desafios em mineração de dados é a integração de dados temporais ao seu processo. Existe um grande número de aplicações emergentes que envolvem dados temporais, incluindo a identificação de transações fraudulentas em cartões de crédito e ligações telefônicas, a detecção de intrusão em sistemas computacionais, a predição de estruturas secundárias de proteínas, a análise de dados provenientes de sensores, entre muitas outras. Neste trabalho, tem-se interesse na classificação de séries temporais que representam sinais de áudio. Como aplicação principal, tem-se interesse em classificar sinais de insetos coletados por um sensor óptico, que deve ser capaz de contar e classificar os insetos de maneira automática. Apesar de serem coletados opticamente, os sinais capturados se assemelham a sinais de áudio. O objetivo desta pesquisa é comparar métodos de classificação por similaridade e por extração de atributos que possam ser utilizados no contexto da classificação de insetos. Para isso, foram empregados os principais métodos de classificação de sinais de áudio, que têm sido propostos para problemas como reconhecimento de instrumentos musicais, fala e espécies animais. Neste trabalho, é mostrado que, de modo geral, a abordagem por extração de atributos é mais eficaz do que a classificação por similaridade. Mais especificamente, os melhores resultados são obtidos com a utilização de coeficientes mel-cepstrais. Este trabalho apresenta contribuições significativas em outras aplicações, também relacionadas à análise de séries temporais e sinais de áudio, por similaridade e por extração de atributos / One of the major challenges in data mining is the integration of temporal data to its process. There are a number of emerging applications that involve temporal data, including fraud detection in credit card transactions and phone calls, intrusion detection in computer systems, the prediction of secondary structures of proteins, the analysis of data from sensors, and many others. In this work, our main interest is the classification of time series that represent audio signals. Our main interest is an application for classifying signals of insects collected from an optical sensor, which should count and classify insects automatically. Although these signals are optically collected, they resemble audio signals. The objective of this research is to compare classification methods based on similarity and feature extraction in the context of insects classification. For this purpose, we used the main classification methods for audio signals, which have been proposed for problems such as musical instrument, speech and animal species recognition. This work shows that, in general, the approach based on feature extraction is more accurate than the classification by similarity. More specifically, the best results are obtained with mel-frequency cepstrum coefficients. This work also presents significant contributions in other applications, also related to the analysis of time series and audio signals by similarity and feature extraction
3

Classificador automático de achados mamográficos em imagens digitais de mamas densas utilizando técnicas híbridas / Automatic classifier of mammographic findings in dense breast digital images using hybrid techniques

Patrocinio, Ana Claudia 22 December 2004 (has links)
Esta tese apresenta uma metodologia para classificação automática de achados mamográficos em mamas densas através de uma abordagem híbrida de classificadores e extração de atributos, como parte de um esquema computadorizado de auxílio ao diagnóstico (CAD) para mamografia. Foram implementadas duas redes Backpropagation. Uma responde pela classificação de clusters de microcalcificações, através de atributos descritores geométricos, em duas classes - suspeito e não suspeito. A outra rede classifica nódulos utilizando descritores geométricos e uma entrada com informação extraída de atributos de intensidade, produzindo na saída dois tipos de informação: presença ou não do nódulo, e constatada a presença do nódulo, classificação da região de interesse (RI) entre as categorias BI-RADS. As respostas de um \"clusterizador\" de RIs através de atributos de intensidade serviram de entrada para essa rede fornecendo uma informação de grau de densidade da RI. Uma interface foi desenvolvida para a apresentação dos resultados a fim de fornecer informações mais detalhadas da classificação e do caso analisado. Os resultados do classificador foram analisados através de análise estatística de sensibilidade e especificidade, e também por curvas ROC. Os resultados obtidos ficaram próximos a 89% de acerto total (verdadeiros-positivos mais verdadeiros-negativos) para nódulos produzindo valor de Az superior a 0,92 e ultrapassaram 75% de acerto da classificação entre as classes BI-RADS. Na classificação dos clusters os acertos totais do classificador ficaram próximos de 90%, com Az superior a 0,94. Para ambos tipos de lesões, as taxas de respostas falsas-negativas ficaram abaixo de 0,1, o que significa baixo erro em relação à não detecção da doença quando o sinal está presente. O classificador apresentado nesse trabalho é a conclusão de uma etapa importante do esquema CAD que vem sendo desenvolvido pelo grupo, além de possibilitar a disponibilização de mais uma ferramenta automática de auxílio ao diagnóstico do câncer de mama aos serviços de mamografia. / This thesis presents a methodology for automatic classification of mamographic findings in image of dense breast through hybrid approach of classifiers and features extraction techniques, as part of a computer-aided diagnostic (CAD) scheme for mammography. Two Backpropagation neural networks were implemented. One for microcalcifications clustered classification, through geometric descriptors, in two classes - suspect and non-suspect. The other neural network classifies nodules using geometric descriptors and additional information from intensity features extracted, producing in the output two kinds of information: presence or not of the nodule, and if nodule is present in the image, classification among BI-RADS categories. The result of clustering technique by using intensity features is presented as a new input to neural network, supplying density degree of image. An interface was developed for results presentation in order to supply more detailed information from the classifier outputs and of the analyzed case. The results of the classifier were analyzed through sensibility and specificity statistical analysis, and also for ROC curves. The results were close to 89% of total accuracy (positive-true plus negative-true) for nodules producing value of Az more than 0,92 and 75% of accuracy to classification among BI-RADS categories. In the cluster classification the total accuracy is about 90%, and Az greater than 0,94. In both kinds of lesions, negative-false result rates were below 0,1, which means low error related to the fail to detect the disease when the signal is present. The classifier presented in this work is the conclusion of an important stage of the CAD scheme that has been developed by the group, besides making possible the availability of one more automatic tool of aid to the breast cancer diagnosis to be used in mammography centers.
4

Extração de atributos de fáculas de imagens ultravioletas de isoladores poliméricos.

BRITO, Kal-El Basílio. 17 April 2018 (has links)
Submitted by Lucienne Costa (lucienneferreira@ufcg.edu.br) on 2018-04-17T14:10:59Z No. of bitstreams: 1 KAL-EL BASÍLIO BRITO – DISSERTAÇÃO (PPGEE) 2017.pdf: 3481089 bytes, checksum: 8584b99da594f1f67c9b3daa41e27564 (MD5) / Made available in DSpace on 2018-04-17T14:10:59Z (GMT). No. of bitstreams: 1 KAL-EL BASÍLIO BRITO – DISSERTAÇÃO (PPGEE) 2017.pdf: 3481089 bytes, checksum: 8584b99da594f1f67c9b3daa41e27564 (MD5) Previous issue date: 2017-03-17 / Capes / Em inspeção, com câmara sensível à radiação ultravioleta, são fornecidas apenas informações acerca do local onde estão concentradas as descargas corona e uma estimativa de intensidade dessas decargas em equipamento de alta tensão. Nesse intuito, uma metodologia de extração de atributos das fáculas de imagens ultravioletas de isoladores poliméricos de 230 kV foi desenvolvida. Para isso, foram usados vídeos captados pela câmera de detecção ultravioleta como material. Essas informações, quando adequadamente dispostas, podem servir de entrada a um sistema de auxílio à tomada de decisão que poderá classificar, finalmente, os isoladores em padrões predefinidos. Na metodologia do trabalho, desenvolveram-se várias rotinas de processamento digital de imagens para, inicialmente, adequar as imagens e, posteriormente, quantificar os atributos de interesse extraídos. As rotinas de adequação de imagens buscam segmentar o shape do isolador do plano de fundo, segmentar em uma imagem as fáculas, que representam descargas causadas pelo efeito corona, integralizar as fáculas de vários quadros em apenas uma imagem, eliminar o que vier a ser considerado ruído e segmentar o shape do isolador em partes de interesse. As rotinas de quantificação de atributos são destinadas a calcular a área, o perímetro, o fator de forma e a persistência das fáculas, além de sua distância às partes de interesse do isolador polimérico de 230 kV. Como resultado do desenvolvimento das rotinas, é apresentado um algoritmo para extração de atributos de fáculas. Finalmente, é feita uma análise de sensibilidade dos parâmetros usados no algoritmo no intuito de delimitar suas condições de uso. Dois estudos da aplicação do algoritmo foram realizados, em que, para cada um deles foram processados 64 combinações de número de quadros e de limite de ruído. Foram apresentadas as superfícies dos atributos de área, perímetro, fator de forma e persistência das fáculas em função dos dois parâmetros citados. A fim de determinar qual par ordenado (número de quadros, limite de ruído) seria adequado, adotou-se como métrica buscar o menor valor de gradiente das superfícies dos atributos. Concluiu-se que a metodologia de extração de atributos de fáculas de imagens ultravioletas de isoladores, para aprimoramento da classificação de isoladores foi desenvolvida com sucesso e a contribuição do trabalho se apresenta na metodologia para extração de atributos e na determinação do número de quadros e limite de ruído adequados para vídeos ultravioletas. / On inspection with ultraviolet sensitive camera, it is only supplied information on where the corona discharges are concentrated and an estimative of intensity of these discharges in high voltage equipment. For this purpose, it was developed a methodology of faculae attribute extraction of ultraviolet images from 230 kV polymeric insulators. In order to do this, videos captured by the ultraviolet detection camera were used as work material. The methodology of the work consists of the development of several digital image processing routines, initially, to adapt images and, later, to quantify the attributes of interest extracted. The image adaptation routines seek to segment the shape of the insulator from the background, to segment in an image the faculae that represent discharges caused by corona effect, to integrate faculae from multiple frames in only one image, to eliminate what is to be considered noise and to segment the shape of the insulator into parts of interest. The attribute quantification routines are destined for faculae area, perimeter, form factor and persistence, in addition to their distances of the 230 kV polymeric insulator parts of interest. As a result of the development of these routines an algorithm for attribute extraction is presented. Finally, a sensitivity analysis of the parameters used in the algorithm is made, with the intention to delimit its use conditions. Two case studies of the application of the algorithm were performed, for each of them 64 combinations of number of frames and noise limit were processed. Presenting the surfaces of area, perimeter, shape factor and persistence of the faculae attributes in function of the two cited parameters. In order to determine which number of frames and noise limit would be suitable, it was adopted as metric to look for the lowest gradient value of the attributes surfaces. In conclusion the methodology for extracting attributes from the UV image faculae of insulators to improve the classification of insulators was successfully developed and the contribution of the work is presented in extracting attributes and determining suitable number of frames and noise limits for UV videos.
5

Classificador automático de achados mamográficos em imagens digitais de mamas densas utilizando técnicas híbridas / Automatic classifier of mammographic findings in dense breast digital images using hybrid techniques

Ana Claudia Patrocinio 22 December 2004 (has links)
Esta tese apresenta uma metodologia para classificação automática de achados mamográficos em mamas densas através de uma abordagem híbrida de classificadores e extração de atributos, como parte de um esquema computadorizado de auxílio ao diagnóstico (CAD) para mamografia. Foram implementadas duas redes Backpropagation. Uma responde pela classificação de clusters de microcalcificações, através de atributos descritores geométricos, em duas classes - suspeito e não suspeito. A outra rede classifica nódulos utilizando descritores geométricos e uma entrada com informação extraída de atributos de intensidade, produzindo na saída dois tipos de informação: presença ou não do nódulo, e constatada a presença do nódulo, classificação da região de interesse (RI) entre as categorias BI-RADS. As respostas de um \"clusterizador\" de RIs através de atributos de intensidade serviram de entrada para essa rede fornecendo uma informação de grau de densidade da RI. Uma interface foi desenvolvida para a apresentação dos resultados a fim de fornecer informações mais detalhadas da classificação e do caso analisado. Os resultados do classificador foram analisados através de análise estatística de sensibilidade e especificidade, e também por curvas ROC. Os resultados obtidos ficaram próximos a 89% de acerto total (verdadeiros-positivos mais verdadeiros-negativos) para nódulos produzindo valor de Az superior a 0,92 e ultrapassaram 75% de acerto da classificação entre as classes BI-RADS. Na classificação dos clusters os acertos totais do classificador ficaram próximos de 90%, com Az superior a 0,94. Para ambos tipos de lesões, as taxas de respostas falsas-negativas ficaram abaixo de 0,1, o que significa baixo erro em relação à não detecção da doença quando o sinal está presente. O classificador apresentado nesse trabalho é a conclusão de uma etapa importante do esquema CAD que vem sendo desenvolvido pelo grupo, além de possibilitar a disponibilização de mais uma ferramenta automática de auxílio ao diagnóstico do câncer de mama aos serviços de mamografia. / This thesis presents a methodology for automatic classification of mamographic findings in image of dense breast through hybrid approach of classifiers and features extraction techniques, as part of a computer-aided diagnostic (CAD) scheme for mammography. Two Backpropagation neural networks were implemented. One for microcalcifications clustered classification, through geometric descriptors, in two classes - suspect and non-suspect. The other neural network classifies nodules using geometric descriptors and additional information from intensity features extracted, producing in the output two kinds of information: presence or not of the nodule, and if nodule is present in the image, classification among BI-RADS categories. The result of clustering technique by using intensity features is presented as a new input to neural network, supplying density degree of image. An interface was developed for results presentation in order to supply more detailed information from the classifier outputs and of the analyzed case. The results of the classifier were analyzed through sensibility and specificity statistical analysis, and also for ROC curves. The results were close to 89% of total accuracy (positive-true plus negative-true) for nodules producing value of Az more than 0,92 and 75% of accuracy to classification among BI-RADS categories. In the cluster classification the total accuracy is about 90%, and Az greater than 0,94. In both kinds of lesions, negative-false result rates were below 0,1, which means low error related to the fail to detect the disease when the signal is present. The classifier presented in this work is the conclusion of an important stage of the CAD scheme that has been developed by the group, besides making possible the availability of one more automatic tool of aid to the breast cancer diagnosis to be used in mammography centers.
6

Estudo de padrões em sinais musicais sob a perspectiva dos grafos de visibilidade

Melo, Dirceu de Freitas Piedade 23 November 2017 (has links)
Submitted by Dirceu Melo (dirceumelo@ymail.com) on 2018-04-05T09:57:27Z No. of bitstreams: 1 TESE_DIRCEU_MELO_ABNT.pdf: 9074956 bytes, checksum: ab3e41a80f3202028098ae8591fc5ba4 (MD5) / Approved for entry into archive by Maria Auxiliadora da Silva Lopes (silopes@ufba.br) on 2018-04-10T13:58:44Z (GMT) No. of bitstreams: 1 TESE_DIRCEU_MELO_ABNT.pdf: 9074956 bytes, checksum: ab3e41a80f3202028098ae8591fc5ba4 (MD5) / Made available in DSpace on 2018-04-10T13:58:44Z (GMT). No. of bitstreams: 1 TESE_DIRCEU_MELO_ABNT.pdf: 9074956 bytes, checksum: ab3e41a80f3202028098ae8591fc5ba4 (MD5) / O advento da tecnologia digital favoreceu um extraordinário aumento da capacidade de armazenamento e compartilhamento de arquivos de conteúdo musical, o que motivou algumas corporações a incluírem em suas plataformas, algoritmos computacionais para o gerenciamento automático de grandes bibliotecas de música digital. A classificação de gêneros musicais tem chamado a atenção como uma das formas de organização deste tipo de biblioteca, e nas últimas décadas, tem se tornado objeto de estudo de pesquisadores de um campo multidisciplinar emergente conhecido como Recuperação de Informações Musicais (MIR). A maioria dos trabalhos desse campo de pesquisa adota a estratégia de categorização de gêneros musicais usando a extração de atributos (ritmo, melodia e timbre) como uma de suas etapas essenciais. Dentre esses atributos, o ritmo desempenha um papel muito importante na definição do estilo musical. O estudo da rítmica em sinais de áudio inclui a investigação de características de regularidade de seus transientes. A auto-similaridade dos sinais pode dar informações relevantes sobre essa regularidade, e desta forma, contribuir para o estudo da complexidade rítmica de uma música. A maioria dos trabalhos do campo de processamento de sinais têm estudado a auto-similaridade em música digital utilizando o histograma de batidas. Existe uma carência na diversidade de descritores rítmicos para sinais de áudio, e o campo de processamento de sinais está restrito à técnicas baseadas em representações tempo-frequência. Novos tipos de descritores poderiam colaborar com os algoritmos tradicionais, para a melhorar a extração de características rítmicas, oferecendo outro ponto de vista para essa tarefa. Esta tese propõe uma metodologia para identificar padrões de auto-similaridade em sinais de áudio, usando propriedades topológicas de redes, denominado de Descritor de Visibilidade em Flutuações de Variância (DVFV). Este descritor é constituído de: Modularidade - Q, Número de Comunidades - Nc, Grau Médio - < k > e Densidade (Delta). Os resultados experimentais obtidos com o cálculo do DVFV em 1.000 grafos de visibilidade, correspondentes a 1.000 sinais, categorizados em 10 gêneros musicais, mostraram que o DVFV é capaz de detectar gráfica e numericamente, padrões de auto-similaridade em sinais classificados em gêneros musicais, de estabelecer uma relação hierárquica de categorias usando propriedades de redes, e de contribuir para que um sistema de classificação alcance precisão comparável ou superior a trabalhos correlatos. / ABSTRAC The advent of digital technology favored an extraordinary increase in the storage capacity and sharing of music content files, which motivated some corporations to include in their platforms computational algorithms for the automatic management of large digital music libraries. The classification of musical genres has attracted attention as one of the forms of organization of this type of library, and in recent decades, has become the object of study of researchers of an emerging multidisciplinary field known as Music Information Retrieval (MIR). Most of the works in this field of research adopt the strategy of categorization of musical genres using the extraction of attributes (rhythm, melody and timbre) as one of its essential stages. Among these attributes, rhythm plays a very important role in the definition of musical style. The study of rhythmic in audio signals includes the investigation of regularity characteristics of their transients. The self-similarity of the signals can give relevant information about this regularity, and thus contribute to the study of the rhythmic complexity of a song. Most of the works of the signal processing field have studied self-similarity in digital music using the beat histogram. There is a lack in the diversity of rhythm descriptors for audio signals, and the signal processing field is restricted to techniques based on time-frequency representations. New types of descriptors could collaborate with traditional algorithms to improve the extraction of rhythmic features, providing another point of view for this task. This thesis proposes a methodology to identify self-similarity patterns in audio signals, using topological properties of networks, called Variance Fluctuation Visibility Descriptor (DVFV). This descriptor consists of: Modularity - Q, Number of Communities - Nc, Average Degree - < k > and Density (Delta). The experimental results obtained with the calculation of DVFV in 1.000 graphs of visibility, corresponding to 1.000 signs, categorized in 10 musical genres, showed that the DVFV is able to detect graphically and numerically, self-similarity patterns in signals classified in musical genres, establish a hierarchical relationship of categories using properties of networks, and contribute for a classification system to reach comparable or superior precision to related works.
7

Combinação de múltiplos classificadores para reconhecimento de face humana

Salvadeo, Denis Henrique Pinheiro 24 July 2009 (has links)
Made available in DSpace on 2016-06-02T19:05:35Z (GMT). No. of bitstreams: 1 2559.pdf: 3778790 bytes, checksum: 6c638e612ae760d51fad8def01969ed1 (MD5) Previous issue date: 2009-07-24 / Universidade Federal de Sao Carlos / Lately, the human face object has been exploited by the advent of systems involving biometrics, especially for applications in security. One of the most challenging applications is the problem of human face recognition, which consists of determining the correspondence between an input face and an individual from a database of known persons. The process of face recognition consists of two steps: feature extraction and classification. In the literature of face recognition, different techniques have been used, and they can be divided into holistic techniques (implicit feature extraction), feature-based techniques (explicit feature extraction) and hybrid techniques (involving the two previous). In many articles, holistic techniques have proved to be most efficient and generally they involve methods of statistical pattern recognition as Principal Component Analysis (PCA), Independent Component Analysis (ICA), Linear Discriminant Analysis (LDA), Support Vector Machines (SVM), and Neural Networks. For problems such as human face recognition in digital images, a crucial point is the ability to generalize. The solution for this problem is complex due to the high dimensionality of data and the small number of samples per person. Using a single classifier would reduce the ability of recognition, since it is difficult to design a single classifier in these conditions that capture all variability that span the human faces spaces. Thus, this work proposes to investigate the combination of multiple classifiers applied to the problem of face recognition, defining a new scheme to resolve this problem, varying the feature extraction with PCA and some its variants and LDA, K-Nearest Neighbor (K-NN) and Maximum Likelihood (MaxLike) classifiers and several trainable or not trainable methods for combining classifiers. Still, to mitigate the problem of small sample size (SSS), a technique for regularizing the covariance matrix was used. Finally, to assess the classification performance, Holdout and Resubstitution methods were used to partition the data set and the Kappa coefficient and Z and T statistics were used to measure the performance of the proposed scheme. From the experiments it was concluded that the best sub-schemes were the RBPCA/MaxLike-PCA/NN-KL5/NN classifiers combined by the Majorite Vote Rule for the ORL database and the RLDA+RPCA/MaxLike-KL4/NNKL5/ NN classifiers combined by the Sum Rule for the AR database, obtaining Kappa coefficients of 0.956 (mean) and 0.839, respectively. Besides that, it has been determined that these sub-schemes are robust to pose (ORL database), illumination and small change of the facial expression, but they were affected by occlusions (AR database). / Nas últimas décadas, o objeto face humana tem sido muito explorado graças ao advento dos sistemas envolvendo biometria, especialmente para aplicações nas áreas de segurança. Uma das aplicações mais desafiadoras é o problema de reconhecimento de face humana, que consiste em determinar a qual indivíduo em um banco de dados de pessoas conhecidas uma imagem de face corresponde. O processo de reconhecimento de face consiste basicamente em duas etapas: extração de atributos e classificação. Na literatura de reconhecimento de faces, diversas técnicas foram utilizadas, podendo ser divididas em técnicas holísticas (extração de atributos implícita), técnicas baseadas em características (extração de atributos explícita) e técnicas híbridas (envolvem as duas anteriores). Em maior número na literatura, as técnicas holísticas demonstraram ser mais eficientes e envolvem em geral, métodos de reconhecimento de padrões estatísticos como Principal Component Analysis (PCA), Independent Component Analysis (ICA), Linear Discriminant Analysis (LDA), Support Vector Machines (SVM), além de Redes Neurais. Para problemas como o reconhecimento de face humana em imagens digitais, um ponto determinante é a capacidade de generalização. Por esse problema ser complexo de ser resolvido, devido à alta dimensionalidade dos dados e ao número pequeno de amostras por pessoa, utilizar um único classificador tornaria reduzida a capacidade de reconhecimento, já que é difícil projetar um único classificador nestas condições que capture todas as variações que formam o espaço de faces humanas. Dessa forma, este trabalho se propôs à investigação de combinação de múltiplos classificadores aplicados ao problema do reconhecimento de face, obtendo um novo esquema para solução do mesmo, variando a extração de atributos com PCA e algumas variantes e LDA, classificadores K Vizinhos Mais Próximos e Máxima Verossimilhança e diversos combinadores treináveis ou não. Ainda, para amenizar o problema de poucas amostras, uma técnica de regularização de matrizes de covariância foi utilizada. Finalmente, para avaliação de desempenho utilizou-se Holdout e Resubstitution para particionar o conjunto de dados, assim como o coeficiente Kappa e testes de significância Z e T foram utilizados para medir o desempenho do esquema proposto. Dos experimentos concluiu-se que os melhores subesquemas foram o RBPCA/MaxVer-PCA/NN-KL5/NN &#8594; Votação por Maioria para o banco de dados ORL e o RLDA+RPCA/MaxVer-KL4/NN-KL5/NN &#8594; Soma para o banco de dados AR com coeficientes Kappa 0,956 (médio) e 0,839, respectivamente. Além disso, foi determinado que estes subesquemas são robustos à pose (ORL), iluminação e à pequenas variações de expressão facial, mas sofreram influência de oclusões (AR).
8

Classificação de gênero em dados do Twitter baseada na extração de meta-atributos textuais

Lopes Filho, José Ahirton Batista 17 February 2016 (has links)
Submitted by Georgia Vaz (georgia.vaz@mackenzie.br) on 2016-07-06T19:42:24Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) JOSE AHYRTON BATISTA LOPES FILHO.pdf: 1482320 bytes, checksum: 2162e0cdfb92a9b596af601d0f4c4ed1 (MD5) / Made available in DSpace on 2016-07-06T19:42:24Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) JOSE AHYRTON BATISTA LOPES FILHO.pdf: 1482320 bytes, checksum: 2162e0cdfb92a9b596af601d0f4c4ed1 (MD5) Previous issue date: 2016-02-17 / With the growth of social media in recent years, there has been an increase on the interest in the automatic characterization of users based on the informal content they generate. In this context, the labeling of users in demographic categories, such as age, ethnicity, origin and race,and the investigation of other attributes inherent to users, such as political preferences, personality and gender expression, has received a great deal of attention, especially based on Twitter data. The present work focuses on the task of gender classification by using 65 textual meta-attributes, commonly used in text attribution tasks, for the extraction of gender expression linguistic cues in tweets written in Portuguese.The work takes into account characters, syntax, words, structure and morphology, as well as selected psycolinguistic cues of short length, multi-genre, content free texts posted on Twitter to classify author's gender via four different machine-learning algorithms. The proposed meta-attributes in this process are also evaluated. / Com o crescimento das mídias sociais nos últimos anos tem havido um aumento de interesse na caracterização automática dos usuários com base no conteúdo informal que eles geram. Neste contexto, a rotulação dos usuários em categorias demográficas tais como idade, etnia, origem e raça, bem como a investigação de outros atributos inerentes aos usuários, como preferências políticas, personalidade e expressão de gênero, tem recebido grande atenção, especialmente com base em dados do Twitter. O presente trabalho é centrado na tarefa de classificação de gênero, propondo 65 meta-atributos textuais, comumente usados em tarefas de atribuição de texto, para a extração de características linguísticas quanto à expressão de gênero em tweets escritos em Português. São considerados caracteres, sintaxe, palavras, estrutura e morfologia, além de determinados atributos psicolinguísticos, dos textos de comprimento curto, multi-gênero e de livre conteúdo postados no Twitter para a classificação de gênero do autor por meio de quatro algoritmos de aprendizado de máquina diferentes. Também é avaliada a influência dos meta-atributos propostos para este processo.

Page generated in 0.1169 seconds