Spelling suggestions: "subject:"redução dda dimensionalidade"" "subject:"redução daa dimensionalidade""
11 |
Seleção de características usando algoritmos genéticos para classificação de imagens de textos em manuscritos e impressosCoelho, Gleydson Vilanova Viana 31 January 2013 (has links)
Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-10T18:50:01Z
No. of bitstreams: 2
Dissertação Gleydson Vilanova.pdf: 10406213 bytes, checksum: 4161dab35fb90ca62e4ebd0186c0870e (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-11T17:34:31Z (GMT). No. of bitstreams: 2
Dissertação Gleydson Vilanova.pdf: 10406213 bytes, checksum: 4161dab35fb90ca62e4ebd0186c0870e (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013 / A presença de textos manuscritos e impressos em um mesmo documento representa
um grande desafio para os atuais mecanismos de Reconhecimento Óptico de
Caracteres. Uma vez que essas classes de texto possuem suas próprias rotinas de
reconhecimento, o uso de técnicas que permitam diferenciação entre elas tornou-se
indispensável e o bom funcionamento dessas técnicas depende da escolha de características
que melhor representem os elementos de texto sobre os quais os classificadores
devem atuar. Considerando que na literatura existe uma grande variedade
de características utilizadas para este fim, este trabalho objetiva o desenvolvimento
de um método que permita, através de um processo de otimização com Algoritmos
Genéticos e a partir de um conjunto inicial de 52 características, a seleção de
subconjuntos de melhores características que, além de menores que o conjunto original,
possibilitem melhoria dos resultados de classificação. Os experimentos foram
realizados com classificadores kNN e Redes Neurais MLP a partir de imagens de
palavras segmentadas. O método proposto foi avaliado fazendo uso de uma base
de dados pública para textos manuscritos e outra criada especificamente para este
trabalho para textos impressos. Os resultados dos experimentos mostram que os
objetivos propostos foram alcançados. Os Erros Médios de Classificação foram estatisticamente
equivalentes para os dois classificadores e uma melhor performance
foi obtida com o kNN. A influência dos diferentes tipos de fontes e estilos utilizados
nos textos impressos também foi analisada e mostrou que as fontes que imitam
textos manuscritos como a "Lucida Handwriting" e "Comic Sans MS" apresentam
maiores ocorrências de erros de classificação. Da mesma forma, a maioria dos erros
foi percebida nos textos impressos com estilo itálico.
|
12 |
Mapas auto-organizáveis probabilísticos para categorização de lugares baseada em objetosSILVA JÚNIOR, Marcondes Ricarte da 30 August 2016 (has links)
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-08-31T12:45:41Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Dissertação - Marcondes Ricarte - Biblioteca Central.pdf: 3319680 bytes, checksum: 77eec2a6b32ef702f943780f9e487924 (MD5) / Made available in DSpace on 2017-08-31T12:45:41Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Dissertação - Marcondes Ricarte - Biblioteca Central.pdf: 3319680 bytes, checksum: 77eec2a6b32ef702f943780f9e487924 (MD5)
Previous issue date: 2016-08-30 / CAPES / Os robôs móveis estão cada vez mais inclusos na sociedade moderna podendo se locomover
usando “coordenadas cartográficas”. No entanto, com o intuito de aperfeiçoar a interação
homem-robô e a navegação das máquinas nos ambientes, os robôs podem dispor da habilidade
de criar um Mapa Semântico realizando Categorização dos Lugares. Este é o nome da área
de estudo que busca replicar a habilidade humana de aprender, identificar e inferir os rótulos
conceituais dos lugares através de sensores, em geral, câmeras.
Esta pesquisa busca realizar a Categorização de Lugares baseada em objetos existentes
no ambiente. Os objetos são importantes descritores de informação para ambientes fechados.
Desse modo as imagens podem ser representadas por um vetor de frequência de objetos contidos
naquele lugar. No entanto, a quantidade de todos possíveis tipos de objetos existentes é alta e os
lugares possuem poucos destes, fazendo com que a representação vetorial de um lugar através de
objetos contidos nele seja esparsa.
Os métodos propostos por este trabalho possuem duas etapas: Redutor de Dimensionalidade
e Categorizador. A primeira se baseia em conceitos de Compressão de Sinais, de Aprendizagem
Profunda e Mapas Auto-Organizáveis (SOMs), a fim de realizar o pré-processamento dos
dados de frequência de objetos para a redução da dimensionalidade e minimização da esparsidade
dos dados. Para segunda etapa foi proposto o uso de múltiplos Mapas Auto-Organizáveis
Probabilísticos (PSOMs). Os experimentos foram realizados para os métodos propostos por
esse trabalho e comparados com o Filtro Bayesiano, existente na literatura para solução desse
problema. Os experimentos foram realizados com quatro diferentes bases de dados que variam
em ordem crescente de quantidade de amostras e categorias. As taxas de acerto dos métodos
propostos demonstraram ser superiores à literatura quando o número de categorias das bases
de dados é alta. Os resultados para o Filtro Bayesiano degeneram para as bases com maiores
quantidade de categorias, enquanto para os métodos propostos por essa pesquisa as taxas de
acerto caem mais lentamente. / Mobile Robots are currently included in modern society routine in which they may move
around often using "cartographic coordinates". However, in order to improve human-robot
interaction and navigation of the robots in the environment, they can have the ability to create
a Semantic Map by Categorization of Places. The computing area of study that searches to
replicate the human ability to learn, identify and infer conceptual labels for places through sensor
data, in general, cameras is the Place Categorization.
These methods aim to categorize places based on existing objects in the environment
which constitute important information descriptors for indoors. Thus, each image can be
represented by the frequency of the objects present in a particular place. However, the number
of all possible types of objects is high and the places do have few of them, hence, the vector
representation of the objects in a place is usually sparse.
The methods proposed by this dissertation have two stages: Dimensionality reduction
and categorization. The first stage relies on Signal Compression concepts, Deep Learning
and Self-Organizing Maps (SOMs), aiming at preprocessing the data on object frequencies
for dimensionality reduction and minimization of data sparsity. The second stage employs
Probabilistic Self-Organizing Maps (PSOMs). The experiments were performed for the two
proposed methods and compared with the Bayesian filter previously proposed in the literature.
The experiments were performed with four different databases ranging considering different
number of samples and categories. The accuracy of the proposed methods was higher than the
previous models when the number of categories of the database is high. The results for the
Bayesian filter tends to degrade with higher number of categories, so do the proposed methods,
however, in a slower rate.
|
13 |
Algoritmos de seleção de características personalizados por classe para categorização de textoFRAGOSO, Rogério César Peixoto 26 August 2016 (has links)
Submitted by Rafael Santana (rafael.silvasantana@ufpe.br) on 2017-08-31T19:39:48Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Rogerio_Fragoso.pdf: 1117500 bytes, checksum: 3e7915ee5c34322de3a8358d59679961 (MD5) / Made available in DSpace on 2017-08-31T19:39:48Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Rogerio_Fragoso.pdf: 1117500 bytes, checksum: 3e7915ee5c34322de3a8358d59679961 (MD5)
Previous issue date: 2016-08-26 / A categorização de textos é uma importante ferramenta para organização e recuperação de
informações em documentos digitais. Uma abordagem comum é representar cada palavra
como uma característica. Entretanto, a maior parte das características em um documento
textual são irrelevantes para sua categorização. Assim, a redução de dimensionalidade
é um passo fundamental para melhorar o desempenho de classificação e reduzir o alto
custo computacional inerente a problemas de alta dimensionalidade, como é o caso da
categorização de textos. A estratégia mais utilizada para redução de dimensionalidade
em categorização de textos passa por métodos de seleção de características baseados em
filtragem. Métodos deste tipo exigem um esforço para configurar o tamanho do vetor final
de características. Este trabalho propõe métodos de filtragem com o intuito melhorar o
desempenho de classificação em comparação com os métodos atuais e de tornar possível a
automatização da escolha do tamanho do vetor final de características. O primeiro método
proposto, chamado Category-dependent Maximum f Features per Document-Reduced
(cMFDR), define um limiar para cada categoria para determinar quais documentos serão
considerados no processo de seleção de características. O método utiliza um parâmetro
para definir quantas características são selecionadas por documento. Esta abordagem
apresenta algumas vantagens, como a simplificação do processo de escolha do subconjunto
mais efetivo através de uma drástica redução da quantidade de possíveis configurações.
O segundo método proposto, Automatic Feature Subsets Analyzer (AFSA), introduz um
procedimento para determinar, de maneira guiada por dados, o melhor subconjunto de
características dentre um número de subconjuntos gerados. Este método utiliza o mesmo
parâmetro usado por cMFDR para definir a quantidade de características no vetor final.
Isto permite que a busca pelo melhor subconjunto tenha um baixo custo computacional. O
desempenho dos métodos propostos foram avaliados nas bases de dados WebKB, Reuters,
20 Newsgroup e TDT2, utilizando as funções de avaliação de características Bi-Normal
Separation, Class Discriminating Measure e Chi-Squared Statistics. Os resultados dos
experimentos demonstraram uma maior efetividade dos métodos propostos em relação aos
métodos do estado da arte. / Text categorization is an important technic to organize and retrieve information from digital
documents. A common approach is to represent each word as a feature. However most of
the features in a textual document is irrelevant to its categorization. Thus, dimensionality
reduction is a fundamental step to improve classification performance and diminish the
high computational cost inherent to high dimensional problems, such as text categorization.
The most commonly adopted strategy for dimensionality reduction in text categorization
undergoes feature selection methods based on filtering. This kind of method requires an
effort to configure the size of the final feature vector. This work proposes filtering methods
aiming to improve categorization performence comparing to state-of-the-art methods
and to provide a possibility of automitic determination of the size of the final feature
set. The first proposed method, namely Category-dependent Maximum f Features per
Document-Reduced (cMFDR), sets a threshold for each category that determines which
documents are considered in feature selection process. The method uses a parameter to
arbitrate how many features are selected per document. This approach presents some
advantages, such as simplifying the process of choosing the most effective subset through
a strong reduction of the number of possible configurations. The second proposed method,
Automatic Feature Subsets Analyzer (AFSA), presents a procedure to determine, in a data
driven way, the most effective subset among a number of generated subsets. This method
uses the same parameter used by cMFDR to define the size of the final feature vector. This
fact leads to lower computational costs to find the most effective set. The performance of
the proposed methods was assessed in WebKB, Reuters, 20 Newsgroup and TDT2 datasets,
using Bi-Normal Separation, Class Discriminating Measure and Chi-Squared Statistics
feature evaluations functions. The experimental results demonstrates that the proposed
methods are more effective than state-of-art methods.
|
14 |
Redução de características baseada em grupos semânticos aplicados à classificação de textosMARQUES, Elaine Cristina Moreira 17 July 2018 (has links)
Submitted by Mario BC (mario@bc.ufrpe.br) on 2018-11-08T12:02:13Z
No. of bitstreams: 1
Elaine Cristina Moreira Marques.pdf: 4610553 bytes, checksum: 274979b8aee4b03c56f9c68296eeb073 (MD5) / Made available in DSpace on 2018-11-08T12:02:13Z (GMT). No. of bitstreams: 1
Elaine Cristina Moreira Marques.pdf: 4610553 bytes, checksum: 274979b8aee4b03c56f9c68296eeb073 (MD5)
Previous issue date: 2018-07-17 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The classification of texts is a technique that aims to organize and categorize information,
from textual documents present on digital platforms. Usually each of the words that constitute the documents are considered as a characteristic. This approach to simple textual representations is called Bag of Words. Although these characteristics are important for classifying documents, most of them are irrelevant and/or redundant, which causes problems such as high dimensionality, making categorization costly in terms of memory and execution. In order to reduce the large demand for computational resources, dimensionality reduction techniques are applied, such as the selection and transformation of characteristics.
Characteristic selection is widely used in the literature because it has a lower computational
cost compared to other techniques . In this technique, characteristics are selected without
presenting modifications in the original characteristics, that is, the selection of a subset that contains only the most relevant characteristics of the original set occurs. In the transformation of characteristics occurs the formation of a new set of characteristics, this new set being smaller than the original set, containing new words caused by the combination or transformation of the original words. It is important to stress that both methods have some kind of loss of information. The objective of this work is to propose a new dimensionality reduction method that minimizes the loss of characteristic information from the creation of semantically related groups of words using clustering algorithms and Word Embeddings. With this, it is possible to reduce the amount of characteristics maintaining the semantics of each word. In this work the reduction occurred through the creation of semantic groups. Initially, the words in the databases were vectorized using Word2Vec and Glove methods. After the words were vectorized, the clustering algorithms were applied, creating smaller groups of characteristics in relation to the original groups. The method was applied in widely used databases in the literature, reaching good results, especially in more unstructured data, such as Web pages, news, Twitter posts, among others. / A classificação de textos é uma técnica que tem como objetivo organizar e categorizar informações, a partir de documentos textuais presentes nas plataformas digitais. Usualmente cada uma das palavras que constituem os documentos são consideradas como uma característica. Esta abordagem para representações textuais simples é chamada Bag of Words. Embora estas características sejam importantes para classificar documentos, a maioria delas são irrelevantes e/ou redundantes o que provoca problemas como alta dimensionalidade, tornando a categorização custosa em termos de memória e execução. Para reduzir a
grande demanda de recursos computacionais, técnicas de redução de dimensionalidade são aplicadas, como a seleção e a transformação de características. A seleção de características é bastante utilizada na literatura, pelo fato desta possuir um custo computacional mais baixo em relação as outras técnicas. Nesta técnica, características são selecionadas sem apresentar modificações nas características originais, ou seja, ocorre a seleção de um subconjunto que contém apenas as características mais relevantes do conjunto original. Na transformação de características ocorre a formação de um novo conjunto de características, sendo este novo
conjunto menor que o conjunto original, contendo novas palavras ocasionadas por meio da combinação ou transformação das palavras originais. É importante frisar que ambos os métodos possuem algum tipo de perda de informação. O objetivo deste trabalho é propor um novo método de redução de dimensionalidade que minimize a perda de informação das características a partir da criação de grupos de palavras semanticamente relacionadas utilizando algoritmos de agrupamento e Word Embeddings. Com isso, é possível reduzir a quantidade de características mantendo a semântica de cada palavra. Neste trabalho a redução ocorreu por meio da criação de grupos semânticos. Inicialmente as palavras das bases de dados passaram por uma vetorização, utilizando os métodos Word2Vec e o Glove. Após a vetorização das palavras, foram aplicados os algoritmos de agrupamento, criando grupos menores de características em relação aos grupos originais. O método foi aplicado em bases de dados bastante utilizadas na literatura, alcançando bons resultados,
principalmente em dados mais desestruturados, como páginas da Web, notícias, postagens feitas em Twitter, entre outras.
|
15 |
Técnicas computacionais de apoio à classificação visual de imagens e outros dados / Computational techniques to support classification of images and other dataJosé Gustavo de Souza Paiva 20 December 2012 (has links)
O processo automático de classificação de dados em geral, e em particular de classificação de imagens, é uma tarefa computacionalmente intensiva e variável em termos de precisão, sendo consideravelmente dependente da configuração do classificador e da representação dos dados utilizada. Muitos dos fatores que afetam uma adequada aplicação dos métodos de classificação ou categorização para imagens apontam para a necessidade de uma maior interferência do usuário no processo. Para isso são necessárias mais ferramentas de apoio às várias etapas do processo de classificação, tais como, mas não limitadas, a extração de características, a parametrização dos algoritmos de classificação e a escolha de instâncias de treinamento adequadas. Este doutorado apresenta uma metodologia para Classificação Visual de Imagens, baseada na inserção do usuário no processo de classificação automática através do uso de técnicas de visualização. A ideia é permitir que o usuário participe de todos os passos da classificação de determinada coleção, realizando ajustes e consequentemente melhorando os resultados de acordo com suas necessidades. Um estudo de diversas técnicas de visualização candidatas para a tarefa é apresentado, com destaque para as árvores de similaridade, sendo apresentadas melhorias do algoritmo de construção em termos de escalabilidade visual e de tempo de processamento. Adicionalmente, uma metodologia de redução de dimensionalidade visual semi-supervisionada é apresentada para apoiar, pela utilização de ferramentas visuais, a criação de espaços reduzidos que melhorem as características de segregação do conjunto original de características. A principal contribuição do trabalho é um sistema de classificação visual incremental que incorpora todos os passos da metodologia proposta, oferecendo ferramentas interativas e visuais que permitem a interferência do usuário na classificação de coleções incrementais com configuração de classes variável. Isso possibilita a utilização do conhecimento do ser humano na construção de classificadores que se adequem a diferentes necessidades dos usuários em diferentes cenários, produzindo resultados satisfatórios para coleções de dados diversas. O foco desta tese é em categorização de coleções de imagens, com exemplos também para conjuntos de dados textuais / Automatic data classification in general, and image classification in particular, are computationally intensive tasks with variable results concerning precision, being considerably dependent on the classifier´s configuration and data representation. Many of the factors that affect an adequate application of classification or categorization methods for images point to the need for more user interference in the process. To accomplish that, it is necessary to develop a larger set of supporting tools for the various stages of the classification set up, such as, but not limited to, feature extraction, parametrization of the classification algorithm and selection of adequate training instances. This doctoral Thesis presents a Visual Image Classification methodology based on the user´s insertion in the classification process through the use of visualization techniques. The idea is to allow the user to participate in all classification steps, adjusting several stages and consequently improving the results according to his or her needs. A study on several candidate visualization techniques is presented, with emphasis on similarity trees, and improvements of the tree construction algorithm, both in visual and time scalability, are shown. Additionally, a visual semi-supervised dimensionality reduction methodology was developed to support, through the use of visual tools, the creation of reduced spaces that improve segregation of the original feature space. The main contribution of this work is an incremental visual classification system incorporating all the steps of the proposed methodology, and providing interactive and visual tools that permit user controlled classification of an incremental collection with evolving class configuration. It allows the use of the human knowledge on the construction of classifiers that adapt to different user needs in different scenarios, producing satisfactory results for several data collections. The focus of this Thesis is image data sets, with examples also in classification of textual collections
|
16 |
Extração de tópicos baseado em agrupamento de regras de associação / Topic extraction based on association rule clusteringFabiano Fernandes dos Santos 29 May 2015 (has links)
Uma representação estruturada dos documentos em um formato apropriado para a obtenção automática de conhecimento, sem que haja perda de informações relevantes em relação ao formato originalmente não-estruturado, é um dos passos mais importantes da mineração de textos, pois a qualidade dos resultados obtidos com as abordagens automáticas para obtenção de conhecimento de textos estão fortemente relacionados à qualidade dos atributos utilizados para representar a coleção de documentos. O Modelo de Espaço de Vetores (MEV) é um modelo tradicional para obter uma representação estruturada dos documentos. Neste modelo, cada documento é representado por um vetor de pesos correspondentes aos atributos do texto. O modelo bag-of-words é a abordagem de MEV mais utilizada devido a sua simplicidade e aplicabilidade. Entretanto, o modelo bag-of-words não trata a dependência entre termos e possui alta dimensionalidade. Diversos modelos para representação dos documentos foram propostos na literatura visando capturar a informação de relação entre termos, destacando-se os modelos baseados em frases ou termos compostos, o Modelo de Espaço de Vetores Generalizado (MEVG) e suas extensões, modelos de tópicos não-probabilísticos, como o Latent Semantic Analysis (LSA) ou o Non-negative Matrix Factorization (NMF), e modelos de tópicos probabilísticos, como o Latent Dirichlet Allocation (LDA) e suas extensões. A representação baseada em modelos de tópicos é uma das abordagens mais interessantes uma vez que elas fornece uma estrutura que descreve a coleção de documentos em uma forma que revela sua estrutura interna e as suas inter-relações. As abordagens de extração de tópicos também fornecem uma estratégia de redução da dimensionalidade visando a construção de novas dimensões que representam os principais tópicos ou assuntos identificados na coleção de documentos. Entretanto, a extração é eficiente de informações sobre as relações entre os termos para construção da representação de documentos ainda é um grande desafio de pesquisa. Os modelos para representação de documentos que exploram a correlação entre termos normalmente enfrentam um grande desafio para manter um bom equilíbrio entre (i) a quantidade de dimensões obtidas, (ii) o esforço computacional e (iii) a interpretabilidade das novas dimensões obtidas. Assim,é proposto neste trabalho o modelo para representação de documentos Latent Association Rule Cluster based Model (LARCM). Este é um modelo de extração de tópicos não-probabilístico que explora o agrupamento de regras de associação para construir uma representação da coleção de documentos com dimensionalidade reduzida tal que as novas dimensões são extraídas a partir das informações sobre as relações entre os termos. No modelo proposto, as regras de associação são extraídas para cada documento para obter termos correlacionados que formam expressões multi-palavras. Essas relações entre os termos formam o contexto local da relação entre termos. Em seguida, aplica-se um processo de agrupamento em todas as regras de associação para formar o contexto geral das relações entre os termos, e cada grupo de regras de associação obtido formará um tópico, ou seja, uma dimensão da representação. Também é proposto neste trabalho uma metodologia de avaliação que permite selecionar modelos que maximizam tanto os resultados na tarefa de classificação de textos quanto os resultados de interpretabilidade dos tópicos obtidos. O modelo LARCM foi comparado com o modelo LDA tradicional e o modelo LDA utilizando uma representação que inclui termos compostos (bag-of-related-words). Os resultados dos experimentos indicam que o modelo LARCM produz uma representação para os documentos que contribui significativamente para a melhora dos resultados na tarefa de classificação de textos, mantendo também uma boa interpretabilidade dos tópicos obtidos. O modelo LARCM também apresentou ótimo desempenho quando utilizado para extração de informação de contexto para aplicação em sistemas de recomendação sensíveis ao contexto. / A structured representation of documents in an appropriate format for the automatic knowledge extraction without loss of relevant information is one of the most important steps of text mining, since the quality of the results obtained with automatic approaches for the text knowledge extraction is strongly related to the quality of the selected attributes to represent the collection of documents. The Vector Space model (VSM) is a traditional structured representation of documents. In this model, each document is represented as a vector of weights that corresponds to the features of the document. The bag-of-words model is the most popular VSM approach because of its simplicity and general applicability. However, the bag-of-words model does not include dependencies of the terms and has a high dimensionality. Several models for document representation have been proposed in the literature in order to capture the dependence among the terms, especially models based on phrases or compound terms, the Generalized Vector Space Model (GVSM) and their extensions, non-probabilistic topic models as Latent Semantic Analysis (LSA) or Non-negative Matrix Factorization (NMF) and still probabilistic topic models as the Latent Dirichlet Allocation (LDA) and their extensions. The topic model representation is one of the most interesting approaches since it provides a structure that describes the collection of documents in a way that reveals their internal structure and their interrelationships. Also, this approach provides a dimensionality reduction strategy aiming to built new dimensions that represent the main topics or ideas of the document collection. However, the efficient extraction of information about the relations of terms for document representation is still a major research challenge nowadays. The document representation models that explore correlated terms usually face a great challenge of keeping a good balance among the (i) number of extracted features, (ii) the computational performance and (iii) the interpretability of new features. In this way, we proposed the Latent Association Rule Cluster based Model (LARCM). The LARCM is a non-probabilistic topic model that explores association rule clustering to build a document representation with low dimensionality in a way that each dimension is composed by information about the relations among the terms. In the proposed approach, the association rules are built for each document to extract the correlated terms that will compose the multi-word expressions. These relations among the terms are the local context of relations. Then, a clustering process is applied for all association rules to discover the general context of the relations, and each obtained cluster is an extracted topic or a dimension of the new document representation. This work also proposes in this work an evaluation methodology to select topic models that maximize the results in the text classification task as much as the interpretability of the obtained topics. The LARCM model was compared against both the traditional LDA model and the LDA model using a document representation that includes multi-word expressions (bag-of-related-words). The experimental results indicate that LARCM provides an document representation that improves the results in the text classification task and even retains a good interpretability of the extract topics. The LARCM model also achieved great results as a method to extract contextual information for context-aware recommender systems.
|
17 |
Técnicas de seleção de características com aplicações em reconhecimento de faces. / Feature selection techniques with applications to face recognition.Campos, Teófilo Emídio de 25 May 2001 (has links)
O reconhecimento de faces é uma área de pesquisa desafiadora que abre portas para a implementação de aplicações muito promissoras. Embora muitos algoritmos eficientes e robustos já tenham sido propostos, ainda restam vários desafios. Dentre os principais obstáculos a serem uperados, está a obtenção de uma representação robusta e compacta de faces que possibilite distinguir os indivíduos rapidamente. Visando abordar esse problema, foi realizado um estudo de técnicas de reconhecimento estatístico de padrões, principalmente na área de redução de dimensionalidade dos dados, além de uma revisão de métodos de reconhecimento de faces. Foi proposto (em colaboração com a pesquisadora Isabelle Bloch) um método de seleção de características que une um algoritmo de busca eficiente (métodos de busca seqüencial flutuante) com uma medida de distância entre conjuntos nebulosos (distância nebulosa baseada em tolerância). Essa medida de distância possui diversas vantagens, sendo possível considerar as diferentes tipicalidades de cada padrão dos conjuntos de modo a permitir a obtenção de bons resultados mesmo com conjuntos com sobreposição. Os resultados preliminares com dados sintéticos mostraram o caráter promissor dessa abordagem. Com o objetivo de verificar a eficiência de tal técnica com dados reais, foram efetuados testes com reconhecimento de pessoas usando imagens da região dos olhos. Nesse caso, em se tratando de um problema com mais de duas classes, nós propusemos uma nova função critério inspirada na distância supracitada. Além disso foi proposto (juntamente com o estudante de mestrado Rogério S. Feris) um esquema de reconhecimento a partir de seqüências de vídeo. Esse esquema inclui a utilização de um método eficiente de rastreamento de características faciais (Gabor Wavelet Networks) e o método proposto anteriormente para seleção de características. Dentro desse contexto, o trabalho desenvolvido nesta dissertação implementa uma parte dos módulos desse esquema. / Face recognition is an instigating research field that may lead to the development of many promising applications. Although many efficient and robust algorithms have been developed in this area, there are still many challenges to be overcome. In particular, a robust and compact face representation is still to be found, which would allow for quick classification of different individuals. In order to address this problem, we first studied pattern recognition techniques, especially regarding dimensionality reduction, followed by the main face recognition methods. We introduced a new feature selection approach in collaboration with the researcher Isabelle Bloch (TSI-ENST-Paris), that associates an efficient searching algorithm (sequential floating search methods), with a tolerance-based fuzzy distance. This distance measure presents some nice features for dealing with the tipicalities of each pattern in the sets, so that good results can be attained even when the sets are overlapping. Preliminary results with synthetic data have demonstrated that this method is quite promising. In order to verify the efficiency of this technique with real data, we applied it for improving the performance of a person recognition system based on eye images. Since this problem involves more than two classes, we also developed a new criterion function based on the above-mentioned distance. Moreover, we proposed (together with Rogério S. Feris) a system for person recognition based on video sequences. This mechanism includes the development of an efficient method for facial features tracking, in addition to our method for feature selection. In this context, the work presented here constitutes part of the proposed system.
|
18 |
SELEÇÃO DE VARIÁVEIS NA MINERAÇÃO DE DADOS AGRÍCOLAS:Uma abordagem baseada em análise de componentes principaisJr., Juscelino Izidoro de Oliveira 30 July 2012 (has links)
Made available in DSpace on 2017-07-21T14:19:33Z (GMT). No. of bitstreams: 1
Juscelino Izidoro Oliveira.pdf: 622255 bytes, checksum: 54447b380bca4ea8e2360060669d5cff (MD5)
Previous issue date: 2012-07-30 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Multivariate data analysis allows the researcher to verify the interaction among a lot of attributes that can influence the behavior of a response variable. That analysis uses models
that can be induced from experimental data set. An important issue in the induction of multivariate regressors and classifers is the sample size, because this determines the reliability of the model for tasks of regression or classification of the response variable. This work approachs the sample size issue through the Theory of Probably Approximately Correct Learning, that comes from problems about machine learning for induction of models. Given the importance of agricultural modelling, this work shows two procedures to select variables. Variable Selection by Principal Component Analysis is an unsupervised procedure and allows the researcher to select the most relevant variables from the agricultural data by considering the variation in the data. Variable Selection by Supervised Principal Component Analysis is a supervised procedure and allows the researcher to perform the same process as in the previous procedure, but concentrating the focus of the selection over the variables with more influence in the behavior of the response variable. Both procedures allow the sample complexity informations to be explored in
variable selection process. Those procedures were tested in five experiments, showing that the supervised procedure has allowed to induce models that produced better scores, by
mean, than that models induced over variables selected by unsupervised procedure. Those experiments also allowed to verify that the variables selected by the unsupervised and supervised procedure showed reduced indices of multicolinearity. / A análise multivariada de dados permite verificar a interação de vários atributos que podem influenciar o comportamento de uma variável de resposta. Tal análise utiliza modelos
que podem ser induzidos de conjuntos de dados experimentais. Um fator importante na indução de regressores e classificadores multivariados é o tamanho da amostra, pois, esta determina a contabilidade do modelo quando há a necessidade de se regredir ou classificar a variável de resposta. Este trabalho aborda a questão do tamanho da amostra por meio da Teoria do Aprendizado Provavelmente Aproximadamente Correto, oriundo de problemas sobre o aprendizado de máquina para a indução de modelos. Dada a importância da modelagem agrícola, este trabalho apresenta dois procedimentos para a seleção de variáveis. O procedimento de Seleção de Variáveis por Análise de Componentes Principais, que não é supervisionado e permite ao pesquisador de agricultura selecionar as variáveis mais relevantes de um conjunto de dados agrícolas considerando a variação contida nos dados. O procedimento de Seleção de Variáveis por Análise de Componentes Principais
Supervisionado, que é supervisionado e permite realizar o mesmo processo do primeiro procedimento, mas concentrando-se apenas nas variáveis que possuem maior infuência no
comportamento da variável de resposta. Ambos permitem que informações a respeito da complexidade da amostra sejam exploradas na seleção de variáveis. Os dois procedimentos
foram avaliados em cinco experimentos, mostrando que o procedimento supervisionado permitiu, em média, induzir modelos que produziram melhores pontuações do que aqueles
modelos gerados sobre as variáveis selecionadas pelo procedimento não supervisionado. Os experimentos também permitiram verificar que as variáveis selecionadas por ambos os procedimentos apresentavam índices reduzidos de multicolinaridade..
|
19 |
Técnicas de seleção de características com aplicações em reconhecimento de faces. / Feature selection techniques with applications to face recognition.Teófilo Emídio de Campos 25 May 2001 (has links)
O reconhecimento de faces é uma área de pesquisa desafiadora que abre portas para a implementação de aplicações muito promissoras. Embora muitos algoritmos eficientes e robustos já tenham sido propostos, ainda restam vários desafios. Dentre os principais obstáculos a serem uperados, está a obtenção de uma representação robusta e compacta de faces que possibilite distinguir os indivíduos rapidamente. Visando abordar esse problema, foi realizado um estudo de técnicas de reconhecimento estatístico de padrões, principalmente na área de redução de dimensionalidade dos dados, além de uma revisão de métodos de reconhecimento de faces. Foi proposto (em colaboração com a pesquisadora Isabelle Bloch) um método de seleção de características que une um algoritmo de busca eficiente (métodos de busca seqüencial flutuante) com uma medida de distância entre conjuntos nebulosos (distância nebulosa baseada em tolerância). Essa medida de distância possui diversas vantagens, sendo possível considerar as diferentes tipicalidades de cada padrão dos conjuntos de modo a permitir a obtenção de bons resultados mesmo com conjuntos com sobreposição. Os resultados preliminares com dados sintéticos mostraram o caráter promissor dessa abordagem. Com o objetivo de verificar a eficiência de tal técnica com dados reais, foram efetuados testes com reconhecimento de pessoas usando imagens da região dos olhos. Nesse caso, em se tratando de um problema com mais de duas classes, nós propusemos uma nova função critério inspirada na distância supracitada. Além disso foi proposto (juntamente com o estudante de mestrado Rogério S. Feris) um esquema de reconhecimento a partir de seqüências de vídeo. Esse esquema inclui a utilização de um método eficiente de rastreamento de características faciais (Gabor Wavelet Networks) e o método proposto anteriormente para seleção de características. Dentro desse contexto, o trabalho desenvolvido nesta dissertação implementa uma parte dos módulos desse esquema. / Face recognition is an instigating research field that may lead to the development of many promising applications. Although many efficient and robust algorithms have been developed in this area, there are still many challenges to be overcome. In particular, a robust and compact face representation is still to be found, which would allow for quick classification of different individuals. In order to address this problem, we first studied pattern recognition techniques, especially regarding dimensionality reduction, followed by the main face recognition methods. We introduced a new feature selection approach in collaboration with the researcher Isabelle Bloch (TSI-ENST-Paris), that associates an efficient searching algorithm (sequential floating search methods), with a tolerance-based fuzzy distance. This distance measure presents some nice features for dealing with the tipicalities of each pattern in the sets, so that good results can be attained even when the sets are overlapping. Preliminary results with synthetic data have demonstrated that this method is quite promising. In order to verify the efficiency of this technique with real data, we applied it for improving the performance of a person recognition system based on eye images. Since this problem involves more than two classes, we also developed a new criterion function based on the above-mentioned distance. Moreover, we proposed (together with Rogério S. Feris) a system for person recognition based on video sequences. This mechanism includes the development of an efficient method for facial features tracking, in addition to our method for feature selection. In this context, the work presented here constitutes part of the proposed system.
|
20 |
Propagação em grafos bipartidos para extração de tópicos em fluxo de documentos textuais / Propagation in bipartite graphs for topic extraction in stream of textual dataFaleiros, Thiago de Paulo 08 June 2016 (has links)
Tratar grandes quantidades de dados é uma exigência dos modernos algoritmos de mineração de texto. Para algumas aplicações, documentos são constantemente publicados, o que demanda alto custo de armazenamento em longo prazo. Então, é necessário criar métodos de fácil adaptação para uma abordagem que considere documentos em fluxo, e que analise os dados em apenas um passo sem requerer alto custo de armazenamento. Outra exigência é a de que essa abordagem possa explorar heurísticas a fim de melhorar a qualidade dos resultados. Diversos modelos para a extração automática das informações latentes de uma coleção de documentos foram propostas na literatura, dentre eles destacando-se os modelos probabilísticos de tópicos. Modelos probabilísticos de tópicos apresentaram bons resultados práticos, sendo estendidos para diversos modelos com diversos tipos de informações inclusas. Entretanto, descrever corretamente esses modelos, derivá-los e em seguida obter o apropriado algoritmo de inferência são tarefas difíceis, exigindo um tratamento matemático rigoroso para as descrições das operações efetuadas no processo de descoberta das dimensões latentes. Assim, para a elaboração de um método simples e eficiente para resolver o problema da descoberta das dimensões latentes, é necessário uma apropriada representação dos dados. A hipótese desta tese é a de que, usando a representação de documentos em grafos bipartidos, é possível endereçar problemas de aprendizado de máquinas, para a descoberta de padrões latentes em relações entre objetos, por exemplo nas relações entre documentos e palavras, de forma simples e intuitiva. Para validar essa hipótese, foi desenvolvido um arcabouço baseado no algoritmo de propagação de rótulos utilizando a representação em grafos bipartidos. O arcabouço, denominado PBG (Propagation in Bipartite Graph), foi aplicado inicialmente para o contexto não supervisionado, considerando uma coleção estática de documentos. Em seguida, foi proposta uma versão semissupervisionada, que considera uma pequena quantidade de documentos rotulados para a tarefa de classificação transdutiva. E por fim, foi aplicado no contexto dinâmico, onde se considerou fluxo de documentos textuais. Análises comparativas foram realizadas, sendo que os resultados indicaram que o PBG é uma alternativa viável e competitiva para tarefas nos contextos não supervisionado e semissupervisionado. / Handling large amounts of data is a requirement for modern text mining algorithms. For some applications, documents are published constantly, which demand a high cost for long-term storage. So it is necessary easily adaptable methods for an approach that considers documents flow, and be capable of analyzing the data in one step without requiring the high cost of storage. Another requirement is that this approach can exploit heuristics in order to improve the quality of results. Several models for automatic extraction of latent information in a collection of documents have been proposed in the literature, among them probabilistic topic models are prominent. Probabilistic topic models achieve good practical results, and have been extended to several models with different types of information included. However, properly describe these models, derive them, and then get appropriate inference algorithms are difficult tasks, requiring a rigorous mathematical treatment for descriptions of operations performed in the latent dimensions discovery process. Thus, for the development of a simple and efficient method to tackle the problem of latent dimensions discovery, a proper representation of the data is required. The hypothesis of this thesis is that by using bipartite graph for representation of textual data one can address the task of latent patterns discovery, present in the relationships between documents and words, in a simple and intuitive way. For validation of this hypothesis, we have developed a framework based on label propagation algorithm using the bipartite graph representation. The framework, called PBG (Propagation in Bipartite Graph) was initially applied to the unsupervised context for a static collection of documents. Then a semi-supervised version was proposed which need only a small amount of labeled documents to the transductive classification task. Finally, it was applied in the dynamic context in which flow of textual data was considered. Comparative analyzes were performed, and the results indicated that the PBG is a viable and competitive alternative for tasks in the unsupervised and semi-supervised contexts.
|
Page generated in 0.1357 seconds