Spelling suggestions: "subject:"dimensionalidade"" "subject:"imensionalidade""
21 |
Mapas auto-organizáveis probabilísticos para categorização de lugares baseada em objetosSILVA JÚNIOR, Marcondes Ricarte da 30 August 2016 (has links)
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-08-31T12:45:41Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Dissertação - Marcondes Ricarte - Biblioteca Central.pdf: 3319680 bytes, checksum: 77eec2a6b32ef702f943780f9e487924 (MD5) / Made available in DSpace on 2017-08-31T12:45:41Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Dissertação - Marcondes Ricarte - Biblioteca Central.pdf: 3319680 bytes, checksum: 77eec2a6b32ef702f943780f9e487924 (MD5)
Previous issue date: 2016-08-30 / CAPES / Os robôs móveis estão cada vez mais inclusos na sociedade moderna podendo se locomover
usando “coordenadas cartográficas”. No entanto, com o intuito de aperfeiçoar a interação
homem-robô e a navegação das máquinas nos ambientes, os robôs podem dispor da habilidade
de criar um Mapa Semântico realizando Categorização dos Lugares. Este é o nome da área
de estudo que busca replicar a habilidade humana de aprender, identificar e inferir os rótulos
conceituais dos lugares através de sensores, em geral, câmeras.
Esta pesquisa busca realizar a Categorização de Lugares baseada em objetos existentes
no ambiente. Os objetos são importantes descritores de informação para ambientes fechados.
Desse modo as imagens podem ser representadas por um vetor de frequência de objetos contidos
naquele lugar. No entanto, a quantidade de todos possíveis tipos de objetos existentes é alta e os
lugares possuem poucos destes, fazendo com que a representação vetorial de um lugar através de
objetos contidos nele seja esparsa.
Os métodos propostos por este trabalho possuem duas etapas: Redutor de Dimensionalidade
e Categorizador. A primeira se baseia em conceitos de Compressão de Sinais, de Aprendizagem
Profunda e Mapas Auto-Organizáveis (SOMs), a fim de realizar o pré-processamento dos
dados de frequência de objetos para a redução da dimensionalidade e minimização da esparsidade
dos dados. Para segunda etapa foi proposto o uso de múltiplos Mapas Auto-Organizáveis
Probabilísticos (PSOMs). Os experimentos foram realizados para os métodos propostos por
esse trabalho e comparados com o Filtro Bayesiano, existente na literatura para solução desse
problema. Os experimentos foram realizados com quatro diferentes bases de dados que variam
em ordem crescente de quantidade de amostras e categorias. As taxas de acerto dos métodos
propostos demonstraram ser superiores à literatura quando o número de categorias das bases
de dados é alta. Os resultados para o Filtro Bayesiano degeneram para as bases com maiores
quantidade de categorias, enquanto para os métodos propostos por essa pesquisa as taxas de
acerto caem mais lentamente. / Mobile Robots are currently included in modern society routine in which they may move
around often using "cartographic coordinates". However, in order to improve human-robot
interaction and navigation of the robots in the environment, they can have the ability to create
a Semantic Map by Categorization of Places. The computing area of study that searches to
replicate the human ability to learn, identify and infer conceptual labels for places through sensor
data, in general, cameras is the Place Categorization.
These methods aim to categorize places based on existing objects in the environment
which constitute important information descriptors for indoors. Thus, each image can be
represented by the frequency of the objects present in a particular place. However, the number
of all possible types of objects is high and the places do have few of them, hence, the vector
representation of the objects in a place is usually sparse.
The methods proposed by this dissertation have two stages: Dimensionality reduction
and categorization. The first stage relies on Signal Compression concepts, Deep Learning
and Self-Organizing Maps (SOMs), aiming at preprocessing the data on object frequencies
for dimensionality reduction and minimization of data sparsity. The second stage employs
Probabilistic Self-Organizing Maps (PSOMs). The experiments were performed for the two
proposed methods and compared with the Bayesian filter previously proposed in the literature.
The experiments were performed with four different databases ranging considering different
number of samples and categories. The accuracy of the proposed methods was higher than the
previous models when the number of categories of the database is high. The results for the
Bayesian filter tends to degrade with higher number of categories, so do the proposed methods,
however, in a slower rate.
|
22 |
Algoritmos de seleção de características personalizados por classe para categorização de textoFRAGOSO, Rogério César Peixoto 26 August 2016 (has links)
Submitted by Rafael Santana (rafael.silvasantana@ufpe.br) on 2017-08-31T19:39:48Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Rogerio_Fragoso.pdf: 1117500 bytes, checksum: 3e7915ee5c34322de3a8358d59679961 (MD5) / Made available in DSpace on 2017-08-31T19:39:48Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Rogerio_Fragoso.pdf: 1117500 bytes, checksum: 3e7915ee5c34322de3a8358d59679961 (MD5)
Previous issue date: 2016-08-26 / A categorização de textos é uma importante ferramenta para organização e recuperação de
informações em documentos digitais. Uma abordagem comum é representar cada palavra
como uma característica. Entretanto, a maior parte das características em um documento
textual são irrelevantes para sua categorização. Assim, a redução de dimensionalidade
é um passo fundamental para melhorar o desempenho de classificação e reduzir o alto
custo computacional inerente a problemas de alta dimensionalidade, como é o caso da
categorização de textos. A estratégia mais utilizada para redução de dimensionalidade
em categorização de textos passa por métodos de seleção de características baseados em
filtragem. Métodos deste tipo exigem um esforço para configurar o tamanho do vetor final
de características. Este trabalho propõe métodos de filtragem com o intuito melhorar o
desempenho de classificação em comparação com os métodos atuais e de tornar possível a
automatização da escolha do tamanho do vetor final de características. O primeiro método
proposto, chamado Category-dependent Maximum f Features per Document-Reduced
(cMFDR), define um limiar para cada categoria para determinar quais documentos serão
considerados no processo de seleção de características. O método utiliza um parâmetro
para definir quantas características são selecionadas por documento. Esta abordagem
apresenta algumas vantagens, como a simplificação do processo de escolha do subconjunto
mais efetivo através de uma drástica redução da quantidade de possíveis configurações.
O segundo método proposto, Automatic Feature Subsets Analyzer (AFSA), introduz um
procedimento para determinar, de maneira guiada por dados, o melhor subconjunto de
características dentre um número de subconjuntos gerados. Este método utiliza o mesmo
parâmetro usado por cMFDR para definir a quantidade de características no vetor final.
Isto permite que a busca pelo melhor subconjunto tenha um baixo custo computacional. O
desempenho dos métodos propostos foram avaliados nas bases de dados WebKB, Reuters,
20 Newsgroup e TDT2, utilizando as funções de avaliação de características Bi-Normal
Separation, Class Discriminating Measure e Chi-Squared Statistics. Os resultados dos
experimentos demonstraram uma maior efetividade dos métodos propostos em relação aos
métodos do estado da arte. / Text categorization is an important technic to organize and retrieve information from digital
documents. A common approach is to represent each word as a feature. However most of
the features in a textual document is irrelevant to its categorization. Thus, dimensionality
reduction is a fundamental step to improve classification performance and diminish the
high computational cost inherent to high dimensional problems, such as text categorization.
The most commonly adopted strategy for dimensionality reduction in text categorization
undergoes feature selection methods based on filtering. This kind of method requires an
effort to configure the size of the final feature vector. This work proposes filtering methods
aiming to improve categorization performence comparing to state-of-the-art methods
and to provide a possibility of automitic determination of the size of the final feature
set. The first proposed method, namely Category-dependent Maximum f Features per
Document-Reduced (cMFDR), sets a threshold for each category that determines which
documents are considered in feature selection process. The method uses a parameter to
arbitrate how many features are selected per document. This approach presents some
advantages, such as simplifying the process of choosing the most effective subset through
a strong reduction of the number of possible configurations. The second proposed method,
Automatic Feature Subsets Analyzer (AFSA), presents a procedure to determine, in a data
driven way, the most effective subset among a number of generated subsets. This method
uses the same parameter used by cMFDR to define the size of the final feature vector. This
fact leads to lower computational costs to find the most effective set. The performance of
the proposed methods was assessed in WebKB, Reuters, 20 Newsgroup and TDT2 datasets,
using Bi-Normal Separation, Class Discriminating Measure and Chi-Squared Statistics
feature evaluations functions. The experimental results demonstrates that the proposed
methods are more effective than state-of-art methods.
|
23 |
Redução de características baseada em grupos semânticos aplicados à classificação de textosMARQUES, Elaine Cristina Moreira 17 July 2018 (has links)
Submitted by Mario BC (mario@bc.ufrpe.br) on 2018-11-08T12:02:13Z
No. of bitstreams: 1
Elaine Cristina Moreira Marques.pdf: 4610553 bytes, checksum: 274979b8aee4b03c56f9c68296eeb073 (MD5) / Made available in DSpace on 2018-11-08T12:02:13Z (GMT). No. of bitstreams: 1
Elaine Cristina Moreira Marques.pdf: 4610553 bytes, checksum: 274979b8aee4b03c56f9c68296eeb073 (MD5)
Previous issue date: 2018-07-17 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The classification of texts is a technique that aims to organize and categorize information,
from textual documents present on digital platforms. Usually each of the words that constitute the documents are considered as a characteristic. This approach to simple textual representations is called Bag of Words. Although these characteristics are important for classifying documents, most of them are irrelevant and/or redundant, which causes problems such as high dimensionality, making categorization costly in terms of memory and execution. In order to reduce the large demand for computational resources, dimensionality reduction techniques are applied, such as the selection and transformation of characteristics.
Characteristic selection is widely used in the literature because it has a lower computational
cost compared to other techniques . In this technique, characteristics are selected without
presenting modifications in the original characteristics, that is, the selection of a subset that contains only the most relevant characteristics of the original set occurs. In the transformation of characteristics occurs the formation of a new set of characteristics, this new set being smaller than the original set, containing new words caused by the combination or transformation of the original words. It is important to stress that both methods have some kind of loss of information. The objective of this work is to propose a new dimensionality reduction method that minimizes the loss of characteristic information from the creation of semantically related groups of words using clustering algorithms and Word Embeddings. With this, it is possible to reduce the amount of characteristics maintaining the semantics of each word. In this work the reduction occurred through the creation of semantic groups. Initially, the words in the databases were vectorized using Word2Vec and Glove methods. After the words were vectorized, the clustering algorithms were applied, creating smaller groups of characteristics in relation to the original groups. The method was applied in widely used databases in the literature, reaching good results, especially in more unstructured data, such as Web pages, news, Twitter posts, among others. / A classificação de textos é uma técnica que tem como objetivo organizar e categorizar informações, a partir de documentos textuais presentes nas plataformas digitais. Usualmente cada uma das palavras que constituem os documentos são consideradas como uma característica. Esta abordagem para representações textuais simples é chamada Bag of Words. Embora estas características sejam importantes para classificar documentos, a maioria delas são irrelevantes e/ou redundantes o que provoca problemas como alta dimensionalidade, tornando a categorização custosa em termos de memória e execução. Para reduzir a
grande demanda de recursos computacionais, técnicas de redução de dimensionalidade são aplicadas, como a seleção e a transformação de características. A seleção de características é bastante utilizada na literatura, pelo fato desta possuir um custo computacional mais baixo em relação as outras técnicas. Nesta técnica, características são selecionadas sem apresentar modificações nas características originais, ou seja, ocorre a seleção de um subconjunto que contém apenas as características mais relevantes do conjunto original. Na transformação de características ocorre a formação de um novo conjunto de características, sendo este novo
conjunto menor que o conjunto original, contendo novas palavras ocasionadas por meio da combinação ou transformação das palavras originais. É importante frisar que ambos os métodos possuem algum tipo de perda de informação. O objetivo deste trabalho é propor um novo método de redução de dimensionalidade que minimize a perda de informação das características a partir da criação de grupos de palavras semanticamente relacionadas utilizando algoritmos de agrupamento e Word Embeddings. Com isso, é possível reduzir a quantidade de características mantendo a semântica de cada palavra. Neste trabalho a redução ocorreu por meio da criação de grupos semânticos. Inicialmente as palavras das bases de dados passaram por uma vetorização, utilizando os métodos Word2Vec e o Glove. Após a vetorização das palavras, foram aplicados os algoritmos de agrupamento, criando grupos menores de características em relação aos grupos originais. O método foi aplicado em bases de dados bastante utilizadas na literatura, alcançando bons resultados,
principalmente em dados mais desestruturados, como páginas da Web, notícias, postagens feitas em Twitter, entre outras.
|
24 |
Baixa dimensionalidade numa rede de neurônios de FitzHugh-NagumoROA, Miguel Angel Durán January 2006 (has links)
Made available in DSpace on 2014-06-12T18:06:54Z (GMT). No. of bitstreams: 3
arquivo7763_1.pdf: 6132198 bytes, checksum: 9583aed73df9b715c6ac388fd2960d11 (MD5)
arquivo7763_2.pdf: 8554510 bytes, checksum: 5c593d6759a4c5587c110585188fab4d (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2006 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / A atividade de um conjunto de neurônios interligados é um problema de atual interesse que
pode ser abordado com uma descrição detalhada dos neurônios da população ou, estudando a
dinâmica da resposta dessas populações sim descrever em detalhe o comportamento individual
dos neurônios. O modelo de Wilson-Cowan consiste em equações para as taxas de disparo
de subpopulações localizadas de neurônios excitatórios e inibitórios. A principal suposição
para chegar nas equações está baseada no alto grau de redundância local (ou seja, a suposição
de que neurônios vizinhos respondem da mesma forma a estímulos similares) e a aleatoriedade
das conexões locais. A vantagem destas equações consiste em reduzir a atividade de um
número grande de neurônios a uma descrição de duas variáveis, com o que se consegue simpli
ficar consideravelmente o problema. Particularmente, elas prevêem a existência de atividade
de ciclo-limite em resposta a um estímulo constante usando uma auto-interação mais forte na
subpopulação excitatória que na inibitória. Nós analisamos se uma rede aleatória de neurô-
nios de FitzHugh-Nagumo que tenta reproduzir a hipótese de Wilson-Cowan tem de fato esse
comportamento dinâmico de baixa dimensionalidade. Os neurônios são conectados com sinapses
químicas excitatórias e inibitórias que se descrevem usando modelos de Markov de dois
estados. As sinapses são distribuídas aleatoriamente, gerando assim quatro grafos dirigidos
de Erdos-Rényi: cada um dos NE(NI) neurônios excitatórios (inibitórios), recebe, em média,
KEE(KEI) sinapses excitatórias da subpopulação excitatória, e KIE(KII) sinapses inibitórias da
subpopulação inibitória.
Os resultados mostram a existência de ciclos-limite e pontos fixos quando projetamos nosso
sistema no plano de fase de Wilson-Cowan. Particularmente, o comportamento bidimensional
de ciclo-limite é mais claro quando pelo menos uma das subpopulações (geralmente a popula
ção excitatória) está aproximadamente sincronizada (sincronização perfeita não é observada
devido à desordem própria da conectividade sináptica). Entretanto, quando as conectividades
médias são pequenas, os neurônios se comportam de maneira diferente e a projeção no plano de
Wilson-Cowan sugere uma descrição num espaço de fase com dimensão mais alta. Para quanti
ficar essa alta dimensionalidade, calculamos a dimensão de imersão (embedding) necessária para desdobrar o atrator que descreve o sistema
|
25 |
Técnicas computacionais de apoio à classificação visual de imagens e outros dados / Computational techniques to support classification of images and other dataJosé Gustavo de Souza Paiva 20 December 2012 (has links)
O processo automático de classificação de dados em geral, e em particular de classificação de imagens, é uma tarefa computacionalmente intensiva e variável em termos de precisão, sendo consideravelmente dependente da configuração do classificador e da representação dos dados utilizada. Muitos dos fatores que afetam uma adequada aplicação dos métodos de classificação ou categorização para imagens apontam para a necessidade de uma maior interferência do usuário no processo. Para isso são necessárias mais ferramentas de apoio às várias etapas do processo de classificação, tais como, mas não limitadas, a extração de características, a parametrização dos algoritmos de classificação e a escolha de instâncias de treinamento adequadas. Este doutorado apresenta uma metodologia para Classificação Visual de Imagens, baseada na inserção do usuário no processo de classificação automática através do uso de técnicas de visualização. A ideia é permitir que o usuário participe de todos os passos da classificação de determinada coleção, realizando ajustes e consequentemente melhorando os resultados de acordo com suas necessidades. Um estudo de diversas técnicas de visualização candidatas para a tarefa é apresentado, com destaque para as árvores de similaridade, sendo apresentadas melhorias do algoritmo de construção em termos de escalabilidade visual e de tempo de processamento. Adicionalmente, uma metodologia de redução de dimensionalidade visual semi-supervisionada é apresentada para apoiar, pela utilização de ferramentas visuais, a criação de espaços reduzidos que melhorem as características de segregação do conjunto original de características. A principal contribuição do trabalho é um sistema de classificação visual incremental que incorpora todos os passos da metodologia proposta, oferecendo ferramentas interativas e visuais que permitem a interferência do usuário na classificação de coleções incrementais com configuração de classes variável. Isso possibilita a utilização do conhecimento do ser humano na construção de classificadores que se adequem a diferentes necessidades dos usuários em diferentes cenários, produzindo resultados satisfatórios para coleções de dados diversas. O foco desta tese é em categorização de coleções de imagens, com exemplos também para conjuntos de dados textuais / Automatic data classification in general, and image classification in particular, are computationally intensive tasks with variable results concerning precision, being considerably dependent on the classifier´s configuration and data representation. Many of the factors that affect an adequate application of classification or categorization methods for images point to the need for more user interference in the process. To accomplish that, it is necessary to develop a larger set of supporting tools for the various stages of the classification set up, such as, but not limited to, feature extraction, parametrization of the classification algorithm and selection of adequate training instances. This doctoral Thesis presents a Visual Image Classification methodology based on the user´s insertion in the classification process through the use of visualization techniques. The idea is to allow the user to participate in all classification steps, adjusting several stages and consequently improving the results according to his or her needs. A study on several candidate visualization techniques is presented, with emphasis on similarity trees, and improvements of the tree construction algorithm, both in visual and time scalability, are shown. Additionally, a visual semi-supervised dimensionality reduction methodology was developed to support, through the use of visual tools, the creation of reduced spaces that improve segregation of the original feature space. The main contribution of this work is an incremental visual classification system incorporating all the steps of the proposed methodology, and providing interactive and visual tools that permit user controlled classification of an incremental collection with evolving class configuration. It allows the use of the human knowledge on the construction of classifiers that adapt to different user needs in different scenarios, producing satisfactory results for several data collections. The focus of this Thesis is image data sets, with examples also in classification of textual collections
|
26 |
Extração de tópicos baseado em agrupamento de regras de associação / Topic extraction based on association rule clusteringFabiano Fernandes dos Santos 29 May 2015 (has links)
Uma representação estruturada dos documentos em um formato apropriado para a obtenção automática de conhecimento, sem que haja perda de informações relevantes em relação ao formato originalmente não-estruturado, é um dos passos mais importantes da mineração de textos, pois a qualidade dos resultados obtidos com as abordagens automáticas para obtenção de conhecimento de textos estão fortemente relacionados à qualidade dos atributos utilizados para representar a coleção de documentos. O Modelo de Espaço de Vetores (MEV) é um modelo tradicional para obter uma representação estruturada dos documentos. Neste modelo, cada documento é representado por um vetor de pesos correspondentes aos atributos do texto. O modelo bag-of-words é a abordagem de MEV mais utilizada devido a sua simplicidade e aplicabilidade. Entretanto, o modelo bag-of-words não trata a dependência entre termos e possui alta dimensionalidade. Diversos modelos para representação dos documentos foram propostos na literatura visando capturar a informação de relação entre termos, destacando-se os modelos baseados em frases ou termos compostos, o Modelo de Espaço de Vetores Generalizado (MEVG) e suas extensões, modelos de tópicos não-probabilísticos, como o Latent Semantic Analysis (LSA) ou o Non-negative Matrix Factorization (NMF), e modelos de tópicos probabilísticos, como o Latent Dirichlet Allocation (LDA) e suas extensões. A representação baseada em modelos de tópicos é uma das abordagens mais interessantes uma vez que elas fornece uma estrutura que descreve a coleção de documentos em uma forma que revela sua estrutura interna e as suas inter-relações. As abordagens de extração de tópicos também fornecem uma estratégia de redução da dimensionalidade visando a construção de novas dimensões que representam os principais tópicos ou assuntos identificados na coleção de documentos. Entretanto, a extração é eficiente de informações sobre as relações entre os termos para construção da representação de documentos ainda é um grande desafio de pesquisa. Os modelos para representação de documentos que exploram a correlação entre termos normalmente enfrentam um grande desafio para manter um bom equilíbrio entre (i) a quantidade de dimensões obtidas, (ii) o esforço computacional e (iii) a interpretabilidade das novas dimensões obtidas. Assim,é proposto neste trabalho o modelo para representação de documentos Latent Association Rule Cluster based Model (LARCM). Este é um modelo de extração de tópicos não-probabilístico que explora o agrupamento de regras de associação para construir uma representação da coleção de documentos com dimensionalidade reduzida tal que as novas dimensões são extraídas a partir das informações sobre as relações entre os termos. No modelo proposto, as regras de associação são extraídas para cada documento para obter termos correlacionados que formam expressões multi-palavras. Essas relações entre os termos formam o contexto local da relação entre termos. Em seguida, aplica-se um processo de agrupamento em todas as regras de associação para formar o contexto geral das relações entre os termos, e cada grupo de regras de associação obtido formará um tópico, ou seja, uma dimensão da representação. Também é proposto neste trabalho uma metodologia de avaliação que permite selecionar modelos que maximizam tanto os resultados na tarefa de classificação de textos quanto os resultados de interpretabilidade dos tópicos obtidos. O modelo LARCM foi comparado com o modelo LDA tradicional e o modelo LDA utilizando uma representação que inclui termos compostos (bag-of-related-words). Os resultados dos experimentos indicam que o modelo LARCM produz uma representação para os documentos que contribui significativamente para a melhora dos resultados na tarefa de classificação de textos, mantendo também uma boa interpretabilidade dos tópicos obtidos. O modelo LARCM também apresentou ótimo desempenho quando utilizado para extração de informação de contexto para aplicação em sistemas de recomendação sensíveis ao contexto. / A structured representation of documents in an appropriate format for the automatic knowledge extraction without loss of relevant information is one of the most important steps of text mining, since the quality of the results obtained with automatic approaches for the text knowledge extraction is strongly related to the quality of the selected attributes to represent the collection of documents. The Vector Space model (VSM) is a traditional structured representation of documents. In this model, each document is represented as a vector of weights that corresponds to the features of the document. The bag-of-words model is the most popular VSM approach because of its simplicity and general applicability. However, the bag-of-words model does not include dependencies of the terms and has a high dimensionality. Several models for document representation have been proposed in the literature in order to capture the dependence among the terms, especially models based on phrases or compound terms, the Generalized Vector Space Model (GVSM) and their extensions, non-probabilistic topic models as Latent Semantic Analysis (LSA) or Non-negative Matrix Factorization (NMF) and still probabilistic topic models as the Latent Dirichlet Allocation (LDA) and their extensions. The topic model representation is one of the most interesting approaches since it provides a structure that describes the collection of documents in a way that reveals their internal structure and their interrelationships. Also, this approach provides a dimensionality reduction strategy aiming to built new dimensions that represent the main topics or ideas of the document collection. However, the efficient extraction of information about the relations of terms for document representation is still a major research challenge nowadays. The document representation models that explore correlated terms usually face a great challenge of keeping a good balance among the (i) number of extracted features, (ii) the computational performance and (iii) the interpretability of new features. In this way, we proposed the Latent Association Rule Cluster based Model (LARCM). The LARCM is a non-probabilistic topic model that explores association rule clustering to build a document representation with low dimensionality in a way that each dimension is composed by information about the relations among the terms. In the proposed approach, the association rules are built for each document to extract the correlated terms that will compose the multi-word expressions. These relations among the terms are the local context of relations. Then, a clustering process is applied for all association rules to discover the general context of the relations, and each obtained cluster is an extracted topic or a dimension of the new document representation. This work also proposes in this work an evaluation methodology to select topic models that maximize the results in the text classification task as much as the interpretability of the obtained topics. The LARCM model was compared against both the traditional LDA model and the LDA model using a document representation that includes multi-word expressions (bag-of-related-words). The experimental results indicate that LARCM provides an document representation that improves the results in the text classification task and even retains a good interpretability of the extract topics. The LARCM model also achieved great results as a method to extract contextual information for context-aware recommender systems.
|
27 |
Técnicas de seleção de características com aplicações em reconhecimento de faces. / Feature selection techniques with applications to face recognition.Campos, Teófilo Emídio de 25 May 2001 (has links)
O reconhecimento de faces é uma área de pesquisa desafiadora que abre portas para a implementação de aplicações muito promissoras. Embora muitos algoritmos eficientes e robustos já tenham sido propostos, ainda restam vários desafios. Dentre os principais obstáculos a serem uperados, está a obtenção de uma representação robusta e compacta de faces que possibilite distinguir os indivíduos rapidamente. Visando abordar esse problema, foi realizado um estudo de técnicas de reconhecimento estatístico de padrões, principalmente na área de redução de dimensionalidade dos dados, além de uma revisão de métodos de reconhecimento de faces. Foi proposto (em colaboração com a pesquisadora Isabelle Bloch) um método de seleção de características que une um algoritmo de busca eficiente (métodos de busca seqüencial flutuante) com uma medida de distância entre conjuntos nebulosos (distância nebulosa baseada em tolerância). Essa medida de distância possui diversas vantagens, sendo possível considerar as diferentes tipicalidades de cada padrão dos conjuntos de modo a permitir a obtenção de bons resultados mesmo com conjuntos com sobreposição. Os resultados preliminares com dados sintéticos mostraram o caráter promissor dessa abordagem. Com o objetivo de verificar a eficiência de tal técnica com dados reais, foram efetuados testes com reconhecimento de pessoas usando imagens da região dos olhos. Nesse caso, em se tratando de um problema com mais de duas classes, nós propusemos uma nova função critério inspirada na distância supracitada. Além disso foi proposto (juntamente com o estudante de mestrado Rogério S. Feris) um esquema de reconhecimento a partir de seqüências de vídeo. Esse esquema inclui a utilização de um método eficiente de rastreamento de características faciais (Gabor Wavelet Networks) e o método proposto anteriormente para seleção de características. Dentro desse contexto, o trabalho desenvolvido nesta dissertação implementa uma parte dos módulos desse esquema. / Face recognition is an instigating research field that may lead to the development of many promising applications. Although many efficient and robust algorithms have been developed in this area, there are still many challenges to be overcome. In particular, a robust and compact face representation is still to be found, which would allow for quick classification of different individuals. In order to address this problem, we first studied pattern recognition techniques, especially regarding dimensionality reduction, followed by the main face recognition methods. We introduced a new feature selection approach in collaboration with the researcher Isabelle Bloch (TSI-ENST-Paris), that associates an efficient searching algorithm (sequential floating search methods), with a tolerance-based fuzzy distance. This distance measure presents some nice features for dealing with the tipicalities of each pattern in the sets, so that good results can be attained even when the sets are overlapping. Preliminary results with synthetic data have demonstrated that this method is quite promising. In order to verify the efficiency of this technique with real data, we applied it for improving the performance of a person recognition system based on eye images. Since this problem involves more than two classes, we also developed a new criterion function based on the above-mentioned distance. Moreover, we proposed (together with Rogério S. Feris) a system for person recognition based on video sequences. This mechanism includes the development of an efficient method for facial features tracking, in addition to our method for feature selection. In this context, the work presented here constitutes part of the proposed system.
|
28 |
SELEÇÃO DE VARIÁVEIS NA MINERAÇÃO DE DADOS AGRÍCOLAS:Uma abordagem baseada em análise de componentes principaisJr., Juscelino Izidoro de Oliveira 30 July 2012 (has links)
Made available in DSpace on 2017-07-21T14:19:33Z (GMT). No. of bitstreams: 1
Juscelino Izidoro Oliveira.pdf: 622255 bytes, checksum: 54447b380bca4ea8e2360060669d5cff (MD5)
Previous issue date: 2012-07-30 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Multivariate data analysis allows the researcher to verify the interaction among a lot of attributes that can influence the behavior of a response variable. That analysis uses models
that can be induced from experimental data set. An important issue in the induction of multivariate regressors and classifers is the sample size, because this determines the reliability of the model for tasks of regression or classification of the response variable. This work approachs the sample size issue through the Theory of Probably Approximately Correct Learning, that comes from problems about machine learning for induction of models. Given the importance of agricultural modelling, this work shows two procedures to select variables. Variable Selection by Principal Component Analysis is an unsupervised procedure and allows the researcher to select the most relevant variables from the agricultural data by considering the variation in the data. Variable Selection by Supervised Principal Component Analysis is a supervised procedure and allows the researcher to perform the same process as in the previous procedure, but concentrating the focus of the selection over the variables with more influence in the behavior of the response variable. Both procedures allow the sample complexity informations to be explored in
variable selection process. Those procedures were tested in five experiments, showing that the supervised procedure has allowed to induce models that produced better scores, by
mean, than that models induced over variables selected by unsupervised procedure. Those experiments also allowed to verify that the variables selected by the unsupervised and supervised procedure showed reduced indices of multicolinearity. / A análise multivariada de dados permite verificar a interação de vários atributos que podem influenciar o comportamento de uma variável de resposta. Tal análise utiliza modelos
que podem ser induzidos de conjuntos de dados experimentais. Um fator importante na indução de regressores e classificadores multivariados é o tamanho da amostra, pois, esta determina a contabilidade do modelo quando há a necessidade de se regredir ou classificar a variável de resposta. Este trabalho aborda a questão do tamanho da amostra por meio da Teoria do Aprendizado Provavelmente Aproximadamente Correto, oriundo de problemas sobre o aprendizado de máquina para a indução de modelos. Dada a importância da modelagem agrícola, este trabalho apresenta dois procedimentos para a seleção de variáveis. O procedimento de Seleção de Variáveis por Análise de Componentes Principais, que não é supervisionado e permite ao pesquisador de agricultura selecionar as variáveis mais relevantes de um conjunto de dados agrícolas considerando a variação contida nos dados. O procedimento de Seleção de Variáveis por Análise de Componentes Principais
Supervisionado, que é supervisionado e permite realizar o mesmo processo do primeiro procedimento, mas concentrando-se apenas nas variáveis que possuem maior infuência no
comportamento da variável de resposta. Ambos permitem que informações a respeito da complexidade da amostra sejam exploradas na seleção de variáveis. Os dois procedimentos
foram avaliados em cinco experimentos, mostrando que o procedimento supervisionado permitiu, em média, induzir modelos que produziram melhores pontuações do que aqueles
modelos gerados sobre as variáveis selecionadas pelo procedimento não supervisionado. Os experimentos também permitiram verificar que as variáveis selecionadas por ambos os procedimentos apresentavam índices reduzidos de multicolinaridade..
|
29 |
Propriedades Magnéticas de Magnetos MolecularesCruz, Clebson dos Santos 14 July 2017 (has links)
Submitted by Biblioteca do Instituto de Física (bif@ndc.uff.br) on 2017-07-14T19:39:29Z
No. of bitstreams: 1
DissertaçãoClebson.pdf: 4945486 bytes, checksum: 38749676f1117adb73bf8a84b5f8989b (MD5) / Made available in DSpace on 2017-07-14T19:39:29Z (GMT). No. of bitstreams: 1
DissertaçãoClebson.pdf: 4945486 bytes, checksum: 38749676f1117adb73bf8a84b5f8989b (MD5) / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Fundação de Amparo à Pesquisa do Estado do Rio de Janeiro / Com o desenvolvimento de novas tecnologias e os avanços nas técnicas de preparação de materiais, uma grande variedade de novos compostos puderam então ser sintetizados, dentre estes compostos estão os Magnetos Moleculares. Neste texto, apresentamos alguns fundamentos do magnetismo molecular, destacando o processo de construção de modelos para a descrição do comportamento magnético destes materiais através do ajuste dos dados da susceptibilidade magnética em função da temperatura. Buscamos compreender a maneira com que os diferentes parâmetros químicos e estruturais e afetam os mecanismos físicos que governam estes sistemas através do estudo de três séries de magnetos moleculares: um polímero bidimesional de Mn(II) sintetizado a partir do ácido 2,6-diclorobenzóico (C7H4Cl2O2), cujos parâmetros otimizados obtidos através do modelo sugerem que este composto possui um caráter global antiferromagnético; uma série de quatro compostos polinucleares de Cu(II) sintetizados com adenina (C5H5N5), cluster hexagonal heptanuclear ferromagnético e três cadeias antiferromagnéticas 2D dinucleares; uma série de quatro estruturas Metal-Orgânicas (Metal organic Frameworks-MOF) de Cu(II)-piperazina, onde foi feito um mapa das possíveis interações magnéticas para cada amostra. Por fim, como perspectiva para este trabalho pretendemos dar continuidade ao estudo de sistemas de magnetos moleculares dando ênfase à aplicação em informação quântica. / From the development of new technologies and advances in materials preparation techniques a wide variety of new compounds could be synthesized, among these compounds are the Molecular Magnets. In this paper, we present some fundamentals of molecular magnetism, highlighting the model-building process for the description of the magnetic behavior of these materials by fitting of the magnetic susceptibility as a function of temperature. Our goal is to understand how different chemical and structural parameters can affect the physical mechanisms that govern these systems . To achieve our aim we study three series of molecular magnets: a two-dimensional polymer Mn(II) synthesized from 2,6-acid dichlorobenzoic (C7H4Cl2O2), the optimized parameters obtained from the model suggest that this compound has an antiferromagnetic global character; a series of four polynuclear compounds of Cu(II) synthesized with adenine (C5H5N5), a ferromagnetic hexagonal cluster and three antiferromagnetic 2 D chains; a series of four Metal-Organic Frameworks (MOF) of Cu(II) -piperazine, where a magnetic interaction map was done for each sample. Finally, the perspective we intend to emphasize the study of molecular magnets systems with applications in quantum information.
|
30 |
Técnicas de seleção de características com aplicações em reconhecimento de faces. / Feature selection techniques with applications to face recognition.Teófilo Emídio de Campos 25 May 2001 (has links)
O reconhecimento de faces é uma área de pesquisa desafiadora que abre portas para a implementação de aplicações muito promissoras. Embora muitos algoritmos eficientes e robustos já tenham sido propostos, ainda restam vários desafios. Dentre os principais obstáculos a serem uperados, está a obtenção de uma representação robusta e compacta de faces que possibilite distinguir os indivíduos rapidamente. Visando abordar esse problema, foi realizado um estudo de técnicas de reconhecimento estatístico de padrões, principalmente na área de redução de dimensionalidade dos dados, além de uma revisão de métodos de reconhecimento de faces. Foi proposto (em colaboração com a pesquisadora Isabelle Bloch) um método de seleção de características que une um algoritmo de busca eficiente (métodos de busca seqüencial flutuante) com uma medida de distância entre conjuntos nebulosos (distância nebulosa baseada em tolerância). Essa medida de distância possui diversas vantagens, sendo possível considerar as diferentes tipicalidades de cada padrão dos conjuntos de modo a permitir a obtenção de bons resultados mesmo com conjuntos com sobreposição. Os resultados preliminares com dados sintéticos mostraram o caráter promissor dessa abordagem. Com o objetivo de verificar a eficiência de tal técnica com dados reais, foram efetuados testes com reconhecimento de pessoas usando imagens da região dos olhos. Nesse caso, em se tratando de um problema com mais de duas classes, nós propusemos uma nova função critério inspirada na distância supracitada. Além disso foi proposto (juntamente com o estudante de mestrado Rogério S. Feris) um esquema de reconhecimento a partir de seqüências de vídeo. Esse esquema inclui a utilização de um método eficiente de rastreamento de características faciais (Gabor Wavelet Networks) e o método proposto anteriormente para seleção de características. Dentro desse contexto, o trabalho desenvolvido nesta dissertação implementa uma parte dos módulos desse esquema. / Face recognition is an instigating research field that may lead to the development of many promising applications. Although many efficient and robust algorithms have been developed in this area, there are still many challenges to be overcome. In particular, a robust and compact face representation is still to be found, which would allow for quick classification of different individuals. In order to address this problem, we first studied pattern recognition techniques, especially regarding dimensionality reduction, followed by the main face recognition methods. We introduced a new feature selection approach in collaboration with the researcher Isabelle Bloch (TSI-ENST-Paris), that associates an efficient searching algorithm (sequential floating search methods), with a tolerance-based fuzzy distance. This distance measure presents some nice features for dealing with the tipicalities of each pattern in the sets, so that good results can be attained even when the sets are overlapping. Preliminary results with synthetic data have demonstrated that this method is quite promising. In order to verify the efficiency of this technique with real data, we applied it for improving the performance of a person recognition system based on eye images. Since this problem involves more than two classes, we also developed a new criterion function based on the above-mentioned distance. Moreover, we proposed (together with Rogério S. Feris) a system for person recognition based on video sequences. This mechanism includes the development of an efficient method for facial features tracking, in addition to our method for feature selection. In this context, the work presented here constitutes part of the proposed system.
|
Page generated in 0.4632 seconds