1 |
Categorização hierárquica de textos em um portal agregador de notíciasBorges, Hugo Lima January 2009 (has links)
Orientadora: Ana Carolina Lorena / Dissertação (mestrado) - Universidade Federal do ABC. Programa de Pós-Graduação em Engenharia da Informação, 2009
|
2 |
Algoritmos de seleção de características personalizados por classe para categorização de textoFRAGOSO, Rogério César Peixoto 26 August 2016 (has links)
Submitted by Rafael Santana (rafael.silvasantana@ufpe.br) on 2017-08-31T19:39:48Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Rogerio_Fragoso.pdf: 1117500 bytes, checksum: 3e7915ee5c34322de3a8358d59679961 (MD5) / Made available in DSpace on 2017-08-31T19:39:48Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Rogerio_Fragoso.pdf: 1117500 bytes, checksum: 3e7915ee5c34322de3a8358d59679961 (MD5)
Previous issue date: 2016-08-26 / A categorização de textos é uma importante ferramenta para organização e recuperação de
informações em documentos digitais. Uma abordagem comum é representar cada palavra
como uma característica. Entretanto, a maior parte das características em um documento
textual são irrelevantes para sua categorização. Assim, a redução de dimensionalidade
é um passo fundamental para melhorar o desempenho de classificação e reduzir o alto
custo computacional inerente a problemas de alta dimensionalidade, como é o caso da
categorização de textos. A estratégia mais utilizada para redução de dimensionalidade
em categorização de textos passa por métodos de seleção de características baseados em
filtragem. Métodos deste tipo exigem um esforço para configurar o tamanho do vetor final
de características. Este trabalho propõe métodos de filtragem com o intuito melhorar o
desempenho de classificação em comparação com os métodos atuais e de tornar possível a
automatização da escolha do tamanho do vetor final de características. O primeiro método
proposto, chamado Category-dependent Maximum f Features per Document-Reduced
(cMFDR), define um limiar para cada categoria para determinar quais documentos serão
considerados no processo de seleção de características. O método utiliza um parâmetro
para definir quantas características são selecionadas por documento. Esta abordagem
apresenta algumas vantagens, como a simplificação do processo de escolha do subconjunto
mais efetivo através de uma drástica redução da quantidade de possíveis configurações.
O segundo método proposto, Automatic Feature Subsets Analyzer (AFSA), introduz um
procedimento para determinar, de maneira guiada por dados, o melhor subconjunto de
características dentre um número de subconjuntos gerados. Este método utiliza o mesmo
parâmetro usado por cMFDR para definir a quantidade de características no vetor final.
Isto permite que a busca pelo melhor subconjunto tenha um baixo custo computacional. O
desempenho dos métodos propostos foram avaliados nas bases de dados WebKB, Reuters,
20 Newsgroup e TDT2, utilizando as funções de avaliação de características Bi-Normal
Separation, Class Discriminating Measure e Chi-Squared Statistics. Os resultados dos
experimentos demonstraram uma maior efetividade dos métodos propostos em relação aos
métodos do estado da arte. / Text categorization is an important technic to organize and retrieve information from digital
documents. A common approach is to represent each word as a feature. However most of
the features in a textual document is irrelevant to its categorization. Thus, dimensionality
reduction is a fundamental step to improve classification performance and diminish the
high computational cost inherent to high dimensional problems, such as text categorization.
The most commonly adopted strategy for dimensionality reduction in text categorization
undergoes feature selection methods based on filtering. This kind of method requires an
effort to configure the size of the final feature vector. This work proposes filtering methods
aiming to improve categorization performence comparing to state-of-the-art methods
and to provide a possibility of automitic determination of the size of the final feature
set. The first proposed method, namely Category-dependent Maximum f Features per
Document-Reduced (cMFDR), sets a threshold for each category that determines which
documents are considered in feature selection process. The method uses a parameter to
arbitrate how many features are selected per document. This approach presents some
advantages, such as simplifying the process of choosing the most effective subset through
a strong reduction of the number of possible configurations. The second proposed method,
Automatic Feature Subsets Analyzer (AFSA), presents a procedure to determine, in a data
driven way, the most effective subset among a number of generated subsets. This method
uses the same parameter used by cMFDR to define the size of the final feature vector. This
fact leads to lower computational costs to find the most effective set. The performance of
the proposed methods was assessed in WebKB, Reuters, 20 Newsgroup and TDT2 datasets,
using Bi-Normal Separation, Class Discriminating Measure and Chi-Squared Statistics
feature evaluations functions. The experimental results demonstrates that the proposed
methods are more effective than state-of-art methods.
|
3 |
Indução de filtros lingüisticamente motivados na recuperação de informação / Linguistically motivated filter induction in information retrievalArcoverde, João Marcelo Azevedo 17 April 2007 (has links)
Apesar dos processos de recuperação e filtragem de informação sempre terem usado técnicas básicas de Processamento de Linguagem Natural (PLN) no suporte à estruturação de documentos, ainda são poucas as indicações sobre os avanços relacionados à utilização de técnicas mais sofisticadas de PLN que justifiquem o custo de sua utilização nestes processos, em comparação com as abordagens tradicionais. Este trabalho investiga algumas evidências que fundamentam a hipótese de que a aplicação de métodos que utilizam conhecimento linguístico é viável, demarcando importantes contribuições para o aumento de sua eficiência em adição aos métodos estatásticos tradicionais. É proposto um modelo de representação de texto fundamentado em sintagmas nominais, cuja representatividade de seus descritores é calculada utilizando-se o conceito de evidência, apoiado em métodos estatísticos. Filtros induzidos a partir desse modelo são utilizados para classificar os documentos recuperados analisando-se a relevância implícita no perfil do usuário. O aumento da precisão (e, portanto, da eficácia) em sistemas de Recuperação de Informação, conseqüência da pós-filtragem seletiva de informações, demonstra uma clara evidência de como o uso de técnicas de PLN pode auxiliar a categorização de textos, abrindo reais possibilidades para o aprimoramento do modelo apresentado / Although Information Retrieval and Filtering tasks have always used basic Natural Language Processing (NLP) techniques for supporting document structuring, there is still space for more sophisticated NLP techniques which justify their cost when compared to the traditional approaches. This research aims to investigate some evidences that justify the hypothesis on which the use of linguistic-based methods is feasible and can bring on relevant contributions to this area. In this work noun phrases of a text are used as descriptors whose evidence is calculated by statistical methods. Filters are then induced to classify the retrieved documents by measuring their implicit relevance presupposed by an user profile. The increase of precision (efficacy) in IR systems as a consequence of the use of NLP techniques for text classification in the filtering task is an evidence of how this approach can be further explored
|
4 |
Indução de filtros lingüisticamente motivados na recuperação de informação / Linguistically motivated filter induction in information retrievalJoão Marcelo Azevedo Arcoverde 17 April 2007 (has links)
Apesar dos processos de recuperação e filtragem de informação sempre terem usado técnicas básicas de Processamento de Linguagem Natural (PLN) no suporte à estruturação de documentos, ainda são poucas as indicações sobre os avanços relacionados à utilização de técnicas mais sofisticadas de PLN que justifiquem o custo de sua utilização nestes processos, em comparação com as abordagens tradicionais. Este trabalho investiga algumas evidências que fundamentam a hipótese de que a aplicação de métodos que utilizam conhecimento linguístico é viável, demarcando importantes contribuições para o aumento de sua eficiência em adição aos métodos estatásticos tradicionais. É proposto um modelo de representação de texto fundamentado em sintagmas nominais, cuja representatividade de seus descritores é calculada utilizando-se o conceito de evidência, apoiado em métodos estatísticos. Filtros induzidos a partir desse modelo são utilizados para classificar os documentos recuperados analisando-se a relevância implícita no perfil do usuário. O aumento da precisão (e, portanto, da eficácia) em sistemas de Recuperação de Informação, conseqüência da pós-filtragem seletiva de informações, demonstra uma clara evidência de como o uso de técnicas de PLN pode auxiliar a categorização de textos, abrindo reais possibilidades para o aprimoramento do modelo apresentado / Although Information Retrieval and Filtering tasks have always used basic Natural Language Processing (NLP) techniques for supporting document structuring, there is still space for more sophisticated NLP techniques which justify their cost when compared to the traditional approaches. This research aims to investigate some evidences that justify the hypothesis on which the use of linguistic-based methods is feasible and can bring on relevant contributions to this area. In this work noun phrases of a text are used as descriptors whose evidence is calculated by statistical methods. Filters are then induced to classify the retrieved documents by measuring their implicit relevance presupposed by an user profile. The increase of precision (efficacy) in IR systems as a consequence of the use of NLP techniques for text classification in the filtering task is an evidence of how this approach can be further explored
|
Page generated in 0.0154 seconds