Global ETD Search

1	Seleção de características para problemas de classificação de documentos Hugo Wanderley Pinheiro, Roberto 31 January 2011 (has links) Made available in DSpace on 2014-06-12T15:58:24Z (GMT). No. of bitstreams: 2 arquivo4097_1.pdf: 888475 bytes, checksum: 0cb3006c0211d4a3f7598e6efed04914 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2011 / Os sistemas de classificação de documentos servem, de modo geral, para facilitar o acesso do usuário a uma base de documentos. Esses sistemas podem ser utilizados para detectar spams; recomendar notícias de uma revista, artigos científicos ou produtos de uma loja virtual; refinar buscas e direcioná-las por assunto. Uma das maiores dificuldades na classificação de documentos é sua alta dimensionalidade. A abordagem bag of words, utilizada para extrair as características e obter os vetores que representam os documentos, gera dezenas de milhares de características. Vetores dessa dimensão demandam elevado custo computacional, além de possuir informações irrelevantes e redundantes. Técnicas de seleção de características reduzem a dimensionalidade da representação, de modo a acelerar o processamento do sistema e a facilitar a classificação. Entretanto, a seleção de características utilizada em problemas de classificação de documentos requer um parâmetro m que define quantas características serão selecionadas. Encontrar um bom valor para m é um procedimento complicado e custoso. A idéia introduzida neste trabalho visa remover a necessidade do parâmetro m e garantir que as características selecionadas cubram todos os documentos do conjunto de treinamento. Para atingir esse objetivo, o algoritmo proposto itera sobre os documentos do conjunto de treinamento e, para cada documento, escolhe a característica mais relevante. Se a característica escolhida já tiver sido selecionada, ela é ignorada, caso contrário, ela é selecionada. Deste modo, a quantidade de características é conhecida no final da execução do algoritmo, sem a necessidade de declarar um valor prévio para m. Os métodos propostos seguem essa ideia inicial com certas variações: inserção do parâmetro f para selecionar várias características por documento; utilização de informação local das classes; restrição de quais documentos serão usados no processo de seleção. Os novos algoritmos são comparados com um método clássico (Variable Ranking). Nos experimentos, foram usadas três bases de dados e cinco funções de avaliação de característica. Os resultados mostram que os métodos propostos conseguem melhores taxas de acerto Classificação de Documentos Seleção de Características K vizinhos mais próximos Naïve Bayes Recuperação de Informação
2	GESTÃO DO PATRIMÔNIO DOCUMENTAL: ELABORAÇÃO DO VOCABULÁRIO CONTROLADO PARA ORGANIZAR E ACESSAR INFORMAÇÕES ARQUIVÍSTICAS / DOCUMENTARY HERITAGE MANAGEMENT: CONTROLLED VOCABULARY PREPARATION TO ORGANIZE AND ACCESS ARCHIVAL INFORMATION Ilha, Rita Medianeira 13 May 2013 (has links) The study of the vocabulary used to name the Federal University of Santa Maria (UFSM) functions and activities is the one presented in this research aiming at controlling the vocabulary and, to build a controlled vocabulary as a means of standardization to improve the searching and access of documents. This is an applied research with a qualitative approach that seeks to develop the knowledge making it possible to understand and transform the reality regarding the presented topic. The work was structured considering the documents classification plan that already existed, which were used to survey the terms used to name classes, subclasses and document types. The survey made it possible to identify and analyze the terminological differences and, to apply the vocabulary control to both micro and macro vocabulary control procedures. The result was the development of a Controlled Vocabulary, disposed in alphabetical order, containing the adopted and not adopted terms, serving as a remitting. The purpose is to qualify the UFSM Archival System with regard to documents search and access. / O estudo do vocabulário utilizado para denominar as funções e atividades da Universidade Federal de Santa Maria é o que apresenta esta pesquisa, visando o controle do vocabulário e a construção do Vocabulário Controlado, como forma de padronização, para aprimorar a busca e o acesso aos documentos. Trata-se de uma pesquisa aplicada, de abordagem qualitativa que busca a elaboração de conhecimento que possibilite a compreensão e transformação da realidade em relação ao tema apresentado. O trabalho foi estruturado levando em conta os planos de classificação de documentos já elaborados, que serviram para realizar o levantamento dos termos usados para denominar as classes, subclasses e tipos documentais. O levantamento possibilitou identificar e analisar as divergências terminológicas e, com isso, aplicar o controle do vocabulário, no que se refere aos procedimentos micro e macro. O resultado foi a elaboração do Vocabulário Controlado, disposto através de lista alfabética, que dispõe tanto dos termos adotados como dos termos não adotados, servindo como remissiva. O propósito é qualificar o Sistema de Arquivos da UFSM no que se refere à busca e ao acesso aos documentos. Arquivologia Normalização Padronização Plano de Classificação de Documentos Vocabulário Controlado Archivology Normalization Standardization Documents Classification Plan Controlled Vocabulary CNPQ::CIENCIAS HUMANAS::HISTORIA
3	Criação de vetores temáticos de domínios para a desambiguação polissêmica de termos. / Creation of thematic vectors of domains for the polysemic disambiguation of terms. BISPO, Magna Celi Tavares. 01 August 2018 (has links) Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-08-01T17:34:31Z No. of bitstreams: 1 MAGNA CELI TAVARES BISPO - DISSERTAÇÃO PPGCC 2012..pdf: 13590339 bytes, checksum: 3903bd3ab6c0c474a6a7e9bf8b04e08a (MD5) / Made available in DSpace on 2018-08-01T17:34:31Z (GMT). No. of bitstreams: 1 MAGNA CELI TAVARES BISPO - DISSERTAÇÃO PPGCC 2012..pdf: 13590339 bytes, checksum: 3903bd3ab6c0c474a6a7e9bf8b04e08a (MD5) Previous issue date: 2012-11-30 / A ambiguidade de termos é um dos fatores que dificulta o processo de indexação de documentos e recuperação de informação desejada por um usuário. O presente trabalho se baseia na hipótese de que parte deste problema pode ser minimizado sabendo-se de antemão o domínio do documento que contém termos ambíguos. Para determinar este domínio foram construídos vocabulários temáticos por meio da extração de termos de documentos de domínios de conhecimento pré-determinados, com o uso de regras sintáticas. A Wikipédia foi usada como base de consulta, por ser uma enciclopédia digital contendo as categorias definidas semelhantes à Classificação Decimal Universal (CDU), e cada categoria com uma vasta quantidade de documentos específicos, sendo essa característica fundamental para formação de um vocabulário específico do domínio de um conhecimento. A escolha das categorias foi baseada na CDU, composta de 10 domínios e seus respectivos subdomínios. Os vocabulários obtidos, denominados de Vetores Temáticos de Domínio (VTD), serviram de base para a classificação de novos documentos. Para validação dos VTD's, foram realizados três tipos de experimentos diferentes, o primeiro foi classificar novos documentos utilizando o método vetorial, tendo o VTD como base de consulta. O segundo experimento foi uma classificação utilizando outro classificador, o Intellexer Categorizer, e o terceiro experimento, criou-se um vetor de termos através do Weka, o qual foi submetido a servir de base de consulta para classificar novos documentos, utilizando o modelo vetorial. Os resultados foram satisfatórios, pois mostrou que o VTD obteve uma melhor classificação em relação aos outros métodos, dos 14 novos documentos, classificou 10 corretamente e 4 errados, apresentando uma acurácia de 80%, contra a acurácia de 57% do Intellexer Categorizer e de 50% da classificação utilizando o vetor de termos criado pelo Weka. / Terms ambiguity is one of the factors that hinders the document indexation and information retrieval processes desired by a user. This work is based on the hypothesis that part of this problem can be minimized by knowing beforehand the field of the document that contains ambiguous terms. To determine this domain, typical vocabularies were created through the extraction of terms from documents of predetermined knowledge domains, with the use of syntactical rules. Wikipedia was used as a consultation base because it is a digital encyclopedia that contains the categories defined similar to the Universal Decimal Classification (UDC), each category containing a vast amount of specific documents, being this feature essential for the formation of a domain-specific vocabulary. The choice of the categories was based on the UDC, composed of 10 domains and their respective subdomains. The vocabularies obtained, denominated as Thematic Domain Vectors (TDV), served as the basis for the classification of new documents. For the validation of the TDVs, three different types of experiments were performed: the first was to classify new documents using the vectorial method, with the TDV as a basis of consultation. The second experiment was a classification using another classifier, the Intellexer Categorizer. For the third experiment was created a vector of terms through Weka, which was submitted to serve as a a consultation base to classify new documents using the vectorial model. The results were satisfactory, because they showed that the TDV obtained a better classification relative to other methods. Of the 14 new documents, properly it rated 10 and 4 incorrectly, with an accuracy of 80%, against 57% accuracy of the Intellexer Categorizer program and 50% of the classification using the Weka created vector of terms. Ciência da Computação. Ciência da Informação. Vetores temáticos de domínios Desambiguação polissêmica de termos Indexação de documentos Ambiguidade de termos - indexação Vocabulários temáticos Recuperação da informação Classificação Decimal Universal - CDU Vocabulário controlado Intellexer Categorizer Processamento da linguagem natural Postagger Thematic vocabulaires Document indexing Information retrieval

1

Page generated in 0.0874 seconds