Spelling suggestions: "subject:"vocabulários matemáticos"" "subject:"vocabulários temática""
1 |
RISO - TT - Extração de expressões temporais em textos. / RISO - TT - Extraction of temporal expressions in texts.SANTOS, Adriano Araújo. 26 July 2018 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-07-26T15:09:11Z
No. of bitstreams: 1
ADRIANO ARAÚJO SANTOS - DISSERTAÇÃO PPGCC 2013..pdf: 7720673 bytes, checksum: fdba828ba2c20b709ed7c3efbc93f751 (MD5) / Made available in DSpace on 2018-07-26T15:09:11Z (GMT). No. of bitstreams: 1
ADRIANO ARAÚJO SANTOS - DISSERTAÇÃO PPGCC 2013..pdf: 7720673 bytes, checksum: fdba828ba2c20b709ed7c3efbc93f751 (MD5)
Previous issue date: 2013-04-22 / A necessidade de gerenciar a grande quantidade de documentos digitais existentes
na atualidade, associada à incapacidade humana de analisar todas essas
informações em tempo hábil, fez com que as pesquisas e o desenvolvimento de
sistemas na área de automatização de processos para a gestão de informação
crescessem, no entanto, essa atividade não é trivial. A maioria dos documentos
disponíveis não tem estrutura bem definida (padronizada), o que torna difícil a
criação de mecanismos computacionais que automatizem a análise das informações
e gera a necessidade de se promoverem atividades intermediárias de conversão de
informações em linguagem natural em informações estruturadas. Para isso, são
necessárias atividades de reconhecimento de padrões nominais, temporais e
espaciais. No tocante a essa pesquisa, o objetivo principal foi criar um mecanismo
de reconhecimento de padrões temporais. Heuristicamente, foi criado um dicionário de regras baseadas em associações de padrões temporais e desenvolvido um módulo de marcação e recuperação de padrões temporais em uma arquitetura extensível e flexível, chamado RISO-TT, que implementa esse mecanismo de reconhecimento de padrões temporais. Esse módulo faz parte do projeto de pesquisa RISO (Recuperação da Informação Semântica de Objetos Textuais). Foram realizados dois experimentos para avaliar a eficiência do RISO-TT. O primeiro, com o intuito de verificar a extensibilidade e a
flexibilidade do módulo RISO-TT, e o segundo, para analisar a eficiência da
abordagem proposta com base em uma comparação com duas ferramentas
consolidadas no meio académico (HeidelTime e SuTime). O RISO-TT obteve
resultados superiores aos concorrentes no processo de marcação de expressões
temporais, comprovados por meio de testes estatísticos. / The necessity of managing the large amount of digital existing documents nowadays,
associated to the human inability to analyze ali this information in a fast manner, led
to a growth of research in the area of system development for automation of the
information management process. Nevertheless, this is not a trivial task. Most of the
available documents do not have a standardized structure, hindering the
development of computational schemes that can automate the analysis of
information, thus requiring jobs of information conversion from natural language to
structured information. For such, syntactic, temporal and spatial pattern recognition
tasks are needed. Concerning the present study, the main objective is to create an
advanced temporal pattern recognition mechanism. We created, heurístically, a rules
dictionary of temporal patterns, developing a module in an extendable and flexible
architecture for retrieval and marking. This module, called RISO-TT, implements this
pattern recognition mechanism and is part of the RISO project (Retrieval of Semantic
Information from Textual Objects). Two experiments were carried out in order to
evaluate the efficiency of this approach. The first one was intended to verify the
extendability and flexibility of the RISO-TT architecture and the second one to
analyze the efficiency of the proposed approach, based on a comparison between
the developed module and two Consolidated tools in the academic community
(Heideltime and SuTime). RISO-TT outperformed the rivais in the temporal
expression marking process, which was proved through statistical tests.
|
2 |
Criação de vetores temáticos de domínios para a desambiguação polissêmica de termos. / Creation of thematic vectors of domains for the polysemic disambiguation of terms.BISPO, Magna Celi Tavares. 01 August 2018 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-08-01T17:34:31Z
No. of bitstreams: 1
MAGNA CELI TAVARES BISPO - DISSERTAÇÃO PPGCC 2012..pdf: 13590339 bytes, checksum: 3903bd3ab6c0c474a6a7e9bf8b04e08a (MD5) / Made available in DSpace on 2018-08-01T17:34:31Z (GMT). No. of bitstreams: 1
MAGNA CELI TAVARES BISPO - DISSERTAÇÃO PPGCC 2012..pdf: 13590339 bytes, checksum: 3903bd3ab6c0c474a6a7e9bf8b04e08a (MD5)
Previous issue date: 2012-11-30 / A ambiguidade de termos é um dos fatores que dificulta o processo de indexação de
documentos e recuperação de informação desejada por um usuário. O presente trabalho
se baseia na hipótese de que parte deste problema pode ser minimizado sabendo-se de
antemão o domínio do documento que contém termos ambíguos. Para determinar este
domínio foram construídos vocabulários temáticos por meio da extração de termos de
documentos de domínios de conhecimento pré-determinados, com o uso de regras
sintáticas. A Wikipédia foi usada como base de consulta, por ser uma enciclopédia
digital contendo as categorias definidas semelhantes à Classificação Decimal Universal
(CDU), e cada categoria com uma vasta quantidade de documentos específicos, sendo
essa característica fundamental para formação de um vocabulário específico do
domínio de um conhecimento. A escolha das categorias foi baseada na CDU, composta
de 10 domínios e seus respectivos subdomínios. Os vocabulários obtidos, denominados
de Vetores Temáticos de Domínio (VTD), serviram de base para a classificação de
novos documentos. Para validação dos VTD's, foram realizados três tipos de
experimentos diferentes, o primeiro foi classificar novos documentos utilizando o
método vetorial, tendo o VTD como base de consulta. O segundo experimento foi uma
classificação utilizando outro classificador, o Intellexer Categorizer, e o terceiro
experimento, criou-se um vetor de termos através do Weka, o qual foi submetido a
servir de base de consulta para classificar novos documentos, utilizando o modelo
vetorial. Os resultados foram satisfatórios, pois mostrou que o VTD obteve uma
melhor classificação em relação aos outros métodos, dos 14 novos documentos,
classificou 10 corretamente e 4 errados, apresentando uma acurácia de 80%, contra a
acurácia de 57% do Intellexer Categorizer e de 50% da classificação utilizando o vetor
de termos criado pelo Weka. / Terms ambiguity is one of the factors that hinders the document indexation and
information retrieval processes desired by a user. This work is based on the hypothesis
that part of this problem can be minimized by knowing beforehand the field of the
document that contains ambiguous terms. To determine this domain, typical
vocabularies were created through the extraction of terms from documents of
predetermined knowledge domains, with the use of syntactical rules. Wikipedia was
used as a consultation base because it is a digital encyclopedia that contains the
categories defined similar to the Universal Decimal Classification (UDC), each
category containing a vast amount of specific documents, being this feature essential
for the formation of a domain-specific vocabulary. The choice of the categories was
based on the UDC, composed of 10 domains and their respective subdomains. The
vocabularies obtained, denominated as Thematic Domain Vectors (TDV), served as
the basis for the classification of new documents. For the validation of the TDVs,
three different types of experiments were performed: the first was to classify new
documents using the vectorial method, with the TDV as a basis of consultation. The
second experiment was a classification using another classifier, the Intellexer
Categorizer. For the third experiment was created a vector of terms through Weka,
which was submitted to serve as a a consultation base to classify new documents using
the vectorial model. The results were satisfactory, because they showed that the TDV
obtained a better classification relative to other methods. Of the 14 new documents,
properly it rated 10 and 4 incorrectly, with an accuracy of 80%, against 57% accuracy
of the Intellexer Categorizer program and 50% of the classification using the Weka
created vector of terms.
|
Page generated in 0.0458 seconds