591 |
[en] TEXT CATEGORIZATION: CASE STUDY: PATENT S APPLICATION DOCUMENTS IN PORTUGUESE / [pt] CATEGORIZAÇÃO DE TEXTOS: ESTUDO DE CASO: DOCUMENTOS DE PEDIDOS DE PATENTE NO IDIOMA PORTUGUÊSNEIDE DE OLIVEIRA GOMES 08 January 2015 (has links)
[pt] Atualmente os categorizadores de textos construídos por técnicas de
aprendizagem de máquina têm alcançado bons resultados, tornando viável a
categorização automática de textos. A proposição desse estudo foi a definição de
vários modelos direcionados à categorização de pedidos de patente, no idioma
português. Para esse ambiente foi proposto um comitê composto de 6 (seis)
modelos, onde foram usadas várias técnicas. A base de dados foi constituída de
1157 (hum mil cento e cinquenta e sete) resumos de pedidos de patente,
depositados no INPI, por depositantes nacionais, distribuídos em várias
categorias. Dentre os vários modelos propostos para a etapa de processamento da
categorização de textos, destacamos o desenvolvido para o Método 01, ou seja, o
k-Nearest-Neighbor (k-NN), modelo também usado no ambiente de patentes, para
o idioma inglês. Para os outros modelos, foram selecionados métodos que não os
tradicionais para ambiente de patentes. Para quatro modelos, optou-se por
algoritmos, onde as categorias são representadas por vetores centróides. Para um
dos modelos, foi explorada a técnica do High Order Bit junto com o algoritmo k-
NN, sendo o k todos os documentos de treinamento. Para a etapa de préprocessamento
foram implementadas duas técnicas: os algoritmos de stemização
de Porter; e o StemmerPortuguese; ambos com modificações do original. Foram
também utilizados na etapa do pré-processamento: a retirada de stopwords; e o
tratamento dos termos compostos. Para a etapa de indexação foi utilizada
principalmente a técnica de pesagem dos termos intitulada: frequência de termos
modificada versus frequência de documentos inversa TF -IDF . Para as medidas
de similaridade ou medidas de distância destacamos: cosseno; Jaccard; DICE;
Medida de Similaridade; HOB. Para a obtenção dos resultados foram usadas as
técnicas de predição da relevância e do rank. Dos métodos implementados nesse
trabalho, destacamos o k-NN tradicional, o qual apresentou bons resultados
embora demande muito tempo computacional. / [en] Nowadays, the text s categorizers constructed based on learning techniques,
had obtained good results and the automatic text categorization became viable.
The purpose of this study was the definition of various models directed to text
categorization of patent s application in Portuguese language. For this
environment was proposed a committee composed of 6 (six) models, where were
used various techniques. The text base was constituted of 1157 (one thousand one
hundred fifty seven) abstracts of patent s applications, deposited in INPI, by
national applicants, distributed in various categories. Among the various models
proposed for the step of text categorization s processing, we emphasized the one
devellopped for the 01 Method, the k-Nearest-Neighbor (k-NN), model also used
in the English language patent s categorization environment. For the others
models were selected methods, that are not traditional in the English language
patent s environment. For four models, there were chosen for the algorithms,
centroid vectors representing the categories. For one of the models, was explored
the High Order Bit technique together with the k-NN algorithm, being the k all the
training documents. For the pre-processing step, there were implemented two
techniques: the Porter s stemization algorithm; and the StemmerPortuguese
algorithm; both with modifications of the original. There were also used in the
pre-processing step: the removal of the stopwards; and the treatment of the
compound terms. For the indexing step there was used specially the modified
documents term frequency versus documents term inverse frequency TF-IDF .
For the similarity or distance measures there were used: cosine; Jaccard; DICE;
Similarity Measure; HOB. For the results, there were used the relevance and the
rank technique. Among the methods implemented in this work it was emphasized
the traditional k-NN, which had obtained good results, although demands much
computational time.
|
592 |
Uma nova abordagem de aprendizagem de máquina combinando elicitação automática de casos, aprendizagem por reforço e mineração de padrões sequenciais para agentes jogadores de damasCastro Neto, Henrique de 21 November 2016 (has links)
Fundação de Amparo a Pesquisa do Estado de Minas Gerais / Agentes que operam em ambientes onde as tomadas de decisão precisam levar em
conta, além do ambiente, a atuação minimizadora de um oponente (tal como nos jogos),
é fundamental que o agente seja dotado da habilidade de, progressivamente, traçar um
perĄl de seu adversário que o auxilie em seu processo de seleção de ações apropriadas.
Entretanto, seria improdutivo construir um agente com um sistema de tomada de decisão
baseado apenas na elaboração desse perĄl, pois isso impediria o agente de ter uma Şidentidade
própriaŤ, o que o deixaria a mercê de seu adversário. Nesta direção, este trabalho
propõe um sistema automático jogador de Damas híbrido, chamado ACE-RL-Checkers,
dotado de um mecanismo dinâmico de tomada de decisões que se adapta ao perĄl de seu
oponente no decorrer de um jogo. Em tal sistema, o processo de seleção de ações (movimentos)
é conduzido por uma composição de Rede Neural de Perceptron Multicamadas e
biblioteca de casos. No caso, a Rede Neural representa a ŞidentidadeŤ do agente, ou seja,
é um módulo tomador de decisões estático já treinado e que faz uso da técnica de Aprendizagem
por Reforço TD( ). Por outro lado, a biblioteca de casos representa o módulo
tomador de decisões dinâmico do agente que é gerada pela técnica de Elicitação Automática
de Casos (um tipo particular de Raciocínio Baseado em Casos). Essa técnica possui
um comportamento exploratório pseudo-aleatório que faz com que a tomada de decisão
dinâmica do agente seja guiada, ora pelo perĄl de jogo do adversário, ora aleatoriamente.
Contudo, ao conceber tal arquitetura, é necessário evitar o seguinte problema: devido às
características inerentes à técnica de Elicitação Automática de Casos, nas fases iniciais do
jogo Ű em que a quantidade de casos disponíveis na biblioteca é extremamente baixa em
função do exíguo conhecimento do perĄl do adversário Ű a frequência de tomadas de decisão
aleatórias seria muito elevada, o que comprometeria o desempenho do agente. Para
atacar tal problema, este trabalho também propõe incorporar à arquitetura do ACE-RLCheckers
um terceiro módulo, composto por uma base de regras de experiência extraída
a partir de jogos de especialistas humanos, utilizando uma técnica de Mineração de Padrões
Sequenciais. O objetivo de utilizar tal base é reĄnar e acelerar a adaptação do
agente ao perĄl de seu adversário nas fases iniciais dos confrontos entre eles. Resultados
experimentais conduzidos em torneio envolvendo ACE-RL-Checkers e outros agentes correlacionados
com este trabalho, conĄrmam a superioridade da arquitetura dinâmica aqui
proposta. / ake into account, in addition to the environment, the minimizing action of an opponent
(such as in games), it is fundamental that the agent has the ability to progressively trace
a proĄle of its adversary that aids it in the process of selecting appropriate actions. However,
it would be unsuitable to construct an agent with a decision-making system based
on only the elaboration of this proĄle, as this would prevent the agent from having its
Şown identityŤ, which would leave it at the mercy of its opponent. Following this direction,
this work proposes an automatic hybrid Checkers player, called ACE-RL-Checkers,
equipped with a dynamic decision-making mechanism, which adapts to the proĄle of its
opponent over the course of the game. In such a system, the action selection process
(moves) is conducted through a composition of Multi-Layer Perceptron Neural Network
and case library. In the case, Neural Network represents the ŞidentityŤ of the agent, i.e.,
it is an already trained static decision-making module and makes use of the Reinforcement
Learning TD( ) techniques. On the other hand, the case library represents the
dynamic decision-making module of the agent, which is generated by the Automatic Case
Elicitation technique (a particular type of Case-Based Reasoning). This technique has a
pseudo-random exploratory behavior, which makes the dynamic decision-making on the
part of the agent to be directed, either by the game proĄle of the opponent or randomly.
However, when devising such an architecture, it is necessary to avoid the following problem:
due to the inherent characteristics of the Automatic Case Elicitation technique, in
the game initial phases, in which the quantity of available cases in the library is extremely
low due to low knowledge content concerning the proĄle of the adversary, the decisionmaking
frequency for random decisions is extremely high, which would be detrimental
to the performance of the agent. In order to attack this problem, this work also proposes
to incorporate onto the ACE-RL-Checkers architecture a third module composed
of a base of experience rules, extracted from games played by human experts, using a
Sequential Pattern Mining technique. The objective behind using such a base is to reĄne
and accelerate the adaptation of the agent to the proĄle of its opponent in the initial
phases of their confrontations. Experimental results conducted in tournaments involving
ACE-RL-Checkers and other agents correlated with this work, conĄrm the superiority of
the dynamic architecture proposed herein. / Tese (Doutorado)
|
Page generated in 0.0542 seconds