Spelling suggestions: "subject:"aprendizagem dde maquinas"" "subject:"aprendizagem dde maquinaria""
1 |
Meta-aprendizado para seleção automática de modelos de séries temporaisSOUZA, Renata Maria de 31 January 2010 (has links)
Made available in DSpace on 2014-06-12T16:00:15Z (GMT). No. of bitstreams: 2
arquivo6165_1.pdf: 1230278 bytes, checksum: 064886e8d1500344414739f1068f03b3 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2010 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Meta-Aprendizado tem crescido nos últimos anos devido ao desenvolvimento de assistentes para seleção de algoritmos, com o desafio de predizer quando um algoritmo de aprendizagem é mais adequado do que outro a partir das características dos problemas abordados. O meta-aprendizado surge originalmente para auxiliar a seleção de algoritmos em problemas de aprendizagem de máquina e mineração de dados, particularmente em classificação e regressão. Em anos recentes, meta-aprendizado tem sido extrapolado para seleção de algoritmos em outros domínios de aplicações, como sistemas de planejamento, otimização, bioinformática e previsão de séries temporais. Nesse trabalho, focamos particularmente, em meta-aprendizado no contexto de previsão de séries temporais que tem sido usado em diferentes contextos para diminuir riscos na tomada de decisão. Estudos foram realizados para seleção de modelos de previsão aplicados às séries anuais da M3-competition. Nesses estudos, diferentes algoritmos foram utilizados no meta-aprendizado como o algoritmo kNN, árvores de decisão e support vector machines. Os resultados mostraram que os algoritmos de aprendizado de fato são capazes de predizer os melhores modelos de previsão a partir das características das séries temporais
|
2 |
[en] A METACLASSIFIER FOR FINDING THE K-CLASSES MOST RELEVANTS / [pt] UM METACLASSIFICADOR PARA ENCONTRAR AS K-CLASSES MAIS RELEVANTESDANIEL DA ROSA MARQUES 19 October 2016 (has links)
[pt] Considere uma rede com k nodos que pode apresentar falhas ao longo de
sua operação. Além disso, assuma que é inviável verificar todos os nodos
sempre que uma falha ocorre. Motivados por este cenário, propomos
um método que usa aprendizado de máquina supervisionado para gerar
rankings dos nodos mais prováveis por serem responsáveis pela falha. O
método proposto é um metaclassificador que pode utilizar qualquer tipo de
classificador internamente, onde o modelo gerado pelo metaclassificador é
uma composição daqueles gerados pelos classificadores internos. Cada modelo
interno é treinado com um subconjunto dos dados. Estes subconjuntos
são criados sucessivamente a partir dos dados originais eliminando-se algumas
instâncias. As instâncias eliminadas são aquelas cujas classes já foram
colocadas no ranking. Métricas derivadas da Acurácia, Precision e Recall
foram propostas e usadas para avaliar este método. Utilizando uma base de
domínio público, verificamos que os tempos de treinamento e classificação
do metaclassificador são maiores que os de um classificador simples. Entretanto
ele atinge resultados melhores em alguns casos, como ocorre com as
árvores de decisão, que superam a acurácia do benchmark por uma margem
maior que 5 por cento. / [en] Consider a network with k nodes that may fail along its operation. Furthermore
assume that it is impossible to check all nodes whenever a failure
occurs. Motivated by this scenario, we propose a method that uses supervised
learning to generate rankings of the most likely nodes responsible for
the failure. The proposed method is a meta-classifier that is able to use any
kind of classifier internally, where the model generated by the meta-classifier
is a composition of those generated by the internal classifiers. Each internal
model is trained with a subset of the data created from the elimination of
instances whose classes were already put in the ranking. Metrics derived
from Accuracy, Precision and Recall were proposed and used to evaluate
this method. Using a public data set, we verified that the training and classification
times of the meta-classifier were greater than those of a simple
classifier. However it reaches better results in some cases, as with the decision
trees, that exceeds the benchmark accuracy for a margin greater than
5 percent.
|
3 |
[en] MORPHOSYNTACTIC TAGGER FOR PORTUGUESE-TWITTER / [pt] ANOTADOR MORFOSSINTÁTICO PARA O PORTUGUES-TWITTERPEDRO LARRONDA ASTI 13 October 2011 (has links)
[pt] Nesta dissertação, apresentamos um processador linguístico que resolve a tarefa
de Anotação morfossintática de mensagens em português postadas no
Twitter. Ao analisar as mensagens escritas por brasileiros no Twitter,
é fácil verificar que novos caracteres são introduzidos no alfabeto e também
que novas palavras são adicionadas ao idioma. Além disso, observamos que
essas mensagens são sintaticamente mal formadas. Isto impossibilita o uso
nessas mensagens de diversos processadores linguísticos existentes para o português. Resolvemos esse problema considerando essas mensagens como escritas
em uma nova língua, o português-twitter. O alfabeto dessa nova língua
contém o alfabeto do português e o seu vocabulário contém o vocabulário da
língua portuguesa. Porém, suas gramáticas são diferentes. Para construir os
processadores desta nova linguagem, utilizamos a técnica de aprendizado supervisionado
denominada Entropy Guided Transformation Learning
(ETL). Adicionalmente, para treinar os processadores ETL, construímos um
corpus anotado de mensagens em português-twitter. Não temos conhecimento
da existência de outros Anotadores Morfossintáticos para o português-twitter.
Porém, sabemos que, no estado-da-arte da Anotação Morfossintática para o
português, a acurácia é de aproximadamente 96%, variando de acordo com
o conjunto de classes escolhido. Construímos o processador composto de dois
estágios, um morfológico e um contextual. Como métrica de avaliação, adotamos
a acurácia, que mede quantos por cento do corpus foi anotado corretamente.
Nossos resultados experimentais apresentam uma acurácia de 90,24%
para o anotador proposto. Isto corresponde a um aprendizado significativo,
pois o sistema inicial tem uma acurácia de apenas 76,58%. Este resultado é
compatível com o aprendizado observado nos correspondentes processadores
na língua portuguesa. / [en] In this paper we present a language processor that solves the task of Morphosyntactic
Tagging of messages posted in Portuguese on Twitter. By analyzing
the messages written by Brazilian on Twitter, it is easy to notice that new
characters are introduced in the alphabet and also that new words are added
to the language. Furthermore, we note that these messages are syntactically
malformed. This precludes the use of existing Portuguese processors in these
messages, nevertheless this problem can be solved by considering these messages
as written in a new language, the Portuguese-Twitter. Both the alphabet
and the vocabulary of such idiom contain features of Portuguese. However, the
grammar is are different. In order to build the processors for this new language,
we have used a supervised learning technique known as Entropy Guided
Transformation Learning (ETL). Additionally, to train ETL processors,
we have built an annotated corpus of messages in Portuguese-Twitter. We are
not aware of any other taggers for the Morphosyntactic Portuguese-Twitter
task, thus we have compared our tagger to the the accuracy of state-of-art
Morphosyntactic Annotation for Portuguese, which has accuracy around 96%
depending on the tag set chosen. To assess the quality of the processor, we have
used accuracy, which measures how many tokens were tagged correctly. Our
experimental results show an accuracy of 90,24% for the proposed Morphosyntatic
Tagger. This corresponds to significant learning, since the initial
baseline system has an accuracy of only 76,58%. This finding is consistent with
the observed learning for the corresponding regular Portuguese taggers.
|
4 |
[en] PRODUCT OFFERING CLASSIFICATION / [pt] CLASSIFICAÇÃO DE OFERTAS DE PRODUTOSFELIPE REIS GOMES 26 February 2014 (has links)
[pt] Este trabalho apresenta o EasyLearn, um framework para apoiar o desenvolvimento de aplicações voltadas ao aprendizado supervisionado. O EasyLearn define uma camada intermediaria, de simples configuração e entendimento, entre a aplicação e o WEKA, um framework de aprendizado de máquina criado pela Universidade de Waikato. Todos os classificadores e filtros implementados pelo WEKA podem ser facilmente encapsulados para serem utilizados pelo EasyLearn. O EasyLearn recebe como entrada um conjunto de arquivos de configuração no formato XML contendo a definição do fluxo de processamento a ser executado, além da fonte de dados a ser processada, independente do formato. Sua saída é adaptável e pode ser configurada para produzir, por exemplo, relatórios de acurácia da classificação, a própria da fonte de dados classificada, ou o modelo de classificação já treinado. A arquitetura do EasyLearn foi definida após a análise detalhada dos processos de classificação, permitindo identificar inúmeras atividades em comum entre os três processos estudados aprendizado, avaliação e classificação). Através desta percepção e tomando as linguagens orientadas a objetos como inspiração, foi criado um framework capaz de comportar os processos de classificação e suas possíveis variações, além de permitir o reaproveitamento das configurações, através da implementação de herança e polimorfismo para os seus arquivos de configuração. A dissertação ilustra o uso do framework criado através de um estudo de caso completo sobre classificação de produtos do comércio eletrônico, incluindo a criação do corpus, engenharia de atributos e análise dos resultados obtidos. / [en] This dissertation presents EasyLearn, a framework to support the development of supervised learning applications. EasyLearn dfines an intermediate layer, which is easy to configure and understand, between the application and WEKA, a machine learning framework created by the University of Waikato. All classifiers and filters implemented by WEKA can be easily encapsulated to be used by EasyLearn. EasyLearn receives as input a set of configuration files in XML format containing the definition of the processing flow to be executed, in addition to the data source to be classified, regardless of format. Its output is customizable and can be configured to produce classification accuracy reports, the classified data source, or the trained classification model. The architecture of EasyLearn was defined after a detailed analysis of the classification process, which identified a set of common activities among the three analyzed processes (learning, evaluation and classification). Through this insight and taking the object-oriented languages as inspiration, a framework was created which is able to support the classification processes and its variations, and which also allows reusing settings by implementing inheritance and polymorphism in their configuration files. This dissertation also illustrates the use of the created framework presenting a full case study about e-commerce product classification, including corpus creation, attribute engineering and result analysis.
|
5 |
[en] ON THE INTERACTION BETWEEN SOFTWARE ENGINEERS AND DATA SCIENTISTS WHEN BUILDING MACHINE LEARNING-ENABLED SYSTEMS / [pt] SOBRE A INTERAÇÃO ENTRE ENGENHEIROS DE SOFTWARE E CIENTISTAS DE DADOS CONSTRUINDO SISTEMAS HABILITADOS POR APRENDIZADO DE MÁQUINAGABRIEL DE ANDRADE BUSQUIM 18 June 2024 (has links)
[pt] Nos últimos anos, componentes de aprendizado de máquina têm sido cada
vez mais integrados aos sistemas principais de organizações. A construção desses sistemas apresenta diversos desafios, tanto do ponto de vista teórico quanto
prático. Um dos principais desafios é a interação eficaz entre atores com diferentes formações que precisam trabalhar em conjunto, como engenheiros de
software e cientistas de dados. Este trabalho apresenta três estudos distintos
que investigam as dinâmicas de colaboração entre esses dois atores em projetos
de aprendizado de máquina. Primeiramente, realizamos um estudo de caso exploratório com quatro profissionais com experiência em engenharia de software
e ciência de dados de um grande projeto de sistema habilitado por aprendizado
de máquina. Em nosso segundo estudo, realizamos entrevistas complementares com membros de duas equipes que trabalham em sistemas habilitados por
aprendizado de máquina para obter mais percepções sobre como cientistas de
dados e engenheiros de software compartilham responsabilidades e se comunicam. Por fim, nosso terceiro estudo consiste em um grupo focal onde validamos
a relevância dessa colaboração durante várias tarefas relacionadas à sistemas
habilitados por aprendizado de máquina e avaliamos recomendações que podem melhorar a interação entre os atores. Nossos estudos revelaram vários
desafios que podem dificultar a colaboração entre engenheiros de software e
cientistas de dados, incluindo diferenças de conhecimento técnico, definições
pouco claras das funções de cada um, e a falta de documentos que apoiem
a especificação do sistema habilitado por aprendizado de máquina. Possíveis
soluções para enfrentar esses desafios incluem incentivar a comunicação na
equipe, definir claramente responsabilidades, e produzir uma documentação
concisa do sistema. Nossa pesquisa contribui para a compreensão da complexa
dinâmica entre engenheiros de software e cientistas de dados em projetos de
aprendizado de máquina e fornece recomendações para melhorar a colaboração
e a comunicação nesse contexto. Incentivamos novos estudos que investiguem
essa interação em outros projetos. / [en] In recent years, Machine Learning (ML) components have been increasingly integrated into the core systems of organizations. Engineering such systems
presents various challenges from both a theoretical and practical perspective.
One of the key challenges is the effective interaction between actors with different backgrounds who need to work closely together, such as software engineers
and data scientists. This work presents three studies investigating the current
interaction and collaboration dynamics between these two roles in ML projects. Our first study depicts an exploratory case study with four practitioners
with experience in software engineering and data science of a large ML-enabled
system project. In our second study, we performed complementary interviews
with members of two teams working on ML-enabled systems to acquire more
insights into how data scientists and software engineers share responsibilities
and communicate. Finally, our third study consists of a focus group where we
validated the relevance of this collaboration during multiple tasks related to
ML-enabled systems and assessed recommendations that can foster the interaction between the actors. Our studies revealed several challenges that can
hinder collaboration between software engineers and data scientists, including
differences in technical expertise, unclear definitions of each role s duties, and
the lack of documents that support the specification of the ML-enabled system. Potential solutions to address these challenges include encouraging team
communication, clearly defining responsibilities, and producing concise system
documentation. Our research contributes to understanding the complex dynamics between software engineers and data scientists in ML projects and provides insights for improving collaboration and communication in this context.
We encourage future studies investigating this interaction in other projects.
|
6 |
[en] QUANTUM-INSPIRED LINEAR GENETIC PROGRAMMING / [pt] PROGRAMAÇÃO GENÉTICA LINEAR COM INSPIRAÇÃO QUÂNTICADOUGLAS MOTA DIAS 26 May 2011 (has links)
[pt] A superioridade de desempenho dos algoritmos quânticos, em alguns problemas
específicos, reside no uso direto de fenômenos da mecânica quântica para
realizar operações com dados em computadores quânticos. Esta característica fez
surgir uma nova abordagem, denominada Computação com Inspiração Quântica,
cujo objetivo é criar algoritmos clássicos (executados em computadores clássicos)
que tirem proveito de princípios da mecânica quântica para melhorar seu desempenho.
Neste sentido, alguns algoritmos evolutivos com inspiração quântica tem
sido propostos e aplicados com sucesso em problemas de otimização combinatória
e numérica, apresentando desempenho superior àquele dos algoritmos evolutivos
convencionais, quanto à melhoria da qualidade das soluções e à redução do número
de avaliações necessárias para alcançá-las. Até o presente momento, no entanto,
este novo paradigma de inspiração quântica ainda não havia sido aplicado à Programação
Genética (PG), uma classe de algoritmos evolutivos que visa à síntese automática
de programas de computador. Esta tese propõe, desenvolve e testa um novo
modelo de algoritmo evolutivo com inspiração quântica, denominado Programação
Genética Linear com Inspiração Quântica (PGLIQ), para a evolução de programas
em código de máquina. A Programação Genética Linear é assim denominada
porque cada um dos seus indivíduos é representado por uma lista de instruções (estruturas
lineares), as quais são executadas sequencialmente. As contribuições deste
trabalho são o estudo e a formulação inédita do uso do paradigma da inspiração
quântica na síntese evolutiva de programas de computador. Uma das motivações
para a opção pela evolução de programas em código de máquina é que esta é a
abordagem de PG que, por oferecer a maior velocidade de execução, viabiliza experimentos
em larga escala. O modelo proposto é inspirado em sistemas quânticos
multiníveis e utiliza o qudit como unidade básica de informação quântica, o qual
representa a superposição dos estados de um sistema deste tipo. O funcionamento
do modelo se baseia em indivíduos quânticos, que representam a superposição de
todos os programas do espaço de busca, cuja observação gera indivíduos clássicos
e os programas (soluções). Nos testes são utilizados problemas de regressão simbólica
e de classificação binária para se avaliar o desempenho da PGLIQ e compará-lo
com o do modelo AIMGP (Automatic Induction of Machine Code by Genetic Programming),
considerado atualmente o modelo de PG mais eficiente na evolução de
código de máquina, conforme citado em inúmeras referências bibliográficas na área.
Os resultados mostram que a Programação Genética Linear com Inspiração Quântica
(PGLIQ) apresenta desempenho geral superior nestas classes de problemas, ao
encontrar melhores soluções (menores erros) a partir de um número menor de avaliações,
com a vantagem adicional de utilizar um número menor de parâmetros e
operadores que o modelo de referência. Nos testes comparativos, o modelo mostra
desempenho médio superior ao do modelo de referência para todos os estudos
de caso, obtendo erros de 3 a 31% menores nos problemas de regressão simbólica,
e de 36 a 39% nos problemas de classificação binária. Esta pesquisa conclui que
o paradigma da inspiração quântica pode ser uma abordagem competitiva para se
evoluir programas eficientemente, encorajando o aprimoramento e a extensão do
modelo aqui apresentado, assim como a criação de outros modelos de programação
genética com inspiração quântica. / [en] The superior performance of quantum algorithms in some specific problems
lies in the direct use of quantum mechanics phenomena to perform operations with
data on quantum computers. This feature has originated a new approach, named
Quantum-Inspired Computing, whose goal is to create classic algorithms (running
on classical computers) that take advantage of quantum mechanics principles to
improve their performance. In this sense, some quantum-inspired evolutionary algorithms
have been proposed and successfully applied in combinatorial and numerical
optimization problems, presenting a superior performance to that of conventional
evolutionary algorithms, by improving the quality of solutions and reducing
the number of evaluations needed to achieve them. To date, however, this
new paradigm of quantum inspiration had not yet been applied to Genetic Programming
(GP), a class of evolutionary algorithms that aims the automatic synthesis
of computer programs. This thesis proposes, develops and tests a novel model of
quantum-inspired evolutionary algorithm named Quantum-Inspired Linear Genetic
Programming (QILGP) for the evolution of machine code programs. Linear Genetic
Programming is so named because each of its individuals is represented by a list of
instructions (linear structures), which are sequentially executed. The contributions
of this work are the study and formulation of the novel use of quantum inspiration
paradigm on evolutionary synthesis of computer programs. One of the motivations
for choosing by the evolution of machine code programs is because this is the GP
approach that, by offering the highest speed of execution, makes feasible large-scale
experiments. The proposed model is inspired on multi-level quantum systems and
uses the qudit as the basic unit of quantum information, which represents the superposition
of states of such a system. The model’s operation is based on quantum individuals,
which represent a superposition of all programs of the search space, whose
observation leads to classical individuals and programs (solutions). The tests use
symbolic regression and binary classification problems to evaluate the performance
of QILGP and compare it with the AIMGP model (Automatic Induction of Machine
Code by Genetic Programming), which is currently considered the most efficient GP
model to evolve machine code, as cited in numerous references in this field. The results
show that Quantum-Inspired Linear Genetic Programming (QILGP) presents
superior overall performance in these classes of problems, by achieving better solutions
(smallest error) from a smaller number of evaluations, with the additional
advantage of using a smaller number of parameters and operators that the reference model. In comparative tests, the model shows average performance higher than that
of the reference model for all case studies, achieving errors 3-31% lower in the
problems of symbolic regression, and 36-39% in the binary classification problems.
This research concludes that the quantum inspiration paradigm can be a competitive
approach to efficiently evolve programs, encouraging the improvement and
extension of the model presented here, as well as the creation of other models of
quantum-inspired genetic programming.
|
7 |
[en] MATRIX FACTORIZATION MODELS FOR VIDEO RECOMMENDATION / [pt] MODELOS DE FATORAÇÃO MATRICIAL PARA RECOMENDAÇÃO DE VÍDEOSBRUNO DE FIGUEIREDO MELO E SOUZA 14 March 2012 (has links)
[pt] A recomendação de itens a partir do feedback implícito dos usuários
consiste em identificar padrões no interesse dos usuários por estes itens a partir
de ações dos usuários, tais como cliques, interações ou o consumo de conteúdos
específicos. Isso, de forma a prover sugestões personalizadas que se adéquem ao
gosto destes usuários. Nesta dissertação, avaliamos a performance de alguns
modelos de fatoração matricial otimizados para a tarefa de recomendação a partir
de dados implícitos no consumo das ofertas de vídeos da Globo.com.
Propusemos tratar estes dados de consumo como indicativos de intenção de um
usuário em assistir um vídeo. Além disso, avaliamos como os vieses únicos dos
usuários e vídeos, e sua variação temporal impactam o resultado das
recomendações. Também sugerimos a utilização de um modelo de fatoração
incremental otimizado para este problema, que escala linearmente com o
tamanho da entrada, isto é, com os dados de visualizações e quantidade de
variáveis latentes. Na tarefa de prever a intenção dos usuários em consumir um
conteúdo novo, nosso melhor modelo de fatoração apresenta um RMSE de
0,0524 usando o viés de usuários e vídeos, assim como sua variação temporal. / [en] Item recommendation from implicit feedback datasets consists of
passively tracking different sorts of user behavior, such as purchase history,
watching habits and browsing activities in order to improve customer experience
through providing personalized recommendations that fits into users taste. In this
work we evaluate the performance of different matrix factorization models
tailored for the recommendation task for the implicit feedback dataset extracted
from Globo.com s video site s access logs. We propose treating the data as
indication of a positive preference from a user regarding the video watched.
Besides that we evaluated the impact of effects associated with either users or
items, known as biases or intercepts, independent of any interactions and its time
changing behavior throughout the life span of the data in the result of
recommendations. We also suggest a scalable and incremental procedure, which
scales linearly with the input data size. In trying to predict the intention of the
users for consuming new videos our best factorization models achieves a RMSE
of 0,0524 using user s and video s bias as well as its temporal dynamics.
|
8 |
[en] USING REINFORCEMENT LEARNING ON WEB PAGES REVISITING PROBLEM / [pt] APRENDIZADO POR REFORÇO SOBRE O PROBLEMA DE REVISITAÇÃO DE PÁGINAS WEBEUGENIO PACELLI FERREIRA DIAS JUNIOR 14 June 2012 (has links)
[pt] No ambiente da Internet, as informações que desejamos frequentemente encontram-se em diferentes localidades. Algumas aplicações, para funcionarem corretamente, precisam manter cópias locais de parte dessas informações. Manter a consistência e a atualidade de uma base de dados, mais especificamente um conjunto de cópias de páginas web, é uma tarefa que vem sendo sistematicamente estudada. Uma abordagem possível a esse problema é a aplicação de técnicas de aprendizado por reforço, que utiliza técnicas de programação dinâmica e análise estocástica para obter uma boa política de agendamento de atualizações das cópias de páginas web. O presente trabalho tem por finalidade validar o uso de técnicas de aprendizado por reforço no problema em questão, assim como encontrar aspectos do problema que possam ser úteis na modelagem da solução empregada. / [en] In the Internet, the information we desire is usually spread over different locations. For some applications, it is necessary to maintain local copies of this information. Keeping consistency as well as freshness of a data base, or more specifically a set of internet web pages, is a task systematically studied. An approach to this problem is the use of reinforcement learning techniques, using dynamic programming and stochastic analysis to obtain a good rescheduling policy for the web pages copies. This work is proposed to validate the use of reinforcement learning techniques over this problem, as well as finding features of the problem useful to model the developed solution.
|
9 |
[en] DEVELOPMENT OF A METHODOLOGY FOR TEXT MINING / [pt] DESENVOLVIMENTO DE UMA METODOLOGIA PARA MINERAÇÃO DE TEXTOSJOAO RIBEIRO CARRILHO JUNIOR 20 May 2008 (has links)
[pt] A seguinte dissertação tem como objetivo explorar a
Mineração de Textos através de um estudo amplo e completo
do que atualmente é considerado estado da arte. Esta nova
área, considerada por muitos como uma evolução natural da
Mineração de Dados, é bastante interdisciplinar e vem
obtendo importantes colaborações de estudiosos e
pesquisadores de diversas naturezas, como Lingüística,
Computação, Estatística e Inteligência Artificial.
Entretanto, muito se discute sobre como deve ser um
processo completo de investigação textual, de
forma a tirar máximo proveito das técnicas adotadas nas
mais variadas abordagens. Desta forma, através de um
encadeamento sistemático de procedimentos, pode-se chegar
a
uma conclusão do que seria a metodologia ideal para a
Mineração de Textos, conforme já se chegou para a de
Dados.
O presente trabalho explora um modelo de processo, do
início ao fim, que sugere as seguintes etapas: coleta de
dados, pré-processamento textual, indexação, mineração e
análise. Este sequenciamento é uma tendência encontrada
em
trabalhos recentes, sendo minuciosamente discutido nos
capítulos desta dissertação. Finalmente, a fim de se
obter
enriquecimento prático, foi desenvolvido um sistema de
Mineração de Textos que possibilitou a apresentação de
resultados reais, obtidos a partir da aplicação de
algoritmos em documentos de natureza geral. / [en] The following essay is intended to explore the area of Text
Mining, through an extensive and comprehensive study of
what is currently considered state of the
art. This new area, considered by many as a natural
evolution of the Data Mining, is quite interdisciplinary.
Several scholars and researchers from fields like
linguistics and computing, for instance, have contributed
for its development. Nevertheless, much has been discussed
on how complete dossier of textual investigation must be
carried out, in order to take maximum advantage of the
techniques adopted in various approaches. Thus, through a
systematic sequence of procedures, one can come to a
conclusion of what would be the ideal method for
the Mining of documents, as one has come about Data. This
work explores a model of process which suggests the
following steps: collecting data, textual preprocessing,
indexing, mining and analysis. This sequence is a tendency
followed in some recent works and it is thoroughly
discussed in the chapters to come. Finally, in order to
obtain a practical enrichment, one developed a system of
Mining of documents with which became possible the
presentation of results, obtained from the application of
algorithms in documents of a general nature.
|
10 |
[en] TRANSITIONBASED DEPENDENCY PARSING APPLIED ON UNIVERSAL DEPENDENCIES / [pt] ANÁLISE DE DEPENDÊNCIA BASEADA EM TRANSIÇÃO APLICADA A UNIVERSAL DEPENDENCIESCESAR DE SOUZA BOUCAS 11 February 2019 (has links)
[pt] Análise de dependência consiste em obter uma estrutura sintática
correspondente a determinado texto da linguagem natural. Tal estrutura,
usualmente uma árvore de dependência, representa relações hierárquicas
entre palavras. Representação computacionalmente eficiente que vem sendo
utilizada para lidar com desafios que surgem com o crescente volume de
informação textual online. Podendo ser utilizada, por exemplo, para inferir
computacionalmente o significado de palavras das mais diversas línguas.
Este trabalho apresenta a análise de dependência com enfoque em uma de
suas modelagens mais populares em aprendizado de máquina: o método
baseado em transição. Desenvolvemos uma implementação gulosa deste
modelo com um classificador neural simples para executar experimentos.
Datasets da iniciativa Universal Dependencies são utilizados para treinar e
posteriormente testar o sistema com a validação disponibilizada na tarefa
compartilhada da CoNLL-2017. Os resultados mostram empiricamente que
se pode obter ganho de performance inicializando a camada de entrada
da rede neural com uma representação de palavras obtida com pré-treino.
Chegando a uma performance de 84,51 LAS no conjunto de teste da
língua portuguesa do Brasil e 75,19 LAS no conjunto da língua inglesa.
Ficando cerca de 4 pontos atrás da performance do melhor resultado para
analisadores de dependência baseados em sistemas de transição. / [en] Dependency parsing is the task that transforms a sentence into a
syntactic structure, usually a dependency tree, that represents relations
between words. This representations are useful to deal with several tasks
that arises with the increasing volume of textual online information and
the need for technologies that depends on NLP tasks to work. It can be
used, for example, to enable computers to infer the meaning of words
of multiple natural languages. This paper presents dependency parsing
with focus on one of its most popular modeling in machine learning: the
transition-based method. A greedy implementation of this model with
a simple neural network-based classifier is used to perform experiments.
Universal Dependencies treebanks are used to train and then test the system
using the validation script published in the CoNLL-2017 shared task. The
results empirically indicate the benefits of initializing the input layer of the
network with word embeddings obtained through pre-training. It reached
84.51 LAS in the Portuguese of Brazil test set and 75.19 LAS in the English
test set. This result is nearly 4 points behind the performance of the best
results of transition-based parsers.
|
Page generated in 0.0943 seconds