11 |
[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK / [pt] CONSTRUÇÃO E AVALIAÇÃO DE UM TREEBANK PADRÃO OUROELVIS ALVES DE SOUZA 29 May 2023 (has links)
[pt] Esta dissertação apresenta o processo de desenvolvimento do PetroGold,
um corpus anotado com informação morfossintática – um treebank – padrão
ouro para o domínio do petróleo. O desenvolvimento do recurso é abordado sob
duas lentes: do lado linguístico, estudamos a literatura gramatical e tomamos
decisões linguisticamente motivadas para garantir a qualidade da anotação
do corpus; do lado computacional, avaliamos o recurso considerando a sua
utilidade para o processamento de linguagem natural (PLN). Recursos como
o PetroGold recebem relevância especial no contexto atual, em que o PLN
estatístico tem se beneficiado de recursos padrão ouro de domínios específicos
para alimentar o aprendizado automático. No entanto, o treebank é útil também
para tarefas como a avaliação de sistemas de anotação baseados em regras e
para os estudos linguísticos. O PetroGold foi anotado segundo as diretivas
do projeto Universal Dependencies, tendo como pressupostos a ideia de que a
anotação de um corpus é um processo interpretativo, por um lado, e utilizando
o paradigma da linguística empírica, por outro. Além de descrever a anotação
propriamente, aplicamos alguns métodos para encontrar erros na anotação de
treebanks e apresentamos uma ferramenta criada especificamente para busca,
edição e avaliação de corpora anotados. Por fim, avaliamos o impacto da revisão
de cada uma das categorias linguísticas do treebank no aprendizado automático
de um modelo alimentado pelo PetroGold e disponibilizamos publicamente a
terceira versão do corpus, a qual, quando submetida à avaliação intrínseca de
um modelo, alcança métricas até 2,55 por cento melhores que a versão anterior. / [en] This thesis reports on the development process of PetroGold, a goldstandard annotated corpus with morphosyntactic information – a treebank
– for the oil and gas domain. The development of the resource is seen
from two perspectives: on the linguistic side, we study the grammatical
literature and make linguistically motivated decisions to ensure the quality
of corpus annotation; on the computational side, we evaluate the resource
considering its usefulness for natural language processing (NLP). Resources like
PetroGold receive special importance in the current context, where statistical
NLP has benefited from domain-specific gold-standard resources to train
machine learning models. However, the treebank is also useful for tasks such as
evaluating rule-based annotation systems and for linguistic studies. PetroGold
was annotated according to the guidelines of the Universal Dependencies
project, having as theoretical assumptions the idea that the annotation of
a corpus is an interpretative process, on the one hand, and using the empirical
linguistics paradigm, on the other. In addition to describing the annotation
itself, we apply some methods to find errors in the annotation of treebanks
and present a tool created specifically for searching, editing and evaluating
annotated corpora. Finally, we evaluate the impact of revising each of the
treebank linguistic categories on the automatic learning of a model powered
by PetroGold and make the third version of the corpus publicly available,
which, when performing an intrinsic evaluation for a model using the corpus,
achieves metrics up to 2.55 perecent better than the previous version.
|
12 |
[en] LER: ANNOTATION AND AUTOMATIC CLASSIFICATION OF ENTITIES AND RELATIONS / [pt] LER: ANOTAÇÃO E CLASSIFICAÇÃO AUTOMÁTICA DE ENTIDADES E RELAÇÕESJONATAS DOS SANTOS GROSMAN 30 November 2017 (has links)
[pt] Diversas técnicas para extração de informações estruturadas de dados em linguagem natural foram desenvolvidas e demonstraram resultados muito satisfatórios. Entretanto, para obterem tais resultados, requerem uma série de atividades que geralmente são feitas de modo isolado, como a anotação de textos para geração de corpora, etiquetamento morfossintático, engenharia e extração de atributos, treinamento de modelos de aprendizado de máquina etc., o que torna onerosa a extração dessas informações, dado o esforço e tempo a serem investidos. O presente trabalho propõe e desenvolve uma plataforma em ambiente web, chamada LER (Learning Entities and Relations) que integra o fluxo necessário para essas atividades, com uma interface que visa a facilidade de uso. Outrossim, o trabalho mostra os resultados da implementação e uso da plataforma proposta. / [en] Many techniques for the structured information extraction from natural language data have been developed and have demonstrated their potentials yielding satisfactory results. Nevertheless, to obtain such results, they require some activities that are usually done separately, such as text annotation to generate corpora, Part-Of- Speech tagging, features engineering and extraction, machine learning models training etc., making the information extraction task a costly activity due to the effort and time spent on this. The present work proposes and develops a web based platform called LER (Learning Entities and Relations), that integrates the needed workflow for these activities, with an interface that aims the ease of use. The work also shows the platform implementation and its use.
|
13 |
[en] RES-RISK-ONTO: AN APPLICATION ONTOLOGY FOR RISKS IN THE PETROLEUM RESERVOIR DOMAIN / [pt] RES-RISK-ONTO: UMA ONTOLOGIA DE APLICAÇÃO PARA RISCOS NO DOMÍNIO DE RESERVATÓRIOS DE PETRÓLEOPATRICIA FERREIRA DA SILVA 12 May 2022 (has links)
[pt] Este trabalho apresenta a Reservoir Risks Ontology (ResRiskOnto), uma
ontologia aplicada aos riscos na indústria de óleo e gás associados ao domínio
de reservatórios. Os componentes da ResRiskOnto são termos do domínio de
trabalho de profissinais de reservatório, de forma a facilitar sua adoção na
documentação futura de riscos.
A ResRiskOnto tem como ideia central o conceito de Evento de Risco.
Cada evento tem um conjunto de possíveis Participantes, que por sua vez
possuem Características manifestadas pelo evento. A ontologia dispõe de um
total de 97 termos, 29 dos quais derivados da classe Evento de Risco.
Para desenvolver a ResRiskOnto, foi feita uma análise semântica em
aproximadamente 2500 riscos de reservatórios documentados em linguagem
natural. Este repositório é fruto de centenas de workshops de avaliação de
riscos em projetos de óleo e gás, conduzidos na Petrobras durante uma década.
A ontologia proposta fundamenta-se nos princípios da Basic Formal
Ontology (BFO), uma ontologia de topo projetada para descrever domínios
científicos. A BFO baseia-se no Realismo, uma visão filosófica segundo a qual
os entes que constituem a realidade existem independentemente da nossa
representação. No nível de domínio definimos os entes de reservatório usando
os conceitos da GeoCore Ontology, uma ontologia para a Geologia.
Para validar a ResRiskOnto os documentos do repositório foram anotados
utilizando os entes e relações definidos na ontologia, e desenvolvido um modelo
capaz de reconhecer entidades nomeadas e extrair as relações entre elas.
Nossa contribuição é uma ontologia aplicada que permite o raciocínio
semântico no repositório de documentos de risco. Esperamos que ela forneça
(i) as bases para modelagem de dados de riscos relacionados a reservatórios; e
(ii) um padrão para futura documentação de riscos no domínio de reservatório. / [en] This work proposes the Reservoir Risks Ontology (ResRiskOnto), an
application ontology for risks in the oil and gas industry associated with
the petroleum reservoir domain. ResRiskOnto s building blocks are terms
dominated by reservoir professionals, so that it can be easily adopted in future
risk documentation.
ResRiskOnto is developed having at its center the concept of Risk Events.
Each event has a set of possible Participants, that have its Characteristics
manifested by the event. The ontology provides a total a set of 97 terms, 29
of which are derived from the Risk Event class.
To develop the ResRiskOnto, we conducted a semantic analysis of
documents that contain over 2500 reservoir-related risks described in natural
language. This repository is the result of hundreds of risk assessment workshops
in oil and gas projects, conducted in over ten years in Petrobras.
This ontology is founded on the principles of the Basic Formal Ontology (BFO), a top-level ontology designed to describe scientific domains. One
of BFO s most distinct characteristic is its commitment to Realism, a philosophical view of reality in which its constituents exist independently of our
representations. On the domain-level, reservoir entities are described under
the principles of the GeoCore Ontology, a core ontology for Geology.
To validate the ResRiskOnto we annotate our risk documents repository
with the ontology s entities and relations, developing a model that recognizes
named entities and extracts the relations among them.
Our contribution is an application ontology that allows semantic reasoning over the risk documents. We also expect to provide (i) a basis for data
modelling in the case of reservoir-related risks; and (ii) a standard for future
risk documentation in the reservoir domain.
|
14 |
[en] CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS / [pt] CORPUS PARA O DOMÍNIO ACADÊMICO: MODELOS E APLICAÇÕESIVAN DE JESUS PEREIRA PINTO 16 November 2021 (has links)
[pt] Dados acadêmicos (e.g., Teses, Dissertações) englobam aspectos de toda
uma sociedade, bem como seu conhecimento científico. Neles, há uma riqueza
de informações a ser explorada por modelos computacionais, e que podem ser
positivos para sociedade. Os modelos de aprendizado de máquina, em especial,
possuem uma crescente necessidade de dados para treinamento, que precisam
ser estruturados e de tamanho considerável. Seu uso na área de processamento
de linguagem natural é pervasivo nas mais diversas tarefas.
Este trabalho realiza o esforço de coleta, construção, análise do maior
corpus acadêmico conhecido na língua portuguesa. Foram treinados modelos
de vetores de palavras, bag-of-words e transformer. O modelo transformer
BERTAcadêmico apresentou os melhores resultados, com 77 por cento de f1-score na
classificação da Grande Área de conhecimento e 63 por cento de f1-score na classificação
da Área de conhecimento nas categorizações de Teses e Dissertações.
É feita ainda uma análise semântica do corpus acadêmico através da
modelagem de tópicos, e uma visualização inédita das áreas de conhecimento
em forma de clusters. Por fim, é apresentada uma aplicação que faz uso dos
modelos treinados, o SucupiraBot. / [en] Academic data (i.e., Thesis, Dissertation) encompasses aspects of a whole society, as well as its scientific knowledge. There is a wealth of information to be explored by computational models, and that can be positive for society.
Machine learning models in particular, have an increasing need for training
data, that are efficient and of considerable size. Its use in the area of natural language processing (NLP) is pervasive in many different tasks.
This work makes the effort of collecting, constructing, analyzing and
training of models for the biggest known academic corpus in the Portuguese
language. Word embeddings, bag of words and transformers models have been
trained. The Bert-Academico has shown the better result, with 77 percent of f1-score in Great area of knowledge and 63 percent in knowledge area classification of Thesis and Dissertation.
A semantic analysis of the academic corpus is made through topic
modelling, and an unprecedented visualization of the knowledge areas is
presented. Lastly, an application that uses the trained models is showcased,
the SucupiraBot.
|
15 |
[pt] APLICANDO APRENDIZADO DE MÁQUINA À SUPERVISÃO DO MERCADO DE CAPITAIS: CLASSIFICAÇÃO E EXTRAÇÃO DE INFORMAÇÕES DE DOCUMENTOS FINANCEIROS / [en] APPLYING MACHINE LEARNING TO CAPITAL MARKETS SUPERVISION: CLASSIFICATION AND INFORMATION EXTRACTION FROM FINANCIAL DOCUMENTFREDERICO SHU 06 January 2022 (has links)
[pt] A análise de documentos financeiros não estruturados é uma atividade
essencial para a supervisão do mercado de capitais realizada pela Comissão de
Valores Mobiliários (CVM). Formas de automatização que reduzam o esforço
humano despendido no processo de triagem de documentos são vitais para a CVM
lidar com a escassez de recursos humanos e a expansão do mercado de valores
mobiliários. Nesse contexto, a dissertação compara sistematicamente diversos
algoritmos de aprendizado de máquina e técnicas de processamento de texto, a
partir de sua aplicação em duas tarefas de processamento de linguagem natural –
classificação de documentos e extração de informações – desempenhadas em
ambiente real de supervisão de mercados. Na tarefa de classificação, os algoritmos
clássicos proporcionaram melhor desempenho que as redes neurais profundas, o
qual foi potencializado pela aplicação de técnicas de subamostragem e comitês de
máquinas (ensembles). A precisão atual, estimada entre 20 por cento, e 40 por cento, pode ser
aumentada para mais de 90 por cento, com a aplicação dos algoritmos testados. A
arquitetura BERT foi capaz de extrair informações sobre aumento de capital e
incorporação societária de documentos financeiros. Os resultados satisfatórios
obtidos em ambas as tarefas motivam a implementação futura em regime de
produção dos modelos estudados, sob a forma de um sistema de apoio à decisão.
Outra contribuição da dissertação é o CVMCorpus, um corpus constituído para o
escopo deste trabalho com documentos financeiros entregues por companhias
abertas brasileiras à CVM entre 2009 e 2019, que abre possibilidades de pesquisa
futura linguística e de finanças. / [en] The analysis of unstructured financial documents is key to the capital
markets supervision performed by Comissão de Valores Mobiliários (Brazilian
SEC or CVM). Systems capable of reducing human effort involved in the task of
screening documents and outlining relevant information, for further manual
review, are important tools for CVM to deal with the shortage of human resources
and expansion of the Brazilian securities market. In this regard, this dissertation
presents and discusses the application of several machine learning algorithms and
text processing techniques to perform two natural language processing tasks—
document classification and information extraction—in a real market supervision
environment. In the classification exercise, classic algorithms achieved a better
performance than deep neural networks, which was enhanced by applying undersampling techniques and ensembles. Using the tested algorithms can improve the
current precision rate from 20 percent–40 percent to more than 90 percent. The BERT network
architecture was able to extract information from financial documents on capital
increase and mergers. The successful results obtained in both tasks encourage
future implementation of the studied models in the form of a decision support
system. Another contribution of this work is the CVMCorpus, a corpus built to
produce datasets for the tasks, with financial documents released between 2009
and 2019 by Brazilian companies, which opens possibilities of future linguistic
and finance research.
|
16 |
[pt] MINERAÇÃO DE INFORMAÇÃO EM LINGUAGEM NATURAL PARA APOIAR A ELICITAÇÃO DE REQUISITOS / [en] MINING INFORMATION IN NATURAL LANGUAGE TO SUPPORT REQUIREMENTS ELICITATIONROXANA LISETTE QUINTANILLA PORTUGAL 02 December 2016 (has links)
[pt] Este trabalho descreve a mineração de informações em linguagem natural a partir do repositório de projetos GitHub. É explicada como o conteúdo de projetos semelhantes dada uma busca por domínio podem ser úteis para o reuso de conhecimento, e assim, ajudar nas tarefas de Elicitação de Requisitos. Técnicas de mineração de textos, regularidades independentes do domínio, e os metadados de GitHub são os métodos utilizados para selecionar projetos relevantes e as informações dentro deles. Uma abordagem para atingir nossa meta utilizando pesquisa exploratória é explicada, bem como descrevemos os resultados alcançados. / [en] This work describes the mining of information in natural language from the GitHub repository. It is explained how the content of similar projects given a search domain can be useful for the reuse of knowledge, and thus help in the Requirements Elicitation tasks. Techniques of text mining, regularities independent from domain, and GitHub metadata are the methods used to select relevant projects and the information within them. One approach to achieve our goal is explained with an exploratory research and the results achieved.
|
17 |
[pt] ANOTAÇÃO MORFOSSINTÁTICA A PARTIR DO CONTEXTO MORFOLÓGICO / [en] MORPHOSYNTACTIC ANNOTATION BASED ON MORPHOLOGICAL CONTEXTEDUARDO DE JESUS COELHO REIS 20 December 2016 (has links)
[pt] Rotular as classes gramaticais ao longo de uma sentença - part-ofspeech
tagging - é uma das primeiras tarefas de processamento de linguagem
natural, fornecendo atributos importantes para realizar tarefas de alta complexidade.
A representação de texto a nível de palavra tem sido amplamente
adotada, tanto através de uma codificação esparsa convencional, e.g. bagofwords; quanto por uma representação distribuída, como os sofisticados
modelos de word-embedding usados para descrever informações sintáticas e
semânticas. Um problema importante desse tipo de codificação é a carência
de aspectos morfológicos. Além disso, os sistemas atuais apresentam uma
precisão por token em torno de 97 por cento. Contudo, quando avaliados por sentença,
apresentam um resultado mais modesto com uma taxa de acerto em
torno de 55−57 por cento. Neste trabalho, nós demonstramos como utilizar n-grams
para derivar automaticamente atributos esparsos e morfológicos para processamento
de texto. Essa representação permite que redes neurais realizem
a tarefa de POS-Tagging a partir de uma representação a nível de caractere.
Além disso, introduzimos uma estratégia de regularização capaz de
selecionar atributos específicos para cada neurônio. A utilização de regularização
embutida em nossos modelos produz duas variantes. A primeira
compartilha os n-grams selecionados globalmente entre todos os neurônios
de uma camada; enquanto que a segunda opera uma seleção individual para
cada neurônio, de forma que cada neurônio é sensível apenas aos n-grams
que mais o estimulam. Utilizando a abordagem apresentada, nós geramos
uma alta quantidade de características que representam afeições morfossintáticas
relevantes baseadas a nível de caractere. Nosso POS tagger atinge a
acurácia de 96, 67 por cento no corpus Mac-Morpho para o Português. / [en] Part-of-speech tagging is one of the primary stages in natural language
processing, providing useful features for performing higher complexity
tasks. Word level representations have been largely adopted, either through
a conventional sparse codification, such as bag-of-words, or through a distributed
representation, like the sophisticated word embedded models used
to describe syntactic and semantic information. A central issue on these
codifications is the lack of morphological aspects. In addition, recent taggers
present per-token accuracies around 97 percent. However, when using a persentence
metric, the good taggers show modest accuracies, scoring around
55-57 percent. In this work, we demonstrate how to use n-grams to automatically
derive morphological sparse features for text processing. This representation
allows neural networks to perform POS tagging from a character-level input.
Additionally, we introduce a regularization strategy capable of selecting
specific features for each layer unit. As a result, regarding n-grams selection,
using the embedded regularization in our models produces two variants. The
first one shares globally selected features among all layer units, whereas the
second operates individual selections for each layer unit, so that each unit
is sensible only to the n-grams that better stimulate it. Using the proposed
approach, we generate a high number of features which represent relevant
morphosyntactic affection based on a character-level input. Our POS tagger
achieves the accuracy of 96.67 percent in the Mac-Morpho corpus for Portuguese.
|
18 |
[pt] O IMPACTO DA POLÍTICA MONETÁRIA SOBRE PREÇOS DE ATIVO: UMA ABORDAGEM DE ALTA FREQUÊNCIA APLICADA AO BRASIL / [en] THE IMPACT OF MONETARY POLICY ON ASSET PRICES: A HIGH-FREQUENCY APPROACH FOR BRAZILTHOMAS GLEIZER FEIBERT 10 January 2023 (has links)
[pt] Neste artigo estudamos o impacto de surpresas monetárias sobre um conjunto de preços de ativo no mercado financeiro Brasileiro. Devido a fatores institucionais que impedem a identificação deste impacto através de associações entre o choque monetário e variações de preços de ativos em pequenos intervalos
ao redor de anúncios de política monetária, utilizamos uma abordagem de estudo de eventos em frequência diária, controlando por fatores domésticos e externos que afetam os preços de ativos relevantes. Os resultados indicam que a surpresa monetária contracionista possui um impacto negativo significativo sobre retornos da bolsa de valores, e o impacto sobre a curva de juros é positivo,
atingindo um máximo ao vértice de 6 meses. Diferente de grande parte da literatura focada ao Brasil, os resultados apontam a uma apreciação do Real em reação a esta surpresa monetária contracionista, o que é consistente com reações de moedas de países desenvolvidos a surpresas monetárias. Por mais
que obtenhamos um regime no qual a taxa de câmbio não reage significativamente à surpresa monetária, não há forte evidência de que a causa por trás deste regime é de natureza fiscal. / [en] In this paper we study the impact of monetary surprises on a class of asset prices in the Brazilian financial market. Due to institutional factors that prevent identification of this impact through the association between the monetary surprise and asset price movements in short windows around
monetary policy announcements, we use an event study framework at daily frequency, controlling for both domestic and foreign factors that may affect the asset prices under analysis. We find that a surprise monetary tightening has a strong negative impact on stock market returns, and its effect on the
yield curve is positive and hump-shaped, reaching a maximum on the 6 months yield. Unlike most of the previous literature focused on Brazil, we find that the Brazilian Real appreciates in response to this monetary tightening, which is consistent with the reactions found for currencies of developed economies.
Moreover, while we obtain a regime in which the exchange rate is irresponsive to the monetary surprise, the evidence supporting a fiscal cause behind this regime is not strong.
|
19 |
[pt] APRENDIZADO PROFUNDO APLICADO À SEGMENTAÇÃO DE TEXTO / [en] DEEP LEARNING APPLIED TO TEXT CHUNKINGMIGUEL MENDES DE BRITO 15 May 2019 (has links)
[pt] O Processamento de Linguagem natural é uma área de pesquisa que explora como computadores podem entender e manipular textos em linguagem natural. Dentre as tarefas mais conhecidas em PLN está a de rotular sequências de texto. O problema de segmentação de texto em sintagmas é um dos problemas que pode ser abordado como rotulagem de sequências. Para isto, classificamos quais palavras pertencem a um sintagma, onde cada sintagma representa um grupo disjunto de palavras sintaticamente correlacionadas. Este tipo de segmentação possui importantes aplicações em tarefas mais complexas de processamento de linguagem natural, como análise de dependências, tradução automática, anotação de papéis semânticos, identificação de orações e outras. O objetivo deste trabalho é apresentar uma arquitetura de rede neural profunda para o problema de segmentação textual em sintagmas para a língua portuguesa. O corpus usado nos experimentos é o Bosque, do projeto Floresta Sintá(c)tica. Baseado em trabalhos recentes na área, nossa abordagem supera o estado-da-arte para o português ao alcançar um F(beta)=1 de 90,51, que corresponde a um aumento de 2,56 em comparação com o trabalho anterior. Além disso, como forma de comprovar a qualidade do segmentador, usamos os rótulos obtidos pelo nosso sistema como um dos atributos de entrada para a tarefa de análise de dependências. Esses atributos melhoraram a acurácia do analisador em 0,87. / [en] Natural Language Processing is a research field that explores how computers can understand and manipulate natural language texts. Sequence tagging is amongst the most well-known tasks in NLP. Text Chunking is one of the problems that can be approached as a sequence tagging problem. Thus, we classify which words belong to a chunk, where each chunk represents a disjoint group of syntactically correlated words. This type of chunking has important applications in more complex tasks of natural language processing, such as dependency parsing, machine translation, semantic role labeling, clause identification and much more. The goal of this work is to present a deep neural network archtecture for the Portuguese text chunking problem. The corpus used in the experiments is the Bosque, from the Floresta Sintá(c)tica project. Based on recent work in the field, our approach surpass the state-of-the-art for Portuguese by achieving a F(beta)=1 of 90.51, which corresponds to an increase of 2.56 in comparison with the previous work. In addition, in order to attest the chunker effectiveness we use the tags obtained by our system as feature for the depedency parsing task. These features improved the accuracy of the parser by 0.87.
|
20 |
[pt] ARQUITETURA PROFUNDA PARA EXTRAÇÃO DE CITAÇÕES / [en] DEEP ARCHITECTURE FOR QUOTATION EXTRACTIONLUIS FELIPE MULLER DE OLIVEIRA HENRIQUES 28 July 2017 (has links)
[pt] A Extração e Atribuição de Citações é a tarefa de identificar citações de um texto e associá-las a seus autores. Neste trabalho, apresentamos um sistema de Extração e Atribuição de Citações para a língua portuguesa. A tarefa de Extração e Atribuição de Citações foi abordada anteriormente utilizando diversas técnicas e para uma variedade de linguagens e datasets. Os modelos tradicionais para a tarefa consistem em extrair manualmente um rico conjunto de atributos e usá-los para alimentar um classificador
raso. Neste trabalho, ao contrário da abordagem tradicional, evitamos usar atributos projetados à mão, usando técnicas de aprendizagem não supervisionadas e redes neurais profundas para automaticamente aprender atributos relevantes para resolver a tarefa. Ao evitar a criação manual de atributos, nosso modelo de aprendizagem de máquina tornou-se facilmente adaptável a outros domínios e linguagens. Nosso modelo foi treinado e avaliado no corpus GloboQuotes e sua métrica de desempenho F1 é igual a 89.43 por cento. / [en] Quotation Extraction and Attribution is the task of identifying quotations from a given text and associating them to their authors. In this work, we present a Quotation Extraction and Attribution system for the Portuguese language. The Quotation Extraction and Attribution task has been previously approached using various techniques and for a variety of languages and datasets. Traditional models to this task consist of extracting a rich set of hand-designed features and using them to feed a shallow classifier. In this work, unlike the traditional approach, we avoid using hand-designed features using unsupervised learning techniques and deep neural networks to automatically learn relevant features to solve the task. By avoiding design features by hand, our machine learning model became easily adaptable to other languages and domains. Our model is trained and evaluated at the GloboQuotes corpus, and its F1 performance metric is equal to 89.43 percent.
|
Page generated in 0.1315 seconds