Spelling suggestions: "subject:"[een] EXTRATION OF INFORMATION"" "subject:"[enn] EXTRATION OF INFORMATION""
1 |
[en] THE IMPACT OF STRUCTURAL ATTRIBUTES TO IDENTIFY TABLES AND LISTS IN HTML DOCUMENTS / [pt] O IMPACTO DE ATRIBUTOS ESTRUTURAIS NA IDENTIFICAÇÃO DE TABELAS E LISTAS EM DOCUMENTOS HTMLIAM VITA JABOUR 11 April 2011 (has links)
[pt] A segmentação de documentos HTML tem sido essencial para as tarefas
de extração de informações, como mostram vários estudos na área. Nesta dissertação
investigamos a relação entre o documento HTML e sua representação
visual, mostrando como esta ligação ajuda na abordagem estrutural para a
identificação de segmentos. Também investigamos como utilizar algoritmos de
distância de edição em árvores para encontrar padrões na árvore DOM, tornando
possível resolver duas tarefas de identificação de segmentos. A primeira
tarefa é a identificação de tabelas genuínas, aonde foi obtido 90,40% de F1
utilizando o corpus fornecido por (Wang e Hu, 2002). Mostramos através de
um estudo experimental que este resultado é competitivo com os melhores resultados
da área. A segunda tarefa que consideramos é a identificação de listas
de produtos em sites de comércio eletrônico, nessa obtivemos 94,95% de F1
utilizando um corpus com 1114 documentos HTML, criado a partir de 8 sites.
Concluímos que os algoritmos de similaridade estrutural ajudam na resolução
de ambas às tarefas e acreditamos que possam ajudar na identificação de outros
tipos de segmentos. / [en] The segmentation of HTML documents has been essential to information
extraction tasks, as showed by several works in this area. This paper studies
the link between an HTML document and its visual representation to show
how it helps segments identification using a structural approach. For this, we
investigate how tree edit distance algorithms can find structural similarities
in a DOM tree, using two tasks to execute our experiments. The first one is
the identification of genuine tables where we obtained a 90.40% F1 score using
the corpus provided by (Wang e Hu, 2002). We show through an experimental
study that this result is competitive with the best results in the area. The
second task studied is the identification of product listings in e-commerce sites.
Here we get a 94.95% F1 score using a corpus with 1114 HTML documents
from 8 distinct sites. We conclude that algorithms to calculate trees similarity
provide competitive results for both tasks, making them also good candidates
to identify other types of segments.
|
2 |
[pt] DOS TERMOS ÀS ENTIDADES NO DOMÍNIO DE PETRÓLEO / [en] FROM TERMS TO ENTITIES IN THE OIL AND GAS AREAWOGRAINE EVELYN FARIA DIAS 09 September 2021 (has links)
[pt] Este trabalho tem como objetivo identificar uma terminologia e expressões
relevantes do domínio de óleo e gás (OeG) e estruturá-la como uma taxonomia,
tendo em vista o levantamento de itens para a anotação de entidades dentro do
domínio. Para tanto, foi construída uma lista de termos relevantes da área, com base em diversas fontes, e, em seguida, a lista foi estruturada hierarquicamente por meio de regras. O processo de elaboração da taxonomia seguiu aspectos teóricometodológicos utilizados por diversos trabalhos semelhantes dentro da área. O trabalho procura evidenciar que a identificação de uma terminologia de um domínio técnico e a sua estruturação como taxonomia podem servir como a primeira etapa do levantamento de entidades de um domínio. Por conta disso, o trabalho também se propõe a discutir estratégias para identificação de entidade mencionada (EM) e possibilitar um diálogo entre duas áreas: Processamento de Linguagem Natural (PLN) e Linguística. De maneira geral, espera-se que a taxonomia ajudar a suprir, mesmo que de forma modesta, a escassez de recursos linguísticos para as técnicas do Processamento de Linguagem Natural (PLN) e da Extração de Informação (EI), dentro da área de óleo e gás. / [en] This work aims to identify a terminology and relevant expressions of the oil
and gas domain and structure it as a taxonomy. To this end, a list of relevant terms
in the area was built, based on various sources, and then the list was structured
hierarchically by rules. The taxonomy elaboration process followed theoretical and
methodological aspects used by several similar works within the area. The work
tries to show that the identification of a technical domain terminology and its
structuring as a taxonomy can serve as the first stage of the identification of entities
in a domain. Because of this, the work also proposes to discuss strategies for
identifying named entity and to enable a dialogue between two areas: Natural
Language Processing (NLP) and Linguistics. In general, the taxonomy presented is
expected to supply, at least in a modest way, the lack of linguistic resources for
techniques of Natural Language Processing (NLP) and Information Extraction (EI),
within the area of oil and gas.
|
3 |
[en] ENVIRONMENT CHANGES DETECTION: A PROACTIVE SYSTEM TO MONITOR MOVING OBJECTS / [pt] DETECÇÃO DE MUDANÇAS NO AMBIENTE: UM SISTEMA PROATIVO PARA MONITORAR OBJETOS MÓVEISFABIO DA COSTA ALBUQUERQUE 13 February 2017 (has links)
[pt] Sistemas de posicionamento, combinados com tecnologias de comunicação de baixo custo, abrem possibilidades interessantes para implementar aplicações em tempo real que monitoram objetos móveis e que apoiam sistemas de tomada de decisão. Inicialmente, esta dissertação discute requisitos básicos para aplicações proativas de monitoramento em tempo real. Em seguida, propõe uma arquitetura para aplicações proativas que monitoram objetos móveis, explorando a semântica da trajetória e a dinâmica do ambiente. Por fim, fornece um exemplo sobre como uma aplicação que monitora uma frota de caminhões pode se tornar proativa, utilizando notícias sobre condições da malha viária, a partir da publicação de dados em texto não estruturado através da Internet. A dissertação descreve como estruturar e georreferenciar as notícias, utilizando serviços de geocodificação. / [en] Positioning systems, combined with inexpensive communication technologies, open interesting possibilities to implement real-time applications that monitor moving objects and that support decision making. This dissertation first discusses basic requirements for proactive real-time monitoring applications. Then, it proposes an architecture to deploy applications that monitor moving objects, are pro-active, explore trajectory semantics and are sensitive to environment dynamics. Lastly, this dissertation provides an example of how an application that monitors a fleet of trucks can become proactive, using unstructured text information available on Internet focused on road conditions change. The dissertation describes how to structure and geo-reference the text, using available geocoding services.
|
4 |
[en] DIRECT AND INDIRECT QUOTATION EXTRACTION FOR PORTUGUESE / [pt] EXTRAÇÃO DE CITAÇÕES DIRETAS E INDIRETAS PARA O PORTUGUÊSRAFAEL DOS REIS SILVA 08 June 2017 (has links)
[pt] Extração de Citações consiste na identificação de citações de um texto e na associação destas com seus autores. Neste trabalho, apresentamos um Extrator de Citações Diretas e Indiretas para o Português. A tarefa
de Extração de Citações já foi abordada usando diversas técnicas em diversos idiomas. Nossa proposta difere das anteriores, pois construímos um modelo de Aprendizado de Máquina que, além de indetificar citações diretas, também identifica as citações indiretas. Citações indiretas são difíceis de serem identificadas num texto por não conter delimitações explícitas. Porém, são mais frequentes do que as delimitadas e, por essa razão, possuem grande importância na extração de informação. Por utilizarmos um modelo baseado em Aprendizado de Máquina, podemos facilmente adaptá-lo para outras línguas, bastando apenas uma lista de verbos do dizer num dado idioma. Poucos foram os sistemas propostos anteriormente que atacaram o
problema das citações indiretas e nenhum deles para o Português usando Aprendizado de Máquina. Nós construímos um Extrator de Citações usando um modelo para o algoritmo do Perceptron Estruturado. Com o objetivo de treinar e avaliar o sistema, construímos o corpus QuoTrees 1.0. Nós anotamos este corpus a fim de atacar o problema das citações indiretas. O Perceptron Estruturado baseado no agendamento de tarefas ponderado tem desempenho F1 igual a 66 por cento para o corpus QuoTrees 1.0. / [en] Quotation Extraction consists of identifying quotations from a text and associating them to their authors. In this work, we present a Direct and Indirect Quotation Extraction System for Portuguese. Quotation Extraction has been previously approached using different techniques and for several languages. Our proposal differs from previous work, because we build a Machine Learning model that, besides recognizing direct quotations, it also recognizes indirect ones in Portuguese. Indirect quotations are hard to be identified in a text, due to the lack of explicit delimitation. Nevertheless, they happen more often then the delimited ones and, for this reason, have an huge importance on information extraction. Due to the fact that we use a Machine Learning model based, we can easily adapt it to other languages, needing only a list of verbs of speech for a given language. Few were the previously proposed systems that tackled the task of indirect quotations and neither of them for Portuguese using a Machine Learning approach. We build a Quotation Extractor using a model for the Structured Perceptron algorithm. In order to train and evaluate the system, we build QuoTrees 1.0 corpus. We annotate it to tackle the indirect quotation problem. The Structured Perceptron based on weight interval scheduling obtains an F1 score of 66 percent for QuoTrees 1.0 corpus.
|
5 |
[en] DATA CLUSTERING: ANALYSIS OF METHODS AND DEVELOPMENT OF APPLICATION FOR CLUSTER ANALYSIS / [pt] AGRUPAMENTOS DE DADOS: AVALIAÇÃO DE MÉTODOS E DESENVOLVIMENTO DE APLICATIVO PARA ANÁLISE DE GRUPOSMARCOS NEVES DO VALE 23 March 2006 (has links)
[pt] A enorme massa de dados que é gerada pelas diversas
empresas diariamente
pode conter informações importantes que não são fáceis de
serem extraídas. Com
isso advém a necessidade de analisá-los automaticamente,
de forma adequada,
extraindo informação útil que pode agregar algum tipo de
conhecimento. Uma das
formas de se analisar os dados automaticamente é através
da análise de
agrupamentos. Ela procura encontrar grupos de dados
semelhantes entre si. As
técnicas de análise de agrupamentos revelam como os dados
estão estruturados e
resultam em um melhor entendimento sobre o negócio. Existe
ainda hoje uma
escassez de ferramentas para esse fim. Em um problema real
de agrupamento de
dados convém analisar os dados através da utilização de
diferentes métodos, a fim
de buscar aquele que melhor se adapte ao problema. Porém,
as ferramentas
existentes hoje em dia não são integradas, onde cada
ferramenta possui um
subconjunto dos métodos existentes de agrupamento. Dessa
forma o usuário fica
limitado à utilização de uma ferramenta específica ou é
obrigado a conhecer
diversas ferramentas diferentes, de forma a melhor
analisar os dados de sua
empresa. Esta dissertação apresenta uma revisão detalhada
de todo o processo de
análise de agrupamentos e o desenvolvimento de um
aplicativo que visa não
apenas a atender as deficiências presentes na maioria das
ferramentas com esse
fim, mas também a auxiliar, de forma mais completa, todo o
processo de análise
dos grupos. O aplicativo desenvolvido é de fácil
utilização e permite que a ele
sejam incorporados outros métodos eventualmente
desenvolvidos pelo usuário. O
aplicativo foi avaliado em três estudos de casos, os quais
visam demonstrar a
facilidade de uso do aplicativo, assim como avaliar as
vantagens do uso de
métodos de natureza fuzzy em uma base de dados real. / [en] The enormous data mass that is daily generated by several
companies can
contain critical information that might not be easily
retrieved, considering that the
amount of data is generally huge and/or the target
information might be spread
through different data bases. Taking that into
consideration, it might be necessary
to properly analyze the data in an automatic way, so
useful and valuable
information can be extracted. One way of automatically
analyzing data is through
cluster analysis. This type of analysis searches for
related similar data. These
clusters settle a data structure model and with proper
analysis can reveal important
information. The techniques used in cluster analysis
disclose how data is
structured and allow a better knowledge of the business.
Still today there is a lack
of tools for this purpose. On a real situation with a data
cluster problem it is wise
to analyze the data through different methods, so we can
find the one that better
fits the problem. However, today the existing tools are
not integrated, and each
tool has a subgroup of existing cluster methods. This way
the user stays limited to
use only one specific tool or is forced to be aware of a
number of different tools,
so he would be able to better analyze the company data.
This study presents a
detailed review of the whole group analysis process and
develops an application
that not only suggests how to cover the currently lack of
tools for this purpose, but
also to help the complete cluster analysis process in a
more extended way. The
application developed is user friendly and allows other
methods developed by
users to be incorporated. The application has been
evaluated into three case
studies with the purpose of demonstrating its user
friendly, as well as evaluating
the advantages of using fuzzy methods on a true data base.
|
6 |
[en] LER: ANNOTATION AND AUTOMATIC CLASSIFICATION OF ENTITIES AND RELATIONS / [pt] LER: ANOTAÇÃO E CLASSIFICAÇÃO AUTOMÁTICA DE ENTIDADES E RELAÇÕESJONATAS DOS SANTOS GROSMAN 30 November 2017 (has links)
[pt] Diversas técnicas para extração de informações estruturadas de dados em linguagem natural foram desenvolvidas e demonstraram resultados muito satisfatórios. Entretanto, para obterem tais resultados, requerem uma série de atividades que geralmente são feitas de modo isolado, como a anotação de textos para geração de corpora, etiquetamento morfossintático, engenharia e extração de atributos, treinamento de modelos de aprendizado de máquina etc., o que torna onerosa a extração dessas informações, dado o esforço e tempo a serem investidos. O presente trabalho propõe e desenvolve uma plataforma em ambiente web, chamada LER (Learning Entities and Relations) que integra o fluxo necessário para essas atividades, com uma interface que visa a facilidade de uso. Outrossim, o trabalho mostra os resultados da implementação e uso da plataforma proposta. / [en] Many techniques for the structured information extraction from natural language data have been developed and have demonstrated their potentials yielding satisfactory results. Nevertheless, to obtain such results, they require some activities that are usually done separately, such as text annotation to generate corpora, Part-Of- Speech tagging, features engineering and extraction, machine learning models training etc., making the information extraction task a costly activity due to the effort and time spent on this. The present work proposes and develops a web based platform called LER (Learning Entities and Relations), that integrates the needed workflow for these activities, with an interface that aims the ease of use. The work also shows the platform implementation and its use.
|
7 |
[pt] APLICANDO APRENDIZADO DE MÁQUINA À SUPERVISÃO DO MERCADO DE CAPITAIS: CLASSIFICAÇÃO E EXTRAÇÃO DE INFORMAÇÕES DE DOCUMENTOS FINANCEIROS / [en] APPLYING MACHINE LEARNING TO CAPITAL MARKETS SUPERVISION: CLASSIFICATION AND INFORMATION EXTRACTION FROM FINANCIAL DOCUMENTFREDERICO SHU 06 January 2022 (has links)
[pt] A análise de documentos financeiros não estruturados é uma atividade
essencial para a supervisão do mercado de capitais realizada pela Comissão de
Valores Mobiliários (CVM). Formas de automatização que reduzam o esforço
humano despendido no processo de triagem de documentos são vitais para a CVM
lidar com a escassez de recursos humanos e a expansão do mercado de valores
mobiliários. Nesse contexto, a dissertação compara sistematicamente diversos
algoritmos de aprendizado de máquina e técnicas de processamento de texto, a
partir de sua aplicação em duas tarefas de processamento de linguagem natural –
classificação de documentos e extração de informações – desempenhadas em
ambiente real de supervisão de mercados. Na tarefa de classificação, os algoritmos
clássicos proporcionaram melhor desempenho que as redes neurais profundas, o
qual foi potencializado pela aplicação de técnicas de subamostragem e comitês de
máquinas (ensembles). A precisão atual, estimada entre 20 por cento, e 40 por cento, pode ser
aumentada para mais de 90 por cento, com a aplicação dos algoritmos testados. A
arquitetura BERT foi capaz de extrair informações sobre aumento de capital e
incorporação societária de documentos financeiros. Os resultados satisfatórios
obtidos em ambas as tarefas motivam a implementação futura em regime de
produção dos modelos estudados, sob a forma de um sistema de apoio à decisão.
Outra contribuição da dissertação é o CVMCorpus, um corpus constituído para o
escopo deste trabalho com documentos financeiros entregues por companhias
abertas brasileiras à CVM entre 2009 e 2019, que abre possibilidades de pesquisa
futura linguística e de finanças. / [en] The analysis of unstructured financial documents is key to the capital
markets supervision performed by Comissão de Valores Mobiliários (Brazilian
SEC or CVM). Systems capable of reducing human effort involved in the task of
screening documents and outlining relevant information, for further manual
review, are important tools for CVM to deal with the shortage of human resources
and expansion of the Brazilian securities market. In this regard, this dissertation
presents and discusses the application of several machine learning algorithms and
text processing techniques to perform two natural language processing tasks—
document classification and information extraction—in a real market supervision
environment. In the classification exercise, classic algorithms achieved a better
performance than deep neural networks, which was enhanced by applying undersampling techniques and ensembles. Using the tested algorithms can improve the
current precision rate from 20 percent–40 percent to more than 90 percent. The BERT network
architecture was able to extract information from financial documents on capital
increase and mergers. The successful results obtained in both tasks encourage
future implementation of the studied models in the form of a decision support
system. Another contribution of this work is the CVMCorpus, a corpus built to
produce datasets for the tasks, with financial documents released between 2009
and 2019 by Brazilian companies, which opens possibilities of future linguistic
and finance research.
|
8 |
[pt] MINERAÇÃO DE INFORMAÇÃO EM LINGUAGEM NATURAL PARA APOIAR A ELICITAÇÃO DE REQUISITOS / [en] MINING INFORMATION IN NATURAL LANGUAGE TO SUPPORT REQUIREMENTS ELICITATIONROXANA LISETTE QUINTANILLA PORTUGAL 02 December 2016 (has links)
[pt] Este trabalho descreve a mineração de informações em linguagem natural a partir do repositório de projetos GitHub. É explicada como o conteúdo de projetos semelhantes dada uma busca por domínio podem ser úteis para o reuso de conhecimento, e assim, ajudar nas tarefas de Elicitação de Requisitos. Técnicas de mineração de textos, regularidades independentes do domínio, e os metadados de GitHub são os métodos utilizados para selecionar projetos relevantes e as informações dentro deles. Uma abordagem para atingir nossa meta utilizando pesquisa exploratória é explicada, bem como descrevemos os resultados alcançados. / [en] This work describes the mining of information in natural language from the GitHub repository. It is explained how the content of similar projects given a search domain can be useful for the reuse of knowledge, and thus help in the Requirements Elicitation tasks. Techniques of text mining, regularities independent from domain, and GitHub metadata are the methods used to select relevant projects and the information within them. One approach to achieve our goal is explained with an exploratory research and the results achieved.
|
9 |
[en] QUOTATION EXTRACTION FOR PORTUGUESE / [pt] EXTRAÇÃO DE CITAÇÕES PARA O PORTUGUÊSWILLIAM PAULO DUCCA FERNANDES 24 January 2017 (has links)
[pt] A Extração de Citações consiste na identificação de citações de um texto e na associação destas com seus autores. Neste trabalho, apresentamos um sistema de Extração de Citações para Português. A tarefa de Extração de Citações já foi abordada usando diversas técnicas e para diversas línguas.Nossa proposta é diferente dos trabalhos anteriores, pois usamos Aprendizado de Máquina para construir automaticamente regras especializadas ao invés de regras criadas por humanos. Modelos de Aprendizado de Máquina geralmente apresentam forte capacidade de generalização comparados a modelos feitos por humanos. Além disso, nós podemos facilmente adaptar nosso modelo para outras línguas, precisando apenas de uma lista de verbos de citação para uma dada língua. Os sistemas propostos anteriormente provavelmente precisariam de uma adaptação no conjunto de regras de forma a classificar corretamente as citações, o que consumiria tempo. Nós atacamos a tarefa de Extração de Citações usando um modelo para o algoritmo de Aprendizado de Transformações Guiado por Entropia e um modelo para o algoritmo do Perceptron Estruturado. Com o objetivo de treinar e avaliar o sistema, nós construímos o corpus GloboQuotes com notícias extraídas do portal globo.com. Adicionamos etiquetas morfossintáticas ao corpus, utilizando um anotador estado da arte. O Perceptron Estruturado baseado no agendamento de tarefas ponderado tem desempenho F sub Beta igual a 1 igual a 76,80 por cento. / [en] Quotation Extraction consists of identifying quotations from a text and associating them to their authors. In this work, we present a Quotation Extraction system for Portuguese. Quotation Extraction has been previously approached using different techniques and for several languages. Our proposal differs from previous work since we use Machine Learning to automatically build specialized rules instead of human-derived rules. Machine Learning models usually present stronger generalization power compared to human-derived models. In addition, we are able to easily adapt our model to other languages, needing only a list of verbs of speech for a given language. The previously proposed systems would probably need a rule set adaptation to correctly classify the quotations, which would be time consuming. We tackle the Quotation Extraction task using one model for the Entropy Guided Transformation Learning algorithm and another one for the Structured Perceptron algorithm. In order to train and evaluate the system, we have build the GloboQuotes corpus, with news extracted from the globo.com portal. We add part-of-speech tags to the corpus using a state-of-the-art tagger. The Structured Perceptron based on weighted interval scheduling obtains an F sub Beta equal 1 score of 76.80 per cent.
|
10 |
[en] EXTRACTING RELIABLE INFORMATION FROM LARGE COLLECTIONS OF LEGAL DECISIONS / [pt] EXTRAINDO INFORMAÇÕES CONFIÁVEIS DE GRANDES COLEÇÕES DE DECISÕES JUDICIAISFERNANDO ALBERTO CORREIA DOS SANTOS JUNIOR 09 June 2022 (has links)
[pt] Como uma consequência natural da digitalização do sistema judiciário
brasileiro, um grande e crescente número de documentos jurídicos tornou-se
disponível na internet, especialmente decisões judiciais. Como ilustração, em
2020, o Judiciário brasileiro produziu 25 milhões de decisões. Neste mesmo
ano, o Supremo Tribunal Federal (STF), a mais alta corte do judiciário brasileiro, produziu 99.5 mil decisões. Alinhados a esses valores, observamos
uma demanda crescente por estudos voltados para a extração e exploração
do conhecimento jurídico de grandes acervos de documentos legais. Porém,
ao contrário do conteúdo de textos comuns (como por exemplo, livro, notícias e postagem de blog), o texto jurídico constitui um caso particular
de uso de uma linguagem altamente convencionalizada. Infelizmente, pouca
atenção é dada à extração de informações em domínios especializados, como
textos legais. Do ponto de vista temporal, o Judiciário é uma instituição em
constante evolução, que se molda para atender às demandas da sociedade.
Com isso, o nosso objetivo é propor um processo confiável de extração de
informações jurídicas de grandes acervos de documentos jurídicos, tomando
como base o STF e as decisões monocráticas publicadas por este tribunal nos
anos entre 2000 e 2018. Para tanto, pretendemos explorar a combinação de
diferentes técnicas de Processamento de Linguagem Natural (PLN) e Extração de Informação (EI) no contexto jurídico. Da PLN, pretendemos explorar
as estratégias automatizadas de reconhecimento de entidades nomeadas no
domínio legal. Do ponto da EI, pretendemos explorar a modelagem dinâmica de tópicos utilizando a decomposição tensorial como ferramenta para
investigar mudanças no raciocinio juridico presente nas decisões ao lonfo do
tempo, a partir da evolução do textos e da presença de entidades nomeadas legais. Para avaliar a confiabilidade, exploramos a interpretabilidade
do método empregado, e recursos visuais para facilitar a interpretação por
parte de um especialista de domínio. Como resultado final, a proposta de
um processo confiável e de baixo custo para subsidiar novos estudos no domínio jurídico e, também, propostas de novas estratégias de extração de
informações em grandes acervos de documentos. / [en] As a natural consequence of the Brazilian Judicial System’s digitization, a large and increasing number of legal documents have become available on the Internet, especially judicial decisions. As an illustration, in 2020,
25 million decisions were produced by the Brazilian Judiciary. Meanwhile,
the Brazilian Supreme Court (STF), the highest judicial body in Brazil,
alone has produced 99.5 thousand decisions. In line with those numbers, we
face a growing demand for studies focused on extracting and exploring the
legal knowledge hidden in those large collections of legal documents. However, unlike typical textual content (e.g., book, news, and blog post), the
legal text constitutes a particular case of highly conventionalized language.
Little attention is paid to information extraction in specialized domains such
as legal texts. From a temporal perspective, the Judiciary itself is a constantly evolving institution, which molds itself to cope with the demands of
society. Therefore, our goal is to propose a reliable process for legal information extraction from large collections of legal documents, based on the STF
scenario and the monocratic decisions published by it between 2000 and
2018. To do so, we intend to explore the combination of different Natural
Language Processing (NLP) and Information Extraction (IE) techniques on
legal domain. From NLP, we explore automated named entity recognition
strategies in the legal domain. From IE, we explore dynamic topic modeling with tensor decomposition as a tool to investigate the legal reasoning
changes embedded in those decisions over time through textual evolution
and the presence of the legal named entities. For reliability, we explore the
interpretability of the methods employed. Also, we add visual resources to
facilitate interpretation by a domain specialist. As a final result, we expect
to propose a reliable and cost-effective process to support further studies
in the legal domain and, also, to propose new strategies for information
extraction on a large collection of documents.
|
Page generated in 0.0549 seconds