1 |
[en] EXTRACTING RELIABLE INFORMATION FROM LARGE COLLECTIONS OF LEGAL DECISIONS / [pt] EXTRAINDO INFORMAÇÕES CONFIÁVEIS DE GRANDES COLEÇÕES DE DECISÕES JUDICIAISFERNANDO ALBERTO CORREIA DOS SANTOS JUNIOR 09 June 2022 (has links)
[pt] Como uma consequência natural da digitalização do sistema judiciário
brasileiro, um grande e crescente número de documentos jurídicos tornou-se
disponível na internet, especialmente decisões judiciais. Como ilustração, em
2020, o Judiciário brasileiro produziu 25 milhões de decisões. Neste mesmo
ano, o Supremo Tribunal Federal (STF), a mais alta corte do judiciário brasileiro, produziu 99.5 mil decisões. Alinhados a esses valores, observamos
uma demanda crescente por estudos voltados para a extração e exploração
do conhecimento jurídico de grandes acervos de documentos legais. Porém,
ao contrário do conteúdo de textos comuns (como por exemplo, livro, notícias e postagem de blog), o texto jurídico constitui um caso particular
de uso de uma linguagem altamente convencionalizada. Infelizmente, pouca
atenção é dada à extração de informações em domínios especializados, como
textos legais. Do ponto de vista temporal, o Judiciário é uma instituição em
constante evolução, que se molda para atender às demandas da sociedade.
Com isso, o nosso objetivo é propor um processo confiável de extração de
informações jurídicas de grandes acervos de documentos jurídicos, tomando
como base o STF e as decisões monocráticas publicadas por este tribunal nos
anos entre 2000 e 2018. Para tanto, pretendemos explorar a combinação de
diferentes técnicas de Processamento de Linguagem Natural (PLN) e Extração de Informação (EI) no contexto jurídico. Da PLN, pretendemos explorar
as estratégias automatizadas de reconhecimento de entidades nomeadas no
domínio legal. Do ponto da EI, pretendemos explorar a modelagem dinâmica de tópicos utilizando a decomposição tensorial como ferramenta para
investigar mudanças no raciocinio juridico presente nas decisões ao lonfo do
tempo, a partir da evolução do textos e da presença de entidades nomeadas legais. Para avaliar a confiabilidade, exploramos a interpretabilidade
do método empregado, e recursos visuais para facilitar a interpretação por
parte de um especialista de domínio. Como resultado final, a proposta de
um processo confiável e de baixo custo para subsidiar novos estudos no domínio jurídico e, também, propostas de novas estratégias de extração de
informações em grandes acervos de documentos. / [en] As a natural consequence of the Brazilian Judicial System’s digitization, a large and increasing number of legal documents have become available on the Internet, especially judicial decisions. As an illustration, in 2020,
25 million decisions were produced by the Brazilian Judiciary. Meanwhile,
the Brazilian Supreme Court (STF), the highest judicial body in Brazil,
alone has produced 99.5 thousand decisions. In line with those numbers, we
face a growing demand for studies focused on extracting and exploring the
legal knowledge hidden in those large collections of legal documents. However, unlike typical textual content (e.g., book, news, and blog post), the
legal text constitutes a particular case of highly conventionalized language.
Little attention is paid to information extraction in specialized domains such
as legal texts. From a temporal perspective, the Judiciary itself is a constantly evolving institution, which molds itself to cope with the demands of
society. Therefore, our goal is to propose a reliable process for legal information extraction from large collections of legal documents, based on the STF
scenario and the monocratic decisions published by it between 2000 and
2018. To do so, we intend to explore the combination of different Natural
Language Processing (NLP) and Information Extraction (IE) techniques on
legal domain. From NLP, we explore automated named entity recognition
strategies in the legal domain. From IE, we explore dynamic topic modeling with tensor decomposition as a tool to investigate the legal reasoning
changes embedded in those decisions over time through textual evolution
and the presence of the legal named entities. For reliability, we explore the
interpretability of the methods employed. Also, we add visual resources to
facilitate interpretation by a domain specialist. As a final result, we expect
to propose a reliable and cost-effective process to support further studies
in the legal domain and, also, to propose new strategies for information
extraction on a large collection of documents.
|
Page generated in 0.055 seconds