81 |
[pt] COMPARAÇÃO DE MÉTODOS DE EXTRAÇÃO DE CURVAS DE DISPERSÃO BASEADOS EM TRANSFORMADA DE FOURIER 2-D E ATRAVÉS DO MÉTODO MATRIZ PENCIL / [en] COMPARISON OF EXTRACTION METHODS FOR DISPERSION CURVES USING 2-D FOURIER TRANSFORM AND MATRIX PENCIL METHODFELIPE DE CARVALHO G DE OLIVEIRA 16 May 2022 (has links)
[pt] Ondas ultrassônicas guiadas são usadas em larga escala em ensaios
não destrutivos (END) e Structural Health Monitoring (SHM), permitindo
a inspeção de estruturas e equipamentos de forma não invasiva. A partir
da transmissão de um sinal acústico sobre uma estrutura e a captação dos
sinais de onda propagados por meio de sensores posicionados estrategicamente,
é possível obter informações materiais do objeto inspecionado. Na área de
óleo e gás, o uso desse tipo de ondas acústicas é de grande importância
no levantamento do perfil da camada de cimento que reveste poços, que
tem função de conferir integridade estrutural e isolar a estrutura interna de
produção do poço das regiões freáticas do entorno. No processo de desativação e
abandono do poço, é fundamental avaliar a qualidade do isolamento hidráulico
do cimento, assim como identificar possíveis defeitos.
A propagação de ondas guiadas em uma estrutura se dá, em geral,
por meio de múltiplos modos e apresenta característica dispersiva, que se
traduz numa dependência da velocidade de fase das ondas com a frequência,
e uma relação não linear entre número de onda e frequência. A relação de
dispersão carrega informações do meio de propagação, tal como constantes
elásticas e dimensões, e pode ser visualizada a partir de curvas no plano
frequência-número de onda (f-k). Diferentes técnicas vêm sendo exploradas
para a obtenção das relações de dispersão a partir de sinais no domínio do
tempo captados por sensores ultrassônicos em posições espaciais distintas.
Este trabalho explora três métodos distintos para a extração das curvas
de dispersão, ou seja, obter os pontos f-k associados aos modos de propagação,
a partir de um conjunto de sinais dependentes do espaço-tempo. O primeiro
algoritmo se baseia em uma técnica pré-existente que usa uma Transformada
de Fourier bidimensional (2-D FT) sobre a matriz de dados de sinais de
sensores ultrassônicos no espaço-tempo, gerando uma matriz de amplitudes
no plano f-k onde os máximos locais representam pontos pertencentes a curvas de dispersão. A representação da matriz como uma imagem f-k permite
a visualização das curvas de dispersão como conjuntos contíguos de pixels
de maior claridade. Propõe-se um novo algoritmo baseado em operações
morfológicas de processamento de imagem para a identificação de pixels
relativos aos pontos das curvas de dispersão na imagem f-k, após um préprocessamento da mesma. A segunda técnica consiste no pré-processamento
dessa mesma imagem f-k, obtida pela 2-D FT, e uso de um algoritmo préexistente de detecção de estruturas curvilíneas em imagens para identificar
os pontos correspondentes às curvas f-k. O terceiro método é uma adaptação,
proposta aqui, de um algoritmo pré-existente para estimar os números de onda
das curvas de dispersão relativos a cada frequência através de uma matriz
Pencil. Propõe-se também um algoritmo original para a separação dos pontos
f-k encontrados pelas três técnicas de extração em curvas distintas.
Os algoritmos utilizados para a obtenção das curvas de dispersão têm
seu desempenho avaliado em três conjuntos de dados distintos de simulações
por elementos finitos, a saber, uma de placa de alumínio fina sob distintos
valores de tração axial aplicada paralelamente à direção de propagação das
ondas; um poço multicamada sem tubing possuindo diferentes tipos de defeito
de cimentação-channeling, qualidade de cimento baixa, descolamento interno
e externo -, assim como sem defeito; e um pouco multicamada com tubing
sob os mesmos defeitos de cimentação e também sem defeito. Compara-se a
capacidade dos algoritmos de extração das curvas de dispersão de oferecer
informações sobre mudanças materiais entre os casos simulados. Avalia-se
também a precisão e custo computacional dos mesmos. / [en] Ultrasonic guided waves are widely used in the fields of Non-Destructive
Evaluation (END) and Structural Health Monitoring (SHM), allowing the
inspection of structures and pieces of equipment in a non-invasive manner.
Through the transmission of an acoustic signal over a given object and the
acquisition of the signal from the propagated waves using a group of sensors in
predefined positions, it is possible to obtain material information regarding the
investigated structure. In the Oil & Gas industry, the use of this type of wave is
integral to the logging of the cement layer that outlines the walls of wellbores,
which has the purpose of guaranteeing structural support and protecting the
well’s internal production structure and the surrounding groundwater from
each other. During the deactivation and abandonment of a production well, it
is necessary to evaluate the hydraulic isolation of the cement layer, as well as
identify possible defects.
The propagation of guided waves in a structure is usually multi-modal
and of dispersive characteristic. The latter means that the propagating waves
phase velocity is dependent on the frequency, translating into a non-linear
relationship between wavenumber and frequency. This dispersion relation
contains information about the propagating medium, such as elastic constants
and dimensions, and can be represented as curves in the frequency-wavenumber
(f-k) plane. Different methods are currently being explored for obtaining the
dispersion relation from time-domain signals acquired by ultrasonic sensors in
different spatial positions.
This work explored three different methods for the extraction of the
dispersion curves, that is, obtaining the f-k points associated with the modes
of propagation, from a dataset composed of space-time signals. The first
algorithm is based on a pre-existing technique that uses the bidimensional
Fourier Transform (2-D FT) over the matrix containing the space-time signals
from the ultrasonic sensors, generating an f-k matrix whose local maximas
correspond to points belonging to dispersions curves. The representation of the matrix as an f-k image shows the dispersion curves as contiguous groups
of pixels with elevated brightness. A new algorithm is proposed, based on
morphological operations from image-processing, to identify the pixels relative
to the f-k points of the dispersion curves in the image, after pre-processing
is performed. The second technique consists of pre-processing the same fk image, obtained from the 2-D FT, and the use of an existing algorithm
for the detection of curvilinear structures in images to identify the points
corresponding to the f-k curves. The third method proposes the adaptation
of an existing method of estimation of the wavenumbers associated with the
dispersion curves for different frequencies, using a matrix Pencil. This work
also proposes an original algorithm to separate the f-k points, retrieved by the
three techniques, in different curves associated with each mode of propagation.
The algorithms used here for the estimation of the dispersion curves
are evaluated over three distinct datasets of finite elements simulation: a
thin aluminum plate under different values of axial traction parallel to the
direction of propagation of the waves; a multilayer wellbore without tubing,
with different types of cement defects-channeling, low cement quality, internal
and external decoupling-, and without defect; a multilayer wellbore with
tubing with the same cement defects and with no defect. Finally, a comparison
is drawn over the capacity of the extraction algorithms of providing information
regarding changes in the material qualities of the simulated objects. The
work also evaluates the precision and computational performance of the
aforementioned algorithms.
|
82 |
[en] EXTRACTING RELIABLE INFORMATION FROM LARGE COLLECTIONS OF LEGAL DECISIONS / [pt] EXTRAINDO INFORMAÇÕES CONFIÁVEIS DE GRANDES COLEÇÕES DE DECISÕES JUDICIAISFERNANDO ALBERTO CORREIA DOS SANTOS JUNIOR 09 June 2022 (has links)
[pt] Como uma consequência natural da digitalização do sistema judiciário
brasileiro, um grande e crescente número de documentos jurídicos tornou-se
disponível na internet, especialmente decisões judiciais. Como ilustração, em
2020, o Judiciário brasileiro produziu 25 milhões de decisões. Neste mesmo
ano, o Supremo Tribunal Federal (STF), a mais alta corte do judiciário brasileiro, produziu 99.5 mil decisões. Alinhados a esses valores, observamos
uma demanda crescente por estudos voltados para a extração e exploração
do conhecimento jurídico de grandes acervos de documentos legais. Porém,
ao contrário do conteúdo de textos comuns (como por exemplo, livro, notícias e postagem de blog), o texto jurídico constitui um caso particular
de uso de uma linguagem altamente convencionalizada. Infelizmente, pouca
atenção é dada à extração de informações em domínios especializados, como
textos legais. Do ponto de vista temporal, o Judiciário é uma instituição em
constante evolução, que se molda para atender às demandas da sociedade.
Com isso, o nosso objetivo é propor um processo confiável de extração de
informações jurídicas de grandes acervos de documentos jurídicos, tomando
como base o STF e as decisões monocráticas publicadas por este tribunal nos
anos entre 2000 e 2018. Para tanto, pretendemos explorar a combinação de
diferentes técnicas de Processamento de Linguagem Natural (PLN) e Extração de Informação (EI) no contexto jurídico. Da PLN, pretendemos explorar
as estratégias automatizadas de reconhecimento de entidades nomeadas no
domínio legal. Do ponto da EI, pretendemos explorar a modelagem dinâmica de tópicos utilizando a decomposição tensorial como ferramenta para
investigar mudanças no raciocinio juridico presente nas decisões ao lonfo do
tempo, a partir da evolução do textos e da presença de entidades nomeadas legais. Para avaliar a confiabilidade, exploramos a interpretabilidade
do método empregado, e recursos visuais para facilitar a interpretação por
parte de um especialista de domínio. Como resultado final, a proposta de
um processo confiável e de baixo custo para subsidiar novos estudos no domínio jurídico e, também, propostas de novas estratégias de extração de
informações em grandes acervos de documentos. / [en] As a natural consequence of the Brazilian Judicial System’s digitization, a large and increasing number of legal documents have become available on the Internet, especially judicial decisions. As an illustration, in 2020,
25 million decisions were produced by the Brazilian Judiciary. Meanwhile,
the Brazilian Supreme Court (STF), the highest judicial body in Brazil,
alone has produced 99.5 thousand decisions. In line with those numbers, we
face a growing demand for studies focused on extracting and exploring the
legal knowledge hidden in those large collections of legal documents. However, unlike typical textual content (e.g., book, news, and blog post), the
legal text constitutes a particular case of highly conventionalized language.
Little attention is paid to information extraction in specialized domains such
as legal texts. From a temporal perspective, the Judiciary itself is a constantly evolving institution, which molds itself to cope with the demands of
society. Therefore, our goal is to propose a reliable process for legal information extraction from large collections of legal documents, based on the STF
scenario and the monocratic decisions published by it between 2000 and
2018. To do so, we intend to explore the combination of different Natural
Language Processing (NLP) and Information Extraction (IE) techniques on
legal domain. From NLP, we explore automated named entity recognition
strategies in the legal domain. From IE, we explore dynamic topic modeling with tensor decomposition as a tool to investigate the legal reasoning
changes embedded in those decisions over time through textual evolution
and the presence of the legal named entities. For reliability, we explore the
interpretability of the methods employed. Also, we add visual resources to
facilitate interpretation by a domain specialist. As a final result, we expect
to propose a reliable and cost-effective process to support further studies
in the legal domain and, also, to propose new strategies for information
extraction on a large collection of documents.
|
83 |
[en] DEEP LEARNING NEURAL NETWORKS FOR THE IDENTIFICATION OF AROUSALS RELATED TO RESPIRATORY EVENTS USING POLYSOMNOGRAPHIC EEG SIGNALS / [pt] REDES NEURAIS DE APRENDIZADO PROFUNDO PARA A IDENTIFICAÇÃO DE DESPERTARES RELACIONADOS A EVENTOS RESPIRATÓRIOS USANDO SINAIS EEG POLISSONOGRÁFICOSMARIA LEANDRA GUATEQUE JARAMILLO 31 May 2021 (has links)
[pt] Para o diagnóstico de distúrbios do sono, um dos exames mais usado é a polissonografia (PSG), na qual é registrada uma variedade de sinais fisiológicos. O exame de PSG é observado por um especialista do sono, processo que pode levar muito tempo e incorrer em erros de interpretação. O presente trabalho desenvolve e compara o desempenho de quatro sistemas baseados em arquiteturas de redes neurais de aprendizado profundo, mais especificamente, redes convolutivas (CNN) e redes recorrentes Long-Short Term Memory (LSTM), para a identificação de despertares relacionados ao esforço respiratório (Respiratory Effort-Related Arousal-RERA) e a eventos de despertar relacionados à apneia/hipopneia. Para o desenvolvimento desta
pesquisa, foram usadas as informações de apenas seis canais eletroencefalográficos (EEG) provenientes de 994 registros de PSG noturna da base de dados PhysioNet CinC Challenge2018, além disso, foi considerado o uso de class weight e Focal Loss para lidar com o desbalanceamento de classes. Para a avaliação de cada um dos sistemas foram usadas a Accuracy, AUROC e AUPRC como métricas de desempenho. Os melhores resultados para o conjunto de teste foram obtidos com os modelos CNN1 obtendo-se uma Accuracy, AUROC e AUPRC de 0,8404, 0,8885 e 0,8141 respetivamente, e CNN2 obtendo-se uma Accuracy, AUROC e AUPRC de 0,8214, 0,8915 e 0,8097 respetivamente. Os resultados restantes confirmaram que as redes
neurais de aprendizado profundo permitem lidar com dados temporais de EEG melhor que os algoritmos de aprendizado de máquina tradicional, e o uso de técnicas como class weight e Focal Loss melhoram o desempenho dos sistemas. / [en] For the diagnosis of sleep disorders, one of the most commonly used tests is polysomnography (PSG), in which a variety of physiological signs are recorded. The study of PSG is observed by a sleep therapist, This process may take a long time and may incur misinterpretation. This work develops and compares the performance of four classification systems based on deep learning neural networks, more specifically, convolutional neural networks (CNN) and recurrent networks Long-Short Term Memory (LSTM), for
the identification of Respiratory Effort-Related Arousal (RERA) and to events related to apnea/hypopnea. For the development of this research, it was used the Electroencephalogram (EEG) data of six channels from 994 night polysomnography records from the database PhysioNet CinC Challenge2018, the use of class weight and Focal Loss was considered to deal with class unbalance. Accuracy, AUROC, and AUPRC were used as performance metrics for evaluating each system. The best results for the test set were obtained with the CNN1 models obtaining an accuracy, AUROC and AUPRC of 0.8404, 0.8885 and 0.8141 respectively, and RCNN2 obtaining an accuracy, AUROC and AUPRC of 0.8214, 0.8915 and 0.8097
respectively. The remaining results confirmed that deep learning neural networks allow dealing with EEG time data better than traditional machine learning algorithms, and the use of techniques such as class weight and Focal Loss improve system performance.
|
84 |
[en] AUTOMATIC INFORMATION EXTRACTION: A DISTANT READING OF THE BRAZILIAN HISTORICAL-BIOGRAPHICAL DICTIONARY (DHBB) / [pt] EXTRAÇÃO AUTOMÁTICA DE INFORMAÇÕES: UMA LEITURA DISTANTE DO DICIONÁRIO HISTÓRICO-BIOGRÁFICO BRASILEIRO (DHBBSUEMI HIGUCHI 10 September 2021 (has links)
[pt] A pesquisa aplica algumas técnicas de processamento de linguagem natural (PLN) ao domínio da história, tendo como objeto de investigação o Dicionário Histórico-Biográfico Brasileiro (DHBB), obra de estilo enciclopédico concebida pelo Centro de Pesquisa e Documentação de História Contemporânea do Brasil (CPDOC) da Fundação Getulio Vargas (FGV). O objetivo foi criar, a partir do DHBB, um corpus anotado para fins de extração automática de informações, relevante para as Humanidades Digitais, capaz de viabilizar ‘leituras distantes’ da política contemporânea brasileira. O processo completo passa pelas etapas de análise morfossintática do material, identificação de entidades relevantes ao domínio, inclusão de anotação no corpus, definição de relações semânticas de interesse para a pesquisa e mapeamento dos padrões léxico-sintáticos existentes nestas relações. Busca-se com estas etapas preparar os textos para a identificação de estruturas de interesse, isolando as informações relevantes e apresentando-as de forma estruturada. Para testar e avaliar um conjunto de padrões quanto à sua produtividade, foram selecionados como temas de interesse idade de entrada dos biografados na carreira política, formação acadêmica e vínculos familiares. O pressuposto é que utilizando padrões léxico-sintáticos é possível extrair informação de qualidade direcionada ao domínio da História, a partir de um corpus anotado do gênero enciclopédico. Na avaliação dos padrões para a extração do ano de nascimento dos biografados a medida-F foi de 99 por cento, para a extração de relações familiares a medida-F foi de 84% e para informações sobre formação acadêmica o índice de acertos alcançou 99,1 por cento. Essas extrações, por sua vez, permitiram uma leitura distante dos dados do DHBB que nos mostra i) queda da média de idade no que se refere à entrada dos políticos na carreira pública, que passam a se posicionar cada vez mais abaixo dos 40 anos, principalmente os nascidos a partir da década de 1960; ii) declínio acentuado na formação militar, sobretudo para as gerações pós 1920, demonstrando que o treinamento civil estava substituindo o militar enquanto caminho para atingir cargos políticos importantes; e iii) vínculos familiares na política como um fenômeno que se mantêm ao longo do tempo em índices bastante significativos, muitas vezes representando mais de 50 por cento do total de membros de determinadas categorias. As principais contribuições da tese são: criação de um corpus de gênero enciclopédico anotado e disponibilizado para estudos linguísticos e das humanidades; apresentação de metodologia baseada em uma filosofia de enriquecimento cíclico, em que à medida que se vai obtendo mais informações, elas são adicionadas ao próprio corpus melhorando a extração; e compilação de um conjunto de padrões passível de ser adaptado para quaisquer corpora contendo o mesmo tipo de anotações. / [en] The research applies some natural language processing techniques (NLP) to the domain of history, having as object of investigation the Brazilian Historical-Biographical Dictionary (DHBB), an encyclopedic style work conceived by the Centro de Pesquisa e Documentação de História Contemporânea do Brasil (CPDOC) of Fundação Getulio Vargas (FGV). The target is to create, from the DHBB, an annotated corpus for automatic information extraction s purpose, relevant to the Digital Humanities, enabling distant readings of Brazilian contemporary political history. The complete process goes through the morphosyntactic analysis of the material, identification of entities relevant to the domain, inclusion of semantic annotation in the corpus, definition of semantic relations of interest and mapping of lexical-syntactic patterns existing in these relations. These steps seek to prepare the texts for the identification of structures of interest, isolating the relevant information and presenting them in a structured way. To test and evaluate a set of textual patterns regarding their productivity in relation to DHBB, some specific topics were selected: age of the politician when entering public life, academic training and family ties. The assumption is that using lexical-syntactic patterns it is possible to extract high quality information from the domain of History, from an annotated corpus of the encyclopedic genre. In the evaluation of the patterns for extraction of the year of birth of the biographees, the F-measure was 99 per cent, for the extraction of family relationships, the F-measure was 84 per cent and for information on academic training, the correctness index reached 99.1 per cent. These extractions, in turn, allowed us to make a distant reading of the data in the DHBB that shows us i) a drop in the average age with regard to the entry of politicians into the public career, who start to position themselves more and more under 40 years of age, mainly those born from the 1960s; ii) sharp decline in military training, especially for the post-1920 generations, demonstrating that civilian training was replacing military training as a way to reach important political positions; and iii) family ties in politics as a phenomenon that remain over time at very significant rates, often representing more than 50 per cent of the total members of certain categories. The main contributions of the thesis are: creation of an encyclopedic genre corpus annotated and made available for linguistic and humanities studies; presentation of a methodology based on a philosophy of cyclic enrichment, in which, as more information is obtained, they are added to the corpus itself, improving extraction; and compilation of a set of productive patterns that can be adapted for any corpora containing the same type of annotations.
|
85 |
[en] A FUZZY INFERENCE SYSTEM WITH AUTOMATIC RULE EXTRACTION FOR GAS PATH DIAGNOSIS OF AVIATION GAS TURBINES / [pt] SISTEMA DE INFERÊNCIA FUZZY COM EXTRAÇÃO AUTOMÁTICA DE REGRAS PARA DIAGNÓSTICO DE DESEMPENHO DE TURBINAS A GÁS AERONÁUTICASTAIRO DOS PRAZERES TEIXEIRA 14 December 2016 (has links)
[pt] Turbinas a gás são equipamentos muito complexos e caros. No caso de falha em uma turbina, há obviamente perdas diretas, mas as indiretas são normalmente muito maiores, uma vez que tal equipamento é crítico para a operação de instalações industriais, aviões e veículos pesados. Portanto, é fundamental que turbinas a gás sejam providas com um sistema eficiente de monitoramento e diagnóstico. Isto é especialmente relevante no Brasil, cuja frota de turbinas tem crescido muito nos últimos anos, devido, principalmente, ao aumento do número de usinas termelétricas e ao crescimento da aviação civil. Este trabalho propõe um Sistema de Inferência Fuzzy (SIF) com extração automática de regras para diagnóstico de desempenho de turbinas a gás aeronáuticas. O sistema proposto faz uso de uma abordagem residual – medições da turbina real são comparadas frente a uma referência de turbina saudável – para tratamento dos dados brutos de entrada para os módulos de detecção e isolamento, que, de forma hierárquica, são responsáveis por detectar e isolar falhas em nível de componentes, sensores e atuadores. Como dados reais de falhas em turbinas a gás são de difícil acesso e de obtenção cara, a metodologia é validada frente a uma base de dados de falhas simuladas por um software especialista. Os resultados mostram que o SIF é capaz de detectar e isolar corretamente falhas, além de fornecer interpretabilidade linguística, característica importante no processo de tomada de decisão no contexto de manutenção. / [en] A Gas turbine is a complex and expensive equipment. In case of a failure indirect losses are typically much larger than direct ones, since such equipment plays a critical role in the operation of industrial installations, aircrafts, and heavy vehicles. Therefore, it is vital that gas turbines be provided with an efficient monitoring and diagnostic system. This is especially relevant in Brazil, where the turbines fleet has risen substantially in recent years, mainly due to the increasing number of thermal power plants and to the growth of civil aviation. This work proposes a Fuzzy Inference System (FIS) with automatic rule extraction for gas path diagnosis. The proposed system makes use of a residual approach – gas path measurements are compared to a healthy engine reference – for preprocessing raw input data that are forwarded to the detection and isolation modules. These operate in a hierarchical manner and are responsible for fault detection and isolation in components, sensors and actuators. Since gas turbines failure data are difficult to access and expensive to obtain, the methodology is validated by using a database fault simulated by a specialist software. The results show that the SIF is able to correctly detect and isolate failures and to provide linguistic interpretability, which is an important feature in the decision-making process regarding maintenance.
|
86 |
[en] A NON-DETERMINISTIC PORE-THROAT NETWORK EXTRACTION FROM SKELETON BY THINNING ALGORITHM / [pt] EXTRAÇÃO DE REDE DE POROS E GARGANTAS NÃO-DETERMINÍSTICA A PARTIR DE ESQUELETO VIA ALGORITMO DE EROSÃOTAMIRES PEREIRA PINTO DA SILVA 31 October 2023 (has links)
[pt] A microtomografia computadorizada de uma amostra de rocha possibilita
uma caracterização do meio poroso e pode ser utilizada para estimar
propriedades da rocha em macroescala, isto é, em escala de reservatório.
Métodos baseados em mapas de distâncias e em algoritmos de erosão são
as principais abordagens utilizadas para extração de uma rede de poros e
gargantas a partir de imagens microtomográficas de rocha. Este trabalho
propõe um método híbrido para a construção da rede, de modo que, durante
o processo de modelagem na escala de poros, obtemos um esqueleto do espaço
poroso por meio de um algoritmo de erosão e utilizamos um mapa de distâncias
para construir uma rede de poros e gargantas. A determinação dos poros
e gargantas a partir do esqueleto adota uma abordagem não-determinística
possibilitando a geração de múltiplas redes com configurações distintas a partir
de um mesmo esqueleto. Avaliamos a variabilidade dos cenários gerados e
comparamos as estimativas para as propriedades petrofísicas com as obtidas
pelo método de Bolas Máximas por meio dos resultados de uma simulação de
fluxo monofásica na rede. / [en] Computerized microtomography of a rock sample enables a
characterization of the porous medium and can be used to estimate rock
properties at the macro-scale, i.e., reservoir-scale. Methods based on distance
maps and thinning algorithms are the main approaches used for extracting
a pore and throats network from microtomographic rock images. This paper
proposes a hybrid method for constructing the network. So that during the
pore-scale modeling process, we obtain a skeleton of the pore space by using
a thinning algorithm and a distance map to build a network of pores and
throats. The determination of pores and throats from the skeleton assumes a
non-deterministic approach enabling the generation of multiple networks with
distinct configurations from the same skeleton. We evaluate the variability
of the generated scenarios and compare the estimates for the petrophysical
properties with those obtained by the Maximum Ball Method through the
results of a single-phase flow simulation on the network.
|
87 |
[en] EXTRACTING AND CONNECTING PLAINTIFF S LEGAL CLAIMS AND JUDICIAL PROVISIONS FROM BRAZILIAN COURT DECISIONS / [pt] EXTRAÇÃO E CONEXÃO ENTRE PEDIDOS E DECISÕES JUDICIAIS DE UM TRIBUNAL BRASILEIROWILLIAM PAULO DUCCA FERNANDES 03 November 2020 (has links)
[pt] Neste trabalho, propomos uma metodologia para anotar decisões judiciais,
criar modelos de Deep Learning para extração de informação, e visualizar
de forma agregada a informação extraída das decisões. Instanciamos a
metodologia em dois sistemas. O primeiro extrai modificações de um tribunal
de segunda instância, que consiste em um conjunto de categorias legais
que são comumente modificadas pelos tribunais de segunda instância. O
segundo (i) extrai as causas que motivaram uma pessoa a propor uma ação
judicial (causa de pedir), os pedidos do autor e os provimentos judiciais dessas
ações proferidas pela primeira e segunda instância de um tribunal, e (ii)
conecta os pedidos com os provimentos judiciais correspondentes. O sistema
apresenta seus resultados através de visualizações. Extração de Informação
para textos legais tem sido abordada usando diferentes técnicas e idiomas.
Nossas propostas diferem dos trabalhos anteriores, pois nossos corpora são
compostos por decisões de primeira e segunda instância de um tribunal brasileiro.
Para extrair as informações, usamos uma abordagem tradicional de
Aprendizado de Máquina e outra usando Deep Learning, tanto individualmente
quanto como uma solução combinada. Para treinar e avaliar os sistemas,
construímos quatro corpora: Kauane Junior para o primeiro sistema,
e Kauane Insurance Report, Kauane Insurance Lower e Kauane Insurance
Upper para o segundo. Usamos dados públicos disponibilizados pelo Tribunal
de Justiça do Estado do Rio de Janeiro para construir os corpora. Para
o Kauane Junior, o melhor modelo (Fbeta=1 de 94.79 por cento) foi uma rede neural bidirecional Long Short-Term Memory combinada com Conditional Random
Fields (BILSTM-CRF); para o Kauane Insurance Report, o melhor (Fbeta=1
de 67,15 por cento) foi uma rede neural bidirecional Long Short-Term Memory com
embeddings de caracteres concatenados a embeddings de palavras combinada
com Conditional Random Fields (BILSTM-CE-CRF). Para o Kauane
Insurance Lower, o melhor (Fbeta=1 de 89,12 por cento) foi uma BILSTM-CE-CRF;
para o Kauane Insurance Upper, uma BILSTM-CRF (Fbeta=1 de 83,66 por cento). / [en] In this work, we propose a methodology to annotate Court decisions,
create Deep Learning models to extract information, and visualize the aggregated
information extracted from the decisions. We instantiate our methodology
in two systems we have developed. The first one extracts Appellate
Court modifications, a set of legal categories that are commonly modified
by Appellate Courts. The second one (i) extracts plaintiff s legal claims and
each specific provision on legal opinions enacted by lower and Appellate
Courts, and (ii) connects each legal claim with the corresponding judicial
provision. The system presents the results through visualizations. Information
Extraction for legal texts has been previously addressed using different
techniques and languages. Our proposals differ from previous work, since
our corpora are composed of Brazilian lower and Appellate Court decisions.
To automatically extract that information, we use a traditional Machine
Learning approach and a Deep Learning approach, both as alternative solutions
and also as a combined solution. In order to train and evaluate the
systems, we have built Kauane Junior corpus for the first system, and three
corpora for the second system – Kauane Insurance Report, Kauane Insurance
Lower, and Kauane Insurance Upper. We used public data disclosed by
the State Court of Rio de Janeiro to build the corpora. For Kauane Junior,
the best model, which is a Bidirectional Long Short-Term Memory network
combined with Conditional Random Fields (BILSTM-CRF), obtained an
(F)beta=1 score of 94.79 percent. For Kauane Insurance Report, the best model, which is a Bidirectional Long Short-Term Memory network with character embeddings
concatenated to word embeddings combined with Conditional Random
Fields (BILSTM-CE-CRF), obtained an (F)beta=1 score of 67.15 percent. For
Kauane Insurance Lower, the best model, which is a BILSTM-CE-CRF,
obtained an (F)beta=1 score of 89.12 percent. For Kauane Insurance Upper, the best
model, which is a BILSTM-CRF, obtained an (F)beta=1 score of 83.66 percent.
|
88 |
[en] ESPÍRITO DE CORPUS: CREATION OF A MARINE CORPS BILINGUAL LEXICON / [pt] ESPÍRITO DE CORPUS: CRIAÇÃO DE UM LÉXICO BILÍNGUE DO CORPO DE FUZILEIROS NAVAISMARIANA LEMOS MULLER 07 June 2022 (has links)
[pt] Este estudo apresenta uma pesquisa temática envolvendo Terminologia, Estudos de Tradução Baseados em Corpus, Terminologia Computacional e Semântica
Lexical, e tem como objeto de estudo a área do Corpo de Fuzileiros Navais. O objetivo desta pesquisa foi de criar um material terminológico por meio de uma metodologia híbrida de extração de termos desenvolvida a partir de testes com ferramentas
de Extração Automática de Termos (EAT). Assim, buscou-se solucionar tanto problemas tradutórios relacionados à subárea de estudo quanto à detecção e validação
de candidatos a termos em um corpus. Primeiramente, foi realizado um estudo piloto
com o objetivo de avaliar as ferramentas TermoStat Web 3.0 e AntConc 3.5.7. Após
os testes por meio da análise de um corpus paralelo bilíngue, foram selecionadas as
melhores condições identificadas para se obter uma metodologia eficaz de extração
automática de termos aliada à análise humana. Em seguida, essa metodologia foi utilizada para a análise de um corpus bilíngue comparável. Os candidatos a termos extraídos foram então validados pelos critérios de Semântica Lexical propostos por
L Homme (2020) e, em seguida, foram detectados seus equivalentes terminológicos.
Este estudo resultou na criação do léxico bilíngue Espírito de Corpus. / [en] This study presents a thematic research in the Marine Corps area involving
Terminology, Corpus-Based Translation Studies, Computational Terminology and
Lexical Semantics. The objective of this research was to create a terminological material through a hybrid methodology of term extraction developed from tests with
Automatic Term Extraction (ATE) tools. Thus, we sought to solve both translation
problems related to the subarea of study and to the detection and validation of term
candidates in a corpus. First, a pilot study was conducted aiming to analyze two tools
– TermoStat Web 3.0 and AntConc 3.5.7. After the conduction of the tests through
the analysis of a bilingual parallel corpus, the best conditions identified were selected
to obtain an effective methodology of automatic extraction of terms allied to human
analysis. Then, this methodology was used for the analysis of a comparable bilingual
corpus. The term candidates automatically extracted were then validated by the Lexical Semantics criteria proposed by L Homme (2020) and their translation equivalents
were detected. This study resulted in the creation of the bilingual lexicon Espírito de
Corpus.
|
89 |
[pt] GERAÇÃO AUTOMÁTICA DE CONEXÕES PARA GESTÃO DE CONHECIMENTO / [en] ON AUTOMATIC GENERATION OF KNOWLEDGE CONNECTIONSFELIPE POGGI DE ARAGAO FRAGA 10 November 2022 (has links)
[pt] Recentemente, o tópico de Gestão de Conhecimento Pessoal vem ganhando muita popularidade. Ilustrado pelo rápido crescimento de aplicativos
como Notion, Obsidian, e Roam Research e da aparição de livros como How
to Take Smart Notes e Building a Second Brain.
Contudo, ainda é uma área que não foi fortemente envolvida pelo
Processamento de Linguagem Natural (NLP). Isso abre uma bela oportunidade
para a aplicação de NLP em operações com conhecimento.
Nosso objetivo é o desenvolvimento de um sistema de software que
utiliza NLP e aplicatovps de anotação para transformar uma coleção de textos
isolados em uma coleção de textos interconectada e inter-navegável. Isso é
feito usando mecanismos de navegação baseados em conceitos mencionados e
recomendações semânticas.
Neste trabalho apresentamos a metodologia para construir o sistema,
demonstrações com exemplos palpáveis, assim como uma avaliação para determinar a coerência dos resultados. / [en] Recently, the topic of Personal Knowledge Management (PKM) has seen
a surge in popularity. This is illustrated by the accelerated growth of apps
such as Notion, Obsidian, and Roam Research, and the appearance of books
like How to Take Smart Notes and Building a Second Brain.
However, the area of PKM has not seen much integration with the field of
Natural Language Processing (NLP). This opens up an interesting opportunity
to apply NLP techniques to knowledge operations tasks.
Our objective is the development of a Software System that uses NLP and
note-taking apps to transform a siloed text collection into an interconnected
and inter-navigable text collection. The system uses navigation mechanisms
based on shared concepts and semantic relatedness between texts.
In this study, we present a methodology to build this system, the research
context, demonstrations using examples, and an evaluation to determine if the
system functions properly and if the proposed connections are coherent.
|
Page generated in 0.0427 seconds