• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 29
  • 15
  • Tagged with
  • 44
  • 44
  • 32
  • 15
  • 14
  • 13
  • 12
  • 11
  • 11
  • 11
  • 11
  • 10
  • 8
  • 8
  • 6
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

[pt] APLICANDO APRENDIZADO DE MÁQUINA À SUPERVISÃO DO MERCADO DE CAPITAIS: CLASSIFICAÇÃO E EXTRAÇÃO DE INFORMAÇÕES DE DOCUMENTOS FINANCEIROS / [en] APPLYING MACHINE LEARNING TO CAPITAL MARKETS SUPERVISION: CLASSIFICATION AND INFORMATION EXTRACTION FROM FINANCIAL DOCUMENT

FREDERICO SHU 06 January 2022 (has links)
[pt] A análise de documentos financeiros não estruturados é uma atividade essencial para a supervisão do mercado de capitais realizada pela Comissão de Valores Mobiliários (CVM). Formas de automatização que reduzam o esforço humano despendido no processo de triagem de documentos são vitais para a CVM lidar com a escassez de recursos humanos e a expansão do mercado de valores mobiliários. Nesse contexto, a dissertação compara sistematicamente diversos algoritmos de aprendizado de máquina e técnicas de processamento de texto, a partir de sua aplicação em duas tarefas de processamento de linguagem natural – classificação de documentos e extração de informações – desempenhadas em ambiente real de supervisão de mercados. Na tarefa de classificação, os algoritmos clássicos proporcionaram melhor desempenho que as redes neurais profundas, o qual foi potencializado pela aplicação de técnicas de subamostragem e comitês de máquinas (ensembles). A precisão atual, estimada entre 20 por cento, e 40 por cento, pode ser aumentada para mais de 90 por cento, com a aplicação dos algoritmos testados. A arquitetura BERT foi capaz de extrair informações sobre aumento de capital e incorporação societária de documentos financeiros. Os resultados satisfatórios obtidos em ambas as tarefas motivam a implementação futura em regime de produção dos modelos estudados, sob a forma de um sistema de apoio à decisão. Outra contribuição da dissertação é o CVMCorpus, um corpus constituído para o escopo deste trabalho com documentos financeiros entregues por companhias abertas brasileiras à CVM entre 2009 e 2019, que abre possibilidades de pesquisa futura linguística e de finanças. / [en] The analysis of unstructured financial documents is key to the capital markets supervision performed by Comissão de Valores Mobiliários (Brazilian SEC or CVM). Systems capable of reducing human effort involved in the task of screening documents and outlining relevant information, for further manual review, are important tools for CVM to deal with the shortage of human resources and expansion of the Brazilian securities market. In this regard, this dissertation presents and discusses the application of several machine learning algorithms and text processing techniques to perform two natural language processing tasks— document classification and information extraction—in a real market supervision environment. In the classification exercise, classic algorithms achieved a better performance than deep neural networks, which was enhanced by applying undersampling techniques and ensembles. Using the tested algorithms can improve the current precision rate from 20 percent–40 percent to more than 90 percent. The BERT network architecture was able to extract information from financial documents on capital increase and mergers. The successful results obtained in both tasks encourage future implementation of the studied models in the form of a decision support system. Another contribution of this work is the CVMCorpus, a corpus built to produce datasets for the tasks, with financial documents released between 2009 and 2019 by Brazilian companies, which opens possibilities of future linguistic and finance research.
32

[pt] MINERAÇÃO DE INFORMAÇÃO EM LINGUAGEM NATURAL PARA APOIAR A ELICITAÇÃO DE REQUISITOS / [en] MINING INFORMATION IN NATURAL LANGUAGE TO SUPPORT REQUIREMENTS ELICITATION

ROXANA LISETTE QUINTANILLA PORTUGAL 02 December 2016 (has links)
[pt] Este trabalho descreve a mineração de informações em linguagem natural a partir do repositório de projetos GitHub. É explicada como o conteúdo de projetos semelhantes dada uma busca por domínio podem ser úteis para o reuso de conhecimento, e assim, ajudar nas tarefas de Elicitação de Requisitos. Técnicas de mineração de textos, regularidades independentes do domínio, e os metadados de GitHub são os métodos utilizados para selecionar projetos relevantes e as informações dentro deles. Uma abordagem para atingir nossa meta utilizando pesquisa exploratória é explicada, bem como descrevemos os resultados alcançados. / [en] This work describes the mining of information in natural language from the GitHub repository. It is explained how the content of similar projects given a search domain can be useful for the reuse of knowledge, and thus help in the Requirements Elicitation tasks. Techniques of text mining, regularities independent from domain, and GitHub metadata are the methods used to select relevant projects and the information within them. One approach to achieve our goal is explained with an exploratory research and the results achieved.
33

[en] AN END-TO-END MODEL FOR JOINT ENTITY AND RELATION EXTRACTION IN PORTUGUESE / [pt] MODELO END-TO-END PARA EXTRAÇÃO DE ENTIDADES E RELAÇÕES DE FORMA CONJUNTA EM PORTUGUÊS

LUCAS AGUIAR PAVANELLI 24 October 2022 (has links)
[pt] As técnicas de processamento de linguagem natural (NLP) estão se tornando populares recentemente. A gama de aplicativos que se beneficiam de NLP é extensa, desde criar sistemas de tradução automática até ajudar no marketing de um produto. Dentro de NLP, o campo de Extração de Informações (IE) é difundido; concentra-se no processamento de textos para recuperar informações específicas sobre uma determinada entidade ou conceito. Ainda assim, a comunidade de pesquisa se concentra principalmente na construção de modelos para dados na língua inglesa. Esta tese aborda três tarefas no domínio do IE: Reconhecimento de Entidade Nomeada, Extração de Relações Semânticas e Extração Conjunta de Entidade e Relação. Primeiro, criamos um novo conjunto de dados em português no domínio biomédico, descrevemos o processo de anotação e medimos suas propriedades. Além disso, desenvolvemos um novo modelo para a tarefa de Extração Conjunta de Entidade e Relação, verificando que o mesmo é competitivo em comparação com outros modelos. Finalmente, avaliamos cuidadosamente os modelos propostos em textos de idiomas diferentes do inglês e confirmamos a dominância de modelos baseados em redes neurais. / [en] Natural language processing (NLP) techniques are becoming popular recently. The range of applications that benefit from NLP is extensive, from building machine translation systems to helping market a product. Within NLP, the Information Extraction (IE) field is widespread; it focuses on processing texts to retrieve specific information about a particular entity or concept. Still, the research community mainly focuses on building models for English data. This thesis addresses three tasks in the IE domain: Named Entity Recognition, Relation Extraction, and Joint Entity and Relation Extraction. First, we created a novel Portuguese dataset in the biomedical domain, described the annotation process, and measured its properties. Also, we developed a novel model for the Joint Entity and Relation Extraction task, verifying that it is competitive compared to other models. Finally, we carefully evaluated proposed models on non-English language datasets and confirmed the dominance of neural-based models.
34

[pt] ADSORVENTES À BASE DE SÍLICA GEL MODIFICADA COM DERIVADOS DE ÁCIDO FOSFÔNICO, HIDROXÂMICO E PIRIDINOCARBOXÍLICO PARA EXTRAÇÃO EM FASE SÓLIDA DISPERSIVA E SEPARAÇÃO DOS ELEMENTOS TERRAS RARAS / [en] SILICA-BASED ADSORBENTS WITH IMMOBILIZED DERIVATIVES OF PHOSPHONIC, HYDROXAMIC AND PYRIDINECARBOXYLIC ACIDS FOR DISPERSIVE SOLID PHASE EXTRACTION AND SEPARATION OF RARE EARTH ELEMENTS

OLENA ARTIUSHENKO 21 May 2020 (has links)
[pt] Os elementos terras raras (ETRs) têm sido cada vez mais utilizados na indústria moderna como os componentes essenciais de catalisadores, ímãs de alto desempenho, supercondutores, sistemas de telecomunicações. O desenvolvimento da energia limpa aumentará ainda mais a demanda, pois ETRs são usados na produção de baterias e painéis solares. O processo de produção ambientalmente sustentável substituirá ou complementará as fontes atuais. Assim, a separação e a reciclagem de ETRs são de grande importância para diversificar as fontes dos ETRs. A maioria das tecnologias atuais para o enriquecimento de ETRs é baseada na extração de solventes e troca iônica. Elas não são sustentáveis e não são aplicáveis ao tratamento de lixo eletrônico. Um dos primeiros adsorventes seletivos para extração em fase sólida dos ETRs foi proposto recentemente (Callura et al., 2018). A presente pesquisa estudou 3 adsorventes organo-sílicas (OSAd) com fragmentos imobilizados covalentemente de N-Benzoil-N-fenil-hidroxilamina (BPHA), ácido 2,6-piridinodicarboxílico (PdCA) e ácido amino di(metilenofosfônico) (AdMPA). Foi mostrado que os adsorventes podem ser utilizados com sucesso para separação e preconcentração dos elementos terras raras das soluções aquosas. A pesquisa demonstrou a alta afinidade dos adsorventes aos ETRs (La3+ - Lu3+), Sc3+ e Y3+. A adsorção competitiva dos ETRs da solução multielementar, sua dependência de pH, isotermas e estudos de cinética, recuperação e dessorção de íons metálicos, bem como a reutilização de adsorventes foram investigados. A caracterização qualitativa e quantitativa dos adsorventes foi estudada por espectroscopia no infravermelho por transformada de Fourier, espectroscopia de fotoelétrons de raios-X de alta resolução, análise RMN no estado solido, medições BET, análise elementar e termogravimétrica. Foi demonstrado que os OSAd propostos podem ser utilizados com sucesso para remover íons ETR da solução aquosa em 10 minutos. Os adsorventes demonstram diferenças essenciais na afinidade para ETRs que permitem a utilização dos OSAd para vários fins, incluindo pré-concentração para determinação de traços de ETRs em água natural, separação de ETRs dos outros metais em lixo eletrônico, e a separação individual dos ETRs. A pesquisa demonstra que o SiO2-BPHA pode recuperar todos os ETRs de solução com pH maior ou igual a 5.0 e liberá-los após eluição de 0.1 mol L-1 HNO3 com eficiência superior a 95 por cento. Outros OSAd - SiO2-PdCA e SiO2-AdMPA são os únicos adsorventes que podem remover os íons ETRs da solução aquosa em pH maior ou igual a 2. Devido a isso, SiO2-PdCA e SiO2-AdMPA podem ser usados para a reciclagem dos ETRs do lixo eletrônico. Foi demonstrado que o SiO2 PdCA pode ser utilizado para a recuperação seletiva de elementos de terras raras (Y, Eu, Tb) dos resíduos de lâmpadas fluorescentes. SiO2-PdCA demonstra alta seletividade que permite recuperação completa (maior que 95 por cento) de todos os ETRs na presença de excesso (50 vezes) de íons Ba2+ que é útil para determinação analítica de traços dos ETRs por ICP-MS. Além disso, SiO2-PdCA é útil para a adsorção seletiva dos ETRs de amostras ambientais, pois o excesso de 200 vezes de íons Fe3+, Cu2+, Ca2+, Mg2+, Na+, K+ e Al3+ predominantes em amostras ambientais, causa pouca interferência na eficiência do adsorvente. SiO2-BPHA demonstra maior seletividade para ETRs pesados. Em condições ótimas, o fator de seletividade é cerca de 80 (para pares Lu/La e Yb/La) e cerca de 60 (para o par Tm/La), que demonstra alto potencial do SiO2-BPHA na separação individual dos ETRs. Estudos de reusabilidade demonstram que SiO2-BPHA pode ser usado para adsorção quantitativa de quase todos os ETRs (adsorção média de Ce e Pr é cerca de 90 por cento) de uma solução multielementar com pH igual a 5.0 sem perda na capacidade de adsorção e seletividade por pelo menos cinco ciclos. Foi demonstrado que a adsorção de metais por OSAd ocorre devido à formação de complexos entre o ligante imobilizado e os íons metálicos. Por exemplo, a adsorção de íons Eu3+ e Tb3+ por SiO2-PdCA e SiO2-AdMPA gera luminescência forte de cor vermelha e verde, respectivamente. A adsorção de Fe3+ em SiO2-BPHA leva ao desenvolvimento da cor vermelha do adsorvente cuja intensidade é proporcional à concentração de metal adsorvido. Os complexos metálicos imobilizados são muito estáveis em água e meios orgânicos e podem ser usados para o desenvolvimento de sensores ópticos dos ETRs e fases cromatográficas de troca de ligante. / [en] Rare earth elements (REEs) have been increasingly used in modern industry as essential components of many catalysts, high-performance magnets, superconductors, telecommunication systems. Clean energy development will further boost the demand for REEs since they are used in the production of batteries and solar panels. Environmentally sustainable production process shall substitute or supplement current ore sources. Thus, separation and recycling of REEs are of great importance to diversify the sources of REEs. Most existing technologies for enrichment of REEs are based on solvent extraction and ion exchange. They are not sustainable and are not applicable to electronic waste (e-waste) treatment. One of the first selective adsorbent for REEs SPE extraction was proposed recently (Callura et al., 2018). The research proposed demonstrates other organo-silica adsorbents (OSAd) with covalently immobilized fragments of N-Benzoyl-Nphenylhydroxylamine (BPHA), 2,6-pyridinedicarboxylic acid (PdCA) and aminodi(methylene-phosphonic) acid (AdMPA) can be successfully used both for preconcentration and separation of REEs. This research demonstrates high affinity of the adsorbents to REE (La3+ - Lu3+), Sc3+ and Y3+. Competitive adsorption of REEs from multielement solution and pH dependence, isotherm and kinetics studies, metal ion recovery and desorption, as well as the adsorbent reusability have been investigated. The research is accomplished with qualitative and quantitative characterization of the adsorbent, physical and chemical properties using Fourier transform infrared spectroscopy, high-resolution X-ray photoelectron spectroscopy, solid-state NMR, BET measurements, elemental and thermogravimetric analysis. It has been demonstrated that the proposed OSAd can be successfully used to remove REE ions from aqueous solution within 10 min. Sharp changes of REEs recovery has been observed in a narrow range of the pH that allows developing a methodology for removal of REEs from solution. The adsorbents demonstrate an essential difference in REE affinity that allows utilization of the OSAd for various purposes, including pre-concentration for determination of REE traces in natural waters, separation of REE from color and other metals in e-waste, separation of individual REE. It is demonstrated that SiO2-BPHA can recover all REE from solution with pH bigger or equal 5.0 and release them to solution under treatment with 0.1 M HNO3 with efficiency more than 95 percent. Additionally, OSAd - SiO2-PdCA and SiO2- AdMPA are the only adsorbents that can remove REE ions from aqueous solution with pH bigger or equal 2. Because of this SiO2-PdCA and SiO2-AdMPA can be used for the recycling of rare earth elements from electronic waste. It was demonstrated that SiO2-PdCA can be used for selective recovery of rare earth elements (Y, Eu, Tb) from waste fluorescent lamps. SiO2-PdCA demonstrates high selectivity that allows complete (bigger 95 percent) recovery of all REE in the presence of 50-fold excess of Ba2+ ions that is used for analytical determination of REE traces by ICP-MS. Also, SiO2- PdCA is useful for selective adsorption of REE from environmental objects since 200-fold excess of such ions as Fe3+, Cu2+, Ca2+, Mg2+, Na+ , K+ and Al3+ which are predominate in environmental objects cause little interference on the adsorbent removal efficiency. SiO2-BPHA demonstrates higher selectivity towards heavy REEs. In optimal conditions selectivity factor is about 80 (for Lu/La and Yb/La pairs) and about 60 (for Tm/La pair), which demonstrates the high potential of SiO2- BPHA in separation of individual REEs. Reusability test demonstrates that SiO2- BPHA can be used for quantitative adsorption of almost all REEs (average adsorption of Ce and Pr ions is about 90 percent) from multielement solution with pH equal 5.0 without lost in adsorption capacity and selectivity for at least five consecutive cycles. It is demonstrated that adsorption of metals on the OSAd takes place due to complex formation between immobilized ligand and metal ions. For example, adsorption of Eu3+ and Tb3+ ions on SiO2-PdCA and SiO2-AdMPA generates strong red and green luminescence, respectively. Adsorption of Fe3+ on SiO2-BPHA leads to development of red color of the adsorbent which intensity is proportional to metal loading. Immobilized metal complexes are very stable in water and organic media that can be used for further development of optical sensors for REE and stationary phases for ligand-exchange chromatography.
35

[pt] MODELAGEM USANDO INTELIGÊNCIA ARTIFICIAL PARA ESTUDAR O PRÉ-TRATAMENTO DE BIOMASSA LIGNOCELULÓSICA / [en] MODELLING USING ARTIFICIAL INTELLIGENCE TO STUDY THE PRETREATMENT OF LIGNOCELLULOSIC BIOMASS

JULIANA LIMA GUERHARD FIDALGO 09 June 2020 (has links)
[pt] Os polissacarídeos constituintes da biomassa lignocelulósica podem ser beneficiados através de processos industriais. Entretanto, para manipulá-los é necessário que a biomassa seja submetida ao processo de pré-tratamento. Esta é uma das etapas mais caras e relevantes para a disposição e aplicação das frações lignocelulósicas. O presente estudo consiste em uma investigação detalhada do processo de pré-tratamento da biomassa lignocelulósica com H2O2, a qual foi realizada através de tecnologias inteligentes que viabilizaram a otimização deste processo. Ferramentas de inteligência artificial revelam-se vantajosas na solução dos gargalos associados aos avanços tecnológicos. Possibilitam a modelagem matemática de um processo com máxima eficiência, otimizando sua produtividade, transformando dados experimentais em informações úteis e demonstrando as infinitas possibilidades das relações das variáveis envolvidas. As variáveis independentes estudadas foram a temperatura (25 – 45 graus Celsius) e a concentração de peróxido de hidrogênio (1.5 – 7.5 porcento m/v). Técnicas analíticas qualitativas (Raman e FTIR) e quantitativa (Método de Klason) foram aplicadas para produzir um banco de dados referente a extração da lignina com H2O2, o qual foi utilizado no desenvolvimento de modelos neurais aplicando Redes Neurais Artificiais (ANN, do inglês Artificial Neural Networks) e Sistema de Inferência Adaptativa Neuro-Difusa (ANFIS, do inglês Adaptive neuro fuzzy inference system). E modelos polinomiais, os quais tiveram seus parâmetros estimados por Algoritmos Genéticos (GA, do inglês Genetic Algorithms). Os modelos desenvolvidos conseguiram predizer: o Teor de Lignina Extraída (porcento) por Espectroscopia Raman, o Teor de Lignina Oxidada (porcento) por FTIR, o Teor de Lignina Residual (porcento) pelo Método de Klason, e por último, dois modelos para a comparação da resposta analítica qualitativa com a resposta analítica quantitativa. Os modelos polinomiais, que tiveram seus parâmetros estimados por GA foram avaliados estatisticamente através da ANOVA e pelo coeficiente de correlação (R2). E os modelos neurais desenvolvidos foram avaliados pelo coeficiente de correlação (R2), número de parâmetros e índices de erro (SSE, MSE e RMSE). Para cada modelo polinomial e neural proposto, quando coerente, superfícies de resposta e curvas de contorno foram plotadas permitindo a identificação da região operacional mais indicada para a realização do pré-tratamento com H2O2. Dentre as estratégias inteligentes propostas, os modelos desenvolvidos com ANN mostraram-se mais eficientes para as predições relacionadas à extração da lignina. / [en] Industrial processes benefit the polysaccharides constituting the lignocellulosic biomass. However to manipulate them it is necessary that the biomass is submitted to the pre-treatment process. This is one of the most expensive and relevant steps for the arrangement and application of lignocellulosic fractions. The present study consists of a detailed investigation of the pretreatment process of lignocellulosic biomass with H2O2, applying intelligent technologies that enabled the optimization of this process. Artificial intelligence tools prove to be advantageous in solving the bottlenecks associated with technological advances. They enable the mathematical modeling of a process with maximum efficiency, optimizing its productivity, transforming experimental data into useful information and demonstrating the infinite possibilities of the relationships of the variables involved. The independent variables studied were the temperature (25-45 Celsius degrees) and the concentration of hydrogen peroxide (1.5 - 7.5 percent m / v). Qualitative analytical techniques (Raman and FTIR) and quantitative (Klason method) were applied to produce a database for the extraction of lignin with H2O2, which was used in the development of neural models applying Artificial Neural Networks (ANN) and Adaptive Neuro-Fuzzy Inference System (ANFIS). And polynomial models, which had their parameters estimated by Genetic Algorithms (GA). The models developed were able to predict: the Extracted Lignin Content (percent) by Raman Spectroscopy, the Oxidized Lignin Content (percent) by FTIR, the Residual Lignin Content (percent) by the Klason Method, and lastly, two models for the comparison of the qualitative analytical response with the quantitative analytical response. The polynomial models, which had their parameters estimated by GA, were statistically evaluated using ANOVA and correlation coefficient (R2) evaluated the polynomial models developed by GA statistically. And the neural models developed were evaluated by the coefficient of correlation (R2), number of parameters and error indexes (SSE, MSE and RMSE). For each proposed polynomial and neural model, when coherent, response surfaces and contour curves were plotted allowing the identification of the most suitable operational region for the pretreatment with H2O2. Among the proposed intelligent strategies, the models developed with ANN proved to be more efficient for the predictions related to lignin extraction.
36

[pt] COMPARAÇÃO DE MÉTODOS DE EXTRAÇÃO DE CURVAS DE DISPERSÃO BASEADOS EM TRANSFORMADA DE FOURIER 2-D E ATRAVÉS DO MÉTODO MATRIZ PENCIL / [en] COMPARISON OF EXTRACTION METHODS FOR DISPERSION CURVES USING 2-D FOURIER TRANSFORM AND MATRIX PENCIL METHOD

FELIPE DE CARVALHO G DE OLIVEIRA 16 May 2022 (has links)
[pt] Ondas ultrassônicas guiadas são usadas em larga escala em ensaios não destrutivos (END) e Structural Health Monitoring (SHM), permitindo a inspeção de estruturas e equipamentos de forma não invasiva. A partir da transmissão de um sinal acústico sobre uma estrutura e a captação dos sinais de onda propagados por meio de sensores posicionados estrategicamente, é possível obter informações materiais do objeto inspecionado. Na área de óleo e gás, o uso desse tipo de ondas acústicas é de grande importância no levantamento do perfil da camada de cimento que reveste poços, que tem função de conferir integridade estrutural e isolar a estrutura interna de produção do poço das regiões freáticas do entorno. No processo de desativação e abandono do poço, é fundamental avaliar a qualidade do isolamento hidráulico do cimento, assim como identificar possíveis defeitos. A propagação de ondas guiadas em uma estrutura se dá, em geral, por meio de múltiplos modos e apresenta característica dispersiva, que se traduz numa dependência da velocidade de fase das ondas com a frequência, e uma relação não linear entre número de onda e frequência. A relação de dispersão carrega informações do meio de propagação, tal como constantes elásticas e dimensões, e pode ser visualizada a partir de curvas no plano frequência-número de onda (f-k). Diferentes técnicas vêm sendo exploradas para a obtenção das relações de dispersão a partir de sinais no domínio do tempo captados por sensores ultrassônicos em posições espaciais distintas. Este trabalho explora três métodos distintos para a extração das curvas de dispersão, ou seja, obter os pontos f-k associados aos modos de propagação, a partir de um conjunto de sinais dependentes do espaço-tempo. O primeiro algoritmo se baseia em uma técnica pré-existente que usa uma Transformada de Fourier bidimensional (2-D FT) sobre a matriz de dados de sinais de sensores ultrassônicos no espaço-tempo, gerando uma matriz de amplitudes no plano f-k onde os máximos locais representam pontos pertencentes a curvas de dispersão. A representação da matriz como uma imagem f-k permite a visualização das curvas de dispersão como conjuntos contíguos de pixels de maior claridade. Propõe-se um novo algoritmo baseado em operações morfológicas de processamento de imagem para a identificação de pixels relativos aos pontos das curvas de dispersão na imagem f-k, após um préprocessamento da mesma. A segunda técnica consiste no pré-processamento dessa mesma imagem f-k, obtida pela 2-D FT, e uso de um algoritmo préexistente de detecção de estruturas curvilíneas em imagens para identificar os pontos correspondentes às curvas f-k. O terceiro método é uma adaptação, proposta aqui, de um algoritmo pré-existente para estimar os números de onda das curvas de dispersão relativos a cada frequência através de uma matriz Pencil. Propõe-se também um algoritmo original para a separação dos pontos f-k encontrados pelas três técnicas de extração em curvas distintas. Os algoritmos utilizados para a obtenção das curvas de dispersão têm seu desempenho avaliado em três conjuntos de dados distintos de simulações por elementos finitos, a saber, uma de placa de alumínio fina sob distintos valores de tração axial aplicada paralelamente à direção de propagação das ondas; um poço multicamada sem tubing possuindo diferentes tipos de defeito de cimentação-channeling, qualidade de cimento baixa, descolamento interno e externo -, assim como sem defeito; e um pouco multicamada com tubing sob os mesmos defeitos de cimentação e também sem defeito. Compara-se a capacidade dos algoritmos de extração das curvas de dispersão de oferecer informações sobre mudanças materiais entre os casos simulados. Avalia-se também a precisão e custo computacional dos mesmos. / [en] Ultrasonic guided waves are widely used in the fields of Non-Destructive Evaluation (END) and Structural Health Monitoring (SHM), allowing the inspection of structures and pieces of equipment in a non-invasive manner. Through the transmission of an acoustic signal over a given object and the acquisition of the signal from the propagated waves using a group of sensors in predefined positions, it is possible to obtain material information regarding the investigated structure. In the Oil & Gas industry, the use of this type of wave is integral to the logging of the cement layer that outlines the walls of wellbores, which has the purpose of guaranteeing structural support and protecting the well’s internal production structure and the surrounding groundwater from each other. During the deactivation and abandonment of a production well, it is necessary to evaluate the hydraulic isolation of the cement layer, as well as identify possible defects. The propagation of guided waves in a structure is usually multi-modal and of dispersive characteristic. The latter means that the propagating waves phase velocity is dependent on the frequency, translating into a non-linear relationship between wavenumber and frequency. This dispersion relation contains information about the propagating medium, such as elastic constants and dimensions, and can be represented as curves in the frequency-wavenumber (f-k) plane. Different methods are currently being explored for obtaining the dispersion relation from time-domain signals acquired by ultrasonic sensors in different spatial positions. This work explored three different methods for the extraction of the dispersion curves, that is, obtaining the f-k points associated with the modes of propagation, from a dataset composed of space-time signals. The first algorithm is based on a pre-existing technique that uses the bidimensional Fourier Transform (2-D FT) over the matrix containing the space-time signals from the ultrasonic sensors, generating an f-k matrix whose local maximas correspond to points belonging to dispersions curves. The representation of the matrix as an f-k image shows the dispersion curves as contiguous groups of pixels with elevated brightness. A new algorithm is proposed, based on morphological operations from image-processing, to identify the pixels relative to the f-k points of the dispersion curves in the image, after pre-processing is performed. The second technique consists of pre-processing the same fk image, obtained from the 2-D FT, and the use of an existing algorithm for the detection of curvilinear structures in images to identify the points corresponding to the f-k curves. The third method proposes the adaptation of an existing method of estimation of the wavenumbers associated with the dispersion curves for different frequencies, using a matrix Pencil. This work also proposes an original algorithm to separate the f-k points, retrieved by the three techniques, in different curves associated with each mode of propagation. The algorithms used here for the estimation of the dispersion curves are evaluated over three distinct datasets of finite elements simulation: a thin aluminum plate under different values of axial traction parallel to the direction of propagation of the waves; a multilayer wellbore without tubing, with different types of cement defects-channeling, low cement quality, internal and external decoupling-, and without defect; a multilayer wellbore with tubing with the same cement defects and with no defect. Finally, a comparison is drawn over the capacity of the extraction algorithms of providing information regarding changes in the material qualities of the simulated objects. The work also evaluates the precision and computational performance of the aforementioned algorithms.
37

[en] EXTRACTING RELIABLE INFORMATION FROM LARGE COLLECTIONS OF LEGAL DECISIONS / [pt] EXTRAINDO INFORMAÇÕES CONFIÁVEIS DE GRANDES COLEÇÕES DE DECISÕES JUDICIAIS

FERNANDO ALBERTO CORREIA DOS SANTOS JUNIOR 09 June 2022 (has links)
[pt] Como uma consequência natural da digitalização do sistema judiciário brasileiro, um grande e crescente número de documentos jurídicos tornou-se disponível na internet, especialmente decisões judiciais. Como ilustração, em 2020, o Judiciário brasileiro produziu 25 milhões de decisões. Neste mesmo ano, o Supremo Tribunal Federal (STF), a mais alta corte do judiciário brasileiro, produziu 99.5 mil decisões. Alinhados a esses valores, observamos uma demanda crescente por estudos voltados para a extração e exploração do conhecimento jurídico de grandes acervos de documentos legais. Porém, ao contrário do conteúdo de textos comuns (como por exemplo, livro, notícias e postagem de blog), o texto jurídico constitui um caso particular de uso de uma linguagem altamente convencionalizada. Infelizmente, pouca atenção é dada à extração de informações em domínios especializados, como textos legais. Do ponto de vista temporal, o Judiciário é uma instituição em constante evolução, que se molda para atender às demandas da sociedade. Com isso, o nosso objetivo é propor um processo confiável de extração de informações jurídicas de grandes acervos de documentos jurídicos, tomando como base o STF e as decisões monocráticas publicadas por este tribunal nos anos entre 2000 e 2018. Para tanto, pretendemos explorar a combinação de diferentes técnicas de Processamento de Linguagem Natural (PLN) e Extração de Informação (EI) no contexto jurídico. Da PLN, pretendemos explorar as estratégias automatizadas de reconhecimento de entidades nomeadas no domínio legal. Do ponto da EI, pretendemos explorar a modelagem dinâmica de tópicos utilizando a decomposição tensorial como ferramenta para investigar mudanças no raciocinio juridico presente nas decisões ao lonfo do tempo, a partir da evolução do textos e da presença de entidades nomeadas legais. Para avaliar a confiabilidade, exploramos a interpretabilidade do método empregado, e recursos visuais para facilitar a interpretação por parte de um especialista de domínio. Como resultado final, a proposta de um processo confiável e de baixo custo para subsidiar novos estudos no domínio jurídico e, também, propostas de novas estratégias de extração de informações em grandes acervos de documentos. / [en] As a natural consequence of the Brazilian Judicial System’s digitization, a large and increasing number of legal documents have become available on the Internet, especially judicial decisions. As an illustration, in 2020, 25 million decisions were produced by the Brazilian Judiciary. Meanwhile, the Brazilian Supreme Court (STF), the highest judicial body in Brazil, alone has produced 99.5 thousand decisions. In line with those numbers, we face a growing demand for studies focused on extracting and exploring the legal knowledge hidden in those large collections of legal documents. However, unlike typical textual content (e.g., book, news, and blog post), the legal text constitutes a particular case of highly conventionalized language. Little attention is paid to information extraction in specialized domains such as legal texts. From a temporal perspective, the Judiciary itself is a constantly evolving institution, which molds itself to cope with the demands of society. Therefore, our goal is to propose a reliable process for legal information extraction from large collections of legal documents, based on the STF scenario and the monocratic decisions published by it between 2000 and 2018. To do so, we intend to explore the combination of different Natural Language Processing (NLP) and Information Extraction (IE) techniques on legal domain. From NLP, we explore automated named entity recognition strategies in the legal domain. From IE, we explore dynamic topic modeling with tensor decomposition as a tool to investigate the legal reasoning changes embedded in those decisions over time through textual evolution and the presence of the legal named entities. For reliability, we explore the interpretability of the methods employed. Also, we add visual resources to facilitate interpretation by a domain specialist. As a final result, we expect to propose a reliable and cost-effective process to support further studies in the legal domain and, also, to propose new strategies for information extraction on a large collection of documents.
38

[en] DEEP LEARNING NEURAL NETWORKS FOR THE IDENTIFICATION OF AROUSALS RELATED TO RESPIRATORY EVENTS USING POLYSOMNOGRAPHIC EEG SIGNALS / [pt] REDES NEURAIS DE APRENDIZADO PROFUNDO PARA A IDENTIFICAÇÃO DE DESPERTARES RELACIONADOS A EVENTOS RESPIRATÓRIOS USANDO SINAIS EEG POLISSONOGRÁFICOS

MARIA LEANDRA GUATEQUE JARAMILLO 31 May 2021 (has links)
[pt] Para o diagnóstico de distúrbios do sono, um dos exames mais usado é a polissonografia (PSG), na qual é registrada uma variedade de sinais fisiológicos. O exame de PSG é observado por um especialista do sono, processo que pode levar muito tempo e incorrer em erros de interpretação. O presente trabalho desenvolve e compara o desempenho de quatro sistemas baseados em arquiteturas de redes neurais de aprendizado profundo, mais especificamente, redes convolutivas (CNN) e redes recorrentes Long-Short Term Memory (LSTM), para a identificação de despertares relacionados ao esforço respiratório (Respiratory Effort-Related Arousal-RERA) e a eventos de despertar relacionados à apneia/hipopneia. Para o desenvolvimento desta pesquisa, foram usadas as informações de apenas seis canais eletroencefalográficos (EEG) provenientes de 994 registros de PSG noturna da base de dados PhysioNet CinC Challenge2018, além disso, foi considerado o uso de class weight e Focal Loss para lidar com o desbalanceamento de classes. Para a avaliação de cada um dos sistemas foram usadas a Accuracy, AUROC e AUPRC como métricas de desempenho. Os melhores resultados para o conjunto de teste foram obtidos com os modelos CNN1 obtendo-se uma Accuracy, AUROC e AUPRC de 0,8404, 0,8885 e 0,8141 respetivamente, e CNN2 obtendo-se uma Accuracy, AUROC e AUPRC de 0,8214, 0,8915 e 0,8097 respetivamente. Os resultados restantes confirmaram que as redes neurais de aprendizado profundo permitem lidar com dados temporais de EEG melhor que os algoritmos de aprendizado de máquina tradicional, e o uso de técnicas como class weight e Focal Loss melhoram o desempenho dos sistemas. / [en] For the diagnosis of sleep disorders, one of the most commonly used tests is polysomnography (PSG), in which a variety of physiological signs are recorded. The study of PSG is observed by a sleep therapist, This process may take a long time and may incur misinterpretation. This work develops and compares the performance of four classification systems based on deep learning neural networks, more specifically, convolutional neural networks (CNN) and recurrent networks Long-Short Term Memory (LSTM), for the identification of Respiratory Effort-Related Arousal (RERA) and to events related to apnea/hypopnea. For the development of this research, it was used the Electroencephalogram (EEG) data of six channels from 994 night polysomnography records from the database PhysioNet CinC Challenge2018, the use of class weight and Focal Loss was considered to deal with class unbalance. Accuracy, AUROC, and AUPRC were used as performance metrics for evaluating each system. The best results for the test set were obtained with the CNN1 models obtaining an accuracy, AUROC and AUPRC of 0.8404, 0.8885 and 0.8141 respectively, and RCNN2 obtaining an accuracy, AUROC and AUPRC of 0.8214, 0.8915 and 0.8097 respectively. The remaining results confirmed that deep learning neural networks allow dealing with EEG time data better than traditional machine learning algorithms, and the use of techniques such as class weight and Focal Loss improve system performance.
39

[en] AUTOMATIC INFORMATION EXTRACTION: A DISTANT READING OF THE BRAZILIAN HISTORICAL-BIOGRAPHICAL DICTIONARY (DHBB) / [pt] EXTRAÇÃO AUTOMÁTICA DE INFORMAÇÕES: UMA LEITURA DISTANTE DO DICIONÁRIO HISTÓRICO-BIOGRÁFICO BRASILEIRO (DHBB

SUEMI HIGUCHI 10 September 2021 (has links)
[pt] A pesquisa aplica algumas técnicas de processamento de linguagem natural (PLN) ao domínio da história, tendo como objeto de investigação o Dicionário Histórico-Biográfico Brasileiro (DHBB), obra de estilo enciclopédico concebida pelo Centro de Pesquisa e Documentação de História Contemporânea do Brasil (CPDOC) da Fundação Getulio Vargas (FGV). O objetivo foi criar, a partir do DHBB, um corpus anotado para fins de extração automática de informações, relevante para as Humanidades Digitais, capaz de viabilizar ‘leituras distantes’ da política contemporânea brasileira. O processo completo passa pelas etapas de análise morfossintática do material, identificação de entidades relevantes ao domínio, inclusão de anotação no corpus, definição de relações semânticas de interesse para a pesquisa e mapeamento dos padrões léxico-sintáticos existentes nestas relações. Busca-se com estas etapas preparar os textos para a identificação de estruturas de interesse, isolando as informações relevantes e apresentando-as de forma estruturada. Para testar e avaliar um conjunto de padrões quanto à sua produtividade, foram selecionados como temas de interesse idade de entrada dos biografados na carreira política, formação acadêmica e vínculos familiares. O pressuposto é que utilizando padrões léxico-sintáticos é possível extrair informação de qualidade direcionada ao domínio da História, a partir de um corpus anotado do gênero enciclopédico. Na avaliação dos padrões para a extração do ano de nascimento dos biografados a medida-F foi de 99 por cento, para a extração de relações familiares a medida-F foi de 84% e para informações sobre formação acadêmica o índice de acertos alcançou 99,1 por cento. Essas extrações, por sua vez, permitiram uma leitura distante dos dados do DHBB que nos mostra i) queda da média de idade no que se refere à entrada dos políticos na carreira pública, que passam a se posicionar cada vez mais abaixo dos 40 anos, principalmente os nascidos a partir da década de 1960; ii) declínio acentuado na formação militar, sobretudo para as gerações pós 1920, demonstrando que o treinamento civil estava substituindo o militar enquanto caminho para atingir cargos políticos importantes; e iii) vínculos familiares na política como um fenômeno que se mantêm ao longo do tempo em índices bastante significativos, muitas vezes representando mais de 50 por cento do total de membros de determinadas categorias. As principais contribuições da tese são: criação de um corpus de gênero enciclopédico anotado e disponibilizado para estudos linguísticos e das humanidades; apresentação de metodologia baseada em uma filosofia de enriquecimento cíclico, em que à medida que se vai obtendo mais informações, elas são adicionadas ao próprio corpus melhorando a extração; e compilação de um conjunto de padrões passível de ser adaptado para quaisquer corpora contendo o mesmo tipo de anotações. / [en] The research applies some natural language processing techniques (NLP) to the domain of history, having as object of investigation the Brazilian Historical-Biographical Dictionary (DHBB), an encyclopedic style work conceived by the Centro de Pesquisa e Documentação de História Contemporânea do Brasil (CPDOC) of Fundação Getulio Vargas (FGV). The target is to create, from the DHBB, an annotated corpus for automatic information extraction s purpose, relevant to the Digital Humanities, enabling distant readings of Brazilian contemporary political history. The complete process goes through the morphosyntactic analysis of the material, identification of entities relevant to the domain, inclusion of semantic annotation in the corpus, definition of semantic relations of interest and mapping of lexical-syntactic patterns existing in these relations. These steps seek to prepare the texts for the identification of structures of interest, isolating the relevant information and presenting them in a structured way. To test and evaluate a set of textual patterns regarding their productivity in relation to DHBB, some specific topics were selected: age of the politician when entering public life, academic training and family ties. The assumption is that using lexical-syntactic patterns it is possible to extract high quality information from the domain of History, from an annotated corpus of the encyclopedic genre. In the evaluation of the patterns for extraction of the year of birth of the biographees, the F-measure was 99 per cent, for the extraction of family relationships, the F-measure was 84 per cent and for information on academic training, the correctness index reached 99.1 per cent. These extractions, in turn, allowed us to make a distant reading of the data in the DHBB that shows us i) a drop in the average age with regard to the entry of politicians into the public career, who start to position themselves more and more under 40 years of age, mainly those born from the 1960s; ii) sharp decline in military training, especially for the post-1920 generations, demonstrating that civilian training was replacing military training as a way to reach important political positions; and iii) family ties in politics as a phenomenon that remain over time at very significant rates, often representing more than 50 per cent of the total members of certain categories. The main contributions of the thesis are: creation of an encyclopedic genre corpus annotated and made available for linguistic and humanities studies; presentation of a methodology based on a philosophy of cyclic enrichment, in which, as more information is obtained, they are added to the corpus itself, improving extraction; and compilation of a set of productive patterns that can be adapted for any corpora containing the same type of annotations.
40

[en] A FUZZY INFERENCE SYSTEM WITH AUTOMATIC RULE EXTRACTION FOR GAS PATH DIAGNOSIS OF AVIATION GAS TURBINES / [pt] SISTEMA DE INFERÊNCIA FUZZY COM EXTRAÇÃO AUTOMÁTICA DE REGRAS PARA DIAGNÓSTICO DE DESEMPENHO DE TURBINAS A GÁS AERONÁUTICAS

TAIRO DOS PRAZERES TEIXEIRA 14 December 2016 (has links)
[pt] Turbinas a gás são equipamentos muito complexos e caros. No caso de falha em uma turbina, há obviamente perdas diretas, mas as indiretas são normalmente muito maiores, uma vez que tal equipamento é crítico para a operação de instalações industriais, aviões e veículos pesados. Portanto, é fundamental que turbinas a gás sejam providas com um sistema eficiente de monitoramento e diagnóstico. Isto é especialmente relevante no Brasil, cuja frota de turbinas tem crescido muito nos últimos anos, devido, principalmente, ao aumento do número de usinas termelétricas e ao crescimento da aviação civil. Este trabalho propõe um Sistema de Inferência Fuzzy (SIF) com extração automática de regras para diagnóstico de desempenho de turbinas a gás aeronáuticas. O sistema proposto faz uso de uma abordagem residual – medições da turbina real são comparadas frente a uma referência de turbina saudável – para tratamento dos dados brutos de entrada para os módulos de detecção e isolamento, que, de forma hierárquica, são responsáveis por detectar e isolar falhas em nível de componentes, sensores e atuadores. Como dados reais de falhas em turbinas a gás são de difícil acesso e de obtenção cara, a metodologia é validada frente a uma base de dados de falhas simuladas por um software especialista. Os resultados mostram que o SIF é capaz de detectar e isolar corretamente falhas, além de fornecer interpretabilidade linguística, característica importante no processo de tomada de decisão no contexto de manutenção. / [en] A Gas turbine is a complex and expensive equipment. In case of a failure indirect losses are typically much larger than direct ones, since such equipment plays a critical role in the operation of industrial installations, aircrafts, and heavy vehicles. Therefore, it is vital that gas turbines be provided with an efficient monitoring and diagnostic system. This is especially relevant in Brazil, where the turbines fleet has risen substantially in recent years, mainly due to the increasing number of thermal power plants and to the growth of civil aviation. This work proposes a Fuzzy Inference System (FIS) with automatic rule extraction for gas path diagnosis. The proposed system makes use of a residual approach – gas path measurements are compared to a healthy engine reference – for preprocessing raw input data that are forwarded to the detection and isolation modules. These operate in a hierarchical manner and are responsible for fault detection and isolation in components, sensors and actuators. Since gas turbines failure data are difficult to access and expensive to obtain, the methodology is validated by using a database fault simulated by a specialist software. The results show that the SIF is able to correctly detect and isolate failures and to provide linguistic interpretability, which is an important feature in the decision-making process regarding maintenance.

Page generated in 0.0539 seconds