Global ETD Search

181	UM PROCESSO PARA A AQUISIÇÃO DE RELAÇÕES TAXONÔMICAS DE UMA ONTOLOGIA / A PROCESS FOR THE ACQUISITION OF FOREIGN TAXONOMY OF AN ONTOLOGY Correia, Jone dos Santos Sodré 06 May 2011 (has links) Made available in DSpace on 2016-08-17T14:53:16Z (GMT). No. of bitstreams: 1 Jone dos Santos Sodre Correa.pdf: 2272440 bytes, checksum: e8708cabafde69a2eb7580860867bc89 (MD5) Previous issue date: 2011-05-06 / Ontologies are an approach for knowledge representation capable of expressing a set of entities and their relationships, constraints, axioms and vocabulary of a given domain. Manual construction of ontologies by domain experts and knowledge engineers is an expensive and time consuming task so, automatic and/or semi-automatic approaches are needed. Ontology Learning looks for automatically or semi-automatically identifying ontology elements like classes, taxonomic and non-taxonomic relationships, properties and axioms from textual resources. This work proposes a process for automatic learning of ontologies from text focusing on the application of natural language processing techniques to acquire taxonomic relationships. Some experiments using a legal corpus were conducted in order to evaluate it. Initial results are promising. / Ontologias são uma forma de representação de conhecimento capaz de expressar um conjunto de entidades e suas relações, restrições, axiomas e vocabulário de um determinado domínio. A construção manual de ontologias por especialistas de domínio e engenheiros de conhecimento é uma tarefa cara e demorada e a automatização/semi-automatização desta tarefa é uma necessidade. O aprendizado de ontologias visa automatizar ou semi-automatizar a identificação de elementos de uma ontologia como classes, relações taxonômicas e não-taxonômicas, propriedades e axiomas de fontes textuais. Este trabalho propõe um processo de aprendizagem automática de ontologias a partir de fontes textuais enfocando a aplicação de técnicas de processamento de linguagem natural para adquirir relações taxonômicas. Alguns experimentos utilizando um corpus jurídico foram realizados para a avaliação da abordagem proposta. Os resultados iniciais são promissores. Ontologias Aprendizagem de ontologias Processamento da Linguagem Natural Relacionamentos Taxonômicos Ontology Ontology Learning Natural Language Processing Taxonomic relationships
182	UM PROCESSO INDEPENDENTE DE DOMÍNIO PARA O POVOAMENTO AUTOMÁTICO DE ONTOLOGIAS A PARTIR DE FONTES TEXTUAIS / AN INDEPENDENT PROCESS OF DOMAIN FOR THE ONTOLOGY AUTOMATIC POPULATION STARTING FROM TEXTUAL SOURCES Alves, Carla Gomes de Faria 05 June 2013 (has links) Made available in DSpace on 2016-08-17T16:54:32Z (GMT). No. of bitstreams: 1 Tese Carla.pdf: 23507425 bytes, checksum: b08fca6c8eacdc0fd5d075a385f235e5 (MD5) Previous issue date: 2013-06-05 / Knowledge systems are a suitable computational approach to solve complex problems and to provide decision support. Ontologies are an approach for knowledge representation about an application domain, allowing the semantic processing of information and, through more precise interpretation of information, turning systems more effective and usable. Ontology Population looks for instantiating the constituent elements of an ontology, like properties and non-taxonomic relationships. Manual population by domain experts and knowledge engineers is an expensive and time consuming task. Fast ontology population is critical for the success of knowledge-based applications. Thus, automatic or semi-automatic approaches are needed. This work proposes a generic process for Automatic Ontology Population by specifying its phases and the techniques used to perform the activities on each phase. It also proposes a domain-independent process for automatic population of ontologies (DIAOPPro) from text that applies natural language processing and information extraction techniques to acquire and classify ontology instances. This is a new approach for automatic ontology population that uses an ontology to automatically generate rules to extract instances from text and classify them in ontology classes. These rules can be generated from ontologies of any domain, making the proposed process domain independent. To evaluate DIAOP-Pro four case studies were conducted to demonstrate its effectiveness and feasibility. In the first one we evaluated the effectiveness of phase "Identification of Candidate instances" comparing the results obtained by applying statistical techniques with those of purely linguistic techniques. In the second experiment we evaluated the feasibility of the phase "Construction of a Classifier", through the automatic generation of a classifier. The last two experiments evaluated the effectiveness of DIAOP-Pro into two distinct domains: the legal and the tourism domains. The results indicate that our approach can extract and classify instances with high effectiveness with the additional advantage of domain independence. / A demanda por sistemas baseado em conhecimento é crescente considerando suas aptidões para a solução de problemas complexos e para a tomada de decisão. As ontologias são formalismos para a representação de conhecimento de um dado domínio, que permitem o processamento semântico das informações e, através de interpretações mais precisas das informações, os sistemas apresentam maior efetividade e usabilidade. O povoamento de ontologias visa a instanciação de propriedades e relacionamentos não taxonômicos de classes de ontologias. Entretanto, o povoamento manual de ontologias por especialistas de domínio e engenheiros do conhecimemto é uma tarefa cara e que consome muito tempo. O povoamento de ontologias rápido e com baixo custo é crucial para o sucesso de aplicações baseadas em conhecimento. Portanto, torna-se fundamental uma semi-automatização ou automatização desse processo. Esta tese propõe um processo genérico para o problema do Povoamento Automático de Ontologias, especificando suas fases e técnicas que podem ser aplicadas em cada uma delas. É também proposto um Processo Independente de Domínio para o Povoamento Automático de Ontologias (DIAOP-Pro) a partir de fontes textuais, que aplica técnicas de processamento da linguagem natural e extração de informação para adquirir e classificar instâncias de ontologias. O DIAOP-Pro se constitui em uma abordagem original uma vez que propõe o povoamento automático de ontologias utilizando uma ontologia para a geração automática de regras para extrair instâncias a partir de textos e classifica-as como instâncias de classes da ontologia. Estas regras podem ser geradas a partir de ontologias específicas de qualquer domínio, tornando o processo independente de domínio. Para avaliar o processo DIAOP-Pro foram conduzidos quatro estudos de caso de modo a demonstrar a sua efetividade e viabilidade. O primeiro estudo de caso foi realizado para avaliar a efetividade da fase Identificação de Instâncias Candidatas , no qual foram comparados os resultados obtidos com a aplicação de técnicas estatísticas e de técnicas puramente lingüísticas. O segundo estudo de caso foi realizado para avaliar a viabiliadade da fase Construção de um Classificador , através da experimentação com a geração automática do classificador. O terceiro e o quarto estudo de caso foram realizados para avaliar a efetividade do processo proposto em dois domínios distintos, o jurídico e o turístico. Os resultados indicam que o processo DIAOP-Pro povoa ontologias específicas de qualquer domínio com boa efetividade e com a vantagem adicional da independência do domínio. Povoamento Automático de Ontologias Processamento da Linguagem Natural Extração de Informação Engenharia do Conhecimento
183	Variação e processamento linguístico: um estudo experimental sobre a concordância nominal variável no PB Azalim, Cristina 11 March 2016 (has links) Submitted by Renata Lopes (renatasil82@gmail.com) on 2016-05-25T13:46:13Z No. of bitstreams: 1 cristinaazalim.pdf: 2102060 bytes, checksum: 3256e31e159dcf0bff5cb6c2e5e876ed (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2016-07-02T11:51:24Z (GMT) No. of bitstreams: 1 cristinaazalim.pdf: 2102060 bytes, checksum: 3256e31e159dcf0bff5cb6c2e5e876ed (MD5) / Made available in DSpace on 2016-07-02T11:51:24Z (GMT). No. of bitstreams: 1 cristinaazalim.pdf: 2102060 bytes, checksum: 3256e31e159dcf0bff5cb6c2e5e876ed (MD5) Previous issue date: 2016-03-11 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Esta dissertação investiga a dimensão cognitiva da variação linguística a partir de um estudo experimental sobre o processamento da concordância nominal variável no português brasileiro. Focaliza, em particular, o processamento adulto da concordância variável de número no domínio do sintagma determinante numa perspectiva psicolinguística. Para tal, partimos de resultados reportados na literatura a partir de estudos conduzidos – em sua maioria – numa perspectiva sociolinguística. Como fundamentação teórica e metodológica, a dissertação concilia os pressupostos da psicolinguística experimental e o arcabouço teórico relativo à concepção de língua veiculada na versão minimalista da Teoria Gerativa. As hipóteses de trabalho que nortearam nosso estudo foram as de que, de um lado, há uma correlação entre a presença/ausência de marcas explícitas de plural nos itens que compõem o DP e o custo de processamento da concordância variável na compreensão. Do outro lado, considerouse que, em termos cognitivos, a atuação e interação de fatores linguísticos – especificamente, a denominada saliência fônica – e extralinguísticos – em particular, nível de escolaridade – podem ser relevantes para regular a variação observada na realização de concordância de número no PB, tal como tem sido proposto em pesquisas fundamentadas na Sociolinguística Variacionista. A possível atuação desses dois fatores no processamento foi investigada. São relatados os resultados de dois experimentos conduzidos com falantes adultos do PB – o primeiro, de escuta automonitorada, e o segundo, de produção eliciada por repetição – que, tomados em conjunto, são compatíveis com a hipótese acerca de um processamento diferenciado das duas regras para a realização de concordância. Em contrapartida, a atuação da saliência fônica não se mostrou relevante para a ocorrência do fenômeno em questão, contrariando assim, a hipótese inicial. / This dissertation investigates the cognitive dimension of linguistic variation grounded on an empirical study about the processing of variable nominal agreement in Brazilian Portuguese. It focuses, specifically, on adult processing of the variable number agreement in the domain of the DP from a psycholinguistic point of view. To do so, we started from results presented in literature from studies conducted – mostly – in a sociolinguistic perspective. As theoretical and methodological foundation, this study conciliates the assumptions of the empirical psycholinguistics and is theoretically grounded in the language conception of minimalist version of Generative Theory. We assumed the hypotheses that there is a correlation between the presence of overt plural markers in the items within the DP and the processing cost of variable agreement during comprehension. Furthermore, we took into account that, in a cognitive sense, the influence of linguistic – specifically, phonic salience – and nonlinguistic constraints – in particular, level of education – can be relevant for the variation observed in the realization of number agreement in BP, as it has been suggested by sociolinguistic studies. The possible correlation between these two constraints and the linguistics processing of the variation was investigated. We present the results of two experiments conducted with BP adult speakers – the first one, conducted by means of a self-paced listening task, and the second one, using an elicited production by repetition task – which, taken as a whole, seem to be compatible with the idea that the two general rules of number agreement would be processed differently. The variable phonic salience, in turn, did not reveal a significant influence, contrary to the previous hypothesis. Processamento da linguagem Variação linguística Concordância nominal Saliência fônica Language processing Linguistic variation Nominal agreement Phonic salience
184	Combinatorial algorithms and linear programming for inference in natural language processing = Algoritmos combinatórios e de programação linear para inferência em processamento de linguagem natural / Algoritmos combinatórios e de programação linear para inferência em processamento de linguagem natural Passos, Alexandre Tachard, 1986- 24 August 2018 (has links) Orientador: Jacques Wainer / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-24T00:42:33Z (GMT). No. of bitstreams: 1 Passos_AlexandreTachard_D.pdf: 2615030 bytes, checksum: 93841a46120b968f6da6c9aea28953b7 (MD5) Previous issue date: 2013 / Resumo: Em processamento de linguagem natural, e em aprendizado de máquina em geral, é comum o uso de modelos gráficos probabilísticos (probabilistic graphical models). Embora estes modelos sejam muito convenientes, possibilitando a expressão de relações complexas entre várias variáveis que se deseja prever dado uma sentença ou um documento, algoritmos comuns de aprendizado e de previsão utilizando estes modelos são frequentemente ineficientes. Por isso têm-se explorado recentemente o uso de relaxações usando programação linear deste problema de inferência. Esta tese apresenta duas contribuições para a teoria e prática de relaxações de programação linear para inferência em modelos probabilísticos gráficos. Primeiro, apresentamos um novo algoritmo, baseado na técnica de geração de colunas (dual à técnica dos planos de corte) que acelera a execução do algoritmo de Viterbi, a técnica mais utilizada para inferência em modelos lineares. O algoritmo apresentado também se aplica em modelos que são árvores e em hipergrafos. Em segundo mostramos uma nova relaxação linear para o problema de inferência conjunta, quando se quer acoplar vários modelos, em cada qual inferência é eficiente, mas em cuja junção inferência é NP-completa. Esta tese propõe uma extensão à técnica de decomposição dual (dual decomposition) que permite além de juntar vários modelos a adição de fatores que tocam mais de um submodelo eficientemente / Abstract: In natural language processing, and in general machine learning, probabilistic graphical models (and more generally structured linear models) are commonly used. Although these models are convenient, allowing the expression of complex relationships between many random variables one wants to predict given a document or sentence, most learning and prediction algorithms for general models are inefficient. Hence there has recently been interest in using linear programming relaxations for the inference tasks necessary when learning or applying these models. This thesis presents two contributions to the theory and practice of linear programming relaxations for inference in structured linear models. First we present a new algorithm, based on column generation (a technique which is dual to the cutting planes method) to accelerate the Viterbi algorithm, the most popular exact inference technique for linear-chain graphical models. The method is also applicable to tree graphical models and hypergraph models. Then we present a new linear programming relaxation for the problem of joint inference, when one has many submodels and wants to predict using all of them at once. In general joint inference is NP-complete, but algorithms based on dual decomposition have proven to be efficiently applicable for the case when the joint model can be expressed as many separate models plus linear equality constraints. This thesis proposes an extension to dual decomposition which allows also the presence of factors which score parts that belong in different submodels, improving the expressivity of dual decomposition at no extra computational cost / Doutorado / Ciência da Computação / Doutor em Ciência da Computação Aprendizado de máquina Algoritmos Programação linear Análise combinatória Machine learning Algorithms Linear programming Combinatorial analysis
185	[en] A MACHINE LEARNING APPROACH FOR PORTUGUESE TEXT CHUNKING / [pt] UMA ABORDAGEM DE APRENDIZADO DE MÁQUINA PARA SEGMENTAÇÃO TEXTUAL NO PORTUGUÊS GUILHERME CARLOS DE NAPOLI FERREIRA 10 February 2017 (has links) [pt] A segmentação textual é uma tarefa de Processamento de Linguagem Natural muito relevante, e consiste na divisão de uma sentença em sequências disjuntas de palavras sintaticamente relacionadas. Um dos fatores que contribuem fortemente para sua importância é que seus resultados são usados como significativos dados de entrada para problemas linguísticos mais complexos. Dentre esses problemas estão a análise sintática completa, a identificação de orações, a análise sintática de dependência, a identificação de papéis semânticos e a tradução automática. Em particular, abordagens de Aprendizado de Máquina para estas tarefas beneficiam-se intensamente com o uso de um atributo de segmentos textuais. Um número respeitável de eficazes estratégias de extração de segmentos para o inglês foi apresentado ao longo dos últimos anos. No entanto, até onde podemos determinar, nenhum estudo abrangente foi feito sobre a segmentação textual para o português, de modo a demonstrar seus benefícios. O escopo deste trabalho é a língua portuguesa, e seus objetivos são dois. Primeiramente, analisamos o impacto de diferentes definições de segmentação, utilizando uma heurística para gerar segmentos que depende de uma análise sintática completa previamente anotada. Em seguida, propomos modelos de Aprendizado de Máquina para a extração de segmentos textuais baseados na técnica Aprendizado de Transformações Guiado por Entropia. Fazemos uso do corpus Bosque, do projeto Floresta Sintá(c)tica, nos nossos experimentos. Utilizando os valores determinados diretamente por nossa heurística, um atributo de segmentos textuais aumenta a métrica F beta igual 1 de um sistema de identificação de orações para o português em 6.85 e a acurácia de um sistema de análise sintática de dependência em 1.54. Ademais, nosso melhor extrator de segmentos apresenta um F beta igual 1 de 87.95 usando anotaçoes automáticas de categoria gramatical. As descobertas indicam que, de fato, a informação de segmentação textual derivada por nossa heurística é relevante para tarefas mais elaboradas cujo foco é o português. Além disso, a eficácia de nossos extratores é comparável à dos similares do estado-da-arte para o inglês, tendo em vista que os modelos propostos são razoavelmente simples. / [en] Text chunking is a very relevant Natural Language Processing task, and consists in dividing a sentence into disjoint sequences of syntactically correlated words. One of the factors that highly contribute to its importance is that its results are used as a significant input to more complex linguistic problems. Among those problems we have full parsing, clause identification, dependency parsing, semantic role labeling and machine translation. In particular, Machine Learning approaches to these tasks greatly benefit from the use of a chunk feature. A respectable number of effective chunk extraction strategies for the English language has been presented during the last few years. However, as far as we know, no comprehensive study has been done on text chunking for Portuguese, showing its benefits. The scope of this work is the Portuguese language, and its objective is twofold. First, we analyze the impact of different chunk definitions, using a heuristic to generate chunks that relies on previous full parsing annotation. Then, we propose Machine Learning models for chunk extraction based on the Entropy Guided Transformation Learning technique. We employ the Bosque corpus, from the Floresta Sintá(c)tica project, for our experiments. Using golden values determined by our heuristic, a chunk feature improves the F beta equal 1 score of a clause identification system for Portuguese by 6.85 and the accuracy of a dependency parsing system by 1.54. Moreover, our best chunk extractor achieves a F beta equal 1 of 87.95 when automatic part-of-speech tags are applied. The empirical findings indicate that, indeed, chunk information derived by our heuristic is relevant to more elaborate tasks targeted on Portuguese. Furthermore, the effectiveness of our extractors is comparable to the state-of-the-art similars for English, taking into account that our proposed models are reasonably simple. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] NATURAL LANGUAGE PROCESSING [pt] SEGMENTACAO TEXTUAL [pt] ANALISE SINTATICA SUPERFICIAL
186	Indução de filtros lingüisticamente motivados na recuperação de informação / Linguistically motivated filter induction in information retrieval João Marcelo Azevedo Arcoverde 17 April 2007 (has links) Apesar dos processos de recuperação e filtragem de informação sempre terem usado técnicas básicas de Processamento de Linguagem Natural (PLN) no suporte à estruturação de documentos, ainda são poucas as indicações sobre os avanços relacionados à utilização de técnicas mais sofisticadas de PLN que justifiquem o custo de sua utilização nestes processos, em comparação com as abordagens tradicionais. Este trabalho investiga algumas evidências que fundamentam a hipótese de que a aplicação de métodos que utilizam conhecimento linguístico é viável, demarcando importantes contribuições para o aumento de sua eficiência em adição aos métodos estatásticos tradicionais. É proposto um modelo de representação de texto fundamentado em sintagmas nominais, cuja representatividade de seus descritores é calculada utilizando-se o conceito de evidência, apoiado em métodos estatísticos. Filtros induzidos a partir desse modelo são utilizados para classificar os documentos recuperados analisando-se a relevância implícita no perfil do usuário. O aumento da precisão (e, portanto, da eficácia) em sistemas de Recuperação de Informação, conseqüência da pós-filtragem seletiva de informações, demonstra uma clara evidência de como o uso de técnicas de PLN pode auxiliar a categorização de textos, abrindo reais possibilidades para o aprimoramento do modelo apresentado / Although Information Retrieval and Filtering tasks have always used basic Natural Language Processing (NLP) techniques for supporting document structuring, there is still space for more sophisticated NLP techniques which justify their cost when compared to the traditional approaches. This research aims to investigate some evidences that justify the hypothesis on which the use of linguistic-based methods is feasible and can bring on relevant contributions to this area. In this work noun phrases of a text are used as descriptors whose evidence is calculated by statistical methods. Filters are then induced to classify the retrieved documents by measuring their implicit relevance presupposed by an user profile. The increase of precision (efficacy) in IR systems as a consequence of the use of NLP techniques for text classification in the filtering task is an evidence of how this approach can be further explored Aprendizado de máquina Categorização de textos Filtragem de informação Processamento de linguagem natural Recuperação de informação Sintagmas nominais Information filtering Information retrieval Machine learning Natural language processing Noun phrases Text categotization
187	Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina / Portuguese named entity recognition using machine learning Wesley Seidel Carvalho 24 February 2012 (has links) O Reconhecimento de Entidades Mencionadas (REM) é uma subtarefa da extração de informações e tem como objetivo localizar e classificar elementos do texto em categorias pré-definidas tais como nome de pessoas, organizações, lugares, datas e outras classes de interesse. Esse conhecimento obtido possibilita a execução de outras tarefas mais avançadas. O REM pode ser considerado um dos primeiros passos para a análise semântica de textos, além de ser uma subtarefa crucial para sistemas de gerenciamento de documentos, mineração de textos, extração da informação, entre outros. Neste trabalho, estudamos alguns métodos de Aprendizado de Máquina aplicados na tarefa de REM que estão relacionados ao atual estado da arte, dentre eles, dois métodos aplicados na tarefa de REM para a língua portuguesa. Apresentamos três diferentes formas de avaliação destes tipos de sistemas presentes na literatura da área. Além disso, desenvolvemos um sistema de REM para língua portuguesa utilizando Aprendizado de Máquina, mais especificamente, o arcabouço de máxima entropia. Os resultados obtidos com o nosso sistema alcançaram resultados equiparáveis aos melhores sistemas de REM para a língua portuguesa desenvolvidos utilizando outras abordagens de aprendizado de máquina. / Named Entity Recognition (NER), a task related to information extraction, aims to classify textual elements according to predefined categories such as names, places, dates etc. This enables the execution of more advanced tasks. NER is a first step towards semantic textual analysis and is also a crucial task for systems of information extraction and other types of systems. In this thesis, I analyze some Machine Learning methods applied to NER tasks, including two methods applied to Portuguese language. I present three ways of evaluating these types of systems found in the literature. I also develop an NER system for the Portuguese language utilizing Machine Learning that entails working with a maximum entropy framework. The results are comparable to the best NER systems for the Portuguese language developed with other Machine Learning alternatives. Aprendizado de Máquina Máxima Entropia PLN Processamento de Linguagem Natural Reconhecimento de Entidades Mencionadas Reconhecimento de Entidades Nomeadas REM Information Extraction Machine Learning Maximum Entropy Framework Named Entity Recognition Natural Language Processing.
188	[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK / [pt] CONSTRUÇÃO E AVALIAÇÃO DE UM TREEBANK PADRÃO OURO ELVIS ALVES DE SOUZA 29 May 2023 (has links) [pt] Esta dissertação apresenta o processo de desenvolvimento do PetroGold, um corpus anotado com informação morfossintática – um treebank – padrão ouro para o domínio do petróleo. O desenvolvimento do recurso é abordado sob duas lentes: do lado linguístico, estudamos a literatura gramatical e tomamos decisões linguisticamente motivadas para garantir a qualidade da anotação do corpus; do lado computacional, avaliamos o recurso considerando a sua utilidade para o processamento de linguagem natural (PLN). Recursos como o PetroGold recebem relevância especial no contexto atual, em que o PLN estatístico tem se beneficiado de recursos padrão ouro de domínios específicos para alimentar o aprendizado automático. No entanto, o treebank é útil também para tarefas como a avaliação de sistemas de anotação baseados em regras e para os estudos linguísticos. O PetroGold foi anotado segundo as diretivas do projeto Universal Dependencies, tendo como pressupostos a ideia de que a anotação de um corpus é um processo interpretativo, por um lado, e utilizando o paradigma da linguística empírica, por outro. Além de descrever a anotação propriamente, aplicamos alguns métodos para encontrar erros na anotação de treebanks e apresentamos uma ferramenta criada especificamente para busca, edição e avaliação de corpora anotados. Por fim, avaliamos o impacto da revisão de cada uma das categorias linguísticas do treebank no aprendizado automático de um modelo alimentado pelo PetroGold e disponibilizamos publicamente a terceira versão do corpus, a qual, quando submetida à avaliação intrínseca de um modelo, alcança métricas até 2,55 por cento melhores que a versão anterior. / [en] This thesis reports on the development process of PetroGold, a goldstandard annotated corpus with morphosyntactic information – a treebank – for the oil and gas domain. The development of the resource is seen from two perspectives: on the linguistic side, we study the grammatical literature and make linguistically motivated decisions to ensure the quality of corpus annotation; on the computational side, we evaluate the resource considering its usefulness for natural language processing (NLP). Resources like PetroGold receive special importance in the current context, where statistical NLP has benefited from domain-specific gold-standard resources to train machine learning models. However, the treebank is also useful for tasks such as evaluating rule-based annotation systems and for linguistic studies. PetroGold was annotated according to the guidelines of the Universal Dependencies project, having as theoretical assumptions the idea that the annotation of a corpus is an interpretative process, on the one hand, and using the empirical linguistics paradigm, on the other. In addition to describing the annotation itself, we apply some methods to find errors in the annotation of treebanks and present a tool created specifically for searching, editing and evaluating annotated corpora. Finally, we evaluate the impact of revising each of the treebank linguistic categories on the automatic learning of a model powered by PetroGold and make the third version of the corpus publicly available, which, when performing an intrinsic evaluation for a model using the corpus, achieves metrics up to 2.55 perecent better than the previous version. [pt] LINGUISTICA COMPUTACIONAL [pt] ANOTACAO DE CORPUS [pt] TREEBANKS [pt] DESCRICAO DO PORTUGUES [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] COMPUTATIONAL LINGUISTICS [en] CORPUS ANNOTATION [en] TREEBANKS [en] PORTUGUESE DESCRIPTION [en] NATURAL LANGUAGE PROCESSING
189	[en] LER: ANNOTATION AND AUTOMATIC CLASSIFICATION OF ENTITIES AND RELATIONS / [pt] LER: ANOTAÇÃO E CLASSIFICAÇÃO AUTOMÁTICA DE ENTIDADES E RELAÇÕES JONATAS DOS SANTOS GROSMAN 30 November 2017 (has links) [pt] Diversas técnicas para extração de informações estruturadas de dados em linguagem natural foram desenvolvidas e demonstraram resultados muito satisfatórios. Entretanto, para obterem tais resultados, requerem uma série de atividades que geralmente são feitas de modo isolado, como a anotação de textos para geração de corpora, etiquetamento morfossintático, engenharia e extração de atributos, treinamento de modelos de aprendizado de máquina etc., o que torna onerosa a extração dessas informações, dado o esforço e tempo a serem investidos. O presente trabalho propõe e desenvolve uma plataforma em ambiente web, chamada LER (Learning Entities and Relations) que integra o fluxo necessário para essas atividades, com uma interface que visa a facilidade de uso. Outrossim, o trabalho mostra os resultados da implementação e uso da plataforma proposta. / [en] Many techniques for the structured information extraction from natural language data have been developed and have demonstrated their potentials yielding satisfactory results. Nevertheless, to obtain such results, they require some activities that are usually done separately, such as text annotation to generate corpora, Part-Of- Speech tagging, features engineering and extraction, machine learning models training etc., making the information extraction task a costly activity due to the effort and time spent on this. The present work proposes and develops a web based platform called LER (Learning Entities and Relations), that integrates the needed workflow for these activities, with an interface that aims the ease of use. The work also shows the platform implementation and its use. [pt] ONTOLOGIAS [pt] CURADORIA DE DADOS [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [pt] EXTRACAO DE INFORMACAO [pt] APRENDIZADO AUTOMATICO [en] ONTOLOGIES [en] DATA CURATION [en] NATURAL LANGUAGE PROCESSING [en] EXTRATION OF INFORMATION [en] AUTOMATIC LEARNING
190	[en] RES-RISK-ONTO: AN APPLICATION ONTOLOGY FOR RISKS IN THE PETROLEUM RESERVOIR DOMAIN / [pt] RES-RISK-ONTO: UMA ONTOLOGIA DE APLICAÇÃO PARA RISCOS NO DOMÍNIO DE RESERVATÓRIOS DE PETRÓLEO PATRICIA FERREIRA DA SILVA 12 May 2022 (has links) [pt] Este trabalho apresenta a Reservoir Risks Ontology (ResRiskOnto), uma ontologia aplicada aos riscos na indústria de óleo e gás associados ao domínio de reservatórios. Os componentes da ResRiskOnto são termos do domínio de trabalho de profissinais de reservatório, de forma a facilitar sua adoção na documentação futura de riscos. A ResRiskOnto tem como ideia central o conceito de Evento de Risco. Cada evento tem um conjunto de possíveis Participantes, que por sua vez possuem Características manifestadas pelo evento. A ontologia dispõe de um total de 97 termos, 29 dos quais derivados da classe Evento de Risco. Para desenvolver a ResRiskOnto, foi feita uma análise semântica em aproximadamente 2500 riscos de reservatórios documentados em linguagem natural. Este repositório é fruto de centenas de workshops de avaliação de riscos em projetos de óleo e gás, conduzidos na Petrobras durante uma década. A ontologia proposta fundamenta-se nos princípios da Basic Formal Ontology (BFO), uma ontologia de topo projetada para descrever domínios científicos. A BFO baseia-se no Realismo, uma visão filosófica segundo a qual os entes que constituem a realidade existem independentemente da nossa representação. No nível de domínio definimos os entes de reservatório usando os conceitos da GeoCore Ontology, uma ontologia para a Geologia. Para validar a ResRiskOnto os documentos do repositório foram anotados utilizando os entes e relações definidos na ontologia, e desenvolvido um modelo capaz de reconhecer entidades nomeadas e extrair as relações entre elas. Nossa contribuição é uma ontologia aplicada que permite o raciocínio semântico no repositório de documentos de risco. Esperamos que ela forneça (i) as bases para modelagem de dados de riscos relacionados a reservatórios; e (ii) um padrão para futura documentação de riscos no domínio de reservatório. / [en] This work proposes the Reservoir Risks Ontology (ResRiskOnto), an application ontology for risks in the oil and gas industry associated with the petroleum reservoir domain. ResRiskOnto s building blocks are terms dominated by reservoir professionals, so that it can be easily adopted in future risk documentation. ResRiskOnto is developed having at its center the concept of Risk Events. Each event has a set of possible Participants, that have its Characteristics manifested by the event. The ontology provides a total a set of 97 terms, 29 of which are derived from the Risk Event class. To develop the ResRiskOnto, we conducted a semantic analysis of documents that contain over 2500 reservoir-related risks described in natural language. This repository is the result of hundreds of risk assessment workshops in oil and gas projects, conducted in over ten years in Petrobras. This ontology is founded on the principles of the Basic Formal Ontology (BFO), a top-level ontology designed to describe scientific domains. One of BFO s most distinct characteristic is its commitment to Realism, a philosophical view of reality in which its constituents exist independently of our representations. On the domain-level, reservoir entities are described under the principles of the GeoCore Ontology, a core ontology for Geology. To validate the ResRiskOnto we annotate our risk documents repository with the ontology s entities and relations, developing a model that recognizes named entities and extracts the relations among them. Our contribution is an application ontology that allows semantic reasoning over the risk documents. We also expect to provide (i) a basis for data modelling in the case of reservoir-related risks; and (ii) a standard for future risk documentation in the reservoir domain. [pt] ONTOLOGIA [pt] GERENCIAMENTO DE RISCOS DE PROJETOS [pt] PROCESSAMENTO EM LINGUAGEM NATURAL [pt] RESERVATORIOS DE PETROLEO [pt] MODELAGEM CONCEITUAL [en] ONTOLOGY [en] PROJECT RISK MANAGEMENT [en] NATURAL LANGUAGE PROCESSING [en] OIL RESERVOIRS [en] CONCEPTUAL MODELING

Search results