• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 202
  • 25
  • 6
  • 5
  • 5
  • 5
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • Tagged with
  • 233
  • 233
  • 233
  • 114
  • 113
  • 82
  • 52
  • 51
  • 51
  • 47
  • 47
  • 36
  • 36
  • 35
  • 33
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
101

Proposta de dicionário informatizado analógico de língua portuguesa

Vilarinho, Michelle Machado de Oliveira 17 December 2013 (has links)
Tese (doutorado)—Universidade de Brasília, Instituto de Letras, Departamento de Linguística, Português e Línguas Clássicas, Programa de Pós-Graduação em Linguística, 2013. / Submitted by Albânia Cézar de Melo (albania@bce.unb.br) on 2014-02-11T14:34:39Z No. of bitstreams: 1 2013_MichelleMachadoOliveiraVilarinho.pdf: 6148349 bytes, checksum: 038e20997471ee07fac071f2fdc69721 (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2014-02-12T09:55:29Z (GMT) No. of bitstreams: 1 2013_MichelleMachadoOliveiraVilarinho.pdf: 6148349 bytes, checksum: 038e20997471ee07fac071f2fdc69721 (MD5) / Made available in DSpace on 2014-02-12T09:55:29Z (GMT). No. of bitstreams: 1 2013_MichelleMachadoOliveiraVilarinho.pdf: 6148349 bytes, checksum: 038e20997471ee07fac071f2fdc69721 (MD5) / O tema desta tese se insere na linha de pesquisa Léxico e Terminologia, desenvolvida no Centro de Estudos Lexicais e Terminológicos (Centro Lexterm), da Universidade de Brasília. O objeto de estudo é o dicionário analógico, entendido como um tipo de repertório lexicográfico de caráter onomasiológico, no qual os lexemas são organizados partindo das ideias ou dos conceitos para chegar às unidades lexicais. Os lexemas são agrupados em um mesmo verbete por possuírem identidade de relações. A motivação para a realização deste trabalho é identificar como as analogias podem ser delimitadas no dicionário analógico, uma vez que constatamos que os dicionários analógicos não possuem critérios claros para o estabelecimento das relações analógicas na composição dos verbetes. O objetivo principal desta pesquisa é a criação de uma proposta de Dicionário Informatizado Analógico de Língua Portuguesa, por meio do uso de ferramentas de Processamento das Línguas Naturais (PLN). A metodologia que seguimos para a análise do Dicionário analógico da língua portuguesa de Azevedo (2010), Le nouveau Petit Robert: dictionnaire alphabétique et analogique de la langue française de Robert (2010), Le Dictionnaire des Analogies de Pechoin (2009) e Dizionario Analogico della lingua italiana de Garzanti (2011) foi o preenchimento do roteiro para avaliação de dicionários de língua comum e de dicionários ou glossários científicos e técnicos de Faulstich (1998, p. 234; 2011, p.183-185). Por meio das informações recolhidas, foi possível identificar a estrutura de organização dos dicionários analógicos e verificar que a falta de critérios desses dicionários levam as analogias a serem apresentadas com vagueza. A aplicação da metodologia proporcionou a seleção de lexemas para compor os verbetes transporte e vestuário constituintes do modelo de Dicionário Informatizado Analógico de Língua Portuguesa postulado nesta pesquisa. Ademais, com aplicação dos conceitos da Versão Ampliada da Teoria dos Protótipos de Kleiber (1990) e da Semântica de Frames de Fillmore (1977), mais lexemas foram inseridos nos verbetes propostos. Para elaborar o modelo de dicionário postulado, adotamos a proposta metodológica para elaboração de léxicos, dicionários e glossários de Faulstich (2001). Como resultado desta pesquisa, o modelo de dicionário analógico proposto, constitui-se de parte analógica e alfabética. A parte analógica será organizada por campos lexicais e a parte alfabética será semelhante a um dicionário de língua comum. O verbete da parte analógica possui definição e os demais lexemas são apresentados pelas relações semânticas: sinonímia, hiperonímia e hiponímia, holonímia e meronímia, e a relação associativa. O critério norteador da ligação associativa do dicionário analógico deve ter relação com, pelo menos, uma das entidades do significado: sentido, dimensão extensional, dimensão intencional e conceito. A relação associativa pode ser dividida em subclasses, com a finalidade de agrupar os conceitos com mais proximidade semântica. Como a aquisição do léxico ocorre de modo associativo, o Dicionário Informatizado Analógico de Língua Portuguesa – DIALP– pode ser usado como uma estratégia para aprendizagem de língua com vistas à aquisição do léxico. Como não existe modelo de dicionário analógico direcionado aos falantes de português como L2 ou como LE, a proposta do DIALP preenche parte da lacuna da Lexicografia, já que pode ser usado como ferramenta de aprendizagem. ______________________________________________________________________________ ABSTRACT / The topic of this dissertation is part of the research area known as Terminology and Lexical Studies, developed at the Center for Terminological and Lexical Studies (LexTerm Center), at the University of Brasília. The object of study is the analogical dictionary, understood as a kind of lexicographic inventory, onomasiological in nature, in which lexemes are organized from ideas or concepts to lexical units. Lexemes are grouped together in the same entry by virtue of displaying identity relations. The motivation behind this work is to understand how analogies can be delimited in an analogical dictionary, once we observed that analogical dictionaries do not exhibit clear criteria for establishing analogical relations. The main aim of this research is to present a proposal for an Informatized Analogical Portuguese Dictionary, by using Natural Language Processing (NLP) tools. In analyzing the following dictionaries: Dicionário analógico da língua portuguesa de Azevedo (2010), Le nouveau Petit Robert: dictionnaire alphabétique et analogique de la langue française de Robert (2010), Le Dictionnaire des Analogies de Pechoin (2009) and Dizionario Analogico della lingua italiana de Garzanti (2011), the methodology involved filling out a survey for the evaluation of both general language dictionaries and scientific and technical dictionaries and glossaries, as proposed by Faulstich (1998, p. 234; 2011, p.183-185). Based on the collected information, it was possible to identify the analogical dictionaries’ organizational structure and to verify that the lack of criteria in these dictionaries lead to vagueness in the presentation of analogies. The application of this methodology enabled us to select lexemes to compose the entries for transportation and clothing, both parts of the model for the Informatized Analogical Portuguese Dictionary proposed in this research. Moreover, based on the application of concepts from Kleiber’s (1990) Extended Version of Prototype Theory and Fillmore’s Frame Semantics, further lexemes were added to the proposed entries. In order to formulate the model for the proposed dictionary, we adopted the methodological proposal for the elaboration of lexicons, dictionaries and glossaries, as postulated by Faulstich (2001). As a result of this research, the proposed model for the analogical dictionary consists of both an analogical and an alphabetical part. The analogical part is organized by lexical fields, and the alphabetical part is similar to those of a general language dictionary. In the analogical part of the dictionary, the entry is comprised of a definition, and the other lexemes are presented based on the semantic relations they establish: synonyms, hyperonyms and hyponyms, holonyms and meronyms, and associative relations. The main criterion for the associative relation in the analogical dictionary has to do with least one of the following meaning entities: sense, extensional dimension, intentional dimension and concept. The associative relation can be divided into subclasses, in order to group together concepts with greater semantic relatedness. Assuming that lexical acquisition happens through association, the Informatized Analogical Portuguese Dictionary can be used as a strategy of language learning, aiming at lexical acquisition. Since there are no models for an analogical dictionary for speakers of Portuguese as a second language or as a foreign language, the present proposal fills this gap in the Lexicography field, because it can be used as a learning tool.
102

Modelo para sumarização computacional de textos científicos. / Scientific text computational summarization model.

Alejandro Tarafa Guzmán 07 March 2017 (has links)
Neste trabalho, propõe-se um modelo para a sumarização computacional extrativa de textos de artigos técnico-cientificos em inglês. A metodologia utilizada baseia-se em um módulo de avaliação de similaridade semântica textual entre sentenças, desenvolvido especialmente para integrar o modelo de sumarização. A aplicação deste módulo de similaridade à extração de sentenças é feita por intermédio do conceito de uma janela deslizante de comprimento variável, que facilita a detecção de equivalência semântica entre frases do artigo e aquelas de um léxico de frases típicas, atribuíveis a uma estrutura básica dos artigos. Os sumários obtidos em aplicações do modelo apresentam qualidade razoável e utilizável, para os efeitos de antecipar a informação contida nos artigos. / In this work a model is proposed for the computational extractive summarization of scientific papers in English. Its methodology is based on a semantic textual similarity module, for the evaluation of equivalence between sentences, specially developed to integrate the summarization model. A variable width window facilitates the application of this module to detect semantic similarity between phrases in the article and those in a basic structure, assignable to the articles. Practical summaries obtained with the model show usable quality to anticipate the information found in the papers.
103

Agrupamento semântico de aspectos para mineração de opinião / Semantic clustering of aspects for opinion mining

Francielle Alves Vargas 29 November 2017 (has links)
Com o rápido crescimento do volume de informações opinativas na web, extrair e sintetizar conteúdo subjetivo e relevante da rede é uma tarefa prioritária e que perpassa vários domínios da sociedade: político, social, econômico, etc. A organização semântica desse tipo de conteúdo, é uma tarefa importante no contexto atual, pois possibilita um melhor aproveitamento desses dados, além de benefícios diretos tanto para consumidores quanto para organizações privadas e governamentais. A área responsável pela extração, processamento e apresentação de conteúdo subjetivo é a mineração de opinião, também chamada de análise de sentimentos. A mineração de opinião é dividida em níveis de granularidade de análise: o nível do documento, o nível da sentença e o nível de aspectos. Neste trabalho, atuou-se no nível mais fino de granularidade, a mineração de opinião baseada em aspectos, que consiste de três principais tarefas: o reconhecimento e agrupamento de aspectos, a extração de polaridade e a sumarização. Aspectos são propriedades do alvo da opinião e podem ser implícitos e explícitos. Reconhecer e agrupar aspectos são tarefas críticas para mineração de opinião, no entanto, também são desafiadoras. Por exemplo, em textos opinativos, usuários utilizam termos distintos para se referir a uma mesma propriedade do objeto. Portanto, neste trabalho, atuamos no problema de agrupamento de aspectos para mineração de opinião. Para resolução deste problema, optamos por uma abordagem baseada em conhecimento linguístico. Investigou-se os principais fenômenos intrínsecos e extrínsecos em textos opinativos a fim de encontrar padrões linguísticos e insumos acionáveis para proposição de métodos automáticos de agrupamento de aspectos correlatos para mineração de opinião. Nós propomos, implementamos e comparamos seis métodos automáticos baseados em conhecimento linguístico para a tarefa de agrupamento de aspectos explícitos e implícitos. Um método inédito foi proposto para essa tarefa que superou os demais métodos implementados, especialmente o método baseado em léxico de sinônimos (baseline) e o modelo estatístico com base em word embeddings. O método proposto também não é dependente de uma língua ou de um domínio, no entanto, focamos no Português do Brasil e no domínio de produtos da web. / With the growing volume of opinion information on the web, extracting and synthesizing subjective and relevant content from the web has to be shown a priority task that passes through different society domains, such as political, social, economical, etc. The semantic organization of this type of content is very important nowadays since it allows a better use of those data, as well as it benefits customers and both private and governmental organizations. The area responsible for extracting, processing and presenting the subjective content is opinion mining, also known as sentiment analysis. Opinion mining is divided into granularity levels: document, sentence and aspect levels. In this research, the deepest level of granularity was studied, the opinion mining based on aspects, which consists of three main tasks: aspect recognition and clustering, polarity extracting, and summarization. Aspects are the properties and parts of the evaluated object and it may be implicit or explicit. Recognizing and clustering aspects are critical tasks for opinion mining; nonetheless, they are also challenging. For example, in reviews, users use distinct terms to refer to the same object property. Therefore, in this work, the aspect clustering task was the focus. To solve this problem, a linguistic approach was chosen. The main intrinsic and extrinsic phenomena in reviews were investigated in order to find linguistic standards and actionable inputs, so it was possible to propose automatic methods of aspect clustering for opinion mining. In addition, six automatic linguistic-based methods for explicit and implicit aspect clustering were proposed, implemented and compared. Besides that, a new method was suggested for this task, which surpassed the other implemented methods, specially the synonym lexicon-based method (baseline) and a word embeddings approach. This suggested method is also language and domain independent and, in this work, was tailored for Brazilian Portuguese and products domain.
104

Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa

Silva, Tiago José da 28 March 2014 (has links)
Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-04-10T17:22:32Z No. of bitstreams: 2 DISSERTAÇÃO Tiago José da Silva.pdf: 3122636 bytes, checksum: 4141cd54437a53496b7f98822722032e (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-04-10T17:22:33Z (GMT). No. of bitstreams: 2 DISSERTAÇÃO Tiago José da Silva.pdf: 3122636 bytes, checksum: 4141cd54437a53496b7f98822722032e (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2014-03-28 / Objetiva fazer um levantamento do estado da arte da indexação automática por sintagmas nominais para textos em português. Para tanto, identifica e sintetiza os fundamentos teóricos, metodologias e ferramentas da indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa, levando em conta publicações científicas nas áreas da Ciência da Informação, Ciência da Computação, Terminologia e Linguística. Discute as metodologias para indexação automática através de sintagmas nominais em textos em língua portuguesa, no intuito de apontar critérios para extração e seleção de sintagmas que possam ser usados como descritores documentais. Avalia e compara ferramentas de extração automática de sintagmas nominais como o parser PALAVRAS, OGMA e LX-Parser, usando como referência a extração manual de sintagmas nominais. Percebe que os trabalhos produzidos depois do ano de 2000 e que trabalham com a extração automática de termos fazem referências ao parser PALAVRAS, tendo-o como um bom etiquetador e analisador sintático. Na comparação entre as referidas ferramentas automáticas, percebe-se que apesar do LX-Parser ter tido melhor desempenho em alguns aspectos como extrair um maior número de SNs do que o PALAVRAS, esse ainda consegue ser melhor pelo número menor de erros e a possibilidade de submeter um texto completo à análise do programa, ação que o LX-Parser não permite realizar. Quanto ao levantamento do estado da arte, pode-se dizer que as pesquisas ainda não atingiram um grau de amadurecimento elevado, pois os resultados apresentados pela literatura não alcançam uma taxa de precisão elevada para todos os tipos de corpus. Conclui que os resultados das pesquisas que trabalham com a extração automática de sintagmas nominais devem ser comparados entre si para que se possam detectar os problemas existentes quanto às metodologias e às ferramentas de extração destes sintagmas nominais em língua portuguesa. Tendo, dessa maneira, as ferramentas e as metodologias melhoradas para que efetivamente possam ser aplicadas em sistemas de recuperação de informação, fazendo a seleção de sintagmas nominais que possam ser usados como descritores documentais no intuito de satisfazer as necessidades informacionais do usuário. Sugere, então, algumas possíveis soluções para os problemas de identificação de sintagmas nominais enfrentados pelas ferramentas automáticas.
105

Uma plataforma para sumarização automática de textos independente de idioma

CABRAL, Luciano de Souza 27 February 2015 (has links)
Submitted by Isaac Francisco de Souza Dias (isaac.souzadias@ufpe.br) on 2016-01-22T17:09:48Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) lsc_tese_corrigida_rdl_versaoDigital.pdf: 5021349 bytes, checksum: f2a6ae799a13a092eef7727f6cc66e9e (MD5) / Made available in DSpace on 2016-01-22T17:09:48Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) lsc_tese_corrigida_rdl_versaoDigital.pdf: 5021349 bytes, checksum: f2a6ae799a13a092eef7727f6cc66e9e (MD5) Previous issue date: 2015-02-27 / A Sumarização Automática de Textos é o ramo da área de recuperação de informação que utiliza técnicas e algoritmos para identificar e coletar ou gerar sentenças relevantes a partir de documentos textuais. Claramente, o uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de sumarização, principalmente quando se processam documentos sem nenhuma estrutura e/ou padrão definido. Dentre as variações do processo de sumarização, as técnicas extrativas são as mais bem estudadas até o momento, em sua maioria suportando o idioma inglês, com poucas variações de suporte a mais um idioma. A presente tese propõe uma plataforma de sumarização multi-idioma na qual, fornece 17 opções de algoritmos de sumarização, assim como a possibilidade de combinação dentre eles. Tais algoritmos são uma mescla de técnicas de sumarização extrativa utilizando modelos estatísticos (e.g. TF-IDF) e modelos linguísticos (PLN com WordNet). Além disso, a plataforma é 100% não-supervisionada, o que significa que não depende do ser humano em nenhuma parte de seu processamento, ainda possui um módulo de identificação de idiomas além de um processo de tradução intermediária, os quais provêm suporte a 25 idiomas até o momento. Os resultados obtidos nos experimentos sugerem que a plataforma apresenta bons níveis de sumarização com corpora relacionados com textos jornalísticos (CNN e Temário) em diferentes idiomas (Inglês, Espanhol e Português). Efetuando uma comparação com métodos conhecidos, e.g. SuPor e TextRank, a plataforma obteve 45% de melhoria nos resultados para o corpus Temário no idioma português, se manteve dentre os melhores com o corpus CNN em inglês e resultados semelhantes com o corpus CNN em espanhol, no qual é novo e não possui resultados de outros sistemas até o momento. Além desses resultados, o seu tempo processamento é competitivo, atingindo-se em média 0,11 segundos por documento em inglês e 0,28 s para outras línguas. Desenvolvida em Java, a plataforma pode ser facilmente portável e reusada em pesquisas futuras, as quais podem ser direcionadas para preencher a lacuna da sumarização abstrativa, a qual é pouco explorada até o momento pela comunidade, tendo assim, muito a ser estudada e pesquisada. / Automatic Text Summarization is the branch of information retrieval that uses techniques and algorithms to identify, collect or generate relevant sentences from text documents. The use of Natural Language Processing (NLP) techniques has proven to be beneficial to the summarization process, especially when processing unstructured documents. Extractive summarization techniques are the best studied to date, mostly supporting the English language, with a few variations to support another language. This thesis proposes a multi-language summarization platform which implements 17 algorithms, as well as the possibility of combining them. Such extractive summarization techniques are based on statistical models (e.g. TF-IDF) or language models (e.g. N.L.P. with WordNet). Furthermore, the platform is 100% unsupervised, this means that processing does not need human interference. There is a module for language identification and an intermediate translation process, in which provides support to 25 languages, so far. The experimental results obtained suggest that the platform reached acceptable summarization levels tested on news text corpora (CNN and Temário) in English, Spanish and Portuguese. Comparing with known methods, e.g. SuPor and TextRank, the platform obtained an improvement of 45% in the results for the TeMário corpus in Portuguese language remained among the best in the CNN corpus in English and similar results with the CNN corpus in Spanish, which is new and not have results of competitors yet. In addition to these results, its processing time is competitive, reaching an average of 0.11 seconds per document in English and 0.28 for the other languages tested. The platform was developed in Java, thus it is portable and can be easily reused in future research in abstractive summarization, a research area still little explored.
106

Explorando informação relacional para análise de sentimentos em redes sociais

RABELO, Juliano Cícero Bitu 25 August 2015 (has links)
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2016-04-07T15:49:01Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) tese_jcbr_201511.pdf: 2348357 bytes, checksum: 5ab9955a4ce8849c92d0631d6674d12e (MD5) / Made available in DSpace on 2016-04-07T15:49:01Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) tese_jcbr_201511.pdf: 2348357 bytes, checksum: 5ab9955a4ce8849c92d0631d6674d12e (MD5) Previous issue date: 2015-08-25 / CNPq / A web, inicialmente um mero repositório de informações estáticas, transformou-se numa enorme fonte de aplicações diversas, proporcionando ou fomentando entretenimento, negócios e relacionamentos. Com essa evolução, a web passou a conter uma enorme quantidade de informações valiosas sobre produtos e serviços, especialmente em sites de compra, sites específicos para avaliação de produtos e até mesmo em redes sociais. Com as ferramentas adequadas, é possível monitorar opiniões ou mensurar a aceitação de um objeto qualquer a partir de dados disponíveis online, ao invés de realizar pesquisas de opinião usuais, que são demoradas, trabalhosas, tem alto custo e alcançam um número bastante restrito de pessoas. Com o monitoramento online, todo o processo de consolidação de opiniões pode ser realizado de forma automática, oferecendo um feedback imediato e mais representativo sobre o objeto avaliado. O problema geral desta proposta de tese é a classificação dos usuários de acordo com suas opiniões sobre um objeto de interesse. Comumente, a classificação das opiniões emitidas por um dado usuário é feita através da classificação de sentimentos expressos em textos, postagens ou comentários. Se a classificação de opiniões, no entanto, for realizada em ambientes nos quais haja conexões entre seus usuários (como as redes sociais), uma nova dimensão de informação se apresenta: através da análise dos relacionamentos, é possível inferir as opiniões de usuários a partir da opinião de seus contatos. A abordagem proposta neste trabalho para realização de análise de sentimento em redes sociais é baseada no princípio da assortatividade, que estabelece que indivíduos tendem a se conectar a outros com os quais apresentam alto grau de semelhança. A partir desse conceito, são aplicadas técnicas de classificação coletiva sobre o grafo que representa a rede social. A intenção é explorar o fato de que a classificação coletiva não utiliza apenas as características locais dos nós no processo de inferência, mas também as características e classes dos nós relacionados. Além disso, a classificação é executada de forma simultânea sobre todas as instâncias, o que permite considerar as influências que cada instância exerce sobre outras às quais está relacionada. Para avaliação da viabilidade do método proposto, foi implementado um protótipo que usa um algoritmo de relaxation labeling para a classificação coletiva de opiniões de usuários, e foi desenvolvido um estudo de caso para predição de preferência política de usuários do Twitter, que alcançou resultados promissores. / The web, which was initially a mere repository for static information, has turned into a huge source of different applications, containing not only information but also promoting entertainment, business and relationships. Thus, the web currently has plenty of valuable information on products and services, especially in shopping, product evaluation and social networks websites. With the proper tools, it is possible to monitor opinions or to measure acceptance of a given object from data available online, instead of running usual polls, which are time and labor consuming, expensive and have limited reach. With online monitoring, the opinion consolidation process may be done automatically, offering an immediate, representative feedback on the evaluated object. This thesis proposal general problem is the classification of users according to his/her opinions given a target object. Commonly, the user opinion classification is performed through the use of text classifiers over his/her texts, comments or posts. If this opinion classification process takes place in environments where there are connections among its users (like social networks), a new information dimension shows up: through analysis of users relationships, it is possible to infer users opinions by using his/her contacts opinions. The approach proposed here to social networks sentiment analysis is based on the homophily principle, which states that users are more likely to connect to similar others. Using that concept, we apply collective classification techniques on the graph that represents the social network. The intention is to leverage the fact that collective classification uses not only the local node features in the inference process, but also the features and classes of the neighborhood. Besides, the classification is executed simultaneously on all nodes, which allows considering the influences of each node on its neighbors. To evaluate the proposed method, we implemented a prototype which uses a relaxation labeling algorithm for the collective classification of users opinions, and developed a case study to predict the political preference of users in Twitter, achieving promising results.
107

Semantic enrichment of American English corpora through automatic semantic annotation based on top-level ontologies using the CRF clas- sification model / Enriquecimento semântico de corpora do Inglês americano através de anotação semântica automática baseada em ontologias de nível topo uti- lizando o modelo de classificação CRF

Andrade, Guidson Coelho de 26 April 2018 (has links)
Submitted by MARCOS LEANDRO TEIXEIRA DE OLIVEIRA (marcosteixeira@ufv.br) on 2018-09-05T12:51:49Z No. of bitstreams: 1 texto completo.pdf: 1357733 bytes, checksum: 0b0fc46e7358bfaa6996ea4bcbd760d0 (MD5) / Made available in DSpace on 2018-09-05T12:51:49Z (GMT). No. of bitstreams: 1 texto completo.pdf: 1357733 bytes, checksum: 0b0fc46e7358bfaa6996ea4bcbd760d0 (MD5) Previous issue date: 2018-04-26 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / O significado de bases de dados textuais é de fácil percepção para as pessoas, mas de difícil interpretação por parte dos computadores. Para que as máquinas possam compreender a semântica associada aos textos e não somente a sintaxe, é necessário a adição de informações extras a esses corpora. A anotação semântica é a tarefa que incorpora essas informações por meio da adição de metadados aos itens lex- icais. Essas informações podem ser conceitos ontológicos que ajudam a definir a natureza da palavra a fim de atribuir-lhe algum significado. No entanto, anotar textos segundo uma determinada ontologia ainda é uma tarefa que demanda tempo e esforço de anotadores treinados para esse fim. Outra abordagem a ser consid- erada é o desenvolvimento de ferramentas de anotação semântica automática que utilizem técnicas de aprendizado de máquina para classificar os termos anotados. Essa abordagem demanda uma base de dados para treinamento dos algoritmos que nesse caso são corpora pré-anotados segundo a dimensão semântica a ser explorada. Entretanto, essa linhagem metodológica dispõe de recursos limitados para suprir as necessidades dos métodos de aprendizado. Existe uma grande carência de corpora anotados semanticamente e, particularmente, uma ausência ainda maior de corpora ontologicamente anotados, dificultando o avanço da área de anotação semântica au- tomática. O objetivo do presente trabalho é auxiliar no enriquecimento semântico de textos do Inglês americano, anotando-os de forma automática baseando-se em ontologia de nível topo através do modelo de aprendizagem supervisionada Condi- tional Random Fields (CRF). Após a seleção do Open American National Corpus como base de dados linguística e da Schema.org como ontologia, o trabalho teve sua estrutura dividida em duas etapas. Primeiramente, o corpus pré-processado e corrigido foi submetido a uma anotação híbrida, com um anotador baseado em re- gras e, posteriormente, uma anotação complementar manual. Ambas as tarefas de anotação foram dirigidas pelos conceitos e definições das oito classes provenientes do nível topo da ontologia selecionada. De posse do corpus anotado ontologicamente, iniciou-se o processo de anotação automática via uso do método de aprendizagem CRF. O modelo de predição levou em consideração as características linguísticas e estruturais dos termos para classificá-los sob os oito tipos ontológicos. Os resulta- dos obtidos durante a avaliação do modelo foram muito satisfatórios e atingiram o objetivo da pesquisa. O trabalho, embora seja uma nova abordagem de anotação semântica e com pouca margem de comparação, apresentou resultados promissores para o avanço da pesquisa na área de enriquecimento semântico automático baseado em ontologias de nível topo. / Textual databases carry with them human-perceived meanings, but those meanings are difficult to be interpreted by computers. In order for the machines to understand the semantics attached to texts, and not only their syntax, it is necessary to add extra information to these corpora. Semantic annotation is the task of incorporat- ing this information by adding metadata to lexical items. This information can be ontological concepts that help define the nature of the word in order to give it some meaning. However, annotating texts according to an ontology is still a task that requires time and effort from annotators trained for this purpose. Another approach to be considered is the use of automatic semantic annotation tools that use machine learning techniques to classify annotated terms. This approach demands a database for training the algorithms that in this case are corpora pre-annotated according to the semantic dimension to be explored. However, this methodological lineage has limited resources to meet the needs of learning methods. There is a large lack of semantically annotated corpora and an even larger absence of ontologically anno- tated corpora, hindering the advance of the area of automatic semantic annotation. The purpose of the present work is to assist in the semantic enrichment of Amer- ican English texts by automatically annotating them based on top-level ontology through the Conditional Random Fields (CRF) supervised learning model. After the selection of the Open American National Corpus as a linguistic database and Schema.org as an ontology, the work had its structure divided into two stages. First, the pre-processed and corrected corpus was submitted to a hybrid annotation, with a rule-based annotator, and later manually. Both annotation tasks were driven by the concepts and definitions of the eight classes from the top-level of the selected ontology. Once the corpus was written ontologically, the automatic annotation pro- cess was started using the CRF learning method. The prediction model took into account the linguistic and structural features of the terms to classify them under the eight ontological types. The results obtained during the evaluation of the model were very satisfactory and reached the objective of the research. The work, although it is a new approach of semantic annotation and with little margin of comparison, presented promising results for the advance of the research in the area of automatic semantic enrichment based on top-level ontologies.
108

SABIO : abordagem conexionista supervisionada para sumarização automatica de textos / SABIO : supervised connectionist approach to automatic text summarization

Orru, Telvio 26 August 2005 (has links)
Orientadores: Marcio Luiz de Andrade Netto, João Luis Garcia Rosa / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-05T07:45:24Z (GMT). No. of bitstreams: 1 Orru_Telvio_M.pdf: 2398157 bytes, checksum: c5119e1b22c57334ce4532605c1b38b2 (MD5) Previous issue date: 2005 / Resumo: Propõe-se, neste projeto, a criação de uma ferramenta computacional para geração de novos sumários a partir de novos textos-fonte, por meio do uso de abordagem conexionista (Redes Neurais Artificiais). Dentre as contribuições que este trabalho pretende trazer à área de Processamento de Línguas Naturais, destaca-se a abordagem biologicamente mais plausível da arquitetura e do treinamento conexionistas para a sumarização automática. Utilizou-se esta abordagem para o treinamento da rede pois acredita-se que este tratamento poderá trazer ganhos em relação à eficiência computacional quando comparado aos modelos conexionistas considerados biologicamente implausíveis / Abstract: It is proposed here an implementation of a computational tool to generate new summaries from new source texts, by means of a connectionist approach {artificial neural networks). Among other contributions that this work intends to bring to natural language processing, it is highlighted the use of biologically more plausible connectionist architecture and training for automatic summarization. The choice relies on the expectation that it may bring an increase in computational efficiency when compared to the so-called biologically implausible algorithms / Mestrado / Engenharia de Computação / Mestre em Engenharia Elétrica
109

Extração automatica de palavras-chave na lingua portuguesa aplicada a dissertações e teses da area das engenharias

Dias, Maria Abadia Lacerda 28 October 2004 (has links)
Orientador: Mauro Sergio Miskulin / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-06T11:14:40Z (GMT). No. of bitstreams: 1 Dias_MariaAbadiaLacerda_M.pdf: 1014055 bytes, checksum: 6be654aceec323e5ef0f99d61e79212d (MD5) Previous issue date: 2004 / Resumo: O objetivo desta dissertação é adaptar um algoritmo de extração automática de palavraschave para a língua portuguesa. Palavras-chave fornecem uma descrição adequada do conteúdo de um documento. Tal descrição facilita aos futuros leitores decidirem se o documento é ou não relevante para os mesmos. As palavras-chave têm também outras aplicações, já que estas resumem documentos de forma sucinta. Portanto podem ser usadas como uma medida eficiente de similaridade entre documentos, tornando possível organizá-los em grupos ao se medir a sobreposição entre as palavras-chave que estão associadas. Esta adaptação consiste na utilização de um algoritmo de radicalização de palavras na língua portuguesa, o qual foi aperfeiçoado neste estudo, e uma lista de stopwords da língua portuguesa, apresentada neste trabalho / Abstract: The goal of this dissertation is to adapt an automatic extraction algorithm of keywords for the Portuguese language. Keywords give an adequate description of a document's contents. Such description helps future readers to decide whether the document is relevant or not for them. The keywords have also other applications, because they summarize documents in a brief way. Therefore, they can be used as an efficient measure of similarity between documents, making possible to organize them in groups when measuring the overlap between the keywords they are associated to. This adaptation consists on the utilization of a stemming algorithm for words of the Portuguese language, which was improved in this study, and a list of stopwords of Portuguese language, also presented in this work / Mestrado / Eletrônica, Microeletrônica e Optoeletrônica / Mestre em Engenharia Elétrica
110

Um sistema hibrido para o processamento de linguagem natural e para a recuperação da informação

Julia, Rita Maria da Silva 28 November 1995 (has links)
Texto em portugues e frances / Orientadores: Marcio Luiz Andrade Netto, Mario Borillo, Antonio Eduardo Costa Pereira / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica ; Universite Paul Sabatier (Toulouse, França) / Made available in DSpace on 2018-07-21T08:46:59Z (GMT). No. of bitstreams: 1 Julia_RitaMariadaSilva_D.pdf: 11868009 bytes, checksum: cc3d2f8a19bfb5c925bab2824c3e9f84 (MD5) Previous issue date: 1995 / Resumo: Nós apresentamos um sistema que analisa sintática e semanticamente um conjunto de asserções, que introduz as asserções analisadas em uma base de conhecimentos e que recupera informações a partir desta base. As asserções correspondem a exigências que compõem um conjunto de especificações de programas. Elas correspondem a um tipo particular de frases em linguagem natural que se referem ao contexto das ciências espaciais. As asserções são estocadas na base de conhecimentos como fórmulas do Cálculo dos Predicados cujas variáveis são anotadas por conceitos da Lógica Terminológica. As perguntas propostas ao sistema também precisam ser analisadas sintática e semanticamente de tal maneira a apresentarem a mesma forma correspondente às asserções estocadas na base. o analisador sintático e semântico implementado é capaz de gerar automaticamente algumas regras semânticas. Para a recuperação da informação, nós usamos um provador de teoremas híbrido do Cálculo dos Predicados que responde perguntas efetuando uma avaliação parcial delas a partir da base de conhecimentos. O provador de teoremas utiliza a semântica da Lógica Terminológica para guiar seu mecanismo de inferência. Os recursos da subsunção da Lógica Terminológica são utilizados para simplificara base de conhecimentos e o traço de prova / Abstract: We present a system to analyse a set of assertions, to introduce the analysed assertions into a knowledge base and to retrieve informationfrom it. These assertions are requirements specified by the system engineer. They correspond to a particular type of sentences in Natural Language referring to Space Science context. The assertions are stored in the Knowledge Base as formulae of Predicate Calculus whose variables are annotated by concepts of TerminologicalLogic. The queries posed to the system must also be analysed in such a way as to get a form similar to that presented by the stored assertions. For information retrieval, we use a hybrid Theorem Prover of Predicate Calculus that answers questions by partially evaluating the query from the knowledge base. The Theorem Prover utilizes the semantics of TerminologicalLogic to guide its inference engme / Doutorado / Doutor em Engenharia Elétrica

Page generated in 0.2051 seconds