Global ETD Search

111	Semantic enrichment of American English corpora through automatic semantic annotation based on top-level ontologies using the CRF clas- sification model / Enriquecimento semântico de corpora do Inglês americano através de anotação semântica automática baseada em ontologias de nível topo uti- lizando o modelo de classificação CRF Andrade, Guidson Coelho de 26 April 2018 (has links) Submitted by MARCOS LEANDRO TEIXEIRA DE OLIVEIRA (marcosteixeira@ufv.br) on 2018-09-05T12:51:49Z No. of bitstreams: 1 texto completo.pdf: 1357733 bytes, checksum: 0b0fc46e7358bfaa6996ea4bcbd760d0 (MD5) / Made available in DSpace on 2018-09-05T12:51:49Z (GMT). No. of bitstreams: 1 texto completo.pdf: 1357733 bytes, checksum: 0b0fc46e7358bfaa6996ea4bcbd760d0 (MD5) Previous issue date: 2018-04-26 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / O significado de bases de dados textuais é de fácil percepção para as pessoas, mas de difícil interpretação por parte dos computadores. Para que as máquinas possam compreender a semântica associada aos textos e não somente a sintaxe, é necessário a adição de informações extras a esses corpora. A anotação semântica é a tarefa que incorpora essas informações por meio da adição de metadados aos itens lex- icais. Essas informações podem ser conceitos ontológicos que ajudam a definir a natureza da palavra a fim de atribuir-lhe algum significado. No entanto, anotar textos segundo uma determinada ontologia ainda é uma tarefa que demanda tempo e esforço de anotadores treinados para esse fim. Outra abordagem a ser consid- erada é o desenvolvimento de ferramentas de anotação semântica automática que utilizem técnicas de aprendizado de máquina para classificar os termos anotados. Essa abordagem demanda uma base de dados para treinamento dos algoritmos que nesse caso são corpora pré-anotados segundo a dimensão semântica a ser explorada. Entretanto, essa linhagem metodológica dispõe de recursos limitados para suprir as necessidades dos métodos de aprendizado. Existe uma grande carência de corpora anotados semanticamente e, particularmente, uma ausência ainda maior de corpora ontologicamente anotados, dificultando o avanço da área de anotação semântica au- tomática. O objetivo do presente trabalho é auxiliar no enriquecimento semântico de textos do Inglês americano, anotando-os de forma automática baseando-se em ontologia de nível topo através do modelo de aprendizagem supervisionada Condi- tional Random Fields (CRF). Após a seleção do Open American National Corpus como base de dados linguística e da Schema.org como ontologia, o trabalho teve sua estrutura dividida em duas etapas. Primeiramente, o corpus pré-processado e corrigido foi submetido a uma anotação híbrida, com um anotador baseado em re- gras e, posteriormente, uma anotação complementar manual. Ambas as tarefas de anotação foram dirigidas pelos conceitos e definições das oito classes provenientes do nível topo da ontologia selecionada. De posse do corpus anotado ontologicamente, iniciou-se o processo de anotação automática via uso do método de aprendizagem CRF. O modelo de predição levou em consideração as características linguísticas e estruturais dos termos para classificá-los sob os oito tipos ontológicos. Os resulta- dos obtidos durante a avaliação do modelo foram muito satisfatórios e atingiram o objetivo da pesquisa. O trabalho, embora seja uma nova abordagem de anotação semântica e com pouca margem de comparação, apresentou resultados promissores para o avanço da pesquisa na área de enriquecimento semântico automático baseado em ontologias de nível topo. / Textual databases carry with them human-perceived meanings, but those meanings are difficult to be interpreted by computers. In order for the machines to understand the semantics attached to texts, and not only their syntax, it is necessary to add extra information to these corpora. Semantic annotation is the task of incorporat- ing this information by adding metadata to lexical items. This information can be ontological concepts that help define the nature of the word in order to give it some meaning. However, annotating texts according to an ontology is still a task that requires time and effort from annotators trained for this purpose. Another approach to be considered is the use of automatic semantic annotation tools that use machine learning techniques to classify annotated terms. This approach demands a database for training the algorithms that in this case are corpora pre-annotated according to the semantic dimension to be explored. However, this methodological lineage has limited resources to meet the needs of learning methods. There is a large lack of semantically annotated corpora and an even larger absence of ontologically anno- tated corpora, hindering the advance of the area of automatic semantic annotation. The purpose of the present work is to assist in the semantic enrichment of Amer- ican English texts by automatically annotating them based on top-level ontology through the Conditional Random Fields (CRF) supervised learning model. After the selection of the Open American National Corpus as a linguistic database and Schema.org as an ontology, the work had its structure divided into two stages. First, the pre-processed and corrected corpus was submitted to a hybrid annotation, with a rule-based annotator, and later manually. Both annotation tasks were driven by the concepts and definitions of the eight classes from the top-level of the selected ontology. Once the corpus was written ontologically, the automatic annotation pro- cess was started using the CRF learning method. The prediction model took into account the linguistic and structural features of the terms to classify them under the eight ontological types. The results obtained during the evaluation of the model were very satisfactory and reached the objective of the research. The work, although it is a new approach of semantic annotation and with little margin of comparison, presented promising results for the advance of the research in the area of automatic semantic enrichment based on top-level ontologies. Banco de dados Semântica Ontologia Computação semântica Ciência da Computação
112	SABIO : abordagem conexionista supervisionada para sumarização automatica de textos / SABIO : supervised connectionist approach to automatic text summarization Orru, Telvio 26 August 2005 (has links) Orientadores: Marcio Luiz de Andrade Netto, João Luis Garcia Rosa / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-05T07:45:24Z (GMT). No. of bitstreams: 1 Orru_Telvio_M.pdf: 2398157 bytes, checksum: c5119e1b22c57334ce4532605c1b38b2 (MD5) Previous issue date: 2005 / Resumo: Propõe-se, neste projeto, a criação de uma ferramenta computacional para geração de novos sumários a partir de novos textos-fonte, por meio do uso de abordagem conexionista (Redes Neurais Artificiais). Dentre as contribuições que este trabalho pretende trazer à área de Processamento de Línguas Naturais, destaca-se a abordagem biologicamente mais plausível da arquitetura e do treinamento conexionistas para a sumarização automática. Utilizou-se esta abordagem para o treinamento da rede pois acredita-se que este tratamento poderá trazer ganhos em relação à eficiência computacional quando comparado aos modelos conexionistas considerados biologicamente implausíveis / Abstract: It is proposed here an implementation of a computational tool to generate new summaries from new source texts, by means of a connectionist approach {artificial neural networks). Among other contributions that this work intends to bring to natural language processing, it is highlighted the use of biologically more plausible connectionist architecture and training for automatic summarization. The choice relies on the expectation that it may bring an increase in computational efficiency when compared to the so-called biologically implausible algorithms / Mestrado / Engenharia de Computação / Mestre em Engenharia Elétrica Redes neurais (Computação) Artificial Neural Networks Natural language processing
113	Extração automatica de palavras-chave na lingua portuguesa aplicada a dissertações e teses da area das engenharias Dias, Maria Abadia Lacerda 28 October 2004 (has links) Orientador: Mauro Sergio Miskulin / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-06T11:14:40Z (GMT). No. of bitstreams: 1 Dias_MariaAbadiaLacerda_M.pdf: 1014055 bytes, checksum: 6be654aceec323e5ef0f99d61e79212d (MD5) Previous issue date: 2004 / Resumo: O objetivo desta dissertação é adaptar um algoritmo de extração automática de palavraschave para a língua portuguesa. Palavras-chave fornecem uma descrição adequada do conteúdo de um documento. Tal descrição facilita aos futuros leitores decidirem se o documento é ou não relevante para os mesmos. As palavras-chave têm também outras aplicações, já que estas resumem documentos de forma sucinta. Portanto podem ser usadas como uma medida eficiente de similaridade entre documentos, tornando possível organizá-los em grupos ao se medir a sobreposição entre as palavras-chave que estão associadas. Esta adaptação consiste na utilização de um algoritmo de radicalização de palavras na língua portuguesa, o qual foi aperfeiçoado neste estudo, e uma lista de stopwords da língua portuguesa, apresentada neste trabalho / Abstract: The goal of this dissertation is to adapt an automatic extraction algorithm of keywords for the Portuguese language. Keywords give an adequate description of a document's contents. Such description helps future readers to decide whether the document is relevant or not for them. The keywords have also other applications, because they summarize documents in a brief way. Therefore, they can be used as an efficient measure of similarity between documents, making possible to organize them in groups when measuring the overlap between the keywords they are associated to. This adaptation consists on the utilization of a stemming algorithm for words of the Portuguese language, which was improved in this study, and a list of stopwords of Portuguese language, also presented in this work / Mestrado / Eletrônica, Microeletrônica e Optoeletrônica / Mestre em Engenharia Elétrica Palavras-chave Recuperação da informação Algoritmos de computador Língua portuguesa - Morfologia
114	Um sistema hibrido para o processamento de linguagem natural e para a recuperação da informação Julia, Rita Maria da Silva 28 November 1995 (has links) Texto em portugues e frances / Orientadores: Marcio Luiz Andrade Netto, Mario Borillo, Antonio Eduardo Costa Pereira / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica ; Universite Paul Sabatier (Toulouse, França) / Made available in DSpace on 2018-07-21T08:46:59Z (GMT). No. of bitstreams: 1 Julia_RitaMariadaSilva_D.pdf: 11868009 bytes, checksum: cc3d2f8a19bfb5c925bab2824c3e9f84 (MD5) Previous issue date: 1995 / Resumo: Nós apresentamos um sistema que analisa sintática e semanticamente um conjunto de asserções, que introduz as asserções analisadas em uma base de conhecimentos e que recupera informações a partir desta base. As asserções correspondem a exigências que compõem um conjunto de especificações de programas. Elas correspondem a um tipo particular de frases em linguagem natural que se referem ao contexto das ciências espaciais. As asserções são estocadas na base de conhecimentos como fórmulas do Cálculo dos Predicados cujas variáveis são anotadas por conceitos da Lógica Terminológica. As perguntas propostas ao sistema também precisam ser analisadas sintática e semanticamente de tal maneira a apresentarem a mesma forma correspondente às asserções estocadas na base. o analisador sintático e semântico implementado é capaz de gerar automaticamente algumas regras semânticas. Para a recuperação da informação, nós usamos um provador de teoremas híbrido do Cálculo dos Predicados que responde perguntas efetuando uma avaliação parcial delas a partir da base de conhecimentos. O provador de teoremas utiliza a semântica da Lógica Terminológica para guiar seu mecanismo de inferência. Os recursos da subsunção da Lógica Terminológica são utilizados para simplificara base de conhecimentos e o traço de prova / Abstract: We present a system to analyse a set of assertions, to introduce the analysed assertions into a knowledge base and to retrieve informationfrom it. These assertions are requirements specified by the system engineer. They correspond to a particular type of sentences in Natural Language referring to Space Science context. The assertions are stored in the Knowledge Base as formulae of Predicate Calculus whose variables are annotated by concepts of TerminologicalLogic. The queries posed to the system must also be analysed in such a way as to get a form similar to that presented by the stored assertions. For information retrieval, we use a hybrid Theorem Prover of Predicate Calculus that answers questions by partially evaluating the query from the knowledge base. The Theorem Prover utilizes the semantics of TerminologicalLogic to guide its inference engme / Doutorado / Doutor em Engenharia Elétrica Inteligência artificial Teoria do conhecimento Lógica - Estudo e ensino Recuperação da informação
115	Um sistema hibrido simbolico-conexionista para o processamento de papeis tematicos Rosa, João Luis Garcia 24 July 2018 (has links) Orientadores: Edson Françozo, Marcio Luiz de Andrade Netto / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem / Made available in DSpace on 2018-07-24T23:13:19Z (GMT). No. of bitstreams: 1 Rosa_JoaoLuisGarcia_D.pdf: 23647013 bytes, checksum: 69242fa79872f85fd23c8faea407a338 (MD5) Previous issue date: 1999 / Resumo: Em Lingüística, as relações semânticas entre palavras em uma sentença são consideradas, entre outras coisas, através da atribuição de papéis temáticos, por exemplo, AGENTE, INSTRUMENTO etc. Como na lógica de predicados, expressões lingüísticas simples são decompostas em um predicado (freqüentemente o verbo) e seus argumentos. O predicado atribui papéis temáticos aos argumentos, tal que cada sentença tem uma grade temática, uma estrutura com todos os papéis temáticos atribuídos pelo predicado. Com a finalidade de revelar a grade temática de uma sentença semanticamente bem formada, um sistema chamado HTRP (Hybrid Thematic Role Processor - Processador de Papéis Temáticos Híbrido) é proposto, no qual a arquitetura conexionista tem, como entrada, uma representação distribuída das palavras de uma sentença, e como saída, sua grade temática. Duas versões do sistema são propostas: uma versão com pesos de conexão iniciais aleatórios - RIW (random initial weight version) e uma versão com pesos de conexão iniciais polarizados - BIW (biased initial weight version) para considerar sistemas sem e com conhecimento inicial, respectivamente.Na BIW, os pesos de conexão iniciais refletem regras simbólicas para os papéis temáticos. Para ambas as versões, depois do treinamento supervisionado, um conjunto de regras simbólicas finais é extraído, que é consistentemente correlacionado com o conhecimento lingüístico - simbólico. No caso da BIW, isto corresponde a uma revisão das regras iniciais. Na RIW as regras simbólicas parecem ser induzidas da arquitetura conexionista e do treinamento. O sistema HTRP aprende a reconhecer a grade temática correta para sentenças semanticamente bem formadas do português. Além disso, este sistema possibilita considerações a respeito dos aspectos cognitivos do processamento lingüístico, através das regras simbólicas introduzidas (na BIW) e extraídas (de ambas as versões) / Abstract: In Linguistics, the semantic relations between words in a sentence are accounted for, inter alia, as the assignment of thematic roles, e.g. AGENT, INSTRUMENT, etc. As in predicate logic, simple linguistic expressions are decomposed into one predicate (often the verb) and its arguments. The predicate assigns thematic roles to the arguments, so that each sentence has a thematic grid, a strocture with all thematic roles assigned by the predicate. In order to reveal the thematic grid of a semantically sound sentence, a system called HTRP (Hybrid Thematic Role Processor) is proposed, in which the connectionist architecture has, as input, a distributed representation of the words of a sentence, and, as output, its thematic grid. Both a random initial weight version (RIW) and a biased initial weight version (BIW) are proposed to account for systems without and with initial knowledge, respectively. In BIW, initial connection weights reflect symbolic roles for thematic roles. For both versions, after supervised training, a set of final symbolic roles is extracted, which is consistently correlated to linguistic - symbolic - knowledge. In the case of BIW, this amounts to a revision of the initial roles. In RIW, symbolic roles seem to be induced from the connectionist architecture and training. HTRP system leams how to recognize the correct thematic grid for semantically well-formed Portuguese sentences. Besides this, it leads us to take into account cognitive aspects of the linguistic processing, through the introduced (in RIW) and extracted (from both versions) symbolic roles / Doutorado / Doutor em Linguística Redes neurais (Computação) Inteligência artificial Natural language processing Neural Networks Artificial intelligence
116	[en] A TOKEN CLASSIFICATION APPROACH TO DEPENDENCY PARSING / [pt] UMA ABORDAGEM POR CLASSIFICAÇÃO TOKEN-A-TOKEN PARA O PARSING DE DEPENDÊNCIA CARLOS EDUARDO MEGER CRESTANA 13 October 2010 (has links) [pt] Uma das tarefas mais importantes em Processamento de Linguagem Natural é a análise sintática, onde a estrutura de uma sentença é determinada de acordo com uma dada gramática, informando o significado de uma sentença a partir do significado das palavras nela contidas. A Análise Sintática baseada em Gramáticas de Dependência consiste em identificar para cada palavra a outra palavra na sentença que a governa. Assim, a saída de um analisador sintático de dependência é uma árvore onde os nós são as palavras da sentença. Esta estrutura simples, mas rica, é utilizada em uma grande variedade de aplicações, entre elas Sistemas de Pergunta-Resposta, Tradução Automática, Extração de Informação, e Identificação de Papéis Semânticos. Os sistemas estado-da-arte em análise sintática de dependência utilizam modelos baseados em transições ou modelos baseados em grafos. Essa dissertação apresenta uma abordagem por classificação tokena- token para a análise sintática de dependência ao criar um conjunto especial de classes que permitem a correta identificação de uma palavra na sentença. Usando esse conjunto de classes, qualquer algoritmo de classificação pode ser treinado para identificar corretamente a palavra governante de cada palavra na sentença. Além disso, este conjunto de classes permite tratar igualmente relações de dependência projetivas e não-projetivas, evitando abordagens pseudo-projetivas. Para avaliar a sua eficácia, aplicamos o algoritmo Entropy Guided Transformation Learning aos corpora disponibilizados publicamente na tarefa proposta durante a CoNLL 2006. Esses experimentos foram realizados em três corpora de diferentes idiomas: dinamarquês, holandês e português. Para avaliação de desempenho foi utilizada a métrica de Unlabeled Attachment Score. Nossos resultados mostram que os modelos gerados atingem resultados acima da média dos sistemas do CoNLL. Ainda, nossos resultados indicam que a abordagem por classificação token-a-token é uma abordagem promissora para o problema de análise sintática de dependência. / [en] One of the most important tasks in Natural Language Processing is syntactic parsing, where the structure of a sentence is inferred according to a given grammar. Syntactic parsing, thus, tells us how to determine the meaning of the sentence fromthemeaning of the words in it. Syntactic parsing based on dependency grammars is called dependency parsing. The Dependency-based syntactic parsing task consists in identifying a head word for each word in an input sentence. Hence, its output is a rooted tree, where the nodes are the words in the sentence. This simple, yet powerful, structure is used in a great variety of applications, like Question Answering,Machine Translation, Information Extraction and Semantic Role Labeling. State-of-the-art dependency parsing systems use transition-based or graph-based models. This dissertation presents a token classification approach to dependency parsing, by creating a special tagging set that helps to correctly find the head of a token. Using this tagging style, any classification algorithm can be trained to identify the syntactic head of each word in a sentence. In addition, this classification model treats projective and non-projective dependency graphs equally, avoiding pseudo-projective approaches. To evaluate its effectiveness, we apply the Entropy Guided Transformation Learning algorithm to the publicly available corpora from the CoNLL 2006 Shared Task. These computational experiments are performed on three corpora in different languages, namely: Danish, Dutch and Portuguese. We use the Unlabelled Attachment Score as the accuracy metric. Our results show that the generated models are above the average CoNLL system performance. Additionally, these findings also indicate that the token classification approach is a promising one. [pt] APRENDIZAGEM [en] LEARNING [pt] PROCESSAMENTO DA LINGUAGEM NATURAL [en] NATURAL LANGUAGE PROCESSING [pt] CLASSIFICACAO TOKEN-A-TOKEN
117	Extração de informações de narrativas clínicas / Clinical reports information retrieval Michel Oleynik 02 October 2013 (has links) Narrativas clínicas são normalmente escritas em linguagem natural devido a seu poder descritivo e facilidade de comunicação entre os especialistas. Processar esses dados para fins de descoberta de conhecimento e coleta de estatísticas exige técnicas de extração de informações, com alguns resultados já apresentados na literatura para o domínio jornalístico, mas ainda raras no domínio médico. O presente trabalho visa desenvolver um classificador de laudos de anatomia patológica que seja capaz de inferir a topografia e a morfologia de um câncer na Classificação Internacional de Doenças para Oncologia (CID-O). Dados fornecidos pelo A.C. Camargo Cancer Center em São Paulo foram utilizados para treinamento e validação. Técnicas de processamento de linguagem natural (PLN) aliadas a classificadores bayesianos foram exploradas na busca de qualidade da recuperação da informação, avaliada por meio da medida-F2. Valores acima de 74% para o grupo topográfico e de 61% para o grupo morfológico são relatados, com pequena contribuição das técnicas de PLN e suavização. Os resultados corroboram trabalhos similares e demonstram a necessidade de retreinamento das ferramentas de PLN no domínio médico. / Clinical reports are usually written in natural language due to its descriptive power and ease of communication among specialists. Processing data for knowledge discovery and statistical analysis requires information retrieval techniques, already established for newswire texts, but still rare in the medical subdomain. The present work aims at developing an automated classifier of pathology reports, which should be able to infer the topography and the morphology classes of a cancer using codes of the International Classification of Diseases for Oncology (ICD-O). Data provided by the A.C. Camargo Cancer Center located in Sao Paulo was used for training and validation. Techniques of natural language processing (NLP) and Bayes classifiers were used in search for information retrieval quality, evaluated by F2-score. Measures upper than 74% in the topographic group and 61% in the morphologic group are reported, with small contribution from NLP or smoothing techniques. The results agree with similar studies and show that a retraining of NLP tools in the medical domain is necessary. classificação de texto laudos de anatomia patológica processamento de linguagem natural natural language processing pathology reports text classication
118	[en] ENTROPY GUIDED FEATURE GENERATION FOR STRUCTURE LEARNING / [pt] GERAÇÃO DE ATRIBUTOS GUIADA POR ENTROPIA PARA APRENDIZADO DE ESTRUTURAS 17 December 2014 (has links) [pt] Aprendizado de estruturas consiste em aprender um mapeamento de variáveis de entrada para saídas estruturadas a partir de exemplos de pares entrada-saída. Vários problemas importantes podem ser modelados desta maneira. O processamento de linguagem natural provê diversas tarefas que podem ser formuladas e solucionadas através do aprendizado de estruturas. Por exemplo, parsing de dependência envolve o reconhecimento de uma árvore implícita em uma frase. Geração de atributos é uma sub-tarefa importante do aprendizado de estruturas. Geralmente, esta sub-tarefa é realizada por um especialista que constrói gabaritos de atributos complexos e discriminativos através da combinação dos atributos básicos disponíveis na entrada. Esta é uma forma limitada e cara para geração de atributos e é reconhecida como um gargalo de modelagem. Neste trabalho, propomos um método automático para geração de atributos para problemas de aprendizado de estruturas. Este método é guiado por entropia já que é baseado na entropia condicional de variáveis locais de saída dados os atributos básicos. Comparamos experimentalmente o método proposto com dois métodos alternativos para geração de atributos: geração manual e métodos de kernel polinomial. Nossos resultados mostram que o método de geração de atributos guiado por entropia é superior aos dois métodos alternativos em diferentes aspectos. Nosso método é muito mais barato do que o método manual e computacionalmente mais rápido que o método baseado em kernel. Adicionalmente, ele permite o controle do seu poder de generalização mais facilmente do que métodos de kernel. Nós avaliamos nosso método em nove datasets envolvendo cinco tarefas de linguística computacional e quatro idiomas. Os sistemas desenvolvidos apresentam resultados comparáveis aos melhores sistemas atualmente e, particularmente para etiquetagem morfossintática, identificação de sintagmas, extração de citações e resolução de coreferência, obtêm os melhores resultados conhecidos para diferentes idiomas como Árabe, Chinês, Inglês e Português. Adicionalmente, nosso sistema de resolução de coreferência obteve o primeiro lugar na competição Conference on Computational Natural Language Learning 2012 Shared Task. O sistema vencedor foi determinado pela média de desempenho em três idiomas: Árabe, Chinês e Inglês. Nosso sistema obteve o melhor desempenho nos três idiomas avaliados. Nosso método de geração de atributos estende naturalmente o framework de aprendizado de estruturas e não está restrito a tarefas de processamento de linguagem natural. / [en] Structure learning consists in learning a mapping from inputs to structured outputs by means of a sample of correct input-output pairs. Many important problems fit into this setting. Natural language processing provides several tasks that can be formulated and solved as structure learning problems. Dependency parsing, for instance, involves the prediction of a tree underlying a sentence. Feature generation is an important subtask of structure learning which, usually, is partially solved by a domain expert that builds complex discriminative feature templates by conjoining the available basic features. This is a limited and expensive way to generate features and is recognized as a modeling bottleneck. In this work, we propose an automatic feature generation method for structure learning problems. This method is entropy guided since it generates complex features based on the conditional entropy of local output variables given the available input features. We experimentally compare the proposed method with two important alternative feature generation methods, namely manual template generation and polynomial kernel methods. Our experimental findings indicate that the proposed method is more attractive than both alternatives. It is much cheaper than manual templates and computationally faster than kernel methods. Additionally, it is simpler to control its generalization performance than with kernel methods. We evaluate our method on nine datasets involving five natural language processing tasks and four languages. The resulting systems present state-of-the-art comparable performances and, particularly on part-of-speech tagging, text chunking, quotation extraction and coreference resolution, remarkably achieve the best known performances on different languages like Arabic, Chinese, English, and Portuguese. Furthermore, our coreference resolution systems achieve the very first place on the Conference on Computational Natural Language Learning 2012 Shared Task. The competing systems were ranked by the mean score over three languages: Arabic, Chinese and English. Our approach obtained the best performances among all competitors for all the three languages. Our feature generation method naturally extends the general structure learning framework and is not restricted to natural language processing tasks. [pt] ENTROPIA [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [pt] GERACAO DE ATRIBUTOS [pt] APRENDIZADO DE ESTRUTURAS [en] ENTROPY [en] NATURAL LANGUAGE PROCESSING
119	Utilização do modelo skip-gram para representação distribuída de palavras no projeto Media Cloud Brasil Lopes, Evandro Dalbem 30 June 2015 (has links) Submitted by Evandro Lopes (dalbem.evandro@gmail.com) on 2016-04-04T03:14:32Z No. of bitstreams: 1 dissertacao_skip_gram.pdf: 1559216 bytes, checksum: c9487105e0e9341acd30f549c30d4dc9 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2016-07-19T19:55:35Z (GMT) No. of bitstreams: 1 dissertacao_skip_gram.pdf: 1559216 bytes, checksum: c9487105e0e9341acd30f549c30d4dc9 (MD5) / Approved for entry into archive by Marcia Bacha (marcia.bacha@fgv.br) on 2016-07-25T17:47:32Z (GMT) No. of bitstreams: 1 dissertacao_skip_gram.pdf: 1559216 bytes, checksum: c9487105e0e9341acd30f549c30d4dc9 (MD5) / Made available in DSpace on 2016-07-25T17:47:47Z (GMT). No. of bitstreams: 1 dissertacao_skip_gram.pdf: 1559216 bytes, checksum: c9487105e0e9341acd30f549c30d4dc9 (MD5) Previous issue date: 2015-06-30 / There is a representation problem when working with natural language processing because once the traditional model of bag-of-words represents the documents and words as single matrix, this one tends to be completely sparse. In order to deal with this problem, there are some methods capable of represent the words using a distributed representation, with a smaller dimension and more compact, including some properties that allow to relate words on the semantic form. The aim of this work is to use a dataset obtained by the Media Cloud Brasil project and apply the skip-gram model to explore relations and search for pattern that helps to understand the content. / Existe um problema de representação em processamento de linguagem natural, pois uma vez que o modelo tradicional de bag-of-words representa os documentos e as palavras em uma unica matriz, esta tende a ser completamente esparsa. Para lidar com este problema, surgiram alguns métodos que são capazes de representar as palavras utilizando uma representação distribuída, em um espaço de dimensão menor e mais compacto, inclusive tendo a propriedade de relacionar palavras de forma semântica. Este trabalho tem como objetivo utilizar um conjunto de documentos obtido através do projeto Media Cloud Brasil para aplicar o modelo skip-gram em busca de explorar relações e encontrar padrões que facilitem na compreensão do conteúdo. Natural Language Processing Media Cloud Brasil Neural Networks Skip-gram Processamento de Linguagem Natural Media Cloud Brasil Redes Neurais Matemática Media Cloud Brasil Redes neurais (Computação)
120	Aplicação do Word2vec e do Gradiente descendente dstocástico em tradução automática Aguiar, Eliane Martins de 30 May 2016 (has links) Submitted by Eliane Martins de Aguiar (elianemart@gmail.com) on 2016-08-01T21:03:09Z No. of bitstreams: 1 dissertacao-ElianeMartins.pdf: 6062037 bytes, checksum: 14567c2feca25a81d6942be3b8bc8a65 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2016-08-03T20:29:34Z (GMT) No. of bitstreams: 1 dissertacao-ElianeMartins.pdf: 6062037 bytes, checksum: 14567c2feca25a81d6942be3b8bc8a65 (MD5) / Approved for entry into archive by Maria Almeida (maria.socorro@fgv.br) on 2016-08-23T20:12:35Z (GMT) No. of bitstreams: 1 dissertacao-ElianeMartins.pdf: 6062037 bytes, checksum: 14567c2feca25a81d6942be3b8bc8a65 (MD5) / Made available in DSpace on 2016-08-23T20:12:54Z (GMT). No. of bitstreams: 1 dissertacao-ElianeMartins.pdf: 6062037 bytes, checksum: 14567c2feca25a81d6942be3b8bc8a65 (MD5) Previous issue date: 2016-05-30 / O word2vec é um sistema baseado em redes neurais que processa textos e representa pa- lavras como vetores, utilizando uma representação distribuída. Uma propriedade notável são as relações semânticas encontradas nos modelos gerados. Este trabalho tem como objetivo treinar dois modelos utilizando o word2vec, um para o Português e outro para o Inglês, e utilizar o gradiente descendente estocástico para encontrar uma matriz de tradução entre esses dois espaços. Natural language processing Neural networks Word2vec Continuos bag-of-words Stochastic gradient descent Machine translation Processamento de linguagem natural Redes neurais Gradiente descendente estocástico Tradução automática Matemática Redes neurais (Computação)

Search results