• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 291
  • 49
  • 6
  • 5
  • 5
  • 5
  • 4
  • 3
  • 3
  • 3
  • 3
  • 2
  • Tagged with
  • 348
  • 348
  • 281
  • 177
  • 151
  • 91
  • 62
  • 56
  • 55
  • 55
  • 52
  • 51
  • 50
  • 47
  • 47
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
181

SABIO : abordagem conexionista supervisionada para sumarização automatica de textos / SABIO : supervised connectionist approach to automatic text summarization

Orru, Telvio 26 August 2005 (has links)
Orientadores: Marcio Luiz de Andrade Netto, João Luis Garcia Rosa / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-05T07:45:24Z (GMT). No. of bitstreams: 1 Orru_Telvio_M.pdf: 2398157 bytes, checksum: c5119e1b22c57334ce4532605c1b38b2 (MD5) Previous issue date: 2005 / Resumo: Propõe-se, neste projeto, a criação de uma ferramenta computacional para geração de novos sumários a partir de novos textos-fonte, por meio do uso de abordagem conexionista (Redes Neurais Artificiais). Dentre as contribuições que este trabalho pretende trazer à área de Processamento de Línguas Naturais, destaca-se a abordagem biologicamente mais plausível da arquitetura e do treinamento conexionistas para a sumarização automática. Utilizou-se esta abordagem para o treinamento da rede pois acredita-se que este tratamento poderá trazer ganhos em relação à eficiência computacional quando comparado aos modelos conexionistas considerados biologicamente implausíveis / Abstract: It is proposed here an implementation of a computational tool to generate new summaries from new source texts, by means of a connectionist approach {artificial neural networks). Among other contributions that this work intends to bring to natural language processing, it is highlighted the use of biologically more plausible connectionist architecture and training for automatic summarization. The choice relies on the expectation that it may bring an increase in computational efficiency when compared to the so-called biologically implausible algorithms / Mestrado / Engenharia de Computação / Mestre em Engenharia Elétrica
182

Interações em aula de matematica para jovens e adultos / Interaction in mathematics class for young and adult

Valverde, Regina Maria Seco de Miranda 20 February 2006 (has links)
Orientador: Angela B. Kleiman / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem / Made available in DSpace on 2018-08-06T06:00:28Z (GMT). No. of bitstreams: 1 Valverde_ReginaMariaSecodeMiranda_M.pdf: 826979 bytes, checksum: 4b355cd2cc72ded8306f3b6007efa89a (MD5) Previous issue date: 2006 / Resumo: Este trabalho descreve a interação professor-aluno na aula de matemática para a educação de jovens e adultos. Com o intuito de compreender o contexto do ensino de matemática, partimos de uma perspectiva interdisciplinar, para investigar as relações entre a linguagem matemática e a linguagem natural e a importância da análise da interação para o ensino. Com base nas contribuições da sociolingüística interacional para os estudos da interação Gumperz (1972 & 1982), Goffman (1998) e Brown e Levinson (1995), analisamos pistas contextualizadoras diversas e suas funções na promoção de situações de aprendizagem. Verificamos a utilização de mecanismos verbais para a construção de conceitos matemáticos e apresentamos as relações entre o objetivo da aula e o tipo de interação estabelecida. A análise das situações observadas, em 2000, permitiu que se refletisse sobre o papel do professor na escolha de atividades significativas no processo de ensino e aprendizagem e a necessidade do estudo da interação em sala de aula na formação de professores de matemática / Abstract: This study describes teacher-student interaction in mathematics classes for young and adult education. In order to understand the teaching of mathematics, we investigate the relationship between mathematics language and natural language and show the importance of the analysis of interaction for teaching Mathematics. Based on the contribution of interactional sociolinguistics (GUMPERZ, 1972 & 1982; GOFFMAN,1998 e BROWN e LEVINSON,1995), we observe the verbal mechanisms utilized for the introduction of mathematical concepts and establish types of interaction observed. The analysis permits us to reflect on the role of the teacher in choosing significant activities to facilitate the learning processes / Mestrado / Lingua Materna / Mestre em Linguística Aplicada
183

Extração automatica de palavras-chave na lingua portuguesa aplicada a dissertações e teses da area das engenharias

Dias, Maria Abadia Lacerda 28 October 2004 (has links)
Orientador: Mauro Sergio Miskulin / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-06T11:14:40Z (GMT). No. of bitstreams: 1 Dias_MariaAbadiaLacerda_M.pdf: 1014055 bytes, checksum: 6be654aceec323e5ef0f99d61e79212d (MD5) Previous issue date: 2004 / Resumo: O objetivo desta dissertação é adaptar um algoritmo de extração automática de palavraschave para a língua portuguesa. Palavras-chave fornecem uma descrição adequada do conteúdo de um documento. Tal descrição facilita aos futuros leitores decidirem se o documento é ou não relevante para os mesmos. As palavras-chave têm também outras aplicações, já que estas resumem documentos de forma sucinta. Portanto podem ser usadas como uma medida eficiente de similaridade entre documentos, tornando possível organizá-los em grupos ao se medir a sobreposição entre as palavras-chave que estão associadas. Esta adaptação consiste na utilização de um algoritmo de radicalização de palavras na língua portuguesa, o qual foi aperfeiçoado neste estudo, e uma lista de stopwords da língua portuguesa, apresentada neste trabalho / Abstract: The goal of this dissertation is to adapt an automatic extraction algorithm of keywords for the Portuguese language. Keywords give an adequate description of a document's contents. Such description helps future readers to decide whether the document is relevant or not for them. The keywords have also other applications, because they summarize documents in a brief way. Therefore, they can be used as an efficient measure of similarity between documents, making possible to organize them in groups when measuring the overlap between the keywords they are associated to. This adaptation consists on the utilization of a stemming algorithm for words of the Portuguese language, which was improved in this study, and a list of stopwords of Portuguese language, also presented in this work / Mestrado / Eletrônica, Microeletrônica e Optoeletrônica / Mestre em Engenharia Elétrica
184

Um sistema hibrido para o processamento de linguagem natural e para a recuperação da informação

Julia, Rita Maria da Silva 28 November 1995 (has links)
Texto em portugues e frances / Orientadores: Marcio Luiz Andrade Netto, Mario Borillo, Antonio Eduardo Costa Pereira / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica ; Universite Paul Sabatier (Toulouse, França) / Made available in DSpace on 2018-07-21T08:46:59Z (GMT). No. of bitstreams: 1 Julia_RitaMariadaSilva_D.pdf: 11868009 bytes, checksum: cc3d2f8a19bfb5c925bab2824c3e9f84 (MD5) Previous issue date: 1995 / Resumo: Nós apresentamos um sistema que analisa sintática e semanticamente um conjunto de asserções, que introduz as asserções analisadas em uma base de conhecimentos e que recupera informações a partir desta base. As asserções correspondem a exigências que compõem um conjunto de especificações de programas. Elas correspondem a um tipo particular de frases em linguagem natural que se referem ao contexto das ciências espaciais. As asserções são estocadas na base de conhecimentos como fórmulas do Cálculo dos Predicados cujas variáveis são anotadas por conceitos da Lógica Terminológica. As perguntas propostas ao sistema também precisam ser analisadas sintática e semanticamente de tal maneira a apresentarem a mesma forma correspondente às asserções estocadas na base. o analisador sintático e semântico implementado é capaz de gerar automaticamente algumas regras semânticas. Para a recuperação da informação, nós usamos um provador de teoremas híbrido do Cálculo dos Predicados que responde perguntas efetuando uma avaliação parcial delas a partir da base de conhecimentos. O provador de teoremas utiliza a semântica da Lógica Terminológica para guiar seu mecanismo de inferência. Os recursos da subsunção da Lógica Terminológica são utilizados para simplificara base de conhecimentos e o traço de prova / Abstract: We present a system to analyse a set of assertions, to introduce the analysed assertions into a knowledge base and to retrieve informationfrom it. These assertions are requirements specified by the system engineer. They correspond to a particular type of sentences in Natural Language referring to Space Science context. The assertions are stored in the Knowledge Base as formulae of Predicate Calculus whose variables are annotated by concepts of TerminologicalLogic. The queries posed to the system must also be analysed in such a way as to get a form similar to that presented by the stored assertions. For information retrieval, we use a hybrid Theorem Prover of Predicate Calculus that answers questions by partially evaluating the query from the knowledge base. The Theorem Prover utilizes the semantics of TerminologicalLogic to guide its inference engme / Doutorado / Doutor em Engenharia Elétrica
185

Um sistema hibrido simbolico-conexionista para o processamento de papeis tematicos

Rosa, João Luis Garcia 24 July 2018 (has links)
Orientadores: Edson Françozo, Marcio Luiz de Andrade Netto / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem / Made available in DSpace on 2018-07-24T23:13:19Z (GMT). No. of bitstreams: 1 Rosa_JoaoLuisGarcia_D.pdf: 23647013 bytes, checksum: 69242fa79872f85fd23c8faea407a338 (MD5) Previous issue date: 1999 / Resumo: Em Lingüística, as relações semânticas entre palavras em uma sentença são consideradas, entre outras coisas, através da atribuição de papéis temáticos, por exemplo, AGENTE, INSTRUMENTO etc. Como na lógica de predicados, expressões lingüísticas simples são decompostas em um predicado (freqüentemente o verbo) e seus argumentos. O predicado atribui papéis temáticos aos argumentos, tal que cada sentença tem uma grade temática, uma estrutura com todos os papéis temáticos atribuídos pelo predicado. Com a finalidade de revelar a grade temática de uma sentença semanticamente bem formada, um sistema chamado HTRP (Hybrid Thematic Role Processor - Processador de Papéis Temáticos Híbrido) é proposto, no qual a arquitetura conexionista tem, como entrada, uma representação distribuída das palavras de uma sentença, e como saída, sua grade temática. Duas versões do sistema são propostas: uma versão com pesos de conexão iniciais aleatórios - RIW (random initial weight version) e uma versão com pesos de conexão iniciais polarizados - BIW (biased initial weight version) para considerar sistemas sem e com conhecimento inicial, respectivamente.Na BIW, os pesos de conexão iniciais refletem regras simbólicas para os papéis temáticos. Para ambas as versões, depois do treinamento supervisionado, um conjunto de regras simbólicas finais é extraído, que é consistentemente correlacionado com o conhecimento lingüístico - simbólico. No caso da BIW, isto corresponde a uma revisão das regras iniciais. Na RIW as regras simbólicas parecem ser induzidas da arquitetura conexionista e do treinamento. O sistema HTRP aprende a reconhecer a grade temática correta para sentenças semanticamente bem formadas do português. Além disso, este sistema possibilita considerações a respeito dos aspectos cognitivos do processamento lingüístico, através das regras simbólicas introduzidas (na BIW) e extraídas (de ambas as versões) / Abstract: In Linguistics, the semantic relations between words in a sentence are accounted for, inter alia, as the assignment of thematic roles, e.g. AGENT, INSTRUMENT, etc. As in predicate logic, simple linguistic expressions are decomposed into one predicate (often the verb) and its arguments. The predicate assigns thematic roles to the arguments, so that each sentence has a thematic grid, a strocture with all thematic roles assigned by the predicate. In order to reveal the thematic grid of a semantically sound sentence, a system called HTRP (Hybrid Thematic Role Processor) is proposed, in which the connectionist architecture has, as input, a distributed representation of the words of a sentence, and, as output, its thematic grid. Both a random initial weight version (RIW) and a biased initial weight version (BIW) are proposed to account for systems without and with initial knowledge, respectively. In BIW, initial connection weights reflect symbolic roles for thematic roles. For both versions, after supervised training, a set of final symbolic roles is extracted, which is consistently correlated to linguistic - symbolic - knowledge. In the case of BIW, this amounts to a revision of the initial roles. In RIW, symbolic roles seem to be induced from the connectionist architecture and training. HTRP system leams how to recognize the correct thematic grid for semantically well-formed Portuguese sentences. Besides this, it leads us to take into account cognitive aspects of the linguistic processing, through the introduced (in RIW) and extracted (from both versions) symbolic roles / Doutorado / Doutor em Linguística
186

[en] A TOKEN CLASSIFICATION APPROACH TO DEPENDENCY PARSING / [pt] UMA ABORDAGEM POR CLASSIFICAÇÃO TOKEN-A-TOKEN PARA O PARSING DE DEPENDÊNCIA

CARLOS EDUARDO MEGER CRESTANA 13 October 2010 (has links)
[pt] Uma das tarefas mais importantes em Processamento de Linguagem Natural é a análise sintática, onde a estrutura de uma sentença é determinada de acordo com uma dada gramática, informando o significado de uma sentença a partir do significado das palavras nela contidas. A Análise Sintática baseada em Gramáticas de Dependência consiste em identificar para cada palavra a outra palavra na sentença que a governa. Assim, a saída de um analisador sintático de dependência é uma árvore onde os nós são as palavras da sentença. Esta estrutura simples, mas rica, é utilizada em uma grande variedade de aplicações, entre elas Sistemas de Pergunta-Resposta, Tradução Automática, Extração de Informação, e Identificação de Papéis Semânticos. Os sistemas estado-da-arte em análise sintática de dependência utilizam modelos baseados em transições ou modelos baseados em grafos. Essa dissertação apresenta uma abordagem por classificação tokena- token para a análise sintática de dependência ao criar um conjunto especial de classes que permitem a correta identificação de uma palavra na sentença. Usando esse conjunto de classes, qualquer algoritmo de classificação pode ser treinado para identificar corretamente a palavra governante de cada palavra na sentença. Além disso, este conjunto de classes permite tratar igualmente relações de dependência projetivas e não-projetivas, evitando abordagens pseudo-projetivas. Para avaliar a sua eficácia, aplicamos o algoritmo Entropy Guided Transformation Learning aos corpora disponibilizados publicamente na tarefa proposta durante a CoNLL 2006. Esses experimentos foram realizados em três corpora de diferentes idiomas: dinamarquês, holandês e português. Para avaliação de desempenho foi utilizada a métrica de Unlabeled Attachment Score. Nossos resultados mostram que os modelos gerados atingem resultados acima da média dos sistemas do CoNLL. Ainda, nossos resultados indicam que a abordagem por classificação token-a-token é uma abordagem promissora para o problema de análise sintática de dependência. / [en] One of the most important tasks in Natural Language Processing is syntactic parsing, where the structure of a sentence is inferred according to a given grammar. Syntactic parsing, thus, tells us how to determine the meaning of the sentence fromthemeaning of the words in it. Syntactic parsing based on dependency grammars is called dependency parsing. The Dependency-based syntactic parsing task consists in identifying a head word for each word in an input sentence. Hence, its output is a rooted tree, where the nodes are the words in the sentence. This simple, yet powerful, structure is used in a great variety of applications, like Question Answering,Machine Translation, Information Extraction and Semantic Role Labeling. State-of-the-art dependency parsing systems use transition-based or graph-based models. This dissertation presents a token classification approach to dependency parsing, by creating a special tagging set that helps to correctly find the head of a token. Using this tagging style, any classification algorithm can be trained to identify the syntactic head of each word in a sentence. In addition, this classification model treats projective and non-projective dependency graphs equally, avoiding pseudo-projective approaches. To evaluate its effectiveness, we apply the Entropy Guided Transformation Learning algorithm to the publicly available corpora from the CoNLL 2006 Shared Task. These computational experiments are performed on three corpora in different languages, namely: Danish, Dutch and Portuguese. We use the Unlabelled Attachment Score as the accuracy metric. Our results show that the generated models are above the average CoNLL system performance. Additionally, these findings also indicate that the token classification approach is a promising one.
187

Model checking requirements written in a controlled natural language

BARZA, Sérgio 25 February 2016 (has links)
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-07-12T13:26:23Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) SergioBarzaDissertation.pdf: 2147656 bytes, checksum: 5c75fe2262be1d224538c1ad6a575ebb (MD5) / Made available in DSpace on 2017-07-12T13:26:23Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) SergioBarzaDissertation.pdf: 2147656 bytes, checksum: 5c75fe2262be1d224538c1ad6a575ebb (MD5) Previous issue date: 2016-02-25 / Software Maintainability (SM) has been studied since it became one of the key componentes of the software quality model accepted around the world. Such models support researchers and practitioners to evaluate the quality level of his systems. Therefore, many researchers have proposed a lot of metrics to be used as SM indicators. On the other hand, there is a suspicious that using SM metrics on industry is different from the academic context. In this case, practitioners do not adopt the metrics proposed/used by academia. Consequently, the goal of this research is to investigate the SM metrics adoption and applicability scenario on the Brazilian industrial context. This study will allow confirming if the practitioners use the SM metrics proposed by academics around the globe or if they propose their own metrics for SM measurement. As empirical method for data assessment, we used survey, divided in two steps. The first one was focused in gathering information that allowed us to design a specific scenario about the use and applicability of SM metrics. To achieve this goal, it was chosen, as research instrument, semi-structured interviews. The next step focused in a more general scenario, compassing the Brazillian software production industrial context. An online questionnaire was used as research instrument. Practitioners with different positions in several companies participated of this work. Data from requirements engineers, quality analysts, testers, developers and project managers were collected. 7 software companies participated in the first part of the study and 68 valid answers were collected on the second moment, resulting in 31 SM metrics listed. The results showed us that about 90% of the companies perform maintenance on their software products. However, only 60% confirms using maintainability metrics, resulting in a discrepancy regarding software maintenance vs SM metrics. Nearly half of the companies researched have used well-defined processes to collect these metrics. Nevertheless, there are those that do not have any formal methodology. Instead of it, they have used SM metrics that best fit to the needs of a specific project. The conclusions of this study point to an issue that is nothing new in the academic researchers around the world. Many of the academics results conducting, mainly, in the universities, are not coming to the software industries and this fact is also a truth when the subject is software maintenance. The results of this research may lead to discussions on how SM metrics are being proposals nowadays. / Manutenibilidade de Software (MS) é estudada desde que se tornou um dos componente de modelos de qualidade aceitos globalmente. Tais modelos auxiliam pesquisadores e profissionais do mercado na avaliação do nível de qualidade dos seus sistemas. Como consequência, muitos pesquisadores vêm propondo métricas que podem ser utilizadas como indicadores de MS. Por outro lado, existe uma suspeita que o uso de métricas de MS ocorre de maneira diferente da academia. Neste caso, as empresas não estão adotando as métricas que estão sendo propostas no ambiente acadêmico. O objetivo desta pesquisa é investigar o cenário de adoção e aplicação de métricas de manutenibilidade de software sob o contexto industrial brasileiro. Este estudo permitirá afirmar se estas empresas utilizam atributos de MS propostos por acadêmicos ao redor do mundo ou se elas propõem suas próprias métricas para medição de MS. Para ter acesso aos dados desta pesquisa, foi utilizado o método empírico survey, dividido em duas etapas. A primeira etapa objetivou levantar informações que permitissem um panorama mais específico sobre a utilização e aplicação de tais métricas. Para isto, foi escolhido, como instrumento de pesquisa, entrevistas semi-estruturadas. A segunda etapa apresenta um enfoque mais amplo, englobando todo o cenário industrial de produção de software brasileira. Um questionário online foi utilizado como instrumento de pesquisa. Profissionais de diferentes posições em várias empresas participaram desta pesquisa. Foram coletados dados de engenheiros de requisitos, analista de qualidade, testadores, desenvolvedores, gerente de projetos, entre outros. Sete empresas participaram da primeira etapa da pesquisa e 68 respostas válidas foram levantadas no segundo momento. Com isto, 31 métricas de MS foram identificadas. Os resultados mostram que cerca de 90% das empresas realizam manutenção em seus produtos de software. Porém somente 60% (aproximadamente) afirmaram fazer uso de métricas de MS, resultando em uma discrepância com relação à manutenção de software vs. uso de métricas. Quase metade das empresas possuem processos bem definidos para coletar estas métricas. Entretanto, muitas delas ainda não apresentam tais processos formais de coleta. Neste último caso, elas utilizam aqueles atributos que melhor se adaptam às necessidades de um projeto específico. As conclusões deste estudo apontam para problemas que não é novidade nas pesquisas acadêmicas ao redor do mundo. Pela amostra investigada neste trabalho, reforça-se a suspeita de que muitos dos resultados das pesquisas científicas realizadas nas universidades não estão chegando na indústria e este fato se reflete quando o assunto é manutenção de software. Os resultados deste estudo apresentam dados que poderão ocasionar discussões sobre a forma como as métricas de manutenibilidade são propostas atualmente.
188

Extração de informações de narrativas clínicas / Clinical reports information retrieval

Michel Oleynik 02 October 2013 (has links)
Narrativas clínicas são normalmente escritas em linguagem natural devido a seu poder descritivo e facilidade de comunicação entre os especialistas. Processar esses dados para fins de descoberta de conhecimento e coleta de estatísticas exige técnicas de extração de informações, com alguns resultados já apresentados na literatura para o domínio jornalístico, mas ainda raras no domínio médico. O presente trabalho visa desenvolver um classificador de laudos de anatomia patológica que seja capaz de inferir a topografia e a morfologia de um câncer na Classificação Internacional de Doenças para Oncologia (CID-O). Dados fornecidos pelo A.C. Camargo Cancer Center em São Paulo foram utilizados para treinamento e validação. Técnicas de processamento de linguagem natural (PLN) aliadas a classificadores bayesianos foram exploradas na busca de qualidade da recuperação da informação, avaliada por meio da medida-F2. Valores acima de 74% para o grupo topográfico e de 61% para o grupo morfológico são relatados, com pequena contribuição das técnicas de PLN e suavização. Os resultados corroboram trabalhos similares e demonstram a necessidade de retreinamento das ferramentas de PLN no domínio médico. / Clinical reports are usually written in natural language due to its descriptive power and ease of communication among specialists. Processing data for knowledge discovery and statistical analysis requires information retrieval techniques, already established for newswire texts, but still rare in the medical subdomain. The present work aims at developing an automated classifier of pathology reports, which should be able to infer the topography and the morphology classes of a cancer using codes of the International Classification of Diseases for Oncology (ICD-O). Data provided by the A.C. Camargo Cancer Center located in Sao Paulo was used for training and validation. Techniques of natural language processing (NLP) and Bayes classifiers were used in search for information retrieval quality, evaluated by F2-score. Measures upper than 74% in the topographic group and 61% in the morphologic group are reported, with small contribution from NLP or smoothing techniques. The results agree with similar studies and show that a retraining of NLP tools in the medical domain is necessary.
189

[en] ENTROPY GUIDED FEATURE GENERATION FOR STRUCTURE LEARNING / [pt] GERAÇÃO DE ATRIBUTOS GUIADA POR ENTROPIA PARA APRENDIZADO DE ESTRUTURAS

17 December 2014 (has links)
[pt] Aprendizado de estruturas consiste em aprender um mapeamento de variáveis de entrada para saídas estruturadas a partir de exemplos de pares entrada-saída. Vários problemas importantes podem ser modelados desta maneira. O processamento de linguagem natural provê diversas tarefas que podem ser formuladas e solucionadas através do aprendizado de estruturas. Por exemplo, parsing de dependência envolve o reconhecimento de uma árvore implícita em uma frase. Geração de atributos é uma sub-tarefa importante do aprendizado de estruturas. Geralmente, esta sub-tarefa é realizada por um especialista que constrói gabaritos de atributos complexos e discriminativos através da combinação dos atributos básicos disponíveis na entrada. Esta é uma forma limitada e cara para geração de atributos e é reconhecida como um gargalo de modelagem. Neste trabalho, propomos um método automático para geração de atributos para problemas de aprendizado de estruturas. Este método é guiado por entropia já que é baseado na entropia condicional de variáveis locais de saída dados os atributos básicos. Comparamos experimentalmente o método proposto com dois métodos alternativos para geração de atributos: geração manual e métodos de kernel polinomial. Nossos resultados mostram que o método de geração de atributos guiado por entropia é superior aos dois métodos alternativos em diferentes aspectos. Nosso método é muito mais barato do que o método manual e computacionalmente mais rápido que o método baseado em kernel. Adicionalmente, ele permite o controle do seu poder de generalização mais facilmente do que métodos de kernel. Nós avaliamos nosso método em nove datasets envolvendo cinco tarefas de linguística computacional e quatro idiomas. Os sistemas desenvolvidos apresentam resultados comparáveis aos melhores sistemas atualmente e, particularmente para etiquetagem morfossintática, identificação de sintagmas, extração de citações e resolução de coreferência, obtêm os melhores resultados conhecidos para diferentes idiomas como Árabe, Chinês, Inglês e Português. Adicionalmente, nosso sistema de resolução de coreferência obteve o primeiro lugar na competição Conference on Computational Natural Language Learning 2012 Shared Task. O sistema vencedor foi determinado pela média de desempenho em três idiomas: Árabe, Chinês e Inglês. Nosso sistema obteve o melhor desempenho nos três idiomas avaliados. Nosso método de geração de atributos estende naturalmente o framework de aprendizado de estruturas e não está restrito a tarefas de processamento de linguagem natural. / [en] Structure learning consists in learning a mapping from inputs to structured outputs by means of a sample of correct input-output pairs. Many important problems fit into this setting. Natural language processing provides several tasks that can be formulated and solved as structure learning problems. Dependency parsing, for instance, involves the prediction of a tree underlying a sentence. Feature generation is an important subtask of structure learning which, usually, is partially solved by a domain expert that builds complex discriminative feature templates by conjoining the available basic features. This is a limited and expensive way to generate features and is recognized as a modeling bottleneck. In this work, we propose an automatic feature generation method for structure learning problems. This method is entropy guided since it generates complex features based on the conditional entropy of local output variables given the available input features. We experimentally compare the proposed method with two important alternative feature generation methods, namely manual template generation and polynomial kernel methods. Our experimental findings indicate that the proposed method is more attractive than both alternatives. It is much cheaper than manual templates and computationally faster than kernel methods. Additionally, it is simpler to control its generalization performance than with kernel methods. We evaluate our method on nine datasets involving five natural language processing tasks and four languages. The resulting systems present state-of-the-art comparable performances and, particularly on part-of-speech tagging, text chunking, quotation extraction and coreference resolution, remarkably achieve the best known performances on different languages like Arabic, Chinese, English, and Portuguese. Furthermore, our coreference resolution systems achieve the very first place on the Conference on Computational Natural Language Learning 2012 Shared Task. The competing systems were ranked by the mean score over three languages: Arabic, Chinese and English. Our approach obtained the best performances among all competitors for all the three languages. Our feature generation method naturally extends the general structure learning framework and is not restricted to natural language processing tasks.
190

[en] AUTOMATIC GENERATION OF BENCHMARKS FOR EVALUATING KEYWORD AND NATURAL LANGUAGE INTERFACES TO RDF DATASETS / [pt] GERAÇÃO AUTOMÁTICA DE BENCHMARKS PARA AVALIAR INTERFACES BASEADAS EM PALAVRAS-CHAVE E LINGUAGEM NATURAL PARA DATASETS RDF

ANGELO BATISTA NEVES JUNIOR 04 November 2022 (has links)
[pt] Os sistemas de busca textual fornecem aos usuários uma alternativa amigável para acessar datasets RDF (Resource Description Framework). A avaliação de desempenho de tais sistemas requer benchmarks adequados, consistindo de datasets RDF, consultas e respectivas respostas esperadas. No entanto, os benchmarks disponíveis geralmente possuem poucas consultas e respostas incompletas, principalmente porque são construídos manualmente com a ajuda de especialistas. A contribuição central desta tese é um método para construir benchmarks automaticamente, com um maior número de consultas e com respostas mais completas. O método proposto aplica-se tanto a consultas baseadas em palavras-chave quanto em linguagem natural e possui duas partes: geração de consultas e geração de respostas. A geração de consultas seleciona um conjunto de entidades relevantes, chamadas de indutores, e, para cada uma, heurísticas orientam o processo de extração de consultas relacionadas. A geração de respostas recebe as consultas produzidas no passo anterior e computa geradores de solução (SG), subgrafos do dataset original contendo diferentes respostas às consultas. Heurísticas também orientam a construção dos SGs evitando o desperdiço de recursos computacionais na geração de respostas irrelevantes. / [en] Text search systems provide users with a friendly alternative to access Resource Description Framework (RDF) datasets. The performance evaluation of such systems requires adequate benchmarks, consisting of RDF datasets, text queries, and respective expected answers. However, available benchmarks often have small sets of queries and incomplete sets of answers, mainly because they are manually constructed with the help of experts. The central contribution of this thesis is a method for building benchmarks automatically, with larger sets of queries and more complete answers. The proposed method works for both keyword and natural language queries and has two steps: query generation and answer generation. The query generation step selects a set of relevant entities, called inducers, and, for each one, heuristics guide the process of extracting related queries. The answer generation step takes the queries and computes solution generators (SG), subgraphs of the original dataset containing different answers to the queries. Heuristics also guide the construction of SGs, avoiding the waste of computational resources in generating irrelevant answers.

Page generated in 0.0258 seconds