Global ETD Search

1	Exploiting Lexical Regularities in Designing Natural Language Systems Katz, Boris, Levin, Beth 01 April 1988 (has links) This paper presents the lexical component of the START Question Answering system developed at the MIT Artificial Intelligence Laboratory. START is able to interpret correctly a wide range of semantic relationships associated with alternate expressions of the arguments of verbs. The design of the system takes advantage of the results of recent linguistic research into the structure of the lexicon, allowing START to attain a broader range of coverage than many existing systems. natural language processing lexicon verb classes squestion-answering diathesis alternations
2	As construções médias do português do Brasil sob a perspectiva teórica da morfologia distribuída / Middle constructions of the Brazilian Portuguese under the theoretical view of the distributed morfology Pacheco, Juliana da Costa 01 July 2008 (has links) O propósito deste estudo é descrever e analisar o comportamento de sentenças médias no português do Brasil (PB), tais como Dissertação de mestrado não se escreve fácil e Cachecol tricota rápido. Muito têm-se discutido a respeito das construções médias, em diversas línguas, visto que elas agregam em si uma complexa relação entre a sintaxe, a semântica e, para alguns, o léxico. Foi a extensa bibliografia e a sempre presente discordância entre autores a respeito dessas construções que despertou nosso interesse em trabalhar com esse tema. Entretanto, descrever as construções médias do português Brasileiro revelou-se uma tarefa das mais árduas. Explica-se: há dois fatores de grande importância para a descrição dessas sentenças que estão em aparente mudança nesse idioma. O primeiro desses fenômenos é a mudança no uso dos clíticos que, de modo geral, está diminuindo em nossa língua (Tarallo (1983), Nunes (1990, 1995), Cyrino (1992, 2003), Fernandes (2000). O segundo fenômeno é o fato de o português do Brasil estar passando por um processo generalizado de mudança na classe dos verbos de alternância transitiva, já apontado na literatura (Whitaker-Franchi (1989), Chagas (2000), Viotti & Negrão (2006)). Tendo como perspectiva teórica a Morfologia Distribuída, um dos recentes desenvolvimentos da Gramática Gerativa, acreditamos poder dar um tratamento unicamente sintático, mais enxuto e uniforme do que as propostas de análise até hoje sugeridas. Fundamentando-nos no trabalho de Marantz (1997), no qual o autor propõe que uma interpretação agentiva de um determinado sintagma pode ser devida, não somente à presença de um núcleo verbal, mas também a informações sintático-semânticas da própria raiz participante da construção. além de baseando-nos na combinação das características sintático-semânticas das raízes envolvidas na construção. Também, Alexiadou, Anagnostopoulou e Schäfer (2005) hipotetizam, seguindo Kratzer (2002), em favor de decompor os verbos alternantes em uma raiz, um núcleo de causa e um núcleo de voz. Os dados do PB, vistos pela perspectiva da Morfologia Distribuída, nos permitirão ir adiante nas pesquisas sobre o tema específico que desenvolveremos neste trabalho e, ao mesmo tempo, trarão novas evidências e questionamentos a respeito da teoria que apóia este projeto / The purpose of this study is to describe and analyse the Middle Construction in Brazilian Portuguese, such as Dissertação de mestrado não escreve fácil and Cachecol tricota rápido. Linguists, working with data form several languages, have discussed extensively about these constructions, because they aggregate in them a complex relationship between syntax, semantics and, in some analysis, the lexicon. It was the comprehensive bibliography and the presence of great discrepancy between authors - about these constructions that awakened our interest in working with this theme. However, describing these constructions in Brazilian Portuguese proved to be one of the most arduous task, since there are two factors of great importance to the description of those sentences that are in apparent change in our language. The first of these phenomena is the change in the use of clitics, which, in general, is decreasing in Brazilian Portuguese (Tarallo (1983), Nunes (1990, 1995), Cyrino (1992, 2003), Fernandes (2000)). The second phenomenon is the fact that this language is going through a process of widespread change in the class of alternating transitive verbs, already identified in the literature (Whitaker-Franchi (1989), Chagas (2000), Viotti & Pollini (2006)). Having as theoretical framework a theory of the architecture of grammar known as Distributed Morphology, one of the recent developments of Generative Grammar (Chomsky, 1960, 1965), we believe we can offer a syntactic treatment, more economical and more uniform than the proposals of analysis suggested so far. Our analysis is fundamented in the proposal from Marantz (1997), who argues that an agentive interpretation for a given phrase may be due, not only to the syntactic presence of a verbal head, but also to the presence of relevant syntactic-semantic features of the root. Also, Alexiadou, Anagnostopoulou and Schäfer (2005) hypothesizes, along with Kratzer (2000), in favor of decomposing verbal meaning in a root, a causation head and a Voice head. The data coming from Brazilian Portuguese middle constructions, seen by the perspective of Distributed Morphology, can help the research on this specific topic to develop and, at the same time, bring new evidence and questioning about the theory that supports this project Alternâncias de diátese Argument structure Construções médias Diathesis alternations Distributed morphology Estrutura argumental Generative grammar Gramática gerativa Middle constructions Morfologia distribuída
3	As construções médias do português do Brasil sob a perspectiva teórica da morfologia distribuída / Middle constructions of the Brazilian Portuguese under the theoretical view of the distributed morfology Juliana da Costa Pacheco 01 July 2008 (has links) O propósito deste estudo é descrever e analisar o comportamento de sentenças médias no português do Brasil (PB), tais como Dissertação de mestrado não se escreve fácil e Cachecol tricota rápido. Muito têm-se discutido a respeito das construções médias, em diversas línguas, visto que elas agregam em si uma complexa relação entre a sintaxe, a semântica e, para alguns, o léxico. Foi a extensa bibliografia e a sempre presente discordância entre autores a respeito dessas construções que despertou nosso interesse em trabalhar com esse tema. Entretanto, descrever as construções médias do português Brasileiro revelou-se uma tarefa das mais árduas. Explica-se: há dois fatores de grande importância para a descrição dessas sentenças que estão em aparente mudança nesse idioma. O primeiro desses fenômenos é a mudança no uso dos clíticos que, de modo geral, está diminuindo em nossa língua (Tarallo (1983), Nunes (1990, 1995), Cyrino (1992, 2003), Fernandes (2000). O segundo fenômeno é o fato de o português do Brasil estar passando por um processo generalizado de mudança na classe dos verbos de alternância transitiva, já apontado na literatura (Whitaker-Franchi (1989), Chagas (2000), Viotti & Negrão (2006)). Tendo como perspectiva teórica a Morfologia Distribuída, um dos recentes desenvolvimentos da Gramática Gerativa, acreditamos poder dar um tratamento unicamente sintático, mais enxuto e uniforme do que as propostas de análise até hoje sugeridas. Fundamentando-nos no trabalho de Marantz (1997), no qual o autor propõe que uma interpretação agentiva de um determinado sintagma pode ser devida, não somente à presença de um núcleo verbal, mas também a informações sintático-semânticas da própria raiz participante da construção. além de baseando-nos na combinação das características sintático-semânticas das raízes envolvidas na construção. Também, Alexiadou, Anagnostopoulou e Schäfer (2005) hipotetizam, seguindo Kratzer (2002), em favor de decompor os verbos alternantes em uma raiz, um núcleo de causa e um núcleo de voz. Os dados do PB, vistos pela perspectiva da Morfologia Distribuída, nos permitirão ir adiante nas pesquisas sobre o tema específico que desenvolveremos neste trabalho e, ao mesmo tempo, trarão novas evidências e questionamentos a respeito da teoria que apóia este projeto / The purpose of this study is to describe and analyse the Middle Construction in Brazilian Portuguese, such as Dissertação de mestrado não escreve fácil and Cachecol tricota rápido. Linguists, working with data form several languages, have discussed extensively about these constructions, because they aggregate in them a complex relationship between syntax, semantics and, in some analysis, the lexicon. It was the comprehensive bibliography and the presence of great discrepancy between authors - about these constructions that awakened our interest in working with this theme. However, describing these constructions in Brazilian Portuguese proved to be one of the most arduous task, since there are two factors of great importance to the description of those sentences that are in apparent change in our language. The first of these phenomena is the change in the use of clitics, which, in general, is decreasing in Brazilian Portuguese (Tarallo (1983), Nunes (1990, 1995), Cyrino (1992, 2003), Fernandes (2000)). The second phenomenon is the fact that this language is going through a process of widespread change in the class of alternating transitive verbs, already identified in the literature (Whitaker-Franchi (1989), Chagas (2000), Viotti & Pollini (2006)). Having as theoretical framework a theory of the architecture of grammar known as Distributed Morphology, one of the recent developments of Generative Grammar (Chomsky, 1960, 1965), we believe we can offer a syntactic treatment, more economical and more uniform than the proposals of analysis suggested so far. Our analysis is fundamented in the proposal from Marantz (1997), who argues that an agentive interpretation for a given phrase may be due, not only to the syntactic presence of a verbal head, but also to the presence of relevant syntactic-semantic features of the root. Also, Alexiadou, Anagnostopoulou and Schäfer (2005) hypothesizes, along with Kratzer (2000), in favor of decomposing verbal meaning in a root, a causation head and a Voice head. The data coming from Brazilian Portuguese middle constructions, seen by the perspective of Distributed Morphology, can help the research on this specific topic to develop and, at the same time, bring new evidence and questioning about the theory that supports this project Alternâncias de diátese Construções médias Estrutura argumental Gramática gerativa Morfologia distribuída Argument structure Diathesis alternations Distributed morphology Generative grammar Middle constructions
4	VerbNet.Br: construção semiautomática de um léxico verbal online e independente de domínio para o português do Brasil / VerbNet.BR: the semi-automatic construction of an on-line and domain-independent Verb Lexicon for Brazilian Portuguese Scarton, Carolina Evaristo 28 January 2013 (has links) A criação de recursos linguístico-computacionais de base, como é o caso dos léxicos computacionais, é um dos focos da área de Processamento de Línguas Naturais (PLN). Porém, a maioria dos recursos léxicos computacionais existentes é específica da língua inglesa. Dentre os recursos já desenvolvidos para a língua inglesa, tem-se a VerbNet, que é um léxico com informações semânticas e sintáticas dos verbos do inglês, independente de domínio, construído com base nas classes verbais de Levin, além de possuir mapeamentos para a WordNet de Princeton (WordNet). Considerando que há poucos estudos computacionais sobre as classes de Levin, que é a base da VerbNet, para línguas diferentes do inglês, e dada a carência de um léxico para o português nos moldes da VerbNet do inglês, este trabalho teve como objetivo a criação de um recurso léxico para o português do Brasil (chamado VerbNet.Br), semelhante à VerbNet. A construção manual destes recursos geralmente é inviável devido ao tempo gasto e aos erros inseridos pelo autor humano. Portanto, há um grande esforço na área para a criação destes recursos apoiada por técnicas computacionais. Uma técnica reconhecida e bastante usada é o uso de aprendizado de máquina em córpus para extrair informação linguística. A outra é o uso de recursos já existentes para outras línguas, em geral o inglês, visando à construção de um novo recurso alinhado, aproveitando-se de atributos multilíngues/cross-linguísticos (cross-linguistic) (como é o caso da classificação verbal de Levin). O método proposto neste mestrado para a construção da VerbNet.Br é genérico, porque pode ser utilizado para a construção de recursos semelhantes para outras línguas, além do português do Brasil. Além disso, futuramente, será possível estender este recurso via criação de subclasses de conceitos. O método para criação da VerbNet.Br é fundamentado em quatro etapas: três automáticas e uma manual. Porém, também foram realizados experimentos sem o uso da etapa manual, constatando-se, com isso, que ela pode ser descartada sem afetar a precisão e abrangência dos resultados. A avaliação do recurso criado foi realizada de forma intrínseca qualitativa e quantitativa. A avaliação qualitativa consistiu: (a) da análise manual de algumas classes da VerbNet, criando um gold standard para o português do Brasil; (b) da comparação do gold standard criado com os resultados da VerbNet.Br, obtendo resultados promissores, por volta de 60% de f-measure; e (c) da comparação dos resultados da VerbNet.Br com resultados de agrupamento de verbos, concluindo que ambos os métodos apresentam resultados similares. A avaliação quantitativa considerou a taxa de aceitação dos membros das classes da VerbNet.Br, apresentando resultados na faixa de 90% de aceitação dos membros em cada classe. Uma das contribuições deste mestrado é a primeira versão da VerbNet.Br, que precisa de validação linguística, mas que já contém informação para ser utilizada em tarefas de PLN, com precisão e abrangência de 44% e 92,89%, respectivamente / Building computational-linguistic base resources, like computational lexical resources (CLR), is one of the goals of Natural Language Processing (NLP). However, most computational lexicons are specific to English. One of the resources already developed for English is the VerbNet, a lexicon with domain-independent semantic and syntactic information of English verbs. It is based on Levin\'s verb classification, with mappings to Princeton\'s WordNet (WordNet). Since only a few computational studies for languages other than English have been made about Levin\'s classification, and given the lack of a Portuguese CLR similar to VerbNet, the goal of this research was to create a CLR for Brazilian Portuguese (called VerbNet.Br). The manual building of these resources is usually unfeasible because it is time consuming and it can include many human-made errors. Therefore, great efforts have been made to build such resources with the aid of computational techniques. One of these techniques is machine learning, a widely known and used method for extracting linguistic information from corpora. Another one is the use of pre-existing resources for other languages, most commonly English, to support the building of new aligned resources, taking advantage of some multilingual/cross-linguistic features (like the ones in Levin\'s verb classification). The method proposed here for the creation of VerbNet.Br is generic, therefore it may be used to build similar resources for languages other than Brazilian Portuguese. Moreover, the proposed method also allows for a future extension of the resource via subclasses of concepts. The VerbNet.Br has a four-step method: three automatic and one manual. However, experiments were also carried out without the manual step, which can be discarded without affecting precision and recall. The evaluation of the resource was intrinsic, both qualitative and quantitative. The qualitative evaluation consisted in: (a) manual analysis of some VerbNet classes, resulting in a Brazilian Portuguese gold standard; (b) comparison of this gold standard with the VerbNet.Br results, presenting promising results (almost 60% of f-measure); and (c), comparison of the VerbNet.Br results to verb clustering results, showing that both methods achieved similar results. The quantitative evaluation considered the acceptance rate of candidate members of VerbNet.Br, showing results around 90% of acceptance. One of the contributions of this research is to present the first version of VerbNet.Br. Although it still requires linguistic validation, it already provides information to be used in NLP tasks, with precision and recall of 44% and 92.89%, respectively Alternâncias sintáticas Classes de Levin Computational lexical resources Diathesis alternations Levin verb classes Papéis temáticos Recursos léxicos computacionais Thematic roles VerbNet VerbNet VerbNet.Br VerbNet.Br WordNet WordNet.Br WordNet.Br WorldNet
5	VerbNet.Br: construção semiautomática de um léxico verbal online e independente de domínio para o português do Brasil / VerbNet.BR: the semi-automatic construction of an on-line and domain-independent Verb Lexicon for Brazilian Portuguese Carolina Evaristo Scarton 28 January 2013 (has links) A criação de recursos linguístico-computacionais de base, como é o caso dos léxicos computacionais, é um dos focos da área de Processamento de Línguas Naturais (PLN). Porém, a maioria dos recursos léxicos computacionais existentes é específica da língua inglesa. Dentre os recursos já desenvolvidos para a língua inglesa, tem-se a VerbNet, que é um léxico com informações semânticas e sintáticas dos verbos do inglês, independente de domínio, construído com base nas classes verbais de Levin, além de possuir mapeamentos para a WordNet de Princeton (WordNet). Considerando que há poucos estudos computacionais sobre as classes de Levin, que é a base da VerbNet, para línguas diferentes do inglês, e dada a carência de um léxico para o português nos moldes da VerbNet do inglês, este trabalho teve como objetivo a criação de um recurso léxico para o português do Brasil (chamado VerbNet.Br), semelhante à VerbNet. A construção manual destes recursos geralmente é inviável devido ao tempo gasto e aos erros inseridos pelo autor humano. Portanto, há um grande esforço na área para a criação destes recursos apoiada por técnicas computacionais. Uma técnica reconhecida e bastante usada é o uso de aprendizado de máquina em córpus para extrair informação linguística. A outra é o uso de recursos já existentes para outras línguas, em geral o inglês, visando à construção de um novo recurso alinhado, aproveitando-se de atributos multilíngues/cross-linguísticos (cross-linguistic) (como é o caso da classificação verbal de Levin). O método proposto neste mestrado para a construção da VerbNet.Br é genérico, porque pode ser utilizado para a construção de recursos semelhantes para outras línguas, além do português do Brasil. Além disso, futuramente, será possível estender este recurso via criação de subclasses de conceitos. O método para criação da VerbNet.Br é fundamentado em quatro etapas: três automáticas e uma manual. Porém, também foram realizados experimentos sem o uso da etapa manual, constatando-se, com isso, que ela pode ser descartada sem afetar a precisão e abrangência dos resultados. A avaliação do recurso criado foi realizada de forma intrínseca qualitativa e quantitativa. A avaliação qualitativa consistiu: (a) da análise manual de algumas classes da VerbNet, criando um gold standard para o português do Brasil; (b) da comparação do gold standard criado com os resultados da VerbNet.Br, obtendo resultados promissores, por volta de 60% de f-measure; e (c) da comparação dos resultados da VerbNet.Br com resultados de agrupamento de verbos, concluindo que ambos os métodos apresentam resultados similares. A avaliação quantitativa considerou a taxa de aceitação dos membros das classes da VerbNet.Br, apresentando resultados na faixa de 90% de aceitação dos membros em cada classe. Uma das contribuições deste mestrado é a primeira versão da VerbNet.Br, que precisa de validação linguística, mas que já contém informação para ser utilizada em tarefas de PLN, com precisão e abrangência de 44% e 92,89%, respectivamente / Building computational-linguistic base resources, like computational lexical resources (CLR), is one of the goals of Natural Language Processing (NLP). However, most computational lexicons are specific to English. One of the resources already developed for English is the VerbNet, a lexicon with domain-independent semantic and syntactic information of English verbs. It is based on Levin\'s verb classification, with mappings to Princeton\'s WordNet (WordNet). Since only a few computational studies for languages other than English have been made about Levin\'s classification, and given the lack of a Portuguese CLR similar to VerbNet, the goal of this research was to create a CLR for Brazilian Portuguese (called VerbNet.Br). The manual building of these resources is usually unfeasible because it is time consuming and it can include many human-made errors. Therefore, great efforts have been made to build such resources with the aid of computational techniques. One of these techniques is machine learning, a widely known and used method for extracting linguistic information from corpora. Another one is the use of pre-existing resources for other languages, most commonly English, to support the building of new aligned resources, taking advantage of some multilingual/cross-linguistic features (like the ones in Levin\'s verb classification). The method proposed here for the creation of VerbNet.Br is generic, therefore it may be used to build similar resources for languages other than Brazilian Portuguese. Moreover, the proposed method also allows for a future extension of the resource via subclasses of concepts. The VerbNet.Br has a four-step method: three automatic and one manual. However, experiments were also carried out without the manual step, which can be discarded without affecting precision and recall. The evaluation of the resource was intrinsic, both qualitative and quantitative. The qualitative evaluation consisted in: (a) manual analysis of some VerbNet classes, resulting in a Brazilian Portuguese gold standard; (b) comparison of this gold standard with the VerbNet.Br results, presenting promising results (almost 60% of f-measure); and (c), comparison of the VerbNet.Br results to verb clustering results, showing that both methods achieved similar results. The quantitative evaluation considered the acceptance rate of candidate members of VerbNet.Br, showing results around 90% of acceptance. One of the contributions of this research is to present the first version of VerbNet.Br. Although it still requires linguistic validation, it already provides information to be used in NLP tasks, with precision and recall of 44% and 92.89%, respectively Alternâncias sintáticas Classes de Levin Papéis temáticos Recursos léxicos computacionais VerbNet VerbNet.Br WordNet.Br WorldNet Computational lexical resources Diathesis alternations Levin verb classes Thematic roles VerbNet VerbNet.Br WordNet WordNet.Br

1

Page generated in 0.1073 seconds