Global ETD Search

1	A negação sentencial em textos dos séculos XVIII e XIX: estrutura inovadora em foco. Seixas, Vivian Canella January 2013 (has links) Programa de Pós-Graduação em Letras. Departamento de Letras, Instituto de Ciências Humanas e Sociais, Universidade Federal de Ouro Preto. / Submitted by Oliveira Flávia (flavia@sisbin.ufop.br) on 2014-12-05T19:32:11Z No. of bitstreams: 1 DISSERTAÇÃO_NegaçãoSentencialTextos.pdf: 1539653 bytes, checksum: f64bc8f595569fe9555eb2debc8e570e (MD5) / Approved for entry into archive by Gracilene Carvalho (gracilene@sisbin.ufop.br) on 2014-12-09T20:39:16Z (GMT) No. of bitstreams: 1 DISSERTAÇÃO_NegaçãoSentencialTextos.pdf: 1539653 bytes, checksum: f64bc8f595569fe9555eb2debc8e570e (MD5) / Made available in DSpace on 2014-12-09T20:39:16Z (GMT). No. of bitstreams: 1 DISSERTAÇÃO_NegaçãoSentencialTextos.pdf: 1539653 bytes, checksum: f64bc8f595569fe9555eb2debc8e570e (MD5) Previous issue date: 2013 / No quadro da negação sentencial no Português Brasileiro (PB), o presente trabalho buscou descrever e analisar as realizações das estruturas negativas sentenciais na Língua Portuguesa do Brasil (LPB) em textos de autores brasileiros dos séculos XVIII e XIX e, de uma forma mais específica, procurou caracterizar apenas a negativa [NãoVNão], tida como forma inovadora no PB atual. Foram utilizados dois corpora: i) correspondências privadas, obra literária e peça de teatro do século XVIII; e ii) correspondências privadas, correspondências publicadas em jornais e em editoriais de jornais, obras literárias e peças de teatro do século XIX. Quanto à implementação da estrutura [NãoVNão], buscou-se investigar o período em que esta construção aparece na escrita da LPB. Quanto à sua transição, buscou-se descrever o percurso no processo da mudança linguística: da estrutura [NãoV] para a [NãoVNão]. No que diz respeito à origem desta estrutura, esta investigação buscou testar as hipóteses de ordem semântico-pragmática propostas por Biberauer e Cyrino (2009) e por Schwenter (2005). Verificamos que a estrutura [NãoVNão] já estava presente na escrita na 1ª metade do século XVIII. Em algumas ocorrências desta estrutura, além do uso da vírgula para separar o segundo não da oração, havia, também, o ponto e vírgula. Com relação à transição da referida estrutura, propusemos uma hipótese, a saber, o uso do ponto e vírgula indica que havia uma pausa ainda maior do que a da vírgula separando o segundo não, quando da implementação desta estrutura. Esta hipótese descreve o percurso da mudança linguística em três etapas: 1) um primeiro momento em que o segundo não era separado da estrutura oracional por um ponto e vírgula; 2) no segundo momento, havia o uso da vírgula para separar o segundo não da estrutura oracional; e 3) por fim, houve a queda da vírgula. Os dados do presente trabalho corroboram esta hipótese. Quanto às restrições semântico-pragmáticas para a realização da estrutura [NãoVNão], as 32 ocorrências analisadas são marcadores de negação pressuposicional, o que corrobora hipótese proposta por Biberauer e Cyrino (2009). Verificamos, também, que algumas estruturas [NãoVNão] encontradas no corpus contradizem hipótese de Schwenter (2005), que prevê que toda [NãoVNão] nega uma informação dada no discurso, uma vez que foram encontradas estruturas [NãoVNão] que apresentam informação nova no contexto discursivo. De acordo com os resultados que os dados dos séculos XVIII e XIX nos mostraram, é possível que a estrutura [NãoVNão] tenha sido utilizada como uma estratégia de negação pressuposicional naquele período de tempo. ______________________________________________________________________________________________ / ABSTRACT: In the framework of sentential negation in Brazilian Portuguese (BP), this study aimed to analyze and to describe the occurrence of sentential negative structures in the Portuguese Language of Brazil (PLB), in texts of Brazilian authors of the 18th and 19th Centuries. In a more specific way, it focused on characterizing the negative [NãoVNão], taken as an innovative form in current PB. Two corpora were used: (i) private correspondences, one literary work and one theater play of the 18th Century; and (ii) private correspondences, correspondences published in newspapers and newspaper editorials, literary works and theater plays of the 19th Century. As for the implementation of the structure [NãoVNão], this study investigated the period in which it appears in the writing of PLB. Concerning to the [NãoVNão] transition, this study attempted to describe the course of the linguistic change process: from the structure [NãoV] to [NãoVNão]. Regarding to its origin, this research sought to test two semantic-pragmatic hypotheses: one presented by Biberauer and Cyrino (2009) and the other by Schwenter (2005). We found that the structure [NãoVNão] was already present in written language in the 18th Century first half. In some instances of this structure, in addition to the use of comma to separate the second não from the sentence, there was also the use of semicolon. Regarding to the [NãoVNão] transition, we presented a hypothesis, which is: the use of semicolon indicates that there was a longer pause than the comma’s to separate the second não from the sentence, at the implementation of this structure. This hypothesis describes the course of linguistic change in three stages: 1) a first moment in which the second não was separated from the sentence by a semicolon; 2) in a second moment, comma was used to separate the second não from the sentence; and 3) lastly, the loss of comma. The data of the present study corroborate this hypothesis. As the semantic-pragmatic restrictions for the use of the structure [NãoVNão], the 32 analyzed structures are markers of pressuposicional denial, which corroborates the hypothesis presented by Biberauer and Cyrino (2009). We have also found that some structures [NãoVNão] found in the corpus contradict Schwenter’s hypothesis (2005), which provides that all structures [NãoVNão] deny a given information in the speech, once that some of them present new information on the discursive context. According to the results that the data from the 18th and 19th Centuries showed us, it is possible that the structure [NãoVNão] had been used as a strategy of pressuposicional denial in that period of time. Negação sentencial Português brasileiro Língua portuguesa - Brasil Estudos da lingugem
2	Modo em karitiana / Mood in Karitiana Ferreira, Luiz Fernando 27 July 2017 (has links) O objetivo deste trabalho é ampliar o conhecimento translinguístico sobre a categoria modo estudando-a em uma língua indígena brasileira. A motivação deste estudo se dá principalmente porque pouco se sabe a respeito dessa categoria em línguas não pertencentes ao tronco indo-europeu (Palmer, 2001). O objeto de estudo desta pesquisa é a língua Karitiana (família Tupi, subfamília Arikém) e o corpus analisado é formado por dados provenientes dos mitos e narrativas dessa língua e de dados coletados pelo autor da pesquisa com falantes nativos. A metodologia de coleta de dados foi a elicitação contextualizada defendida por Matthewson (2004) e Mendes (2014). Modo em Karitiana foi primeiramente analisado por Storto (2002). A autora afirma que a língua possui um sistema de modo bastante desenvolvido, porém, ainda pouco compreendido. Para ela, essa língua possui seis morfemas de modo: na(ka)-/ta(ka)- (declarativo), pyt- (assertivo), pyn- (deôntico), iri- (citativo), jy- (condicional) e a/-/-y (imperativo). Esses morfemas ocorrem entre o morfema de pessoa e a raiz verbal como observado em yn a-taka-hit-ø kat (glosa: eu 2p-dec-dar-nfut isso, tradução: eu te dei isso (Storto, 1999)). Nessa primeira análise, Storto (com. pess.) classifica esses morfemas como modo porque, segundo ela, eles marcam diferentes tipos de sentença na língua. A semântica e a pragmática formal foram utilizadas como embasamento teórico da pesquisa. Alguns trabalhos assumem que modo é um morfema que marca modalidade (Bybee, 1985; Palmer, 1986). Para a semântica formal modalidade é uma categoria do significado que está relacionada à expressão de necessidades e possibilidades (Kratzer, 1981; von Fintel, 2006; Hacquard, 2011). Outros trabalhos consideram que modo é um morfema que marca tipos de sentença. Na pragmática tipos sentenciais estão relacionados à força ilocucionária da sentença (Saeed, 2009; Portner, 2011). Seguindo a terminologia de Portner (2011), esta dissertação se refere aos morfemas de modo que estiverem relacionados à expressão de modalidade como modo verbal e os morfemas de modo que estiverem relacionados ao tipo sentencial são chamados modos sentenciais. A análise dos morfemas do Karitiana classificados como modo mostrou que essa língua possui dois lugares na estrutura morfossintática do verbo para marcar a categoria \'modo\' e não apenas um como assumido anteriormente como ilustrado por a-ta-jy-hit-ø celula-ty (glosa: 2p-dec-con-dar-nfut celular-obl tradução: eu te daria um celular). Esta pesquisa assume que cada posição marca um tipo específico de modo: os morfemas que ocorrem na primeira posição (e.g. na(ka)-/ta(ka)-) marcam tipos sentenciais, ou seja, são modos sentenciais e os morfemas que ocorrem na segunda posição (e.g. pyn- e jy-) marcam modalidade, ou seja, são modos verbais. Modos verbais e modos sentenciais podem coocorrer o que é uma evidência da existência de duas posições. O estudo da categoria modo em Karitiana possibilitou um melhor entendimento dessa categoria translinguisticamente. Segundo Sadock & Zwicky (1985) morfemas de modo não coocorrem e esta dissertação mostra que eles podem ocorrer se não estiverem ambos relacionados a força ilocucionária ou modalidade. / This research aims to increase the crosslinguistic knowledge about the categories mood within a study in a Brazilian indigenous language. The reason for this study is that there are not many reliable studies of this category in unfamiliar languages (Palmer, 2001). The object of study of this research is Karitiana language (Tupi family, Arikém subfamily) and the corpus analyzed here is composed by data from the miths and stories of this language as well as data collected by the author of the research from native speakers. We used contextualized data elicitation proposed by Matthewson (2004) and Mendes (2014). Mood in Karitiana was firstly analyzed by Storto (2002) who states that this language has a quite developed mood system that is at the same time not well understood. For her, this language has six mood morphemes: na(ka)-/ta(ka)- (declarative), pyt- (assertive), pyn- (deontic), iri- (citative), jy- (conditional) and a/-/-y (imperative). These morphemes occurs between the person morpheme and the verbal root as can be seen in yn a-taka-hit-ø kat (gloss: I 2p-dec-give-nfut that, translation: I gave you that (Storto, 1999)). In this first analysis, Storto (p.c.) assumes that those morphemes mark different types of sentence, being sentential mood morphemes. We used formal semantics and pragmatics as the theoretical background for the research. Some studies assume that mood is a morpheme which marks modality (Bybee, 1985; Palmer, 1986). In formal semantics modality is a category related to the expressions of possibilities and necessities (Kratzer, 1981; von Fintel, 2006; Hacquard, 2011). Other studies consider that mood is a morpheme which marks sentential types. In pragmatics the types of sentences are related to the illocutionary force of the sentence (Saeed, 2009; Portner, 2011). We follow the terminology used by Portner (2011) and call mood morphemes related to modality verbal mood and morphemes related to sentential type are called sentential mood. The analysis of the morphemes in Karitiana classified as mood has shown that this language has two positions in the morphosyntactical structure of the verb to the mood category and not only one as previously proposed. This can be seen in a-ta-jy-hit-ø celula-ty (gloss: 2p-dec-con-give-nfut cellphone-obl translation: I would give you a cellphone). This research proposes that each position mark a specific type of mood: Morphemes of the first position (e.g. na(ka)-/ta(ka)-) mark types of sentence, therefore, they are sentential moods and morphemes that occur in the second position (e.g. pyn- e jy-) mark modality, therefore, they are verbal moods. Verbal and sentential moods can co-occur what is an evidence for the existence of two positions. The study of mood done by this research allowed a better understanding of mood category crosslinguistically. For Sadock&Zwicky (1985), mood morphemes should not co-occur and this research has shown that they can co-occur if they are not both related to illocutionary force or modality. Formal semantics Illocutionary force Modalidade Modality Modo sentencial Modo verbal Semântica formal Sentential mood Tipo sentencial Verbal mood
3	Modo em karitiana / Mood in Karitiana Luiz Fernando Ferreira 27 July 2017 (has links) O objetivo deste trabalho é ampliar o conhecimento translinguístico sobre a categoria modo estudando-a em uma língua indígena brasileira. A motivação deste estudo se dá principalmente porque pouco se sabe a respeito dessa categoria em línguas não pertencentes ao tronco indo-europeu (Palmer, 2001). O objeto de estudo desta pesquisa é a língua Karitiana (família Tupi, subfamília Arikém) e o corpus analisado é formado por dados provenientes dos mitos e narrativas dessa língua e de dados coletados pelo autor da pesquisa com falantes nativos. A metodologia de coleta de dados foi a elicitação contextualizada defendida por Matthewson (2004) e Mendes (2014). Modo em Karitiana foi primeiramente analisado por Storto (2002). A autora afirma que a língua possui um sistema de modo bastante desenvolvido, porém, ainda pouco compreendido. Para ela, essa língua possui seis morfemas de modo: na(ka)-/ta(ka)- (declarativo), pyt- (assertivo), pyn- (deôntico), iri- (citativo), jy- (condicional) e a/-/-y (imperativo). Esses morfemas ocorrem entre o morfema de pessoa e a raiz verbal como observado em yn a-taka-hit-ø kat (glosa: eu 2p-dec-dar-nfut isso, tradução: eu te dei isso (Storto, 1999)). Nessa primeira análise, Storto (com. pess.) classifica esses morfemas como modo porque, segundo ela, eles marcam diferentes tipos de sentença na língua. A semântica e a pragmática formal foram utilizadas como embasamento teórico da pesquisa. Alguns trabalhos assumem que modo é um morfema que marca modalidade (Bybee, 1985; Palmer, 1986). Para a semântica formal modalidade é uma categoria do significado que está relacionada à expressão de necessidades e possibilidades (Kratzer, 1981; von Fintel, 2006; Hacquard, 2011). Outros trabalhos consideram que modo é um morfema que marca tipos de sentença. Na pragmática tipos sentenciais estão relacionados à força ilocucionária da sentença (Saeed, 2009; Portner, 2011). Seguindo a terminologia de Portner (2011), esta dissertação se refere aos morfemas de modo que estiverem relacionados à expressão de modalidade como modo verbal e os morfemas de modo que estiverem relacionados ao tipo sentencial são chamados modos sentenciais. A análise dos morfemas do Karitiana classificados como modo mostrou que essa língua possui dois lugares na estrutura morfossintática do verbo para marcar a categoria \'modo\' e não apenas um como assumido anteriormente como ilustrado por a-ta-jy-hit-ø celula-ty (glosa: 2p-dec-con-dar-nfut celular-obl tradução: eu te daria um celular). Esta pesquisa assume que cada posição marca um tipo específico de modo: os morfemas que ocorrem na primeira posição (e.g. na(ka)-/ta(ka)-) marcam tipos sentenciais, ou seja, são modos sentenciais e os morfemas que ocorrem na segunda posição (e.g. pyn- e jy-) marcam modalidade, ou seja, são modos verbais. Modos verbais e modos sentenciais podem coocorrer o que é uma evidência da existência de duas posições. O estudo da categoria modo em Karitiana possibilitou um melhor entendimento dessa categoria translinguisticamente. Segundo Sadock & Zwicky (1985) morfemas de modo não coocorrem e esta dissertação mostra que eles podem ocorrer se não estiverem ambos relacionados a força ilocucionária ou modalidade. / This research aims to increase the crosslinguistic knowledge about the categories mood within a study in a Brazilian indigenous language. The reason for this study is that there are not many reliable studies of this category in unfamiliar languages (Palmer, 2001). The object of study of this research is Karitiana language (Tupi family, Arikém subfamily) and the corpus analyzed here is composed by data from the miths and stories of this language as well as data collected by the author of the research from native speakers. We used contextualized data elicitation proposed by Matthewson (2004) and Mendes (2014). Mood in Karitiana was firstly analyzed by Storto (2002) who states that this language has a quite developed mood system that is at the same time not well understood. For her, this language has six mood morphemes: na(ka)-/ta(ka)- (declarative), pyt- (assertive), pyn- (deontic), iri- (citative), jy- (conditional) and a/-/-y (imperative). These morphemes occurs between the person morpheme and the verbal root as can be seen in yn a-taka-hit-ø kat (gloss: I 2p-dec-give-nfut that, translation: I gave you that (Storto, 1999)). In this first analysis, Storto (p.c.) assumes that those morphemes mark different types of sentence, being sentential mood morphemes. We used formal semantics and pragmatics as the theoretical background for the research. Some studies assume that mood is a morpheme which marks modality (Bybee, 1985; Palmer, 1986). In formal semantics modality is a category related to the expressions of possibilities and necessities (Kratzer, 1981; von Fintel, 2006; Hacquard, 2011). Other studies consider that mood is a morpheme which marks sentential types. In pragmatics the types of sentences are related to the illocutionary force of the sentence (Saeed, 2009; Portner, 2011). We follow the terminology used by Portner (2011) and call mood morphemes related to modality verbal mood and morphemes related to sentential type are called sentential mood. The analysis of the morphemes in Karitiana classified as mood has shown that this language has two positions in the morphosyntactical structure of the verb to the mood category and not only one as previously proposed. This can be seen in a-ta-jy-hit-ø celula-ty (gloss: 2p-dec-con-give-nfut cellphone-obl translation: I would give you a cellphone). This research proposes that each position mark a specific type of mood: Morphemes of the first position (e.g. na(ka)-/ta(ka)-) mark types of sentence, therefore, they are sentential moods and morphemes that occur in the second position (e.g. pyn- e jy-) mark modality, therefore, they are verbal moods. Verbal and sentential moods can co-occur what is an evidence for the existence of two positions. The study of mood done by this research allowed a better understanding of mood category crosslinguistically. For Sadock&Zwicky (1985), mood morphemes should not co-occur and this research has shown that they can co-occur if they are not both related to illocutionary force or modality. Modalidade Modo sentencial Modo verbal Semântica formal Tipo sentencial Formal semantics Illocutionary force Modality Sentential mood Verbal mood
4	"Alinhamento sentencial de textos paralelos português-inglês" / Sentence alignment of Portuguese-English parallel texts Caseli, Helena de Medeiros 10 April 2003 (has links) Esta dissertação relata o primeiro trabalho de pesquisa em alinhamento automático de textos paralelos envolvendo o português brasileiro (PB). Neste trabalho foram implementados cinco métodos de alinhamento sentencial automático bastante referenciados na literatura, incluindo métodos empíricos, lingüísticos e híbridos, avaliados com textos paralelos PB-inglês. Os resultados mostraram-se compatíveis com os relatados para outros pares de línguas, sendo que as maiores precisões (acima de 94%) foram obtidas em corpora sem ruídos (sem erros gramaticais e de tradução), conforme era esperado. Além disso, os resultados apontam muita semelhança no desempenho de todos os métodos, o que impossibilita a eleição de um deles como o melhor. Além da implementação dos métodos de alinhamento sentencial e dos corpora paralelos construídos para avaliá-los, outros recursos lingüísticos e computacionais de grande valor para as pesquisas em PLN foram gerados durante este trabalho. / As the first attempt at automatic parallel text alignment involving Brazilian Portuguese, in this research we implemented five well-known automatic sentence alignment methods, including empirical, linguistic and hybrid techniques, and evaluated them as applied to Brazilian Portuguese-English parallel texts. The results are in accordance with those reported for other pairs of languages, even in that highest precisions (above 94%) were obtained for corpora without noise (i.e. grammatical or translation errors), as expected. Furthermore, the results point to a virtual tie between the methods, it being impossible to elect one as the best. In addition to the implementations of those methods and the parallel corpora built to evaluate them, other linguistic and computational resources were built during this work which are of great value to PLN research. alinhamento sentencial English inglês parallel texts português Portuguese sentence alignment textos paralelos
5	Sumarização Automática de Atualização para a língua portuguesa / Update Summarization for the portuguese language Nóbrega, Fernando Antônio Asevêdo 12 December 2017 (has links) O enorme volume de dados textuais disponível na web caracteriza-se como um cenário ideal para inúmeras aplicações do Processamento de Língua Natural, tal como a tarefa da Sumarização Automática de Atualização (SAA), que tem por objetivo a geração automática de resumos a partir de uma coleção textual admitindo-se que o leitor possui algum conhecimento prévio sobre os textos-fonte. Dessa forma, um bom resumo de atualização deve ser constituído pelas informações mais relevantes, novas e atualizadas com relação ao conhecimento prévio do leitor. Essa tarefa implica em diversos desafios, sobretudo nas etapas de seleção e síntese de conteúdo para o sumário. Embora existam inúmeras abordagens na literatura, com diferentes níveis de complexidade teórica e computacional, pouco dessas investigações fazem uso de algum conhecimento linguístico profundo, que pode auxiliar a identificação de conteúdo mais relevante e atualizado. Além disso, os métodos de sumarização comumente empregam uma abordagem de síntese extrativa, na qual algumas sentenças dos textos-fonte são selecionadas e organizadas para compor o sumário sem alteração de seu conteúdo. Tal abordagem pode limitar a informatividade do sumário, uma vez que alguns segmentos sentenciais podem conter informação redundante ou irrelevante ao leitor. Assim, esforços recentes foram direcionados à síntese compressiva, na qual alguns segmentos das sentenças selecionadas para o sumário são removidos previamente à inserção no sumário. Nesse cenário, este trabalho de doutorado teve por objetivo a investigação do uso de conhecimentos linguísticos, como a Teoria Discursiva Multidocumento (CST), Segmentação de Subtópicos e Reconhecimento de Entidades Nomeadas, em distintas abordagens de seleção de conteúdo por meio das sínteses extrativas e compressivas visando à produção de sumários de atualização mais informativos. Tendo a língua Portuguesa como principal objeto de estudo, foram organizados três novos córpus, o CSTNews-Update, que viabiliza experimentos de SAA, e o PCSC-Pares e G1-Pares, para o desenvolvimento/avaliação de métodos de Compressão Sentencial. Ressalta-se que os experimentos de sumarização foram também realizados para a língua inglesa. Após as experimentações, observou-se que a Segmentação de Subtópicos foi mais efetiva para a produção de sumários mais informativos, porém, em apenas poucas abordagens de seleção de conteúdo. Além disso, foram propostas algumas simplificações para o método DualSum por meio da distribuição de Subtópicos. Tais métodos apresentaram resultados muito satisfatórios com menor complexidade computacional. Visando a produção de sumários compressivos, desenvolveram-se inúmeros métodos de Compressão Sentencial por meio de algoritmos de Aprendizado de Máquina. O melhor método proposto apresentou resultados superiores a um trabalho do estado da arte, que faz uso de algoritmos de Deep Learning. Além dos resultados supracitados, ressalta-se que anteriormente a este trabalho, a maioria das investigações de Sumarização Automática para a língua Portuguesa foi direcionada à geração de sumários a partir de um (monodocumento) ou vários textos relacionados (multidocumento) por meio da síntese extrativa, sobretudo pela ausência se recursos que viabilizassem a expansão da área de Sumarização Automática para esse idioma. Assim, as contribuições deste trabalho engajam-se em três campos, nos métodos de SAA propostos com conhecimento linguísticos, nos métodos de Compressão Sentencial e nos recursos desenvolvidos para a língua Portuguesa. / The huge amount of data that is available online is the main motivation for many tasks of Natural Language Processing, as the Update Summarization (US) which aims to produce a summary from a collection of related texts under the assumption the user/reader has some previous knowledge about the texts subject. Thus, a good update summary must be produced with the most relevant, new and updated content in order to assist the user. This task presents many research challenges, mainly in the processes of content selection and synthesis of the summary. Although there are several approaches for US, most of them do not use of some linguistic information that may assist the identification relevant content for the summary/user. Furthermore, US methods frequently apply an extractive synthesis approach, in which the summary is produced by picking some sentences from the source texts without rewriting operations. Once some segments of the picked sentences may contain redundant or irrelevant content, this synthesis process can to reduce the summary informativeness. Thus, some recent efforts in this field have focused in the compressive synthesis approach, in which some sentences are compressed by deletion of tokens or rewriting operations before be inserted in the output summary. Given this background, this PhD research has investigated the use of some linguistic information, as the Cross Document Theory (CST), Subtopic Segmentation and Named Entity Recognition into distinct content selection approaches for US by use extractive and compressive synthesis process in order to produce more informative update summaries. Once we have focused on the Portuguese language, we have compiled three new resources for this language, the CSTNews-Update, which allows the investigation of US methods for this language, the PCST-Pairs and G1-Pairs, in which there are pairs of original and compressed sentences in order to produce methods of sentence compression. It is important to say we also have performed experiments for the English language, in which there are more resources. The results show the Subtopic Segmentation assists the production of better summaries, however, this have occurred just on some content selection approaches. Furthermore, we also have proposed a simplification for the method DualSum by use Subtopic Segments. These simplifications require low computation power than DualSum and they have presented very satisfactory results. Aiming the production of compressive summaries, we have proposed different compression methods by use machine learning techniques. Our better proposed method present quality similar to a state-of-art system, which is based on Deep Learning algorithms. Previously this investigation, most of the researches on the Automatic Summarization field for the Portuguese language was focused on previous traditional tasks, as the production of summaries from one and many texts that does not consider the user knowledge, by use extractive synthesis processes. Thus, beside our proposed US systems based on linguistic information, which were evaluated over English and Portuguese datasets, we have produced many Compressions Methods and three new resources that will assist the expansion of the Automatic Summarization field for the Portuguese Language. Compressão sentencial Compressive summarization Sentence compression Sumarização compressiva Update summarization
6	A periferia à esquerda da sentença no Português Brasileiro: funções discursivas de seus constituintes e sua derivação / The left-periphery of the sentence in Brazilian Portuguese: discourse functions of its constituents and its derivation Polli, Tercio Campos 15 April 2008 (has links) Esta pesquisa investiga propriedades da estrutura sentencial do português brasileiro, mais precisamente aquelas que desencadeiam a inversão de constituintes para a periferia à esquerda da sentença. Sustenta-se num corpus para a obtenção de dados descritivos, constituído por dez peças de teatro, sendo cada uma delas escrita por um escritor nascido no Brasil numa década diferente, abrangendo dois séculos: XIX e XX. O objetivo desta pesquisa é identificar os tipos de constituintes que ocupam a periferia esquerda de sentenças e o porquê de ocuparem tal posição, isto é, se desempenham alguma função discursiva como tópico, foco ou se simplesmente se encontram em proeminência estrutural, a fim de entender melhor como a estrutura da informação interage com a sintaxe desse dialeto. Dessa forma, o estudo das funções discursivas desempenhadas pelo sujeito, tanto na ordem SV como na ordem VS, também precisou ser considerado. O quadro teórico adotado para sua realização sustenta-se nas implementações do programa minimalista em Chomsky (2000, 2001 e 2004) feitas à Teoria de Princípios e Parâmetros. Além disso, como proposta cartográfica, adota-se Rizzi (2002, 2004) e, como conceito de tópico e de foco, o proposto em Lambrecht (1996). / This research investigates properties of the Brazilian Portuguese sentence structure, more precisely those that trigger the inversion of constituents to the left-periphery of the sentence. It is based on a corpus as a means of acquiring descriptive data, composed of ten plays, being each of them written by a writer born in a different decade, comprising two centuries: XIX and XX. The aim of this research is to identify the types of constituents that occupy the leftperiphery of sentences and why they do so (if they fulfill any discourse function like topic, focus or if they are merely in structural prominence), in order to cast light upon the way the information structure interacts with the syntax of that dialect. For that reason, it was also necessary to investigate the discourse functions played by the subject both in SV and VS orders. The theoretical framework used for the accomplishment of that task is based on the implementations made by the Minimalist Program (Chomsky - 2000, 2001 and 2004) to the Theory of Principles and Parameters. Besides, as cartographic proposal, it adopts Rizzi (2002, 2004) and, as concept of topic and focus, those proposed in Lambrecht (1996). Cartografia sentencial Criterial features Foco Focus Sentential cartography Sintaxe Syntax Topic Tópico Traços criteriais.
7	A periferia à esquerda da sentença no Português Brasileiro: funções discursivas de seus constituintes e sua derivação / The left-periphery of the sentence in Brazilian Portuguese: discourse functions of its constituents and its derivation Tercio Campos Polli 15 April 2008 (has links) Esta pesquisa investiga propriedades da estrutura sentencial do português brasileiro, mais precisamente aquelas que desencadeiam a inversão de constituintes para a periferia à esquerda da sentença. Sustenta-se num corpus para a obtenção de dados descritivos, constituído por dez peças de teatro, sendo cada uma delas escrita por um escritor nascido no Brasil numa década diferente, abrangendo dois séculos: XIX e XX. O objetivo desta pesquisa é identificar os tipos de constituintes que ocupam a periferia esquerda de sentenças e o porquê de ocuparem tal posição, isto é, se desempenham alguma função discursiva como tópico, foco ou se simplesmente se encontram em proeminência estrutural, a fim de entender melhor como a estrutura da informação interage com a sintaxe desse dialeto. Dessa forma, o estudo das funções discursivas desempenhadas pelo sujeito, tanto na ordem SV como na ordem VS, também precisou ser considerado. O quadro teórico adotado para sua realização sustenta-se nas implementações do programa minimalista em Chomsky (2000, 2001 e 2004) feitas à Teoria de Princípios e Parâmetros. Além disso, como proposta cartográfica, adota-se Rizzi (2002, 2004) e, como conceito de tópico e de foco, o proposto em Lambrecht (1996). / This research investigates properties of the Brazilian Portuguese sentence structure, more precisely those that trigger the inversion of constituents to the left-periphery of the sentence. It is based on a corpus as a means of acquiring descriptive data, composed of ten plays, being each of them written by a writer born in a different decade, comprising two centuries: XIX and XX. The aim of this research is to identify the types of constituents that occupy the leftperiphery of sentences and why they do so (if they fulfill any discourse function like topic, focus or if they are merely in structural prominence), in order to cast light upon the way the information structure interacts with the syntax of that dialect. For that reason, it was also necessary to investigate the discourse functions played by the subject both in SV and VS orders. The theoretical framework used for the accomplishment of that task is based on the implementations made by the Minimalist Program (Chomsky - 2000, 2001 and 2004) to the Theory of Principles and Parameters. Besides, as cartographic proposal, it adopts Rizzi (2002, 2004) and, as concept of topic and focus, those proposed in Lambrecht (1996). Cartografia sentencial Foco Sintaxe Tópico Traços criteriais. Criterial features Focus Sentential cartography Syntax Topic
8	Sumarização Automática de Atualização para a língua portuguesa / Update Summarization for the portuguese language Fernando Antônio Asevêdo Nóbrega 12 December 2017 (has links) O enorme volume de dados textuais disponível na web caracteriza-se como um cenário ideal para inúmeras aplicações do Processamento de Língua Natural, tal como a tarefa da Sumarização Automática de Atualização (SAA), que tem por objetivo a geração automática de resumos a partir de uma coleção textual admitindo-se que o leitor possui algum conhecimento prévio sobre os textos-fonte. Dessa forma, um bom resumo de atualização deve ser constituído pelas informações mais relevantes, novas e atualizadas com relação ao conhecimento prévio do leitor. Essa tarefa implica em diversos desafios, sobretudo nas etapas de seleção e síntese de conteúdo para o sumário. Embora existam inúmeras abordagens na literatura, com diferentes níveis de complexidade teórica e computacional, pouco dessas investigações fazem uso de algum conhecimento linguístico profundo, que pode auxiliar a identificação de conteúdo mais relevante e atualizado. Além disso, os métodos de sumarização comumente empregam uma abordagem de síntese extrativa, na qual algumas sentenças dos textos-fonte são selecionadas e organizadas para compor o sumário sem alteração de seu conteúdo. Tal abordagem pode limitar a informatividade do sumário, uma vez que alguns segmentos sentenciais podem conter informação redundante ou irrelevante ao leitor. Assim, esforços recentes foram direcionados à síntese compressiva, na qual alguns segmentos das sentenças selecionadas para o sumário são removidos previamente à inserção no sumário. Nesse cenário, este trabalho de doutorado teve por objetivo a investigação do uso de conhecimentos linguísticos, como a Teoria Discursiva Multidocumento (CST), Segmentação de Subtópicos e Reconhecimento de Entidades Nomeadas, em distintas abordagens de seleção de conteúdo por meio das sínteses extrativas e compressivas visando à produção de sumários de atualização mais informativos. Tendo a língua Portuguesa como principal objeto de estudo, foram organizados três novos córpus, o CSTNews-Update, que viabiliza experimentos de SAA, e o PCSC-Pares e G1-Pares, para o desenvolvimento/avaliação de métodos de Compressão Sentencial. Ressalta-se que os experimentos de sumarização foram também realizados para a língua inglesa. Após as experimentações, observou-se que a Segmentação de Subtópicos foi mais efetiva para a produção de sumários mais informativos, porém, em apenas poucas abordagens de seleção de conteúdo. Além disso, foram propostas algumas simplificações para o método DualSum por meio da distribuição de Subtópicos. Tais métodos apresentaram resultados muito satisfatórios com menor complexidade computacional. Visando a produção de sumários compressivos, desenvolveram-se inúmeros métodos de Compressão Sentencial por meio de algoritmos de Aprendizado de Máquina. O melhor método proposto apresentou resultados superiores a um trabalho do estado da arte, que faz uso de algoritmos de Deep Learning. Além dos resultados supracitados, ressalta-se que anteriormente a este trabalho, a maioria das investigações de Sumarização Automática para a língua Portuguesa foi direcionada à geração de sumários a partir de um (monodocumento) ou vários textos relacionados (multidocumento) por meio da síntese extrativa, sobretudo pela ausência se recursos que viabilizassem a expansão da área de Sumarização Automática para esse idioma. Assim, as contribuições deste trabalho engajam-se em três campos, nos métodos de SAA propostos com conhecimento linguísticos, nos métodos de Compressão Sentencial e nos recursos desenvolvidos para a língua Portuguesa. / The huge amount of data that is available online is the main motivation for many tasks of Natural Language Processing, as the Update Summarization (US) which aims to produce a summary from a collection of related texts under the assumption the user/reader has some previous knowledge about the texts subject. Thus, a good update summary must be produced with the most relevant, new and updated content in order to assist the user. This task presents many research challenges, mainly in the processes of content selection and synthesis of the summary. Although there are several approaches for US, most of them do not use of some linguistic information that may assist the identification relevant content for the summary/user. Furthermore, US methods frequently apply an extractive synthesis approach, in which the summary is produced by picking some sentences from the source texts without rewriting operations. Once some segments of the picked sentences may contain redundant or irrelevant content, this synthesis process can to reduce the summary informativeness. Thus, some recent efforts in this field have focused in the compressive synthesis approach, in which some sentences are compressed by deletion of tokens or rewriting operations before be inserted in the output summary. Given this background, this PhD research has investigated the use of some linguistic information, as the Cross Document Theory (CST), Subtopic Segmentation and Named Entity Recognition into distinct content selection approaches for US by use extractive and compressive synthesis process in order to produce more informative update summaries. Once we have focused on the Portuguese language, we have compiled three new resources for this language, the CSTNews-Update, which allows the investigation of US methods for this language, the PCST-Pairs and G1-Pairs, in which there are pairs of original and compressed sentences in order to produce methods of sentence compression. It is important to say we also have performed experiments for the English language, in which there are more resources. The results show the Subtopic Segmentation assists the production of better summaries, however, this have occurred just on some content selection approaches. Furthermore, we also have proposed a simplification for the method DualSum by use Subtopic Segments. These simplifications require low computation power than DualSum and they have presented very satisfactory results. Aiming the production of compressive summaries, we have proposed different compression methods by use machine learning techniques. Our better proposed method present quality similar to a state-of-art system, which is based on Deep Learning algorithms. Previously this investigation, most of the researches on the Automatic Summarization field for the Portuguese language was focused on previous traditional tasks, as the production of summaries from one and many texts that does not consider the user knowledge, by use extractive synthesis processes. Thus, beside our proposed US systems based on linguistic information, which were evaluated over English and Portuguese datasets, we have produced many Compressions Methods and three new resources that will assist the expansion of the Automatic Summarization field for the Portuguese Language. Compressão sentencial Sumarização compressiva Compressive summarization Sentence compression Update summarization
9	"Alinhamento sentencial de textos paralelos português-inglês" / Sentence alignment of Portuguese-English parallel texts Helena de Medeiros Caseli 10 April 2003 (has links) Esta dissertação relata o primeiro trabalho de pesquisa em alinhamento automático de textos paralelos envolvendo o português brasileiro (PB). Neste trabalho foram implementados cinco métodos de alinhamento sentencial automático bastante referenciados na literatura, incluindo métodos empíricos, lingüísticos e híbridos, avaliados com textos paralelos PB-inglês. Os resultados mostraram-se compatíveis com os relatados para outros pares de línguas, sendo que as maiores precisões (acima de 94%) foram obtidas em corpora sem ruídos (sem erros gramaticais e de tradução), conforme era esperado. Além disso, os resultados apontam muita semelhança no desempenho de todos os métodos, o que impossibilita a eleição de um deles como o melhor. Além da implementação dos métodos de alinhamento sentencial e dos corpora paralelos construídos para avaliá-los, outros recursos lingüísticos e computacionais de grande valor para as pesquisas em PLN foram gerados durante este trabalho. / As the first attempt at automatic parallel text alignment involving Brazilian Portuguese, in this research we implemented five well-known automatic sentence alignment methods, including empirical, linguistic and hybrid techniques, and evaluated them as applied to Brazilian Portuguese-English parallel texts. The results are in accordance with those reported for other pairs of languages, even in that highest precisions (above 94%) were obtained for corpora without noise (i.e. grammatical or translation errors), as expected. Furthermore, the results point to a virtual tie between the methods, it being impossible to elect one as the best. In addition to the implementations of those methods and the parallel corpora built to evaluate them, other linguistic and computational resources were built during this work which are of great value to PLN research. alinhamento sentencial inglês português textos paralelos English parallel texts Portuguese sentence alignment
10	Locativos e sintagmas preposicionados no português quatrocentista: um estudo do movimento / Locatives and PPs in 15th century portuguese language: a movement research Mendes, Jaqueline Massagardi 15 June 2009 (has links) Nesta tese estudamos o movimento de sintagmas preposicionados (PPs), pronomes locativos (Locs) e pronomes locativos preposicionados (LocPs) em estruturas encaixadas do português quatrocentista, admitindo que esse período acomode variações que apontam para uma competição de gramáticas na linha de Kroch (1989, 1994, 2003). Assumimos com Martins (1994), Muidine (2000) e Moraes de Castilho (2005), que os pronomes locativos hi e ende tenham coexistido com os PPs, mas foram suplantados por estes últimos a partir do séc.XV. Tomando-se como corpus representativo do português quatrocentista a Crônica do Conde Dom Pedro de Menezes de Zurara, de fato atestamos PPs convivendo com pronomes locativos nos mesmos contextos sintáticos e inclusive os redobrando. As estruturas de redobro de um locativo por um PP mostraram-se relevantes por indicar a especialização das posições desses elementos. Fazemos uso de duas linhas teóricas, conforme proposta de Kato e Tarallo (1989): um modelo mais formal como a Teoria de Princípios e Parâmetros (Chomsky, 1986) e um de cunho variacionista como a Sociolinguística Laboviana, Para uma análise descritiva dos dados, seguimos a metodologia da Sociolingüística Quantitativa, pontuando fatores lingüísticos condicionadores da posição desses constituintes. De modo geral, os cálculos estatísticos registraram altos índices de movimento dos locativos, por um lado, mas baixos índices de movimento dos PPs, por outro. Já os LocPs equilibraram movimento e posição canônica. Outros fatores como função sintática e tipo de oração incidiram no movimento de PPs e Locs, sobretudo. A análise interpretativa dos resultados se deu sob uma perspectiva gerativista, à luz da Teoria de Princípios e Parâmetros (Chomsky, 1981,1986). Tomando-se o clítico e o sujeito como marcadores de fronteira, conforme propostas de Martins (1994) e Belletti (2002), foi possível vislumbrar quatro posições de ancoragem para os Locs e PPs, que se distribuíram ao longo da estrutura sentencial. Ficou, por fim, evidente, que o movimento de Locs, PPs e LocPs é um caso de competição de gramáticas no português quatrocentista, que acompanha algumas mudanças que desembocam na constituição do português brasileiro. / This research analyses the movement of prepositioned phrases (PPs), locative pronouns (Locs) and prepositioned locative pronouns (LocPs) in embedding structures of the 15th century Portuguese language, admitting that this period has variations which point to a grammar competition in Krochs (1989, 1994, 2003) framework. According to Martins (1994), Muidine (2000) and Moraes de Castilho (2005), latin locative pronouns hi and ende, and PPs had coexisted in Portuguese until the 15th century, when PPs supplanted the usage of locative pronouns. Indeed, taking the Dom Pedro de Menezes Cronic of Zurara (Brocardo, 1997) as the 15th century Portuguese representative corpus, we have found PPs coexisting with locatives in the same syntactic contexts, redoubling them as well. The redoubling structures have turned out to be relevant for indicating the specialization of the positions of these elements. Taking Kato and Tarallo (1989) into consideration, two frameworks are used: one formal model like the theory of Principles and Parameters, and abnother variational like Labov Sociolinguistics. The Quantitative Sociolinguistic methodology is considered for a descriptive analysis of the data, indicating linguistic facts that could affect the position of PPs and locative pronouns. Statistics have registered high percentages regarding the movement of locative pronouns on one hand, but low percentages of PPs movement on the other. LocPs registered similar numbers for movement and for no movement. Other factors such as syntactic function and kind of sentence influenced the movement of PPs and Locs.. The interpretative analysis of the results has happened in the framework of Generative Syntax, considering the Principles and Parameters Theory (Chomsky 1981, 1986). Taking clitics and subject as frontier demarcators, as stated by Martins (1994) and Belletti (2002), it has been possible to verify four positions to host Locs and PPs, all distributed along the sentential structure. In conclusion, it has been evident that PP and locative movement is a grammar competition case in the 15th century Portuguese language and it will accompany some changes which will arise in the Brazilian Portuguese language. Estrutura sentencial e topicalização Locative pronouns Movement of constituents Movimento de constituintes Prepositioned phrases Pronomes locativos Sentential structure and topicalization Sintagmas preposicionados

Search results