Spelling suggestions: "subject:"corpus""
1 |
Criação de um ambiente para o processamento de córpus de Português Histórico / Creation of an environment for processing of Historical Porrtuguese CorporaCandido Junior, Arnaldo 02 April 2008 (has links)
A utilização de córpus tem crescido progressivamente em áreas como Lingüística e Processamento de Língua Natural. Como resultado, temos a compilação de novos e grandes córpus e a criação de sistemas processadores de córpus e de padrões para codificação e intercâmbio de textos eletrônicos. Entretanto, a metodologia para compilação de córpus históricos difere das metodologias usadas em córpus contemporâneos. Outro problema é o fato de a maior parte dos processadores de córpus proverem poucos recursos para o tratamento de córpus históricos, apesar de tais córpus serem numerosos. Da mesma forma, os sistemas para criação de dicionários não atendem satisfatoriamente necessidades de dicionários históricos. A motivação desta pesquisa é o projeto do Dicionário Histórico do Português do Brasil (DHPB) que tem como base a construção de um córpus de Português do Brasil dos séculos XVI a XVIII (incluindo alguns textos do começo do século XIX). Neste trabalho são apresentados os desafios encontrados para o processamento do córpus do projeto do projeto DHPB e os requisitos para redação de verbetes do dicionário histórico. Um ambiente computacional para processamento de córpus, criação de glossários e redação de verbetes foi desenvolvido para o projeto DHPB sendo possível adaptá-lo para ser aplicado a outros projetos de criação de dicionários históricos / Corpora has been increasingly used within the areas of Linguistics and Natural Language Processing. As a result, new and larger corpora have been compiled and processing systems and standards for encoding and interchange of electronic texts have been developed. However, when it comes to compilation of historical corpora, the methodology is different from the ones used to compile corpora of contemporary language. Another drawback is the fact that most corpus processing systems provide few resources for the treatment of historical corpus, although there are numerous corpora of this type. Similarly, the systems for dictionary creation do not satisfactorily meet the needs of historical dictionaries. The present study is part of a larger project - the Historical Dictionary of Brazilian Portuguese (HDBP) - which aims to compile a dictionary on the basis of a corpus of Brazilian Portuguese texts from the sixteenth through the eighteenth centuries (including some texts from early nineteenth century). Here, we present the challenges for processing the corpus of the HDPB project and established the criteria for creating the entries of a historical dictionary. This study has developed a computational environment for processing the corpus, building glossaries as well as for creating the entries of the HDPB. This system can be easily adapted to the needs and scope of other historical dictionary projects
|
2 |
Criação de um ambiente para o processamento de córpus de Português Histórico / Creation of an environment for processing of Historical Porrtuguese CorporaArnaldo Candido Junior 02 April 2008 (has links)
A utilização de córpus tem crescido progressivamente em áreas como Lingüística e Processamento de Língua Natural. Como resultado, temos a compilação de novos e grandes córpus e a criação de sistemas processadores de córpus e de padrões para codificação e intercâmbio de textos eletrônicos. Entretanto, a metodologia para compilação de córpus históricos difere das metodologias usadas em córpus contemporâneos. Outro problema é o fato de a maior parte dos processadores de córpus proverem poucos recursos para o tratamento de córpus históricos, apesar de tais córpus serem numerosos. Da mesma forma, os sistemas para criação de dicionários não atendem satisfatoriamente necessidades de dicionários históricos. A motivação desta pesquisa é o projeto do Dicionário Histórico do Português do Brasil (DHPB) que tem como base a construção de um córpus de Português do Brasil dos séculos XVI a XVIII (incluindo alguns textos do começo do século XIX). Neste trabalho são apresentados os desafios encontrados para o processamento do córpus do projeto do projeto DHPB e os requisitos para redação de verbetes do dicionário histórico. Um ambiente computacional para processamento de córpus, criação de glossários e redação de verbetes foi desenvolvido para o projeto DHPB sendo possível adaptá-lo para ser aplicado a outros projetos de criação de dicionários históricos / Corpora has been increasingly used within the areas of Linguistics and Natural Language Processing. As a result, new and larger corpora have been compiled and processing systems and standards for encoding and interchange of electronic texts have been developed. However, when it comes to compilation of historical corpora, the methodology is different from the ones used to compile corpora of contemporary language. Another drawback is the fact that most corpus processing systems provide few resources for the treatment of historical corpus, although there are numerous corpora of this type. Similarly, the systems for dictionary creation do not satisfactorily meet the needs of historical dictionaries. The present study is part of a larger project - the Historical Dictionary of Brazilian Portuguese (HDBP) - which aims to compile a dictionary on the basis of a corpus of Brazilian Portuguese texts from the sixteenth through the eighteenth centuries (including some texts from early nineteenth century). Here, we present the challenges for processing the corpus of the HDPB project and established the criteria for creating the entries of a historical dictionary. This study has developed a computational environment for processing the corpus, building glossaries as well as for creating the entries of the HDPB. This system can be easily adapted to the needs and scope of other historical dictionary projects
|
3 |
Expansão de recursos para análise de sentimentos usando aprendizado semi-supervisionado / Extending sentiment analysis resources using semi-supervised learningBrum, Henrico Bertini 23 March 2018 (has links)
O grande volume de dados que temos disponíveis em ambientes virtuais pode ser excelente fonte de novos recursos para estudos em diversas tarefas de Processamento de Linguagem Natural, como a Análise de Sentimentos. Infelizmente é elevado o custo de anotação de novos córpus, que envolve desde investimentos financeiros até demorados processos de revisão. Nossa pesquisa propõe uma abordagem de anotação semissupervisionada, ou seja, anotação automática de um grande córpus não anotado partindo de um conjunto de dados anotados manualmente. Para tal, introduzimos o TweetSentBR, um córpus de tweets no domínio de programas televisivos que possui anotação em três classes e revisões parciais feitas por até sete anotadores. O córpus representa um importante recurso linguístico de português brasileiro, e fica entre os maiores córpus anotados na literatura para classificação de polaridades. Além da anotação manual do córpus, realizamos a implementação de um framework de aprendizado semissupervisionado que faz uso de dados anotados e, de maneira iterativa, expande o mesmo usando dados não anotados. O TweetSentBR, que possui 15:000 tweets anotados é assim expandido cerca de oito vezes. Para a expansão, foram treinados modelos de classificação usando seis classificadores de polaridades, assim como foram avaliados diferentes parâmetros e representações a fim de obter um córpus confiável. Realizamos experimentos gerando córpus expandidos por cada classificador, tanto para a classificação em três polaridades (positiva, neutra e negativa) quanto para classificação binária. Avaliamos os córpus gerados usando um conjunto de held-out e comparamos a FMeasure da classificação usando como treinamento os córpus anotados manualmente e semiautomaticamente. O córpus semissupervisionado que obteve os melhores resultados para a classificação em três polaridades atingiu 62;14% de F-Measure média, superando a média obtida com as avaliações no córpus anotado manualmente (61;02%). Na classificação binária, o melhor córpus expandido obteve 83;11% de F1-Measure média, superando a média obtida na avaliação do córpus anotado manualmente (79;80%). Além disso, simulamos nossa expansão em córpus anotados da literatura, medindo o quão corretas são as etiquetas anotadas semi-automaticamente. Nosso melhor resultado foi na expansão de um córpus de reviews de produtos que obteve FMeasure de 93;15% com dados binários. Por fim, comparamos um córpus da literatura obtido por meio de supervisão distante e nosso framework semissupervisionado superou o primeiro na classificação de polaridades binária em cross-domain. / The high volume of data available in the Internet can be a good resource for studies of several tasks in Natural Language Processing as in Sentiment Analysis. Unfortunately there is a high cost for the annotation of new corpora, involving financial support and long revision processes. Our work proposes an approach for semi-supervised labeling, an automatic annotation of a large unlabeled set of documents starting from a manually annotated corpus. In order to achieve that, we introduced TweetSentBR, a tweet corpora on TV show programs domain with annotation for 3-point (positive, neutral and negative) sentiment classification partially reviewed by up to seven annotators. The corpus is an important linguistic resource for Brazilian Portuguese language and it stands between the biggest annotated corpora for polarity classification. Beyond the manual annotation, we implemented a semi-supervised learning based framework that uses this labeled data and extends it using unlabeled data. TweetSentBR corpus, containing 15:000 documents, had its size augmented in eight times. For the extending process, we trained classification models using six polarity classifiers, evaluated different parameters and representation schemes in order to obtain the most reliable corpora. We ran experiments generating extended corpora for each classifier, both for 3-point and binary classification. We evaluated the generated corpora using a held-out subset and compared the obtained F-Measure values with the manually and the semi-supervised annotated corpora. The semi-supervised corpus that obtained the best values for 3-point classification achieved 62;14% on average F-Measure, overcoming the results obtained by the same classification with the manually annotated corpus (61;02%). On binary classification, the best extended corpus achieved 83;11% on average F-Measure, overcoming the results on the manually corpora (79;80%). Furthermore, we simulated the extension of labeled corpora in literature, measuring how well the semi-supervised annotation works. Our best results were in the extension of a product review corpora, achieving 93;15% on F1-Measure. Finally, we compared a literature corpus which was labeled by using distant supervision with our semi-supervised corpus, and this overcame the first in binary polarity classification on cross-domain data.
|
4 |
Brasil brasileiro: o léxico e a identidade nacional / Brazilian Brazil : lexis and national identityLúcia Deborah Ramos de Araújo 15 May 2010 (has links)
Esta pesquisa dedica-se a realizar um trabalho com base no diálogo entre teorias semióticas e a Linguística de Córpus, estudando, especificamente, marcas linguísticas que possam caracterizar o perfil do brasileiro e suas características socioculturais plurais. Interessam-nos, sobretudo, os substantivos e adjetivos em função nomeadora e/ou qualificadora dos termos Brasil e brasileiro. Com isso, pretende-se oferecer um panorama bastante próximo da realidade linguística do brasileiro e de sua identidade. Para que os resultados sejam significativos, contamos com o concurso da Linguística de Córpus, servindo-nos de base a obra Linguística de Corpus (SARDINHA, 2004). Com a Linguística de Córpus, adotando a pesquisa direcionada pelo córpus (corpus-driven research) como metodologia, se pôde levantar, quantificar e tabular os signos em uso, identificando-lhes a frequência e a organização em feixes lexicais para avaliá-los quanto à significância no trato comunicativo. No desenvolvimento da análise e leitura crítica dos dados coletados, amparou-nos a Semiótica de extração peirceana, mais especificamente da Teoria da Iconicidade Verbal (SIMÕES, 2007), que permitiu delinear o potencial icônico das palavras de busca e de seus colocados. Com relação ao conceito de identidade em suas faces filosófica, social e antropológica, fornecem-nos suporte os pensamentos de NIETZSCHE (1991) acerca da necessidade do esquecimento para a construção de uma identidade e de HALL (1998), quanto aos eixos temporais que presidem o processamento discursivo dos fatos históricos e, por conseguinte, da construção identitária. O contraponto entre estes últimos autores contribui para a definição dos gêneros textuais interessantes à pesquisa, basicamente os textos argumentativos, publicados em jornais de grande circulação, no eixo Rio-São Paulo. A respeito da identidade na sociedade em rede, característica da contemporaneidade, apoia-nos obra de CASTELLS (2006). Os estudos específicos sobre a identidade nacional amparam-se sobretudo em DAMATTA (1978 e 1989) e LEITE (2007). A pesquisa demonstrou que a iconicidade lexical vem a ser mais apropriadamente delineada a partir de um universo de dados amplo, ao qual se tem acesso a partir da Linguística de Córpus, sendo, portanto, correto afirmar que os traços componentes da identidade brasileira podem ser apreendidos em seu estágio atual com base na análise de um córpus construído a partir de textos publicados em jornais, representativos das vozes e do pensamento de um estrato social formador de opinião. No contexto de transformações sociais e políticas que ocorrem no Brasil entre os anos 2005 e 2010, a investigação da identidade nacional e a apuração do autoconceito do brasileiro pôde apontar que alguns paradigmas historicamente estabelecidos estão sendo alterados, enquanto outros ainda persistem. O perfil identitário apurado pela pesquisa favorece a construção, por parte do estudioso da linguagem e, mais especificamente, do docente de língua portuguesa, de uma visão atualizada da identidade nacional, no recorte analisado, permitindo um trabalho consciente com as habilidades e competências vinculadas ao desenvolvimento da identidade nacional, conforme orientam os Parâmetros Curriculares Nacionais / This research has the purpose to perform a survey based on the dialogue between semiotic theories and Corpus Linguistics, studying, specifically, the language marks that may characterize the profile of the various Brazilian socio-cultural characteristics. Our special interest is to focus on the nouns and adjectives that nominate and / or qualify the terms 'Brazil' and 'Brazilian'. Through this study, we intend to reach a panorama which is very close to the linguistic reality of the Brazilian people and their identity. We have worked with the Corpus Linguistics, based on the book Corpus Linguistics (SARDINHA, 2004). We chose the corpus-driven research as a method, which allows raising, quantifying and tabulating the signs in use, in order to identify their frequency and lexical organization in bundles, so that they could be evaluated as to their significance in the communicative scene. The theories and works that bolstered this thesis were the Semiotics by Charles Sanders PEIRCE (2000), the works on semiotics by ECO (2007) and SANTAELLA (1996, 2000 e 2001), and the Theory of Verbal Iconicity (SIMOES, 2007). This one aims to establish the iconic potential of the search words in their context. Regarding the philosophical, social and anthropological readings on identity, this work is supported by the thoughts of NIETZSCHE (1991) in an article on the need of forgetfulness in order to build an identity. Another work which supports our conclusions is HALLs paper (1998) on the timelines that govern the discourse processing of the historical facts, which shows how they interfere in the construction of the identity. The counterpoint between these latter authors contribute to the definition of the text genre relevant to this research there were used basically argumentative texts, published in major newspapers in Rio and Sao Paulo. Regarding the identity in the network society as a contemporary issue, the work of CASTELLS (2006) was of great help. The studies on the Brazilian identity by DAMATTA (1978 and 1989) and LEITE (2002) also give basis to the considerations of this thesis. The research showed that the lexical iconicity comes to be more appropriately viewed from a broad universe of data, which has been provided by a large corpus (8 million words approximately) dealt with in the Corpus Linguistics methodology. Its therefore correct to say that components of Brazilian identity may be seized in its current state based on the analysis of a corpus built from texts published in newspapers, representing the voices and thoughts of a social stratum and opinion formers. The investigation of national identity and the self-concept of the Brazilian in the context of social and political transformations that have occurred in Brazil between 2005 and 2010 pointed out that some historically established paradigms have been going through a process of change, while others have persisted. The National Curriculum Parameters in Brazil establish topics on national identity to be developed by native teachers of Portuguese language. The results of this work are meant to be helpful to the aforementioned teachers
|
5 |
Brasil brasileiro: o léxico e a identidade nacional / Brazilian Brazil : lexis and national identityLúcia Deborah Ramos de Araújo 15 May 2010 (has links)
Esta pesquisa dedica-se a realizar um trabalho com base no diálogo entre teorias semióticas e a Linguística de Córpus, estudando, especificamente, marcas linguísticas que possam caracterizar o perfil do brasileiro e suas características socioculturais plurais. Interessam-nos, sobretudo, os substantivos e adjetivos em função nomeadora e/ou qualificadora dos termos Brasil e brasileiro. Com isso, pretende-se oferecer um panorama bastante próximo da realidade linguística do brasileiro e de sua identidade. Para que os resultados sejam significativos, contamos com o concurso da Linguística de Córpus, servindo-nos de base a obra Linguística de Corpus (SARDINHA, 2004). Com a Linguística de Córpus, adotando a pesquisa direcionada pelo córpus (corpus-driven research) como metodologia, se pôde levantar, quantificar e tabular os signos em uso, identificando-lhes a frequência e a organização em feixes lexicais para avaliá-los quanto à significância no trato comunicativo. No desenvolvimento da análise e leitura crítica dos dados coletados, amparou-nos a Semiótica de extração peirceana, mais especificamente da Teoria da Iconicidade Verbal (SIMÕES, 2007), que permitiu delinear o potencial icônico das palavras de busca e de seus colocados. Com relação ao conceito de identidade em suas faces filosófica, social e antropológica, fornecem-nos suporte os pensamentos de NIETZSCHE (1991) acerca da necessidade do esquecimento para a construção de uma identidade e de HALL (1998), quanto aos eixos temporais que presidem o processamento discursivo dos fatos históricos e, por conseguinte, da construção identitária. O contraponto entre estes últimos autores contribui para a definição dos gêneros textuais interessantes à pesquisa, basicamente os textos argumentativos, publicados em jornais de grande circulação, no eixo Rio-São Paulo. A respeito da identidade na sociedade em rede, característica da contemporaneidade, apoia-nos obra de CASTELLS (2006). Os estudos específicos sobre a identidade nacional amparam-se sobretudo em DAMATTA (1978 e 1989) e LEITE (2007). A pesquisa demonstrou que a iconicidade lexical vem a ser mais apropriadamente delineada a partir de um universo de dados amplo, ao qual se tem acesso a partir da Linguística de Córpus, sendo, portanto, correto afirmar que os traços componentes da identidade brasileira podem ser apreendidos em seu estágio atual com base na análise de um córpus construído a partir de textos publicados em jornais, representativos das vozes e do pensamento de um estrato social formador de opinião. No contexto de transformações sociais e políticas que ocorrem no Brasil entre os anos 2005 e 2010, a investigação da identidade nacional e a apuração do autoconceito do brasileiro pôde apontar que alguns paradigmas historicamente estabelecidos estão sendo alterados, enquanto outros ainda persistem. O perfil identitário apurado pela pesquisa favorece a construção, por parte do estudioso da linguagem e, mais especificamente, do docente de língua portuguesa, de uma visão atualizada da identidade nacional, no recorte analisado, permitindo um trabalho consciente com as habilidades e competências vinculadas ao desenvolvimento da identidade nacional, conforme orientam os Parâmetros Curriculares Nacionais / This research has the purpose to perform a survey based on the dialogue between semiotic theories and Corpus Linguistics, studying, specifically, the language marks that may characterize the profile of the various Brazilian socio-cultural characteristics. Our special interest is to focus on the nouns and adjectives that nominate and / or qualify the terms 'Brazil' and 'Brazilian'. Through this study, we intend to reach a panorama which is very close to the linguistic reality of the Brazilian people and their identity. We have worked with the Corpus Linguistics, based on the book Corpus Linguistics (SARDINHA, 2004). We chose the corpus-driven research as a method, which allows raising, quantifying and tabulating the signs in use, in order to identify their frequency and lexical organization in bundles, so that they could be evaluated as to their significance in the communicative scene. The theories and works that bolstered this thesis were the Semiotics by Charles Sanders PEIRCE (2000), the works on semiotics by ECO (2007) and SANTAELLA (1996, 2000 e 2001), and the Theory of Verbal Iconicity (SIMOES, 2007). This one aims to establish the iconic potential of the search words in their context. Regarding the philosophical, social and anthropological readings on identity, this work is supported by the thoughts of NIETZSCHE (1991) in an article on the need of forgetfulness in order to build an identity. Another work which supports our conclusions is HALLs paper (1998) on the timelines that govern the discourse processing of the historical facts, which shows how they interfere in the construction of the identity. The counterpoint between these latter authors contribute to the definition of the text genre relevant to this research there were used basically argumentative texts, published in major newspapers in Rio and Sao Paulo. Regarding the identity in the network society as a contemporary issue, the work of CASTELLS (2006) was of great help. The studies on the Brazilian identity by DAMATTA (1978 and 1989) and LEITE (2002) also give basis to the considerations of this thesis. The research showed that the lexical iconicity comes to be more appropriately viewed from a broad universe of data, which has been provided by a large corpus (8 million words approximately) dealt with in the Corpus Linguistics methodology. Its therefore correct to say that components of Brazilian identity may be seized in its current state based on the analysis of a corpus built from texts published in newspapers, representing the voices and thoughts of a social stratum and opinion formers. The investigation of national identity and the self-concept of the Brazilian in the context of social and political transformations that have occurred in Brazil between 2005 and 2010 pointed out that some historically established paradigms have been going through a process of change, while others have persisted. The National Curriculum Parameters in Brazil establish topics on national identity to be developed by native teachers of Portuguese language. The results of this work are meant to be helpful to the aforementioned teachers
|
6 |
Expansão de recursos para análise de sentimentos usando aprendizado semi-supervisionado / Extending sentiment analysis resources using semi-supervised learningHenrico Bertini Brum 23 March 2018 (has links)
O grande volume de dados que temos disponíveis em ambientes virtuais pode ser excelente fonte de novos recursos para estudos em diversas tarefas de Processamento de Linguagem Natural, como a Análise de Sentimentos. Infelizmente é elevado o custo de anotação de novos córpus, que envolve desde investimentos financeiros até demorados processos de revisão. Nossa pesquisa propõe uma abordagem de anotação semissupervisionada, ou seja, anotação automática de um grande córpus não anotado partindo de um conjunto de dados anotados manualmente. Para tal, introduzimos o TweetSentBR, um córpus de tweets no domínio de programas televisivos que possui anotação em três classes e revisões parciais feitas por até sete anotadores. O córpus representa um importante recurso linguístico de português brasileiro, e fica entre os maiores córpus anotados na literatura para classificação de polaridades. Além da anotação manual do córpus, realizamos a implementação de um framework de aprendizado semissupervisionado que faz uso de dados anotados e, de maneira iterativa, expande o mesmo usando dados não anotados. O TweetSentBR, que possui 15:000 tweets anotados é assim expandido cerca de oito vezes. Para a expansão, foram treinados modelos de classificação usando seis classificadores de polaridades, assim como foram avaliados diferentes parâmetros e representações a fim de obter um córpus confiável. Realizamos experimentos gerando córpus expandidos por cada classificador, tanto para a classificação em três polaridades (positiva, neutra e negativa) quanto para classificação binária. Avaliamos os córpus gerados usando um conjunto de held-out e comparamos a FMeasure da classificação usando como treinamento os córpus anotados manualmente e semiautomaticamente. O córpus semissupervisionado que obteve os melhores resultados para a classificação em três polaridades atingiu 62;14% de F-Measure média, superando a média obtida com as avaliações no córpus anotado manualmente (61;02%). Na classificação binária, o melhor córpus expandido obteve 83;11% de F1-Measure média, superando a média obtida na avaliação do córpus anotado manualmente (79;80%). Além disso, simulamos nossa expansão em córpus anotados da literatura, medindo o quão corretas são as etiquetas anotadas semi-automaticamente. Nosso melhor resultado foi na expansão de um córpus de reviews de produtos que obteve FMeasure de 93;15% com dados binários. Por fim, comparamos um córpus da literatura obtido por meio de supervisão distante e nosso framework semissupervisionado superou o primeiro na classificação de polaridades binária em cross-domain. / The high volume of data available in the Internet can be a good resource for studies of several tasks in Natural Language Processing as in Sentiment Analysis. Unfortunately there is a high cost for the annotation of new corpora, involving financial support and long revision processes. Our work proposes an approach for semi-supervised labeling, an automatic annotation of a large unlabeled set of documents starting from a manually annotated corpus. In order to achieve that, we introduced TweetSentBR, a tweet corpora on TV show programs domain with annotation for 3-point (positive, neutral and negative) sentiment classification partially reviewed by up to seven annotators. The corpus is an important linguistic resource for Brazilian Portuguese language and it stands between the biggest annotated corpora for polarity classification. Beyond the manual annotation, we implemented a semi-supervised learning based framework that uses this labeled data and extends it using unlabeled data. TweetSentBR corpus, containing 15:000 documents, had its size augmented in eight times. For the extending process, we trained classification models using six polarity classifiers, evaluated different parameters and representation schemes in order to obtain the most reliable corpora. We ran experiments generating extended corpora for each classifier, both for 3-point and binary classification. We evaluated the generated corpora using a held-out subset and compared the obtained F-Measure values with the manually and the semi-supervised annotated corpora. The semi-supervised corpus that obtained the best values for 3-point classification achieved 62;14% on average F-Measure, overcoming the results obtained by the same classification with the manually annotated corpus (61;02%). On binary classification, the best extended corpus achieved 83;11% on average F-Measure, overcoming the results on the manually corpora (79;80%). Furthermore, we simulated the extension of labeled corpora in literature, measuring how well the semi-supervised annotation works. Our best results were in the extension of a product review corpora, achieving 93;15% on F1-Measure. Finally, we compared a literature corpus which was labeled by using distant supervision with our semi-supervised corpus, and this overcame the first in binary polarity classification on cross-domain data.
|
7 |
Investigação de modelos de coerência local para sumários multidocumento / Investigation of local coherence models for multri-document summariesDias, Márcio de Souza 10 May 2016 (has links)
A sumarização multidocumento consiste na tarefa de produzir automaticamente um único sumário a partir de um conjunto de textos derivados de um mesmo assunto. É imprescindível que seja feito o tratamento de fenômenos que ocorrem neste cenário, tais como: (i) a redundância, a complementaridade e a contradição de informações; (ii) a uniformização de estilos de escrita; (iii) tratamento de expressões referenciais; (iv) a manutenção de focos e perspectivas diferentes nos textos; (v) e a ordenação temporal das informações no sumário. O tratamento de tais fenômenos contribui significativamente para que seja produzido ao final um sumário informativo e coerente, características difíceis de serem garantidas ainda que por um humano. Um tipo particular de coerência estudado nesta tese é a coerência local, a qual é definida por meio de relações entre enunciados (unidades menores) em uma sequência de sentenças, de modo a garantir que os relacionamentos contribuirão para a construção do sentido do texto em sua totalidade. Partindo do pressuposto de que o uso de conhecimento discursivo pode melhorar a avaliação da coerência local, o presente trabalho propõe-se a investigar o uso de relações discursivas para elaborar modelos de coerência local, os quais são capazes de distinguir automaticamente sumários coerentes dos incoerentes. Além disso, um estudo sobre os erros que afetam a Qualidade Linguística dos sumários foi realizado com o propósito de verificar quais são os erros que afetam a coerência local dos sumários, se os modelos de coerência podem identificar tais erros e se há alguma relação entre os modelos de coerência e a informatividade dos sumários. Para a realização desta pesquisa foi necessário fazer o uso das informações semântico-discursivas dos modelos CST (Cross-document Structure Theory) e RST (Rhetorical Structure Theory) anotadas no córpus, de ferramentas automáticas, como o parser Palavras e de algoritmos que extraíram informações do córpus. Os resultados mostraram que o uso de informações semântico-discursivas foi bem sucedido na distinção dos sumários coerentes dos incoerentes e que os modelos de coerência implementados nesta tese podem ser usados na identificação de erros da qualidade linguística que afetam a coerência local. / Multi-document summarization is the task of automatically producing a single summary from a collection of texts derived from the same subject. It is essential to treat many phenomena, such as: (i) redundancy, complementarity and contradiction of information; (ii) writing styles standardization; (iii) treatment of referential expressions; (iv) text focus and different perspectives; (v) and temporal ordering of information in the summary. The treatment of these phenomena contributes to the informativeness and coherence of the final summary. A particular type of coherence studied in this thesis is the local coherence, which is defined by the relationship between statements (smallest units) in a sequence of sentences. The local coherence contributes to the construction of textual meaning in its totality. Assuming that the use of discursive knowledge can improve the evaluation of the local coherence, this thesis proposes to investigate the use of discursive relations to develop local coherence models, which are able to automatically distinguish coherent summaries from incoherent ones. In addition, a study on the errors that affect the Linguistic Quality of the summaries was conducted in order to verify what are the errors that affect the local coherence of summaries, as well as if the coherence models can identify such errors, and whether there is any relationship between coherence models and informativenessof summaries. For thisresearch, it wasnecessary theuseof semantic-discursive information of CST models (Cross-document Structure Theory) and RST (Rhetorical Structure Theory) annoted in the corpora, automatic tools, parser as Palavras, and algorithms that extract information from the corpus. The results showed that the use of semantic-discursive information was successful on the distinction between coherent and incoherent summaries, and that the information about coherence can be used in error detection of linguistic quality that affect the local coherence.
|
8 |
Caracterização linguística de personagens de histórias em quadrinhos da Mulher-Maravilha por meio da abordagem baseada em córpusCassimiro, Eduardo de Carvalho 16 December 2014 (has links)
Made available in DSpace on 2016-04-28T18:22:59Z (GMT). No. of bitstreams: 1
Eduardo de Carvalho Cassimiro.pdf: 21483325 bytes, checksum: 91a5b7094d9685eaf8f389489794b204 (MD5)
Previous issue date: 2014-12-16 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The author of this empirical language study aims at offering evidence of the linguistic
characterization of some Wonder Woman comic book characters by finding which keywords
from specific reference corpora have been incorporated to the aforementioned
characters vocabulary, and to what extent. In order to achieve such an aim, the researcher,
first, brings to light the 100 relevant keywords from each of his six specific natural
language samples by comparing their vocabularies to that of a generic reference corpus
(such as the BNC); then, the incorporated keywords are found. Only the texts (not the
drawings) from 24 issues of the WONDER WOMAN comic book (published in the late
1980s) have served him as his study corpus. All the stories in that selected corpus were both
written and drawn by George Pérez. The researcher s methodological and theoretical basis is
from the Corpus Linguistics field (or the corpus-based approach). The results seem to
warrant the conclusion that, based on the study of those characters vocabulary, which is a
manifestation of the writer s stylistic choices, both the method developed for this research and
the theoretical basis selected by the researcher have been proven valuable not only to make
the linguistic characterization (of comic book characters) evident, but also to analyze it / O objetivo do autor deste estudo de linguagem empírico é evidenciar a caracterização
linguística de personagens de histórias em quadrinhos da Mulher-Maravilha mediante a
descoberta de quais palavras-chave de córpora de referência específicos estão
incorporadas ao vocabulário de tais personagens, e em qual proporção. Para atingir esse
objetivo, o pesquisador, primeiro, descobre as 100 palavras-chave relevantes de seis amostras
de linguagem específica por meio da comparação do léxico delas ao dum córpus de
referência formado por linguagem genérica (como o BNC); depois, as palavras-chave
incorporadas. Apenas os textos de 24 edições da revista WONDER WOMAN do fim da
década de 1980, roteirizadas e desenhadas por George Pérez compõem o córpus de estudo.
A fundamentação teórico-metodológica do pesquisador é de Linguística de Córpus (ou da
abordagem baseada em córpus). À luz dos resultados obtidos, o autor considera admissível
afirmar que tanto o método desenvolvido para esta pesquisa quanto o referencial teórico são
adequados para a descoberta e para a análise da caracterização linguística de personagens de
histórias em quadrinhos com base no vocabulário destes, que é decorrente de escolhas
estilísticas do seu roteirista
|
9 |
Escrita científica em português por hispano falantes: recursos linguísticos-computacionais baseados em métodos de alinhamento de textos paralelos / Scientific writing in portuguese by hispanic speaking: linguistic-computational resources based on alignments methods of parallel textTorres, Lianet Sepúlveda 24 September 2015 (has links)
O número de estrangeiros interessados em aprender o português tem aumentado na última década, em consequência do crescimento da economia brasileira e do aumento da presença de multinacionais no Brasil. Esse fato se mostra pelo aumento do número de inscritos no exame de proficiência de português CELPE-Bras e de estudantes estrangeiros que ingressam nas universidades brasileiras. A maioria destes estudantes são de língua espanhola e precisam escrever seus textos acadêmicos em português. A proximidade das línguas portuguesa e espanhola apresenta-se tanto como um elemento positivo quanto como um obstáculo, pois oculta as diferenças e impede o domínio da língua portuguesa, mantendo, na fala e na escrita em português, interferências do espanhol. O maior número destas interferências acontece no nível lexical. Uma das alternativas para tratar os problemas em textos de aprendizes de uma língua é o emprego de ferramentas computacionais de pós-processamento e de suporte ao processo de escrita. No entanto, o número de recursos e ferramentas disponíveis para auxiliar a escrita de português como língua estrangeira é muito reduzido, diferentemente do cenário para a língua inglesa. Esta pesquisa propôs a criação de recursos e ferramentas de suporte à escrita no nível lexical como primeiro passo para a melhoria da qualidade linguística dos textos em português produzidos pelos nativos do espanhol. A Linguística de Córpus foi utilizada como metodologia para viabilizar a análise de erros de aprendizes. As ferramentas de auxílio utilizam léxicos bilíngues compilados por meio de técnicas de tradução, baseadas em alinhamento de córpus paralelos. Dado o número insuficiente de erros previamente anotados para suportar a detecção automática de erros, esta pesquisa propôs métodos baseados em modelo língua e na geração artificial de erros. A geração de erros artificiais se apresentou como um método eficiente para predizer erros lexicais dos aprendizes. As contribuições obtidas com a metodologia baseada em tradução automática para gerar auxílios à escrita entre línguas próximas, considerando a análise de erros lexicais extraídos de córpus de aprendizes, foco desta pesquisa, são: (i) do ponto de vista teórico, o levantamento e quantificação dos principais problemas causados pelas marcas do espanhol, deixadas nos textos acadêmicos em português escritos por nativos do espanhol; (ii) do ponto de vista de geração automática de recursos linguísticos, léxicos bilíngues de cognatos e falsos cognatos; léxico bilíngue de marcadores discursivos; léxico de expressões formulaicas que aparecem nos textos científicos e léxico bilíngue de verbos relacionados com pesquisa científica em português e, (iii) do ponto de vista da criação de subsídios para a área de auxílio à escrita científica, o projeto e avaliação de auxílios para suportar a escrita científica em português por nativos do espanhol. / In the last decade, as a result of Brazilian economic growth and the increased presence of multinationals in the country, the interest of foreigners in learning Portuguese rose. This fact is also noted by the number of students enrolled in the Portuguese proficiency exam, CELPE-Bras and the number of foreigner students entering at the Brazilian Universities. Most of these students are Spanish speakers and need to write the dissertation or thesis in Portuguese. The similarity between Portuguese and Spanish is considered as a positive element that often becomes an obstacle, because similarity and closeness frequently conceal differences and hinder learners from mastering the Portuguese, keeping interferences from their native Spanish both when speaking and writing in Portuguese. The largest number of this interference occurs at the lexical level. One alternative to deal with errors of second language learners is the use of computational post-edit tools and tools to support the writing process. However, the number of resources and tools available to help improve Portuguese writing as a foreign language is very small, unlike the scenario into English. This research proposed the creation of resources and writing support tools at the lexical level as a first step to improving the linguistic quality of the texts produced by Portuguese native Spanish. Corpus linguistics was used as a methodology to enable the learners error analysis. The writing support tools use bilingual lexicons compiled through translation techniques based on alignment parallel corpus. Given the insufficient number of errors previously annotated to support automatic error detection, this research proposed methods based on language model and artificial generation of errors. The generation of artificial errors introduced himself as an efficient method for predicting lexical errors of learners. The contributions obtained with the methodology based on automatic translation to generate written supports between similar languages, considering lexical error, extracted by the analysis of learners corpus, focus of this research are: (i) the theoretical point of view, the survey and quantification of the main problems caused by the Spanish marks, left in the academic texts written in Portuguese by native Spanish; (ii) the automatic generation of language resources point of view, bilingual lexicons of cognates and false cognates; bilingual lexicon of discourse markers; bilingual lexicon of formulaic expressions that appear in scientific texts and bilingual lexicon of verbs related to scientific research in Portuguese and, (iii) the point of view of creating subsidies for the area of support scientific writing, design and evaluation of aid to support scientific writing in Portuguese by native Spanish speakers.
|
10 |
Escrita científica em português por hispano falantes: recursos linguísticos-computacionais baseados em métodos de alinhamento de textos paralelos / Scientific writing in portuguese by hispanic speaking: linguistic-computational resources based on alignments methods of parallel textLianet Sepúlveda Torres 24 September 2015 (has links)
O número de estrangeiros interessados em aprender o português tem aumentado na última década, em consequência do crescimento da economia brasileira e do aumento da presença de multinacionais no Brasil. Esse fato se mostra pelo aumento do número de inscritos no exame de proficiência de português CELPE-Bras e de estudantes estrangeiros que ingressam nas universidades brasileiras. A maioria destes estudantes são de língua espanhola e precisam escrever seus textos acadêmicos em português. A proximidade das línguas portuguesa e espanhola apresenta-se tanto como um elemento positivo quanto como um obstáculo, pois oculta as diferenças e impede o domínio da língua portuguesa, mantendo, na fala e na escrita em português, interferências do espanhol. O maior número destas interferências acontece no nível lexical. Uma das alternativas para tratar os problemas em textos de aprendizes de uma língua é o emprego de ferramentas computacionais de pós-processamento e de suporte ao processo de escrita. No entanto, o número de recursos e ferramentas disponíveis para auxiliar a escrita de português como língua estrangeira é muito reduzido, diferentemente do cenário para a língua inglesa. Esta pesquisa propôs a criação de recursos e ferramentas de suporte à escrita no nível lexical como primeiro passo para a melhoria da qualidade linguística dos textos em português produzidos pelos nativos do espanhol. A Linguística de Córpus foi utilizada como metodologia para viabilizar a análise de erros de aprendizes. As ferramentas de auxílio utilizam léxicos bilíngues compilados por meio de técnicas de tradução, baseadas em alinhamento de córpus paralelos. Dado o número insuficiente de erros previamente anotados para suportar a detecção automática de erros, esta pesquisa propôs métodos baseados em modelo língua e na geração artificial de erros. A geração de erros artificiais se apresentou como um método eficiente para predizer erros lexicais dos aprendizes. As contribuições obtidas com a metodologia baseada em tradução automática para gerar auxílios à escrita entre línguas próximas, considerando a análise de erros lexicais extraídos de córpus de aprendizes, foco desta pesquisa, são: (i) do ponto de vista teórico, o levantamento e quantificação dos principais problemas causados pelas marcas do espanhol, deixadas nos textos acadêmicos em português escritos por nativos do espanhol; (ii) do ponto de vista de geração automática de recursos linguísticos, léxicos bilíngues de cognatos e falsos cognatos; léxico bilíngue de marcadores discursivos; léxico de expressões formulaicas que aparecem nos textos científicos e léxico bilíngue de verbos relacionados com pesquisa científica em português e, (iii) do ponto de vista da criação de subsídios para a área de auxílio à escrita científica, o projeto e avaliação de auxílios para suportar a escrita científica em português por nativos do espanhol. / In the last decade, as a result of Brazilian economic growth and the increased presence of multinationals in the country, the interest of foreigners in learning Portuguese rose. This fact is also noted by the number of students enrolled in the Portuguese proficiency exam, CELPE-Bras and the number of foreigner students entering at the Brazilian Universities. Most of these students are Spanish speakers and need to write the dissertation or thesis in Portuguese. The similarity between Portuguese and Spanish is considered as a positive element that often becomes an obstacle, because similarity and closeness frequently conceal differences and hinder learners from mastering the Portuguese, keeping interferences from their native Spanish both when speaking and writing in Portuguese. The largest number of this interference occurs at the lexical level. One alternative to deal with errors of second language learners is the use of computational post-edit tools and tools to support the writing process. However, the number of resources and tools available to help improve Portuguese writing as a foreign language is very small, unlike the scenario into English. This research proposed the creation of resources and writing support tools at the lexical level as a first step to improving the linguistic quality of the texts produced by Portuguese native Spanish. Corpus linguistics was used as a methodology to enable the learners error analysis. The writing support tools use bilingual lexicons compiled through translation techniques based on alignment parallel corpus. Given the insufficient number of errors previously annotated to support automatic error detection, this research proposed methods based on language model and artificial generation of errors. The generation of artificial errors introduced himself as an efficient method for predicting lexical errors of learners. The contributions obtained with the methodology based on automatic translation to generate written supports between similar languages, considering lexical error, extracted by the analysis of learners corpus, focus of this research are: (i) the theoretical point of view, the survey and quantification of the main problems caused by the Spanish marks, left in the academic texts written in Portuguese by native Spanish; (ii) the automatic generation of language resources point of view, bilingual lexicons of cognates and false cognates; bilingual lexicon of discourse markers; bilingual lexicon of formulaic expressions that appear in scientific texts and bilingual lexicon of verbs related to scientific research in Portuguese and, (iii) the point of view of creating subsidies for the area of support scientific writing, design and evaluation of aid to support scientific writing in Portuguese by native Spanish speakers.
|
Page generated in 0.0409 seconds