• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 188
  • 38
  • 8
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 241
  • 111
  • 54
  • 53
  • 48
  • 45
  • 44
  • 43
  • 37
  • 33
  • 31
  • 28
  • 24
  • 23
  • 21
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
191

Aproximación al léxico de la Anatomía y de la Urología en romance en el siglo XVI

Moreno Torres, Ángela 30 June 2000 (has links)
Estudio del léxico de las obras de Gutiérrez de Toledo (1498), de Montaña de Monserrate (1551), de Juan Valverde (1556) y de Francisco Díaz (1588), elegidos por ser, unos, los primeros tratados sobre Urología y Anatomía escritos en romance y, otros, los mejores tratados del Renacimiento español.Hemos intentado demostrar cómo una gran cantidad de términos médicos utilizados, usualmente, hasta hoy día aparecen por primera vez en estas obras. En total nuestro léxico contiene 4565 entradas, de las que sólo 500 aparecen en los tres diccionarios consultados -DRAE, DCECH, DETEMA-. Concluimos demostrando que la primera datación de algunas de las voces se halla en estos autores. Su interés estriba en la falta de estudios al respecto y en lo novedoso que resulta en el momento en que los tratados científicos aún se escribían en latín, el hecho de que estos cuatro médicos se decidan a hacerlo en romance. / Research on the vocabulary of the works by Gutierrez de Toledo, by Montaña, by Valverde and by Díaz, chosen as ones are the first treatises on Urology and Anatomy written in Spanish and others because they are the best Spanish Renaissance treatises.We have tried to prove that such a big amount of medical terminology used, usually, even nowadays, appears for the first time in the above mentioned works. In total our lexicon contains up to 4,565 terms, but only 500 appear in the 3 dictionaries checked -DRAE, DCECH, DETEMA-. We conclude proving that the first time these terms appear are in the works of these authors.The interest relies on the lack of research regarding this issue and how innovative is the fact that these four doctors decided to do it in Spanish at a time these type of scientific treatises were still written in Latin.
192

Estudios sobre la lengua de los hechos apócrifos de Pedro y Pablo

Artés Hernández, José Antonio 21 October 1994 (has links)
Nuestro propósito es analizar los Acta Pauli et Petri apocrypha en lengua griega desde los puntos de vista gramatical y léxico. Dividimos nuestro estudio en dos partes principales: la primera está dedicada a la fonética, la morfología, la sintaxis, el orden de palabras y el estilo y la segunda al léxico. También realizamos una comparación de los escritos mencionados con otros no literarios (papiros, inscripciones, ...) o literarios, así como con algunos más correspondientes a niveles de lengua distintos, relativamente contemporáneos o que se pueden incluir en una tradición común (Nuevo Testamento, novelas griegas, etc.). / Our aim is to analyse the Greek Acta Pauli et Petri apocrypha from a grammatical and lexical point of view. We divide our study in two main parts: the first one devoted to phonetics, morphology, syntax, word order and stylistics, the second one dealing with lexical uses. We also compare the texts mentioned above to non-literary (papyri, inscriptions, ...) or literary works, as well as to different stages of language, relatively contemporary or included in a common tradition (New Testament, Greek novels, etc.).
193

África Banta na região diamantina: uma proposta de análise etimológica / Bantu Africa in the diamond-mining region: a proposal for etymological study

Everton Machado Simões 10 March 2014 (has links)
Este trabalho constitui uma pesquisa sobre o léxico de origem africana presente em falares da região diamantina de Minas Gerais. Estão aqui reunidos os léxicos de diferentes pesquisas sobre a região, além dos resultados recentes de nossa investigação, realizada em quatro comunidades remanescentes de quilombo: Ausente e Baú, no distrito de Milho Verde, Serro; Espinho, no município de Gouveia; e, Quartel do Indaiá, no distrito de São João da Chapada, Diamantina. O objetivo principal deste estudo é apresentar uma investigação etimológica dos itens lexicais coletados, procurando fazer um estudo histórico e linguístico da realidade observada. A partir de orientações para o trabalho etimológico de Viaro (2011), procuramos consultar as fontes de registro mais antigas de línguas africanas que pudessem estar relacionadas ao léxico da região. Esses registros são constituídos, principalmente, de dicionários de línguas africanas e alguns estudos históricos e linguísticos sobre as comunidades mineiras investigadas. O estudo realizado permite afirmar que o sistema de escravidão na região diamantina, o tráfico mais recente partindo do porto de Benguela e a proximidade lexical das línguas do grupo banto preservaram por um período uma língua africana de características bantas. Não se pode identificar com certeza qual seria essa língua, apesar da presença de um grande número de itens lexicais do umbundo. É mais prudente propor que se trate de um caso de convergência de um falar veicular do grupo R com as línguas do grupo H, presentes na região. / This is a study of lexical items from African speeches (falares africanos) in the diamond-mining region of Minas Gerais, Brazil. We collected the lexical items from different researches in the area, complementing them with results from our investigative research in four maroon-descendent communities: Ausente and Baú, district of Milho Verde, Serro; Espinho, Gouveia; and, Quartel do Indaiá, district of São João da Chapada, Diamantina. Our main objective is to present an etymological investigation of the items collected, based on a historical and linguistic study. Based on Viaro (2011), we consulted the oldest registers of African languages that could be related to the lexical items found in the region. These registers are constituted mostly by African languages dictionaries, besides some historical and linguistic studies of the African-Brazilian communities from Minas Gerais. Our study indicates that the slavery system of the diamond region, the late traffic departing from Benguela seaport and the lexical proximity of Bantu languages, favored the preservation during a certain period of time of an African language of Bantu characteristics. It is not possible to identify precisely which language it was, but we could identify a great lexical contribution from umbundo (R10). It is reasonable to propose that there was a case of linguistic convergence of a vehicular language from the R group with languages from the H group, both present in the region.
194

Dos saberes da roça: entre plantas, memórias e palavras / Des savoirs de la campagne : parmi les plantes, les mémoires et les mots / Of the knowledge of the garden: between plants, memories and words

Jeronimo, Gabriela Guimarães [UNESP] 30 May 2018 (has links)
Submitted by Gabriela Guimarães Jeronimo (gabriela.ggj@gmail.com) on 2018-11-01T01:11:12Z No. of bitstreams: 1 TESE - GABRIELA GUIMARÃES JERONIMO.pdf: 7867662 bytes, checksum: a82a338630b27b520a0f46577ce985bc (MD5) / Rejected by Aline Aparecida Matias null (alinematias@fclar.unesp.br), reason: Solicitamos que realize uma nova submissão seguindo as orientações abaixo: 1) Ficha catalográfica: seu nome deve aparecer como está na Página de Rosto e na Folha de Aprovação. Sendo assim na entrada da ficha fica: Jeronimo, Gabriela Guimarães e no corpo da ficha Gabriela Guimarães Jeronimo. 2) Agradecimentos: De acordo com a PORTARIA CAPES n. 206, de 4 de setembro de 2018 (http://pesquisa.in.gov.br/imprensa/jsp/visualiza/index.jsp?data=05/09/2018&jornal=515&pagina=22), que dispõe sobre a obrigatoriedade de citação da CAPES, o agradecimento à agência de fomento deverá aparecer da seguinte forma: "O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001". Agradecemos a compreensão. on 2018-11-01T18:32:55Z (GMT) / Submitted by Gabriela Guimarães Jeronimo (gabriela.ggj@gmail.com) on 2018-11-01T19:29:11Z No. of bitstreams: 1 GABRIELA GUIMARÃES JERONIMO - TESE.pdf: 7859403 bytes, checksum: 9bbeff9ac4d7ed074203fdb02c6f853b (MD5) / Rejected by Aline Aparecida Matias null (alinematias@fclar.unesp.br), reason: Solicitamos que realize uma nova submissão seguindo as orientações abaixo: 1) Agradecimentos: A frase deve ser exatamente a que aparece na Portaria n. 206, de 4 de setembro de 2018 (http://pesquisa.in.gov.br/imprensa/jsp/visualiza/index.jsp?data=05/09/2018&jornal=515&pagina=22), que dispõe sobre a obrigatoriedade de citação da CAPES, o agradecimento à agência de fomento deverá aparecer da seguinte forma: "O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001". Agradecemos a compreensão. on 2018-11-01T19:49:54Z (GMT) / Submitted by Gabriela Guimarães Jeronimo (gabriela.ggj@gmail.com) on 2018-11-01T20:09:17Z No. of bitstreams: 1 TESE - GABRIELA GUIMARÃES JERONIMO.pdf: 7857927 bytes, checksum: 5d2030ce15663d022c15c22667afb9e0 (MD5) / Approved for entry into archive by Milena Maria Rodrigues null (milena@fclar.unesp.br) on 2018-11-12T20:49:34Z (GMT) No. of bitstreams: 1 jeronimo_gg_dr_arafcl.pdf: 7857927 bytes, checksum: 5d2030ce15663d022c15c22667afb9e0 (MD5) / Made available in DSpace on 2018-11-12T20:49:35Z (GMT). No. of bitstreams: 1 jeronimo_gg_dr_arafcl.pdf: 7857927 bytes, checksum: 5d2030ce15663d022c15c22667afb9e0 (MD5) Previous issue date: 2018-05-30 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Le concept de définition, ainsi que la relation entre les mots et les choses sont des thèmes discutés depuis longtemps, et ne sont pas encore complètement épuisés parmi les théoriciens qui se consacrent à les étudier. A partir de la Lexicologie et de son interface avec d'autres domaines du savoir, en particulier, la Lexicographie, l'Anthropologie, l'Histoire et la Sociologie, nous proposons de mener une recherche dont les objets d’enquête sont des types particuliers de définition employés oralement par les locuteurs au fur et à mesure qu’ils décrivent les éléments de la flore. Pour la constitution du corpus oral, il a fallu, d'abord, mener des recherches sur le terrain dans sept municipalités situées dans la région sud-est de l'État de Goiás. Nous avons interviewé deux femmes et deux hommes dans chaque localité, représentant le total de vingt-huit personnes, la majorité âgée de plus de soixante ans. En plus d'appartenir, quasiment, à la même génération, un autre point commun est le fait que leur histoire de vie est traversée par la relation avec la campagne avant et après l'exode rural qui a commencé dans les terres de Goiás en 1980. Notre objectif principal est d'analyser les procédures linguistiques utilisées par les dames et messieurs dans la constitution des définitions qui font référence aux plantes de la région. Plus précisément, ce travail propose : i) de comparer les définitions faites par nos interlocuteurs avec celles enregistrées dans la base de données du Dictionnaire Historique du Brésil (DHPB), qui se compose des textes et des documents les plus variés ; ii) discuter de la relation entre le lexique, la culture et la société à partir du corpus de recherche ; iii) souligner les différences entre les savoirs des personnes interviewées et le savoir basilaire des définitions enregistrées dans la base de données de la DHPB datée du XVIe au XVIIIe siècle, et de la première décennie du XIXe siècle; iv) proposer une typologie définitionnelle qui réponde aux particularités du corpus oral. Le corpus est organisé sur la base de la proposition Begriffssystem (HALLIG ; WARTBURG, 1963), dans laquelle la séquence d'apparition des unités lexicales est basée sur la logique du locuteur, c'est-à-dire, la relation des sujets de la recherche avec les plantes est ce qui définit l’ordre dans lequel les unités lexicales sont disposées et non celle alphabétique. Quant aux procédures d'analyse, nous avons fait la comparaison entre les définitions extraites de la base de données du DHPB et celles extraites du corpus oral transcrit, où nous avons observé les similitudes dans l'utilisation des éléments paralexicographiques qui introduisent les processus de description; séparément, nous avons analysé certaines des unités lexicales qui ne sont pas enregistrées dans la base de données, afin de saisir les particularités et les subjectivités impliquées dans la construction des définitions formulées par nos interlocuteurs, les comprenant en tant que lieu où se matérialisent les savoirs et les mémoires des locuteurs qui, linguistiquement, les formulent. Enfin, sur la base des discussions théoriques que nous avons menées, notamment, Biderman (1984), Blinkstein (1938), Certeau (1998), Geertz (1997, 2008, 2009), Martin (1988), Mignolo, (2003), Murakawa (2005, 2014, 2016), Paula (2007), Pollak (1889), Rey-Debove (1984), Rey (1988), nous proposons une typologie définitionnelle qui puisse embrasser ces cas particuliers que nous appelons la « définition de seuil ». / O conceito de definição, bem como a relação entre as palavras e as coisas são temas discutidos há bastante tempo e, ainda assim, não são assuntos completamente esgotados entre os teóricos que dedicam-se a estudá-los. A partir da Lexicologia e sua interface com outros campos do saber, em especial, a Lexicografia, a Antropologia, a História e a Sociologia, propomo-nos realizar uma pesquisa cujo objeto de investigação são tipos peculiares de definição empregados oralmente pelos falantes ao descreverem elementos da flora. Para constituição do corpus oral foi necessário, primeiro, a realização da pesquisa de campo que ocorreu em sete municípios localizados na região sudeste do estado de Goiás. Entrevistamos duas mulheres e dois homens em cada lugar, somando um total de vinte e oito pessoas, a maioria com idade acima de sessenta anos. Além de pertencerem, praticamente, à mesma geração, outro ponto que têm em comum é o fato de suas histórias de vida estarem atravessadas pela relação com o campo antes e depois do êxodo rural que, nas terras goianas, iniciou-se em 1980. Nosso objetivo principal é analisar os procedimentos linguísticos utilizados pelas senhoras e senhores na constituição das definições referentes às plantas da região. Mais especificamente, este trabalho se propõe: i) comparar as definições realizadas pelos nossos interlocutores àquelas registradas no banco de dados do Dicionário Histórico do Português do Brasil (DHPB) que é constituído pelos mais variados textos e documentos; ii) discutir a relação entre léxico, cultura e sociedade a partir do corpus de pesquisa; iii) apontar diferenças entre os saberes dos entrevistados e o saber basilar das definições registradas no banco de dados do DHPB com datação localizada desde o século XVI até o XVIII, e o primeiro decênio do XIX; iv) propor uma tipologia definicional que atenda às particularidades do corpus oral. O corpus está organizado com base na proposta do Begriffssystem (HALLIG; WARTBURG, 1963), em que a sequência de aparição das unidades lexicais está pautada na lógica do falante, isto é, a relação dos sujeitos da pesquisa com as plantas é quem define a ordem em que as unidade lexicais estão dispostas e não a alfabética. Quanto os procedimentos de análise, fizemos a comparação entre as definições extraídas do banco de dados do DHPB e àquelas retiradas do corpus oral transcrito, onde observamos as semelhanças no uso dos elementos paralexicográficos que introduzem os processos de descrição; separadamente, analisamos algumas das unidades léxicas que não se encontram registradas no banco de dados, no intuito de apreender as particularidades e subjetividades envolvidas na construção das definições formuladas por nossos interlocutores, entendendo-as enquanto lugar onde se materializam os saberes e as memórias dos falantes que, linguisticamente, as formulam. Por fim, embasados pelas discussões teóricas que trouxemos, ao longo desse trabalho, especialmente, Biderman (1984), Blinkstein (1938), Certeau (1998), Geertz (1997, 2008, 2009), Martin (1988), Mignolo (2003), Murakawa (2005, 2014, 2016), Paula (2007), Pollak (1889),), Rey-Debove (1984), Rey (1988), propomos uma tipologia definicional que possa abarcar esses casos peculiares que chamamos de "definição liminar". / The concept of definition, as well as the relationship between words and things represent themes that have long been discussed, yet they are not completely exhausted among the theorists who devote themselves to studying them. From Lexicology and its interface with other fields of knowledge, in particular, Lexicography, Anthropology, History and Sociology, we propose to carry out a research whose object of investigation are peculiar types of definition used orally by the speakers in describing elements of the flora. For constitution of the oral corpus was necessary, first, the realization of field research that occurred in seven municipalities located in the southeast region of the state of Goiás. We interviewed two women and two men in each place, totaling twenty-eight people, most of them over the age of sixty. Besides belonging, practically, to the same generation, Another point they have in common is that their life histories are crossed by the relationship with the countryside before and after the rural exodus that began in the lands of Goias in 1980. Our main objective is to analyze the linguistic procedures used by the mistress and mister in the constitution of the definitions concerning the plants of the region. More specifically, this paper proposes: i ) compare the definitions made by our interlocutors with those registered in the database of the Brazilian Historical Dictionary (DHPB), which consists of the most varied texts and documents; ii ) discuss the relationship between lexicon, culture and society from the research corpus; iii) point out differences between the interviewees' knowledge and the basilar knowledge of the definitions recorded in the DHPB database with dating located from the sixteenth to the eighteenth century, and the first decade of the nineteenth century; iv) propose a definitive typology that meets the particularities of the oral corpus. The corpus is organized based on the Begriffssystem proposal (HALLIG; WARTBURG, 1963), in which the sequence of appearance of the lexical units is based on the logic of the speaker, that is, the relation of the subjects of the research with the plants is who defines the order in which the lexical units are arranged and not the alphabetical one. Regarding the procedures of analysis, we compared the definitions extracted from the DHPB database and those extracted from the transcribed oral corpus, where we observe the similarities in the use of the paralexicographic elements that introduce the processes of description; separately, we analyze some of the lexical units that are not registered in the database, in order to apprehend the particularities and subjectivities involved in the construction of the definitions formulated by our interlocutors, understanding them as a place where the knowledge and memories of the speakers that linguistically formulate them materialize. Finally, based on the theoretical discussions that we have brought along this work, specially, Biderman (1984), Blinkstein (1938), Certeau (1998), Geertz (1997, 2008, 2009), Martin (1988), Mignolo , Murakawa (2005, 2014, 2016), Paula (2007), Pollak (1889), Rey-Debove (1984), Rey (1988), propose a definitional typology that can cover these peculiar cases that we call the "liminal definition". / PROEX 0487
195

Palavra de bamba: estudo léxico-discursivo de pioneiros do samba urbano carioca / A study of lexical and discoursive characteristics in a corpus of urban samba of Rio de Janeiro

Flávio de Aguiar Barbosa 27 March 2009 (has links)
Este é um estudo das características lexicais das composições de sambistas pioneiros do Rio de Janeiro, a partir de uma perspectiva discursiva alicerçada na constituição de um corpus representativo da sua produção lítero-musical. Tal corpus contém composições de três artistas nascidos na primeira década do século XX: Paulo da Portela, Ismael Silva e Cartola. A realização da tarefa é embasada em estudos culturais e históricos sobre o samba e o Rio de Janeiro na transição entre os séculos XIX e XX; em técnicas da Linguística de Corpus; em princípios teóricos da Análise do Discurso; em princípios teóricos e técnicas dos Estudos Lexicais (lexicologia, lexicografia e terminologia). O trabalho tem o propósito de contribuir para a investigação das características lexicais da letra de samba, especialmente nas composições típicas das primeiras décadas do século XX, que representam o período inaugural do samba urbano carioca. Adicionalmente, nele se apresentam o universo discursivo do samba, em suas práticas e valores, assim como as características textuais dos sambas do período / This is a study of the lexical characteristics of songs created by samba composers in Rio de Janeiro, from a discoursive perspective based on a corpus which is representative of their musical production. The corpus contains compositions of three artists who were born in the first decade of 20th century: Paulo da Portela, Ismael Silva and Cartola. The acomplishment of such task was based on cultural and historical studies about samba and Rio de Janeiro during the last decades of 19th century and the first decades of 20th century; on Corpus Linguistics techniques; on principles of Discourse Analysis; on techniques and principles of lexical studies (lexicology, lexicography and terminology). The purpose of this work is to contribute to the investigation of lexical characteristics of samba lyrics, specially in compositions which are typical of the early 20th century, an important period in the development of urban samba of Rio de Janeiro. Furthermore, the discoursive universe of samba is also presented, in its practices and values
196

Descrição e classificação de predicados nominais com o verbo-suporte fazer no Português do Brasil

Barros, Cláudia Dias de 27 February 2014 (has links)
Made available in DSpace on 2016-06-02T20:24:01Z (GMT). No. of bitstreams: 1 5807.pdf: 3922654 bytes, checksum: 8e7ecafab817a3f26a6a94ca169e1863 (MD5) Previous issue date: 2014-02-27 / Financiadora de Estudos e Projetos / Lexical data base building can be considered an essential task for Natural Language Processing (NLP), since the data included can be used in numerous tools, such as Parsers, Semantic Role Labelers, automatic translators, Text Simplifiers, Paraphrases Systems, Question-Answer Systems, Information Extraction Systems, among others. One kind of lexical information that can be used by these systems and, therefore, must be described and formalized is the nominal predicates, which can be defined by the union of a predicative noun and a support verb. Predicative nouns are those with arguments, and support verbs are the ones semantically empty. The latter provides to nouns the tense-aspect-person-number marks that they don t have, given their morphology. In this context, this research presents the linguistic description of 1,815 Brazilian Portuguese nominal predicates (support verb fazer and a predicative noun) according to the Lexicon-Grammar Theory. Such theory proposes that the linguistic unity of analysis is the simple clause (the predicator and its arguments). The data is inserted in a binary table, which presents the lexical entries in rows and the formal properties (structural, distributional and transformational) in columns.Twenty-nine properties were identified, such as (i) the type of prepositions; (ii) the possibility of passive voice, and others. The nominal predicates analysed were divided into 17 classes, which have syntactic regularities. This research has identified the variants of support verb fazer (make/do), in order to expand the possibilities of the ocurrence of these kinds of predicates. This research aims to contribute to the linguistic description of the Brazilian Portuguese language and NLP, providing data to be used in the future by systems that process lexicon. / A construção de bases de dados com informações lexicais pode ser considerada uma tarefa essencial para o Processamento de Línguas Naturais (PLN), pois os dados ali contidos podem ser utilizados em muitas ferramentas, como Parsers, Anotadores de Papéis Semânticos, tradutores automáticos, Simplificadores Textuais, Sistemas que lidam com paráfrases, Sistemas de Perguntas e Respostas, Sistemas de Extração de Informação, entre outros. Um tipo de informação lexical que pode ser utilizado por esses sistemas e, portanto, carece de ser descrito e formalizado, é o predicado nominal, que pode ser definido pela união de um nome predicativo (Npred) e um verbo-suporte (Vsup). Os Npred são aqueles que possuem argumentos e os Vsup são verbos considerados fracos do ponto de vista semântico e que fornecem ao nome as marcas de tempo-aspecto-pessoa-número que este não possui, devido à sua morfologia. Nesse contexto, a presente pesquisa apresenta a descrição de 1815 predicados nominais, formados pelo Vsup fazer e um nome predicativo do português do Brasil (PB), tendo como arcabouço teórico-metodológico a Léxico-Gramática, que propõe que a unidade de análise linguística seja a frase simples (o predicado e seus argumentos) e não um item lexical isolado. A representação dos predicados nominais é feita em uma matriz binária que apresenta as entradas lexicais nas linhas e as propriedades formais (estruturais, distribucionais e transformacionais) nas colunas. Neste trabalho, foram identificadas 29 propriedades, utilizadas na análise dos predicados nominais, como: (i) o tipo de preposições que introduzem os complementos; (ii) a possibilidade de haver formação de passiva, entre outras. Os predicados nominais descritos nesta pesquisa foram divididos em 17 classes, que apresentavam regularidades sintáticas. Foi realizado também o levantamento de possíveis variantes para o Vsup fazer, para expandir as possibilidades de realizações de predicados nominais com os Npred analisados nesta pesquisa. Espera-se, com este trabalho, contribuir para a Descrição Linguística do Português, por meio da análise léxico-gramática dos predicados nominais com o verbo-suporte fazer, e também contribuir para o PLN por meio da disponibilização dos dados para a futura utilização por sistemas que lidem com o léxico.
197

Aplicação de conhecimento léxico-conceitual na sumarização multidocumento multilíngue

Tosta, Fabricio Elder da Silva 27 February 2014 (has links)
Made available in DSpace on 2016-06-02T20:25:23Z (GMT). No. of bitstreams: 1 6554.pdf: 2657931 bytes, checksum: 11403ad2acdeafd11148154c92757f20 (MD5) Previous issue date: 2014-02-27 / Financiadora de Estudos e Projetos / Traditionally, Multilingual Multi-document Automatic Summarization (MMAS) is a computational application that, from a single collection of source-texts on the same subject/topic in at least two languages, produces an informative and generic summary (extract) in one of these languages. The simplest methods automatically translate the source-texts and, from a monolingual collection, apply content selection strategies based on shallow and/or deep linguistic knowledge. Therefore, the MMAS applications need to identify the main information of the collection, avoiding the redundancy, but also treating the problems caused by the machine translation (MT) of the full source-texts. Looking for alternatives to the traditional scenario of MMAS, we investigated two methods (Method 1 and 2) that once based on deep linguistic knowledge of lexical-conceptual level avoid the full MT of the sourcetexts, generating informative and cohesive/coherent summaries. In these methods, the content selection starts with the score and the ranking of the original sentences based on the frequency of occurrence of the concepts in the collection, expressed by their common names. In Method 1, only the most well-scored and non redundant sentences from the user s language are selected to compose the extract, until it reaches the compression rate. In Method 2, the original sentences which are better ranked and non redundant are selected to the summary without privileging the user s language; in cases which sentences that are not in the user s language are selected, they are automatically translated. In order to producing automatic summaries according to Methods 1 and 2 and their subsequent evaluation, the CM2News corpus was built. The corpus has 20 collections of news texts, 1 original text in English and 1 original text in Portuguese, both on the same topic. The common names of CM2News were identified through morphosyntactic annotation and then it was semiautomatically annotated with the concepts in Princeton WordNet through the Mulsen graphic editor, which was especially developed for the task. For the production of extracts according to Method 1, only the best ranked sentences in Portuguese were selected until the compression rate was reached. For the production of extracts according to Method 2, the best ranked sentences were selected, without privileging the language of the user. If English sentences were selected, they were automatically translated into Portuguese by the Bing translator. The Methods 1 and 2 were evaluated intrinsically considering the linguistic quality and informativeness of the summaries. To evaluate linguistic quality, 15 computational linguists analyzed manually the grammaticality, non-redundancy, referential clarity, focus and structure / coherence of the summaries and to evaluate the informativeness of the sumaries, they were automatically compared to reference sumaries by ROUGE measures. In both evaluations, the results have shown the better performance of Method 1, which might be explained by the fact that sentences were selected from a single source text. Furthermore, we highlight the best performance of both methods based on lexicalconceptual knowledge compared to simpler methods of MMAS, which adopted the full MT of the source-texts. Finally, it is noted that, besides the promising results on the application of lexical-conceptual knowledge, this work has generated important resources and tools for MMAS, such as the CM2News corpus and the Mulsen editor. / Tradicionalmente, a Sumarização Automática Multidocumento Multilíngue (SAMM) é uma aplicação que, a partir de uma coleção de textos sobre um mesmo assunto em ao menos duas línguas distintas, produz um sumário (extrato) informativo e genérico em uma das línguas-fonte. Os métodos mais simples realizam a tradução automática (TA) dos textos-fonte e, a partir de uma coleção monolíngue, aplicam estratégias superficiais e/ou profundas de seleção de conteúdo. Dessa forma, a SAMM precisa não só identificar a informação principal da coleção para compor o sumário, evitando-se a redundância, mas também lidar com os problemas causados pela TA integral dos textos-fonte. Buscando alternativas para esse cenário, investigaram-se dois métodos (Método 1 e 2) que, uma vez pautados em conhecimento profundo do tipo léxico-conceitual, evitam a TA integral dos textos-fonte, gerando sumários informativos e coesos/coerentes. Neles, a seleção do conteúdo tem início com a pontuação e o ranqueamento das sentenças originais em função da frequência de ocorrência na coleção dos conceitos expressos por seus nomes comuns. No Método 1, apenas as sentenças mais bem pontuadas na língua do usuário e não redundantes entre si são selecionadas para compor o sumário até que se atinja a taxa de compressão. No Método 2, as sentenças originais mais bem ranqueadas e não redundantes entre si são selecionadas para compor o sumário sem que se privilegie a língua do usuário; caso sentenças que não estejam na língua do usuário sejam selecionadas, estas são automaticamente traduzidas. Para a produção dos sumários automáticos segundo os Métodos 1 e 2 e subsequente avaliação dos mesmos, construiu-se o corpus CM2News, que possui 20 coleções de notícias jornalísticas, cada uma delas composta por 1 texto original em inglês e 1 texto original em português sobre um mesmo assunto. Os nomes comuns do CM2News foram identificados via anotação morfossintática e anotados com os conceitos da WordNet de Princeton de forma semiautomática, ou seja, por meio do editor gráfico MulSen desenvolvido para a tarefa. Para a produção dos sumários segundo o Método 1, somente as sentenças em português mais bem pontuadas foram selecionadas até que se atingisse determinada taxa de compressão. Para a produção dos sumários segundo o Método 2, as sentenças mais pontuadas foram selecionadas sem privilegiar a língua do usuário. Caso as sentenças selecionadas estivessem em inglês, estas foram automaticamente traduzidas para o português pelo tradutor Bing. Os Métodos 1 e 2 foram avaliados de forma intrínseca, considerando-se a qualidade linguística e a informatividade dos sumários. Para avaliar a qualidade linguística, 15 linguistas computacionais analisaram manualmente a gramaticalidade, a não-redundância, a clareza referencial, o foco e a estrutura/coerência dos sumários e, para avaliar a informatividade, os sumários foram automaticamente comparados a sumários de referência pelo pacote de medidas ROUGE. Em ambas as avaliações, os resultados evidenciam o melhor desempenho do Método 1, o que pode ser justificado pelo fato de que as sentenças selecionadas são provenientes de um mesmo texto-fonte. Além disso, ressalta-se o melhor desempenho dos dois métodos baseados em conhecimento léxico-conceitual frente aos métodos mais simples de SAMM, os quais realizam a TA integral dos textos-fonte. Por fim, salienta-se que, além dos resultados promissores sobre a aplicação de conhecimento léxico-conceitual, este trabalho gerou recursos e ferramentas importantes para a SAMM, como o corpus CM2News e o editor MulSen.
198

Investigação de métodos de sumarização automática multidocumento baseados em hierarquias conceituais

Zacarias, Andressa Caroline Inácio 29 March 2016 (has links)
Submitted by Livia Mello (liviacmello@yahoo.com.br) on 2016-09-30T19:20:49Z No. of bitstreams: 1 DissACIZ.pdf: 2734710 bytes, checksum: bf061fead4f2a8becfcbedc457a68b25 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-10-20T16:19:10Z (GMT) No. of bitstreams: 1 DissACIZ.pdf: 2734710 bytes, checksum: bf061fead4f2a8becfcbedc457a68b25 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-10-20T16:19:17Z (GMT) No. of bitstreams: 1 DissACIZ.pdf: 2734710 bytes, checksum: bf061fead4f2a8becfcbedc457a68b25 (MD5) / Made available in DSpace on 2016-10-20T16:19:25Z (GMT). No. of bitstreams: 1 DissACIZ.pdf: 2734710 bytes, checksum: bf061fead4f2a8becfcbedc457a68b25 (MD5) Previous issue date: 2016-03-29 / Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) / The Automatic Multi-Document Summarization (MDS) aims at creating a single summary, coherent and cohesive, from a collection of different sources texts, on the same topic. The creation of these summaries, in general extracts (informative and generic), requires the selection of the most important sentences from the collection. Therefore, one may use superficial linguistic knowledge (or statistic) or deep knowledge. It is important to note that deep methods, although more expensive and less robust, produce more informative extracts and with more linguistic quality. For the Portuguese language, the sole deep methods that use lexical-conceptual knowledge are based on the frequency of the occurrence of the concepts in the collection for the selection of a content. Considering the potential for application of semantic-conceptual knowledge, the proposition is to investigate MDS methods that start with representation of lexical concepts of source texts in a hierarchy for further exploration of certain hierarchical properties able to distinguish the most relevant concepts (in other words, the topics from a collection of texts) from the others. Specifically, 3 out of 50 CSTNews (multi-document corpus of Portuguese reference) collections were selected and the names that have occurred in the source texts of each collection were manually indexed to the concepts of the WordNet from Princenton (WN.Pr), engendering at the end, an hierarchy with the concepts derived from the collection and other concepts inherited from the WN.PR for the construction of the hierarchy. The hierarchy concepts were characterized in 5 graph metrics (of relevancy) potentially relevant to identify the concepts that compose a summary: Centrality, Simple Frequency, Cumulative Frequency, Closeness and Level. Said characterization was analyzed manually and by machine learning algorithms (ML) with the purpose of verifying the most suitable measures to identify the relevant concepts of the collection. As a result, the measure Centrality was disregarded and the other ones were used to propose content selection methods to MDS. Specifically, 2 sentences selection methods were selected which make up the extractive methods: (i) CFSumm whose content selection is exclusively based on the metric Simple Frequency, and (ii) LCHSumm whose selection is based on rules learned by machine learning algorithms from the use of all 4 relevant measures as attributes. These methods were intrinsically evaluated concerning the informativeness, by means of the package of measures called ROUGE, and the evaluation of linguistic quality was based on the criteria from the TAC conference. Therefore, the 6 human abstracts available in each CSTNews collection were used. Furthermore, the summaries generated by the proposed methods were compared to the extracts generated by the GistSumm summarizer, taken as baseline. The two methods got satisfactory results when compared to the GistSumm baseline and the CFSumm method stands out upon the LCHSumm method. / Na Sumarização Automática Multidocumento (SAM), busca-se gerar um único sumário, coerente e coeso, a partir de uma coleção de textos, de diferentes fontes, que tratam de um mesmo assunto. A geração de tais sumários, comumente extratos (informativos e genéricos), requer a seleção das sentenças mais importantes da coleção. Para tanto, pode-se empregar conhecimento linguístico superficial (ou estatística) ou conhecimento profundo. Quanto aos métodos profundos, destaca-se que estes, apesar de mais caros e menos robustos, produzem extratos mais informativos e com mais qualidade linguística. Para o português, os únicos métodos profundos que utilizam conhecimento léxico-conceitual baseiam na frequência de ocorrência dos conceitos na coleção para a seleção de conteúdo. Tendo em vista o potencial de aplicação do conhecimento semântico-conceitual, propôs-se investigar métodos de SAM que partem da representação dos conceitos lexicais dos textos-fonte em uma hierarquia para a posterior exploração de certas propriedades hierárquicas capazes de distinguir os conceitos mais relevantes (ou seja, os tópicos da coleção) dos demais. Especificamente, selecionaram-se 3 das 50 coleções do CSTNews, corpus multidocumento de referência do português, e os nomes que ocorrem nos textos-fonte de cada coleção foram manualmente indexados aos conceitos da WordNet de Princeton (WN.Pr), gerando, ao final, uma hierarquia com os conceitos constitutivos da coleção e demais conceitos herdados da WN.Pr para a construção da hierarquia. Os conceitos da hierarquia foram caracterizados em função de 5 métricas (de relevância) de grafo potencialmente pertinentes para a identificação dos conceitos a comporem um sumário: Centrality, Simple Frequency, Cumulative Frequency, Closeness e Level. Tal caracterização foi analisada de forma manual e por meio de algoritmos de Aprendizado de Máquina (AM) com o objetivo de verificar quais medidas seriam as mais adequadas para identificar os conceitos relevantes da coleção. Como resultado, a medida Centrality foi descartada e as demais utilizadas para propor métodos de seleção de conteúdo para a SAM. Especificamente, propuseram-se 2 métodos de seleção de sentenças, os quais compõem os métodos extrativos: (i) CFSumm, cuja seleção de conteúdo se baseia exclusivamente na métrica Simple Frequency, e (ii) LCHSumm, cuja seleção se baseia em regras aprendidas por algoritmos de AM a partir da utilização em conjunto das 4 medidas relevantes como atributos. Tais métodos foram avaliados intrinsecamente quanto à informatividade, por meio do pacote de medidas ROUGE, e qualidade linguística, com base nos critérios da conferência TAC. Para tanto, utilizaram-se os 6 abstracts humanos disponíveis em cada coleção do CSTNews. Ademais, os sumários gerados pelos métodos propostos foram comparados aos extratos gerados pelo sumarizador GistSumm, tido como baseline. Os dois métodos obtiveram resultados satisfatórios quando comparados ao baseline GistSumm e o método CFSumm se sobressai ao método LCHSumm. / FAPESP 2014/12817-4
199

Descrição e classificação das construções conversas do Português do Brasil

Calcia, Nathalia Perussi 07 April 2016 (has links)
Submitted by Izabel Franco (izabel-franco@ufscar.br) on 2016-10-11T12:54:51Z No. of bitstreams: 1 DissNPC.pdf: 2008745 bytes, checksum: 7c19c09cf12c8731fe30977bbcd97bd9 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-10-21T12:07:39Z (GMT) No. of bitstreams: 1 DissNPC.pdf: 2008745 bytes, checksum: 7c19c09cf12c8731fe30977bbcd97bd9 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-10-21T12:07:46Z (GMT) No. of bitstreams: 1 DissNPC.pdf: 2008745 bytes, checksum: 7c19c09cf12c8731fe30977bbcd97bd9 (MD5) / Made available in DSpace on 2016-10-21T12:07:53Z (GMT). No. of bitstreams: 1 DissNPC.pdf: 2008745 bytes, checksum: 7c19c09cf12c8731fe30977bbcd97bd9 (MD5) Previous issue date: 2016-04-07 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / This dissertation proposes an analysis about the relation between pairs of constructions, both with support-verb and predicative name, such as João deu uma ajuda ao Pedro/Pedro recebeu uma ajuda do João. This relation is called Conversion (G.GROSS, 1989), a transformational property that inverts the arguments of the subject position and the phrase complement, without changing their semantic roles, restructures a sentence inverting sense from active to passive. Thus, by inverting the standard support-verb (dar, fazer ou ter – to give, to do or to have) for a converse support-verb (receber, levar or ter – to receive, to lead or to have), the conversion produces equivalent syntactic-semantically sentences. The analysis of this type of construction is done systematically, based on Transformational Grammar (HARRIS, 1964) and theoretical-methodological model of Lexicon-Grammar (M.GROSS 1975, 1981), adopting formal criteria of linguistic description. The proposed classification is based on the set of support-verbs that each predicative noun selects such in the standard position, as in converse position. This criterion proved to be the most appropriate at this moment, because the predicative nouns constitute a very heterogeneous group, by the syntactic-semantic point of view. The sentences that exemplify constructions converses are validated introspectively and through of a corpus, where it can identify its structure with better precision. In addition, their structural, distributional and transformational properties are formalized in a table of Lexicon-Grammar, that is, is a binary matrix in which each row corresponds to a lexical entry (the predicative noun) and each column corresponds to a formal property of the construction. Therefore, this study aims to contribute to the linguistic description of Brazilian Portuguese, taking into account that this type of construction was studied only for the French (G.GROSS, 1989), European Portuguese (BAPTISTA, 1997) and more recently to the Romanian (CIOCANEA, 2011). The constructions description with support-verb and predicative noun, may collaborate in texts analysis, identifying information and the structure‘s form, then, consequently, enriching the description of the language. Besides, the results‘ representation in binary matrixes provides a formal description enough to be used in auto applications in Natural Language Processing (NLP). / Esta dissertação propõe uma análise da relação que existe entre pares de construções, ambas com verbo-suporte e nome predicativo, tais como João deu uma ajuda ao Pedro/Pedro recebeu uma ajuda do João. Essa relação é chamada de Conversão (G.GROSS, 1989), uma propriedade transformacional que inverte os argumentos da posição de sujeito e de complemento da frase sem alterar seus papeis semânticos, ou seja, reestrutura uma frase invertendo o sentido de ativo para passivo. Desse modo, por meio da inversão do verbosuporte standard (dar, fazer ou ter) por um verbo-suporte converso (receber, levar ou ter), a Conversão produz sentenças sintático-semanticamente equivalentes. A análise desse tipo de construção é feita sistematicamente, baseando-se na Gramática Transformacional de Operadores (HARRIS, 1964) e no modelo teórico-metodológico do Léxico-Gramática (M.GROSS, 1975, 1981), que adota critérios formais de descrição linguística. A classificação proposta é baseada no conjunto de verbos-suporte que cada nome predicativo seleciona, tanto na posição standard, quanto na posição conversa. Esse critério mostrou-se ser o mais adequado neste momento, pelo fato de os nomes predicativos constituírem um conjunto heterogêneo do ponto de vista sintático e semântico. As frases que exemplificam as construções conversas são validadas introspectivamente e por meio de um corpus, onde se pode identificar sua estrutura com maior precisão. Além disso, suas propriedades estruturais, distribucionais e transformacionais, são formalizadas em uma tábua do Léxico-Gramática, isto é, uma matriz binária em que cada linha corresponde a uma entrada lexical (ao nome predicativo) e cada coluna corresponde a uma propriedade formal da construção. Este estudo, portanto, visa a contribuir com a descrição linguística do português brasileiro, levando em consideração que esse tipo de construção foi estudada apenas para a língua francesa (G.GROSS, 1989), para o português europeu (BAPTISTA, 1997) e mais recentemente para a língua romena (CIOCANEA, 2011). A descrição de construções com verbo-suporte e nome predicativo pode colaborar na análise de textos, identificando as informações e a forma da estrutura, e consequentemente, enriquecendo a descrição da língua. Além de tudo, a representação dos resultados em matrizes binárias prevê uma descrição formal o suficiente para ser utilizada em aplicações no Processamento Automático da Língua Natural (PLN).
200

Descrição, classificação e processamento automático das construções com o verbo dar em Português Brasileiro

Rassi, Amanda Pontes 30 November 2015 (has links)
Submitted by Daniele Amaral (daniee_ni@hotmail.com) on 2016-10-20T17:03:22Z No. of bitstreams: 1 TeseAPR.pdf: 3132789 bytes, checksum: 6b6f2ec0e10cd93b5a4a9a82a65265ef (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-11-08T18:41:29Z (GMT) No. of bitstreams: 1 TeseAPR.pdf: 3132789 bytes, checksum: 6b6f2ec0e10cd93b5a4a9a82a65265ef (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-11-08T18:41:36Z (GMT) No. of bitstreams: 1 TeseAPR.pdf: 3132789 bytes, checksum: 6b6f2ec0e10cd93b5a4a9a82a65265ef (MD5) / Made available in DSpace on 2016-11-08T18:41:42Z (GMT). No. of bitstreams: 1 TeseAPR.pdf: 3132789 bytes, checksum: 6b6f2ec0e10cd93b5a4a9a82a65265ef (MD5) Previous issue date: 2015-11-30 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / This PhD thesis starts from the observation of constructions with the verb dar in Brazilian Portuguese and it proposes an analysis and classification of these constructions. The analysis of all constructions found in corpus is systematic and consistent, based on Transformational Grammar (HARRIS, 1964) and on Lexicon-Grammar approach (GROSS, 1975; GROSS, 1981). Both theories adopt formal and experimental criteria to make reproducible the identification of base sentences and the classification of constructions with the verb dar. The classification was based on structural and syntactic properties, leading to four classes or categories: (i) full verb or distributional verb, from which 8 verbal senses could be identified; (ii) causative operator verb, whose constructions could be subclassified in 4 groups, depending on the semantic type of the predicative noun; (iii) the verb as a fixed element, in idioms or in proverbs; and (iv) support verb, which is selected by a predicative noun. The first part of this thesis analyzes the constructions with the verb dar as a full verb, as a causative operator verb and as a fixed verb. The second part of this thesis debribes the support verb constructions (SVC), which are formed by the support verb dar (Vsup) and the predicative noun (Npred). This description is extensive, considering all the occurrences in the corpus adopted and identifying the main formal, distributional and transformational SVC properties. These properties were described and formalized in a Lexicon-Grammar table, which is a binary matrix: each line corresponds to a lexical entry (Npred) and each column corresponds to a syntactic property of the construction. In the intersection between each line and each column, we sign “+” or “-”, respectively, if the property is verified or not. The third part of the thesis presents an automatic syntactic analysis of SVC, by using an approach based in dependency rules between its constituents. The rules are automatically generated from the L-G matrix data and, then, those rules are used by the parser in order to extract the dependency between the Npred and the Vsup. Thus, this work aims to advance the state of the art of the general verbal classification in Portuguese and Automatic Processing of Natural Languages, to contribute to the development of computational-lexical resources (the Lexicon-Grammar of nominal constructions) and with automatic parsing. / Esta tese parte da observação das construções com o verbo dar em corpus em Português Brasileiro e propõe uma análise e classificação dessas construções, de forma sistemática e consistente, com base na Gramática Transformacional de operadores (HARRIS, 1964; HARRIS, 1978) e no modelo teórico-metodológico do Léxico-Gramática (GROSS, 1975; GROSS, 1981). Ambas as teorias adotam critérios formais/estruturais e procedimentos experimentais reprodutíveis para a identificação das frases de base e que adotamos para a classificação das construções com o verbo dar. A classificação dessas construções foi baseada em suas estruturas e propriedades sintáticas, tendo sido identificadas quatro categorias ou tipos de construções fundamentais em que esse verbo ocorre: (i) verbo pleno (distribucional), de onde se identificam 8 sentidos diferentes; (ii) verbo-operador causativo; (iii) o verbo constituinte de uma frase fixa, seja em expressões cristalizadas seja em provérbios; e (iv) verbo-suporte, um tipo particular de auxiliar que é selecionado por um nome predicativo. A primeira parte da tese analisa os três primeiros tipos sintático-semânticos do verbo dar (pleno, causativo e fixo). A segunda parte da tese analisa e descreve as construções com verbo-suporte (CVS), formadas pelo verbo-suporte (Vsup) dar e um nome predicativo (Npred). Essa descrição é sistemática, buscando recensear o máximo possível de construções em corpus e identificando as principais propriedades formais, distribucionais e transformacionais das CVS. As propriedades são formalizadas por meio de uma matriz de dados, a qual representa de maneira compacta a informação linguística relevante para a descrição dessas construções. A terceira parte da tese apresenta uma proposta de análise sintática automática das CVS, usando uma abordagem baseada em regras de dependência entre seus constituintes. As regras são geradas automaticamente a partir das informações constantes na matriz do L-G e, em seguida, são usadas pelo analisador sintático automático para extrair uma dependência entre o Npred e o Vsup ao identificar a CVS. Assim, este trabalho objetiva avançar o estado da arte da classificação geral dos verbos em Português e do Processamento Automático de Línguas Naturais, no sentido de contribuir com o desenvolvimento de recursos léxico-computacionais (o Léxico-Gramática das construções nominais) para a tarefa de análise sintática automática.

Page generated in 0.0587 seconds