Global ETD Search

11	Analise automatica de sumarios em lingua portuguesa : uma aproximação ao tratamento da estrutura de um texto Saggion, Horacio 30 October 1995 (has links) Orientador: Ariadne Maria Brito Rizzoni Carvalho / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matematica, Estatistica e Ciencia da Computação / Made available in DSpace on 2018-07-20T17:41:55Z (GMT). No. of bitstreams: 1 Saggion_Horacio_M.pdf: 3857680 bytes, checksum: cbdd9f03986106eb01ba1463cbf4490b (MD5) Previous issue date: 1995 / Resumo: Lingüística Computacional é a ciência que estuda as teorias que possibilitam a construção de sistemas capazes de entender e gerar linguagem natural. Muitos sistemas de entendimento e, em particular, muitos sistemas de tradução automática concentram seus esforços no tratamento da sentença como unidade lingüística fundamental. Um texto é concebido como uma justaposição de sentenças e, de acordo com essa concepção, a tradução é feita sentença por sentença, muitas vezes desconsiderando fenômenos que caracterizam um texto como tal. Nesta dissertação estamos concentrados na análise de um texto em língua portuguesa via computador, visando o tratamento de fenômenos de interesse para a tradução automática. Devido a complexidade do tratamento de textos irrestritos, decidimos trabalhar com sumários de artigos técnicos pois, embora curtos, são considerados textos e, como tal, apresentam os fenômenos de interesse para o nosso trabalho. A nossa principal preocupação é o entendimento da estrutura de um sumário e o processo de geração dessa estrutura. Acreditamos que a representação da estrutura de um sumário possa auxiliar na produção de uma tradução de alta qualidade. No processamento de um texto e no cálculo de sua estrutura dois estudos devem ser considerados: a coesão e a coerência textual. Esses estudos tentam responder ao problema da conexidade das sentenças na seqüência lingüística. Nesta dissertação abordamos o problema da coesão textual como mecanismo de vinculação de sentenças no texto. O principal fenômeno abordado é a coesão referencial através do estudo e tratamento de anáfora definida. Apresentamos um formalismo para representar um subconjunto de sumários em língua portuguesa e um processo computacional que, a partir da análise do sumário gera a representação proposta nesta dissertação. O formalismo reflete o conteúdo proposicional do sumário e as relações entre proposições. O sistema analisa as sentenças e as vincula na representação proposta. Acreditamos que tanto a representação proposta como os processos de análise textuais possam ser estendidos para outros domínios textuais / Abstract: Computational Linguistcs studies theories that enable the construction of systems capable of understanding and generating naturallanguage. Many understanding systems and, in particular, many automatic translation systems, treat sentences as the fundamentallinguistic unit. A text is conceived as a juxtaposition of sentences and, according to this conception, translation is made sentence by sentence; many times. phenomena that characterize the text are ignored. The work presented here is concerned with the automatic analysis of texts in the Portuguese language dealing with phenomena of interest for automatic translation. Due to the complexity of the treatment of unrestricted texts, we have worked with abstracts of technical papers; although they are short, they are still texts and, as such, present phenomena of interest for our work. . Our main concern is the understanding of the abstract's structure and the generation of such a structure. We believe that this representation may help in the production of high quality translation. When processing a text and calculating its structure two phenomena must be taken into account: cohesion and coherence. These studies try to explain the connection between sentences. Our work takes; cohesion into account in order to make the connection between sentences in the text. The main phenomenon treated here is definite anaphora. We present a formalism to represent a subset of abstracts in Portuguese and a computational process through which this representation is produced. The formalism reflects the propositional content of the abstract and the relationships between propositions. The sentences are analysed and related to each other in the proposed representation. We believe that the representation and the text analysis proposed may be extended to other textual domains / Mestrado / Mestre em Ciência da Computação Anáfora (Linguística) Análise (Gramática de computador) Linguistica - Processamento de dados
12	Proposta de um dicionário da cardiopatia congênita / Galdiano, Isabela. January 2016 (has links) Orientador: Claudia Zavaglia / Banca: Érika Nogueira de Andrade Stupiello / Banca: Maria José Bocorny Finatto / Resumo: O presente trabalho tem como objetivo a investigação do léxico específico da cardiopatia congênita, subárea da Cardiologia, com vistas à elaboração de um dicionário de cardiopatia congênita direcionado para o público leigo (não especialista), o qual contém como entradas unidades lexicais especializadas (ULEs) em língua portuguesa, e que apresenta definições redigidas especificamente para esses usuários. Com o propósito de confeccionar tal dicionário, foi elaborado um corpus formado por textos em português (variante brasileira) da área da cardiopatia congênita, extraídos de sites da Web, capítulos de livros, teses e dissertações, monografias, trabalhos de conclusão de curso, artigos acadêmicos e de divulgação científica, notícias e resumos de artigos científicos e eventos. Para processar e analisar o corpus, foi utilizada a ferramenta WordSmith Tools, amplamente empregada em pesquisas do gênero. A análise da definição lexicográfica e terminográfica, conforme descritas na bibliografia de estudos da área, foi o embasamento para atender aos propósitos do dicionário, partindo da hipótese de que é possível elaborar, mesmo num âmbito especializado, definições de ULEs apropriadas para um leitor não especialista. Com foco na busca de estratégias e de modelos de definição, e com base na revisão bibliográfica realizada, foram eleitas as estratégias mais apropriadas para a redação de nossas definições. O produto lexicográfico conta com 70 verbetes, cada um com uma definição simplificada, exemplo de uso, sinônimos (se encontrados) e remissivas (se necessário) / Abstract: The aim of the present work is to investigate the lexical items of the area of Congenital Cardiopathy, a subarea of Cardiology, in order to compile a dictionary of Congenital Cardiopathy targeted especially at lay people (non-specialists), containing entries with specialised lexical units (SLUs) in Portuguese, and definitions specifically written for that kind of user. In order to develop the dictionary, a corpus was compiled with texts in Portuguese (Brazilian variety) about congenital cardiopathy extracted from websites, book chapters, theses, monographs, final year dissertations, academic papers, popular science magazines, newspaper articles and abstracts from academic papers and presentations. The software WordSmith Tools, broadly used in similar researches, was adopted to process and analyze the corpus. A study was conducted on lexicographic and terminological definitions as described in Lexicography and Terminology bibliography, looking for a basis to support the dictionary's purposes, and with the hypothesis that it is possible to develop, even within a specialized field and lexicon, definitions of specialized lexical units appropriate for non-specialized readers. Focusing on search strategies and models of definition, a bibliographic review was conducted, from which the most appropriate strategies for writing our definitions were chosen. The dictionary has 70 entries, each of them with a simplified definition, an example sentence, synonyms (if found) and cross references (if necessary) / Mestre Lingüística aplicada. Lexicografia. Cardiopatia congenita - Terminologia. Linguistica - Processamento de dados. Applied linguistics
13	Sistematização semântico-ontológica computacional do vocabulário técnico da indústria de artefatos de borracha / Batista, Abner Maicon Fortunato. January 2012 (has links) Orientador: Claudia Zavaglia / Banca: Rogério Aparecido Sá Ramalho / Banca: Maria Cristina Parreira da Silva / Resumo: Ontologias têm diversas aplicações em sistemas de Processamento Automático de Línguas Naturais (PLN), tais como tradutores automáticos e sistemas de recuperação e de extração de informação. Ontologias são também o alicerce da chamada Web Semântica, um novo conceito de Web que permite a interoperabilidade entre recursos, fornecendo significado aos sistemas que operam com grandes contingentes de dados na Web, a rede mundial de computadores. Gruber (1993) define ontologia como uma especificação formal de uma conceitualização, ou seja, uma descrição formal dos conceitos e das relações existentes entre esses conceitos em um determinado domínio do conhecimento. No caso de uma ontologia linguística, abordam-se apenas os conceitos lexicalizados em uma língua. Desse modo, a estruturação de um domínio em uma ontologia linguística se concentra em uma dimensão semântico-conceitual. Este trabalho propõe a construção de ontologia linguisticamente motivada para o domínio da Indústria de Artefatos de Borracha (IAB), uma área de grande interesse à indústria e à pesquisa no Brasil, porém pouco explorada quanto aos recursos informacionais que esse setor demanda. Para estruturar o conhecimento do domínio da IAB, estabelecendo as relações entre os conceitos, lançou-se mão de um córpus em língua portuguesa para o referido domínio de onde são extraídos e analisados os termos. A análise dos termos e de suas relações de sentido foi fundamentada a partir da Teoria do Léxico Gerativo de Pustejovsky (1995), valendo-se, sobretudo, da Estrutura Qualia, que especifica quatro aspectos essenciais do sentido de uma palavra, a saber: constitutivo, formal, télico e agentivo. Em seguida, o modelo conceito obtido foi implementado em OWL (Ontology Web Language), uma linguagem computacional voltada para a Web Semântica. O resultado obtido com essa pesquisa foi uma... / Abstract: Ontologies have several applications on Natural Language Processing (NLP) such as machine translators and retrieval and extraction information systems. Ontologies are also the foundation of the so-called Semantic Web, a new concept of the Web that allows interoperability among resources, providing meaning to systems that operate with a large number of data on the Web. Gruber (1993) defines ontology as a formal specification of a conceptualization, i.e., a formal description of concepts and the relationships among these concepts in a given field of knowledge. In the case of a linguistic ontology, only lexicalized concepts in a natural language are approached. Thus, the structuring of a domain in a linguistic ontology focuses on a semantic-conceptual dimension. This research proposes the construction of a linguistically motivated ontology for the domain of Rubber Artifacts Industry (RAI), an area of great interest to industry and research in Brazil, but little explored with regard to the information resources that this industry demands. In order to structure knowledge of the field of RAI, establishing relationships among concepts, a Portuguese corpus was used for that domain from which the terms are extracted and analyzed. The analysis of the terms and their semantic relationships was based on the Generative Lexicon Theory by Pustejovsky (1995), mainly with the use of the Qualia Structure, which specifies four essential aspects of word meaning, namely, constitutive, formal, telic and agentive. Then, the conceptual model obtained was implemented in OWL (Ontology Web Language), a Semantic Web-oriented computer language. The results obtained from this research were a computational semanticontological systematization of the technical vocabulary of Rubber Artifacts Industry (including translations of technical terms in English and French) that can generate a number of useful ... / Résumé: Les ontologies ont plusieurs applications sur le traitement automatique du langage naturel (TALN) tels que les traducteurs automatiques et des systèmes d'information et de récupération d'extraction. Les ontologies sont aussi à la base de la Web Sémantique que l'on appelle, un nouveau concept du Web qui permet l'interopérabilité entre les ressources, donner un sens à des systèmes qui fonctionnent avec un grand nombre de données sur le Web. Gruber (1993) définit l'ontologie comme une spécification formelle d'une conceptualisation, c'est à dire, une description formelle des concepts et des relations entre ces concepts dans un certain domaine de la connaissance. Dans le cas d'une ontologie linguistique, seulement les concepts lexicalisés dans une langue naturelle sont abordés. Ainsi, la structuration d'un domaine dans une ontologie linguistique met l'accent sur une dimension sémantique et conceptuelle. Cette recherche propose la construction d'une ontologie linguistique motivée pour le domaine de l'industrie d'artifacts de caoutchouc (IAC), une zone d'un grand intérêt pour l'industrie et la recherche au Brésil, mais peu explorée en ce qui concerne les sources d'information que ce secteur exige. Afin de structurer les connaissances du domaine de la IAC, l'établissement de relations entre les concepts, un corpus portugais a été utilisé pour ce domaine à partir duquel les termes sont extraits et analysés. L'analyse des termes et leurs relations sémantiques a été basée sur la Théorie Du Lexique Génératif de Pustejovsky (1995), principalement avec l'utilisation de la structure Qualia, qui spécifie quatre aspects essentiels du sens des mots, à savoir, constitutifs, formel, télique et agentif. Ensuite, le modèle conceptuel obtenu a été mis en œuvre dans le langage OWL (Ontology Web Language), un langage informatique orienté à Web ... / Mestre Lingüística aplicada. Lexicografia. Borracha - Industria - Terminologia. Linguistica - Processamento de dados. Web semântica. Applied linguistics
14	Polyset: modelo linguístico-computacional para a estruturação de redes de polissemia de nominais Alves, Isa Mara da Rosa [UNESP] 01 October 2009 (has links) (PDF) Made available in DSpace on 2014-06-11T19:32:45Z (GMT). No. of bitstreams: 0 Previous issue date: 2009-10-01Bitstream added on 2014-06-13T20:43:56Z : No. of bitstreams: 1 alves_imr_dr_arafcl.pdf: 2416633 bytes, checksum: 3f83a7dad3093f9c7e134f02d1166b24 (MD5) / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Esta pesquisa visa a propor uma representação da polissemia de nominais compatível com sistemas computacionais; mais especificamente, o objetivo deste trabalho é incluir a especificação de relações de polissemia em bases wordnets, em especial, na WordNet.Br (DIAS-DA-SILVA, 1996, 1998, 2003). A metodologia do trabalho está baseada em Diasda- Silva (1996, 1998, 2003, 2006), abrangendo três domínios mutuamente complementares: o linguístico, o linguístico-computacional e o computacional. O domínio linguístico-computacional forneceu o tema para esta pesquisa e articulou a relação entre os domínios linguístico e computacional. Das investigações realizadas no cenário linguístico-computacional, destacamos a relevância da introdução de níveis distintos de generalidade entre os sentidos em uma base de dados de modo a otimizar o processamento lexical a ser realizada pelo sistema. Percebe-se que esse tipo de tarefa é ainda um desafio para as wordnets. Do cenário linguístico, destacamos que a Semântica Lexical Cognitiva foi considerada a teoria mais adequada aos propósitos desta tese. Olhar para o fenômeno do significado múltiplo sob o viés cognitivo possibilitou descrever os sentidos como uma entidade complexa, estruturada em termos de redes. As redes de polissemia sincrônicas, em sua configuração livre e multidimensional, conforme propõem Blank (2003) e Geeraerts (2006), demonstraram ser a estratégia descritiva mais adequada à representação da flexibilidade do sentido para os propósitos desta tese. Respondendo à fase aplicada dos domínios linguístico e linguísticocomputacional, propomos um modelo de representação denominado polyset. Os polysets são constructos estruturados em termos de redes de polissemia, de maneira que possibilitam representar diferentes níveis de generalidade entre os sentidos, diferentes graus de saliência e diferentes tipos... / This research aims at representing noun polysemy so that it can be useful to computational systems; more specifically, the subject of this work is the inclusion of specification of polysemy relations in wordnet bases, particularly in WordNet.Br (DIASDA- SILVA, 1996, 1998, 2003). The methodology has been based on Dias-da-Silva (1996, 1998, 2003, 2006), comprehending three mutually complementary domains: linguistic, computational-linguistic, and computational ones. The computational-linguistic domain has both provided the subject for this research and articulated the relationship between the linguistic domain and the computational domain. From the investigations carried out in the computational-linguistic scene, we have highlighted the relevance of the introduction of distinct levels of generality among meanings in a database, so as to reduce the amount of lexical processing to be carried out by the system. At the same time, that multiple representation provides the necessary information for a system that needs a higher degree of meaning detailing. This kind of task is still a challenge to wordnets. From the linguistic scene, we have highlighted that Cognitive Lexical Semantics has shown to be the most suitable theory for the purposes of this thesis. Regarding the phenomenon of the multiple meaning from the cognitive perspective has allowed for describing meanings as a complex entity, structured in terms of nets. The nets of synchronic polysemy, in their free, multidimensional configuration, as Blank (2003) and Geeraerts (2006) have proposed, have shown to be the most suitable descriptive strategy for the representation of the meaning flexibility for the purposes of this thesis. Answering to the applied phase of both the linguistic and computationallinguistic domains we have proposed a representation model called polyset. Polysets are constructs structured in terms of polysemy nets, allowing... (Complete abstract click electronic access below) Polissemia Linguística Semantica Linguistica - Processamento de dados Linguística cognitiva WordNet
15	Sistematização semântico-ontológica computacional do vocabulário técnico da indústria de artefatos de borracha Batista, Abner Maicon Fortunato [UNESP] 07 August 2012 (has links) (PDF) Made available in DSpace on 2018-07-27T18:26:18Z (GMT). No. of bitstreams: 0 Previous issue date: 2012-08-07. Added 1 bitstream(s) on 2018-07-27T18:30:46Z : No. of bitstreams: 1 000880622.pdf: 3431417 bytes, checksum: 0ddcd19f872e0461b76aba68d7ae5f38 (MD5) / Résumé: Les ontologies ont plusieurs applications sur le traitement automatique du langage naturel (TALN) tels que les traducteurs automatiques et des systèmes d'information et de récupération d'extraction. Les ontologies sont aussi à la base de la Web Sémantique que l'on appelle, un nouveau concept du Web qui permet l'interopérabilité entre les ressources, donner un sens à des systèmes qui fonctionnent avec un grand nombre de données sur le Web. Gruber (1993) définit l'ontologie comme une spécification formelle d'une conceptualisation, c'est à dire, une description formelle des concepts et des relations entre ces concepts dans un certain domaine de la connaissance. Dans le cas d'une ontologie linguistique, seulement les concepts lexicalisés dans une langue naturelle sont abordés. Ainsi, la structuration d'un domaine dans une ontologie linguistique met l'accent sur une dimension sémantique et conceptuelle. Cette recherche propose la construction d'une ontologie linguistique motivée pour le domaine de l'industrie d'artifacts de caoutchouc (IAC), une zone d'un grand intérêt pour l'industrie et la recherche au Brésil, mais peu explorée en ce qui concerne les sources d'information que ce secteur exige. Afin de structurer les connaissances du domaine de la IAC, l'établissement de relations entre les concepts, un corpus portugais a été utilisé pour ce domaine à partir duquel les termes sont extraits et analysés. L'analyse des termes et leurs relations sémantiques a été basée sur la Théorie Du Lexique Génératif de Pustejovsky (1995), principalement avec l'utilisation de la structure Qualia, qui spécifie quatre aspects essentiels du sens des mots, à savoir, constitutifs, formel, télique et agentif. Ensuite, le modèle conceptuel obtenu a été mis en œuvre dans le langage OWL (Ontology Web Language), un langage informatique orienté à Web ... / Ontologias têm diversas aplicações em sistemas de Processamento Automático de Línguas Naturais (PLN), tais como tradutores automáticos e sistemas de recuperação e de extração de informação. Ontologias são também o alicerce da chamada Web Semântica, um novo conceito de Web que permite a interoperabilidade entre recursos, fornecendo significado aos sistemas que operam com grandes contingentes de dados na Web, a rede mundial de computadores. Gruber (1993) define ontologia como uma especificação formal de uma conceitualização, ou seja, uma descrição formal dos conceitos e das relações existentes entre esses conceitos em um determinado domínio do conhecimento. No caso de uma ontologia linguística, abordam-se apenas os conceitos lexicalizados em uma língua. Desse modo, a estruturação de um domínio em uma ontologia linguística se concentra em uma dimensão semântico-conceitual. Este trabalho propõe a construção de ontologia linguisticamente motivada para o domínio da Indústria de Artefatos de Borracha (IAB), uma área de grande interesse à indústria e à pesquisa no Brasil, porém pouco explorada quanto aos recursos informacionais que esse setor demanda. Para estruturar o conhecimento do domínio da IAB, estabelecendo as relações entre os conceitos, lançou-se mão de um córpus em língua portuguesa para o referido domínio de onde são extraídos e analisados os termos. A análise dos termos e de suas relações de sentido foi fundamentada a partir da Teoria do Léxico Gerativo de Pustejovsky (1995), valendo-se, sobretudo, da Estrutura Qualia, que especifica quatro aspectos essenciais do sentido de uma palavra, a saber: constitutivo, formal, télico e agentivo. Em seguida, o modelo conceito obtido foi implementado em OWL (Ontology Web Language), uma linguagem computacional voltada para a Web Semântica. O resultado obtido com essa pesquisa foi uma... / Ontologies have several applications on Natural Language Processing (NLP) such as machine translators and retrieval and extraction information systems. Ontologies are also the foundation of the so-called Semantic Web, a new concept of the Web that allows interoperability among resources, providing meaning to systems that operate with a large number of data on the Web. Gruber (1993) defines ontology as a formal specification of a conceptualization, i.e., a formal description of concepts and the relationships among these concepts in a given field of knowledge. In the case of a linguistic ontology, only lexicalized concepts in a natural language are approached. Thus, the structuring of a domain in a linguistic ontology focuses on a semantic-conceptual dimension. This research proposes the construction of a linguistically motivated ontology for the domain of Rubber Artifacts Industry (RAI), an area of great interest to industry and research in Brazil, but little explored with regard to the information resources that this industry demands. In order to structure knowledge of the field of RAI, establishing relationships among concepts, a Portuguese corpus was used for that domain from which the terms are extracted and analyzed. The analysis of the terms and their semantic relationships was based on the Generative Lexicon Theory by Pustejovsky (1995), mainly with the use of the Qualia Structure, which specifies four essential aspects of word meaning, namely, constitutive, formal, telic and agentive. Then, the conceptual model obtained was implemented in OWL (Ontology Web Language), a Semantic Web-oriented computer language. The results obtained from this research were a computational semanticontological systematization of the technical vocabulary of Rubber Artifacts Industry (including translations of technical terms in English and French) that can generate a number of useful ... Linguistica aplicada Lexicografia Borracha - Industria - Terminologia Linguistica - Processamento de dados Web semântica Applied linguistics
16	Analise sintatica para tratamento de elipse em orações coordenadas / Syntactic analysis for ellipsis handling in coordinated claused. Maduro, Ralph Moreira 29 June 2005 (has links) Orientador: Ariadne Maria Brito Rizzoni Carvalho / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-07T05:36:27Z (GMT). No. of bitstreams: 1 Maduro_RalphMoreira_M.pdf: 3052079 bytes, checksum: 7bcf8b7d5af90727147cfcd484598cbb (MD5) Previous issue date: 2005 / Resumo: Esta dissertação tem por objetivo investigar o fenômeno lingüístico da elipse. Nós acreditamos que alguns tipos de elipse podem ser resolvidos com conhecimento sintático, visto que estão sujeitos a esse tipo de restrição. Nós tratamos cinco tipos de elipse encontrados na língua portuguesa: despojamento, elipse do sintagma verbal, elipse lacunar, escoamento e anáfora de complemento nulo. Usamos as Restrições de Ilha para decidir sobre a gramaticalidade da oração. Finalmente, desenvolvemos e implementamos um sistema baseado em sintaxe, que recupera o constituinte elidido e reconstrói a cláusula elíptica, quando permitido pelas restrições sintáticas. Os dados obtidos com este trabalho são relativos ao português, mas nós acreditamos que possam ser aplicados para outras línguas, como por exemplo inglês e espanhol / Abstract: This work is intended as an investigation into elliptical phenomena in natural language. We believe that some types of ellipsis can be resolved at the syntactic leveI since they are subject to syntactic constraints. We have dealt with five of the major types of ellipsis I faund in Portuguese, namely: Null VP, Gapping, Stripping, Sluicing and Null Complement Anaphora. We have used Island Constraints in order to decide on the grammaticality at the sentence. Finally, we have developed and implemented a syntactically-based algorithm that recovers the elided constituents and reconstructs the elliptical clause, when applicable. The linguistic data in this work is drawn primarily from Portuguese, but we believe that the results can also be applied to other languages, such as English / Mestrado / Mestre em Ciência da Computação Anáfora (Linguística) Escoamento Linguistica - Processamento de dados Linguistics - Data processing Anaphora (Linguistics) Sluicing
17	A nova lingua do imperador Martins, Ronaldo Teixeira 03 August 2018 (has links) Orientador : Rodolfo Ilari / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem / Made available in DSpace on 2018-08-03T19:19:50Z (GMT). No. of bitstreams: 1 Martins_RonaldoTeixeira_D.pdf: 1481851 bytes, checksum: 4f85a3cd924654bce86be2434c9f9336 (MD5) Previous issue date: 2004 / Doutorado Linguagem de Rede Universal Tradução mecânica Linguagem formal Linguistica - Processamento de dados
18	Ambiente web de suporte à transcrição fonética automática de lemas em verbetes de dicionários do português do Brasil / Serrani, Vanessa Marquiafável. January 2015 (has links) Orientador: Claudia Zavaglia / Coorientador: Luiz Carlos Cagliari / Banca: Vivian Regina Orsi Galdino de Souza / Banca: Maria Cristina Parreira da Silva / Banca: Pablo Arantes / Banca: Gladis Maria de Barcellos Almeida / Resumo: A transcrição fonética automática é uma tarefa essencial para muitas aplicações de diferentes áreas. Além de sistemas de síntese de fala que necessitam de transcrições de alta qualidade para obter um bom desempenho, sistemas de transcrição fonética automática podem ser utilizados em muitas outras áreas (fonética, fonologia, ensino-aprendizagem de língua, e assim por diante) com o objetivo de se obter transcrições preliminares de grandes córpus. Esse tipo de sistema frequentemente gera uma transcrição fonética a partir da forma ortográfica. Considerando o esforço despendido por lexicógrafos no desenvolvimento de transcrições fonéticas manuais para obras lexicográficas, este estudo teve como objetivo principal a criação de um ambiente computacional para transcrever foneticamente unidades lexicais que fazem parte da cabeça do verbete de dicionários mono ou multilíngues, do Português Brasileiro, com disponibilização gratuita, via Web, denominado PETRUS - PhonEtic TRanscriber for User Support. O propósito deste trabalho é contribuir, mesmo que modestamente, para que lexicógrafos, nosso principal público-alvo, possam desfrutar dos benefícios da automatização da transcrição fonética, diminuindo o tempo e as dificuldades de inserção desse tipo de informação em suas obras lexicográficas. Os resultados preliminares indicam uma taxa de acerto de 97.5% ao fone, com possibilidade de aumento / Abstract: Automatic Phonetic Transcription is a crucial task for many applications of different areas. Besides Text-to-Speech systems, which need high quality transcriptions in order to have a good performance, automatic phonetic transcription tools can be useful in many areas (phonetics, phonology, language learning, and so on) in order to obtain preliminary transcriptions of large corpora. This kind of system often generate a phonetic transcription directly from the orthographic form. Considering the effort expended by lexicographers in the development of manual phonetic transcriptions to be added in their dictionaries, this study aimed the creation of a computational environment to support automatic phonetic transcription of lemmas, from mono or multilingual Brazilian dictionaries entries, to be available free of charge, via the Web, called PETRUS - PhonEtic TRanscriber for User Support. We intend to contribute, even modestly, so that lexicographers, our main target audience, can enjoy the benefits of automating the phonetic transcription, reducing the time and difficulty in integrating this kind of information in their lexicographical works. Preliminary results indicate a phone error rate accuracy of 97.5%, with the possibility of increase / Doutor Lingüística aplicada. Língua portuguesa - Fonética. Linguistica - Processamento de dados. Applied linguistics
19	Lingüística de corpus na análise do internetês Gonzalez, Zeli Miranda Gutierrez 05 November 2007 (has links) Made available in DSpace on 2016-04-28T18:23:36Z (GMT). No. of bitstreams: 1 ZELI MIRANDA GUTIERREZ GONZALEZ.pdf: 1268917 bytes, checksum: 3a704528461b06f74cb2b2e71d8fdcf1 (MD5) Previous issue date: 2007-11-05 / The study presented was motivated by the needs of comprehend the changes in the ortography of the Internet language, such as identify those changes frequency. The main aim of this study was to focus on the usage of a Corpus Linguistics approach for identification of frequent words most used in the studies corpus, such as frequences of changes in the ortography and the lexican gramathical standards of the internet language. There is a great range of studies on the internet language; however, very few of them has demontrated empirically how frequent changes are. Therefore, this study has tried to fill this gap by being able to show empirically the changes. The main theoretical underpinning for the research is provided by Corpus Linguistics, assuming the main notions presented by Biber (1998), Berber Sardinha (2004, 2006), Sinclair (1991,1996). For focusing the use frequency of lexican items it was considered, more specificly, the studies of Berber Sardinha (2000a, 2000b, 2004), Halliday (1991, 1992, 1993). Besides the Corpus Linguistics, the project also mentioned in questions such as: linguisctics diversity, genre, registry and internet language ortography along the perspective of Possenti (2006), Mollica (2007), Thurlow and Brown (2007), Crystal (2001), Othero, (2004). The corpus employed in the study was collected of young people s blogs that use internet for comunication. This corpus contains 135.021 tokes and 15.552 types. For the development of this research and of the analysis of the lexican items it was considered all the 500 most used words in the corpus studies. The frequences were used as base for decription of changes happened in the variant linguistics ortography the internet language. Among the most frequent items in the corpus was selected the td item with the sense of all, every, everything ( tudo, todo, toda, todas e todos in portuguese), with the objective of verify the standards lexican-gramathical, contributed for the respective senses. To sum up, this study hopes it has contributed to the study of the internet language, since there are few studies that have demosntrated empirically how these changes occur. This work also presentes the research limitations and its possible applications in the future / O trabalho que ora se apresenta foi motivado pela necessidade de compreender as modificações na grafia do internetês, bem como identificar a freqüência dessas modificações. Esse trabalho teve como objetivo principal utilizar uma abordagem baseada em Lingüística de Corpus na identificação das palavras mais freqüentes do internetês, das freqüências de modificações na grafia e os padrões léxico gramaticais. Há vários trabalhos que lidam com a questão do internetês; entretanto, nenhum deles demonstrou empiricamente quão freqüente as modificações ocorrem. Sendo assim, esse trabalho buscou preencher essa lacuna, sendo, portanto, capaz de demonstrar empiricamente a extensão dessas modificações. Para tanto, encontrou suporte teórico na Lingüística de Corpus, adotando as principais noções apresentadas por Biber (1998), Berber Sardinha (2004, 2006), Sinclair (1991,1996). Por enfocar as freqüências de uso de itens lexicais consideraram-se, mais especificamente, os trabalhos de Berber Sardinha (2000a, 2000b, 2004), Halliday (1991, 1992, 1993). Além da Lingüística de Corpus, o projeto também tocou em questões como: variedades lingüísticas, gênero, registro e grafia internáutica sob a perspectiva de Possenti (2006), Mollica (2007), Thurlow and Brown (2007), Crystal (2001), Othero (2004). O corpus empregado na pesquisa foi coletado em blogs de jovens que utilizam a internet para comunicação. O corpus contém 135.021palavras e 15.552 formas. Para as análises dos itens lexicais consideraram-se as 500 palavras mais freqüentes do corpus de estudo. As freqüências detectadas serviram como base para a descrição das modificações ocorridas na grafia da variante lingüística o internetês. Entre os itens mais freqüentes do corpus, selecionou-se o item td com sentido de tudo, toda, todo, todos, todas, com a finalidade de verificar se os padrões léxicogramaticais contribuíam para os respectivos sentidos. Por conseguinte, a pesquisa pretende ter contribuído para o estudo do internetês, uma vez que há poucos trabalhos que demonstrem, de maneira empírica, essas modificações. O trabalho ainda apresenta as limitações da pesquisa e aponta sugestões para futuros estudos Grafia do internetês Linguistica -- Processamento de dados Internet Linguagem e a internet Internet language
20	Identificação e tradução de metáforas lingüísticas e conceptuais em abstracts da esfera acadêmica: uma análise baseada em lingüística de corpus Martins, Lilian de Mello 16 June 2008 (has links) Made available in DSpace on 2016-04-28T18:23:46Z (GMT). No. of bitstreams: 1 Lilian de Mello Martins.pdf: 1137707 bytes, checksum: adadcfd6e09b3b274373c4e3ef7c72cb (MD5) Previous issue date: 2008-06-16 / Corpus Linguistics has recently begun to make inroads into two major fields of linguistic inquiry: metaphor (Deignan, 2005) and translation (Baker, 1993; 1995; 1996; 1998;1999). Metaphor is a central figure of language and thought (Lakoff & Johnson, 1980) which shapes our conceptualization of the world. On the other hand, translators have increasingly utilized the tools made available by Corpus Linguistics to unveil the actual threads researchers follow in order to make translations from one language to another. In such context, the study hereby detailed aims at focusing metaphors as cognitive phenomena. More specifically, the research aims to identify the linguistic and conceptual metaphors in a corpus of academic sphere and subsequently focus the study of metaphor translations under a cognitive approach. For this purpose, methodology started by collecting a parallel corpus of bilingual abstracts of thesis and dissertations in Applied Linguistics, firstly written in Portuguese and then translated into English. The corresponding analysis was based on corpus-driven procedures whereby the evidences gathered have led to questions to be investigated. The study utilized the LC tools (Metaphor Identification Program, Concord and Parallel Concordander) in order to present a safer and wider data analysis. Due to language metaphor richness, the metaphor identification program was used to point out the most probable metaphors in the corpus. Later on, in order to determine the metaphors effectively used and translated, both corpora originals and translations were automatically aligned and submitted to the parallel concordancer for comparison purposes. The results point to a significantly high number of conceptual correlations between metaphors in the original and translated abstracts; nevertheless, in some cases metaphors were missing or mistranslated. If, as Lakoff e Johnson states, metaphors structure the way we understand the world, then these metaphorical shifts may influence how abstracts are understood in both languages / Recentemente, a Lingüística de Corpus começou a fazer incursões em duas grandes áreas da lingüística: metáfora (Deignan, 2005) e tradução (Baker, 1993; 1995; 1996; 1998; 1999). A metáfora é uma figura central de linguagem e do pensamento (Lakoff e Johnson, 1980), que modela a nossa maneira de conceptualizar o mundo. Por outro lado, a tradução é um campo que vem utilizando cada vez mais as ferramentas da Lingüística de Corpus para desvendar de que forma os pesquisadores realizam traduções de uma língua para outra. Inserida nesse contexto, a pesquisa aqui descrita tem como objetivo frisar a metáfora como um fenômeno cognitivo. Mais especificamente, a pesquisa tem por finalidade identificar as metáforas lingüísticas e conceptuais num corpus de esfera acadêmica e, posteriormente, enfocar a abordagem cognitiva nas traduções das metáforas. Para tanto, a metodologia consistiu na coleta de um corpus paralelo composto de resumos de teses e dissertações em Lingüística Aplicada e Estudos da Linguagem da PUC-SP, escritos originalmente em Língua Portuguesa, e suas respectivas traduções para a Língua Inglesa. A análise baseou-se na metodologia orientada pelos dados onde as evidências extraídas do corpus conduzem às questões a serem investigadas. Nesse quadro, o presente estudo fez uso das ferramentas computacionais (Identificador de Metáforas, Concord e o Concordanciador Paralelo) disponibilizadas pela Lingüística de Corpus, de forma a produzir uma análise de dados mais ampla e segura. Devido à vasta riqueza de metáforas na língua, utilizamos o programa Identificador de Metáforas, cuja função principal é a de apontar as palavras com maior potencialidade metafórica dentro de um corpus. Posteriormente, a fim de observar como as metáforas são realmente utilizadas e traduzidas, os dois corpora originais e traduções foram automaticamente alinhados e submetidos ao Concordanciador Paralelo, para fins de comparação. Os resultados apontam para uma grande correspondência conceptual entre as metáforas nos resumos originais e suas traduções; no entanto, ocorreram casos em que as metáforas estavam ausentes ou mal traduzidas. Se, como Lakoff e Johnson argumentam, as metáforas estruturam o modo pelo qual compreendemos o mundo, então essas variações metafóricas podem influenciar a forma como os resumos são entendidos nas duas línguas Corpus Conceptualização Tradução Linguistica -- Processamento de dados Metafora Traducao e interpretacao Conceptualization Linguistics Metaphor Translation

Search results