Spelling suggestions: "subject:"linguística - processamento dde dados"" "subject:"linguística - processamento dee dados""
1 |
Reconfiguração da linguagem na globalização : investigação da linguagem on-lineOrmundo, Joana da Silva 10 December 2007 (has links)
Tese(doutorado)—Universidade de Brasília, Instituto de Letras, Departamento de Linguística, Português e Línguas Classicas, Programa de Pós-Graduação em Linguística, 2007. / Submitted by Érika Rayanne Carvalho (carvalho.erika@ymail.com) on 2009-12-15T23:23:31Z
No. of bitstreams: 1
2007_JoanadaSilvaOrmundo.pdf: 5553047 bytes, checksum: f16ec39e6cdc407abc2943ce614c8b15 (MD5) / Approved for entry into archive by Lucila Saraiva(lucilasaraiva1@gmail.com) on 2010-01-18T21:56:14Z (GMT) No. of bitstreams: 1
2007_JoanadaSilvaOrmundo.pdf: 5553047 bytes, checksum: f16ec39e6cdc407abc2943ce614c8b15 (MD5) / Made available in DSpace on 2010-01-18T21:56:14Z (GMT). No. of bitstreams: 1
2007_JoanadaSilvaOrmundo.pdf: 5553047 bytes, checksum: f16ec39e6cdc407abc2943ce614c8b15 (MD5)
Previous issue date: 2007-12-10 / Esta tese investiga a reconfiguração da linguagem na globalização. O objetivo é contribuir para a compreensão de como os aspectos da globalização e as mudanças no campo da comunicação, por meio das novas tecnologias da comunicação, estão imbricados na forma como os agentes sociais utilizam a linguagem no ambiente on-line. Desse ponto de vista, são colocados em destaque os agentes sociais, as práticas sociais, as estruturas sociais no qual o evento social ocorreu e, também, esses mesmos fatores são considerados para a análise do ambiente on-line para onde o evento social foi (re)locado. O referencial teórico que orientou esta tese teve como base a Análise de Discurso Crítica (ADC) sobre as questões da linguagem, de globalização e de poder, com ênfase no trabalho de Norman Fairclough (2003b, 2006) sobre linguagem e globalização e sua proposta transdisciplinar de analisar a linguagem por meio da Teoria Social, da Multimodalidade e da sua relação com a economia política cultural. Os estudos sobre a Teoria Social foram respaldados pelo trabalho de Pierre Bourdieu e Loïc Wacquant (2005) sobre campo, habitus e linguagem. A multimodalidade, as mudanças no campo da comunicação e a modalização tiveram como base os estudos de Gunther Kress e van Leeuwen (1996) e van Leeuwen (2005). Mark Poster (1995, 1996, 2000) contribuiu com o seu estudo sobre a reconfiguração da linguagem e a Teoria Social da Mídia. A proposta metodológica foi orientada pela pesquisa qualitativa que forneceu as orientações necessárias para a seleção do corpus em um evento social que aconteceu no Plenário da Câmara dos Deputados e na forma como esse evento foi transformado em notícia pela mídia on-line. Buscou-se investigar: i) a relação do evento social no ambiente em que ele ocorreu por meio da prática social com a sua (de)locação na mídia on-line; e ii) a forma como o evento social foi transformado em notícia on-line com ênfase nos papéis dos agentes que se apropriaram do evento ao transformá-lo em notícia. A investigação apontou como resultado que a reconfiguração ocorre em três níveis de mudança social que podem ser observados da seguinte forma: i) o modo como a linguagem reconfigura a realidade (POSTER, 2000); ii) a relação com os processos de mudança social e tecnológica por meio da recontextualização e de uma abordagem transdisciplinar (FAIRCLOUGH, 2003b; 2006); e iii) em que ponto a reconfiguração ocorre pela ação dos agentes no campo que desvela as relações de poder para a reivindicação de um espaço no campo em que atuam. Ao retratar um determinado evento social na mídia on-line, os sujeitos lançam mão de seus atributos semióticos mais significativos no campo para reafirmar sua posição social. Concluí que há reconfiguração da linguagem no ambiente online e o maior efeito da mudança social ocorre quando os agentes sociais que retrataram o evento social, narrando-o em forma de notícia on-line, utilizam aspectos da globalização e dos elementos semióticos, transformam a linguagem empregada no novo ambiente em um instrumento fundamental para afirmar a posição do sujeito no campo por meio da experiência, do conhecimento e do reconhecimento no campo em que atua. _______________________________________________________________________________ ABSTRACT / This study investigates language reconfiguration in globalization. It aims at comprehending how the aspects of globalization and the changes in the communicating field, through new communication technology, are integrated to the social agents usage of the language in an on-line environment. From this point of view, social agents, social practices and social structures in which the social event occurred are highlighted. The same factors are also considered in the analysis of the on-line environment where the social event was (re)located. The core reference of this study can be traced back to Norman Fairclough’s (2003b, 2006) Critical Analysis of Speech Theory and his transdisciplinary and multimodal analysis of language with a focus on cultural political economy; Pierre Bourdieu and Loïc Wacquant’s (2005) Social Theory and their concepts of field, habitus and language; Gunther Kress and van Leeuwen (1996) and van Leeuwen’s (2005) multimodal concept, changes in field communication and modalization; Mark Poster (1995, 1996, 2000) contributed with the concepts of reconfiguration and the Media Social Theory. A qualitative research methodology was carried out and this was determining in the selection of the corpus – a social event which happened in the plenary of the Chamber of Deputies – and its change into news in the media on-line. The focus of investigation was: i) the relation of the social event in the environment in which it happened with its (de)location in the media on-line; ii) the role of the agent who appropriated the social event, turning it into on-line news. As a result of this process, reconfiguration happened into three levels of social change, which can be observed in: i) the way the language reconfigurates reality (POSTER, 2000); ii) the relation with the social and technological changing processes and an interdisciplinary approach (FAIRCLOUGH, 2003b; 2006); and iii) the moment the reconfiguration happens by the actions of the agents which reveals the power relationships to the claims of time in the field. As the subjects deal with a certain social event in the media on-line, they make use of their most significative semiotic attributes in order to reaffirm their social position. In conclusion, there is language reconfiguration in on-line environment and the most significant social change occurs when the social agents turn the language used in the new environment into a fundamental tool in order to affirm their position in the field of action by means of experience, knowledge and recognition.
|
2 |
Processamento de linguagem natural para indexação automática semântico-ontológicaCâmara Júnior, Auto Tavares da 11 April 2013 (has links)
Tese (doutorado)—Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2013. / Submitted by Elna Araújo (elna@bce.unb.br) on 2013-07-29T21:19:34Z
No. of bitstreams: 1
2013_AutoTavaresDaCamaraJunior.pdf: 1417675 bytes, checksum: 57e0a94a4470cf0e11089ed79a440dfc (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2013-07-30T15:57:34Z (GMT) No. of bitstreams: 1
2013_AutoTavaresDaCamaraJunior.pdf: 1417675 bytes, checksum: 57e0a94a4470cf0e11089ed79a440dfc (MD5) / Made available in DSpace on 2013-07-30T15:57:34Z (GMT). No. of bitstreams: 1
2013_AutoTavaresDaCamaraJunior.pdf: 1417675 bytes, checksum: 57e0a94a4470cf0e11089ed79a440dfc (MD5) / A pesquisa propõe uma arquitetura de indexação automática de documentos utilizando mecanismos de processamento de linguagem natural em nível semântico. Por meio do arranjo de ferramentas e recursos existentes, agregado ao desenvolvimento de software para integração, é construído um sistema de indexação automática que utiliza conhecimento modelado em uma ontologia para análise semântica. A aplicação da arquitetura é exemplificada e posta à prova em um conjunto de laudos periciais de crimes cibernéticos produzidos pela Perícia Criminal da Polícia Federal. Os resultados de pesquisa apontam para a melhoria que o aprofundamento à análise semântica do processamento de linguagem natural oferece para a seleção automática de descritores e, por extensão, para a recuperação da informação. Dentre as contribuições inéditas desta tese incluem-se a arquitetura de sistema de informação para indexação automática proposta, a ontologia construída para a análise semântica e as implementações em linguagem de programação Python. Por fim, o trabalho insere-se em uma área de pesquisa que tem sido cada vez mais investigada, no entanto ainda carece de resultados amadurecidos, qual seja o processamento de linguagem natural em língua portuguesa. __________________________________________________________________________ ABSTRACT / The research proposes an automatic indexing architecture of documents using natural language processing mechanisms on semantic level. By organizing existing tools and resources, added to software development for integration, an automatic indexing system which uses knowledge modeled by ontology to semantic analysis is built. The applicability of the architecture is exemplified and put into proof on forensics reports of cybercrimes produced by Federal Police Forensics Experts. The research results point to the benefits that semantic analysis on natural language processing offers to automatic descriptor selection and information retrieval. As contributions of this thesis there are the proposed automatic indexing information system architecture, the ontology built to semantic analysis and the implementations on Python programming language. Concluding, the work inserts itself in a research area that has been increasingly more investigated, however still demanding mature results, which is natural language processing on portuguese language.
|
3 |
Aspectos sócio-culturais e semânticos na tradução dos fraseologismos em dicionários bilínguesOliveira, Helen Ilza Borges de January 2009 (has links)
Dissertação (mestrado)—Universidade de Brasília, Instituto de Letras, Departamento de Línguas Estrangeiras e Tradução, 2009. / Submitted by Elna Araújo (elna@bce.unb.br) on 2010-03-24T19:52:54Z
No. of bitstreams: 1
2009_HelenIlzaBorgesdeOliveira.pdf: 597600 bytes, checksum: 0099470a3cb7f5cd7107ab7913e66e75 (MD5) / Approved for entry into archive by Daniel Ribeiro(daniel@bce.unb.br) on 2010-04-23T14:42:07Z (GMT) No. of bitstreams: 1
2009_HelenIlzaBorgesdeOliveira.pdf: 597600 bytes, checksum: 0099470a3cb7f5cd7107ab7913e66e75 (MD5) / Made available in DSpace on 2010-04-23T14:42:07Z (GMT). No. of bitstreams: 1
2009_HelenIlzaBorgesdeOliveira.pdf: 597600 bytes, checksum: 0099470a3cb7f5cd7107ab7913e66e75 (MD5)
Previous issue date: 2009 / Por muito tempo os fraseologismos têm sido objeto de discussão entre os tradutores, visto que eles trazem peculiaridades da língua de origem que nem sempre encontram um equivalente na língua de chegada. A discussão sempre gira em torno de como traduzi-los. Manter o sentido conotativo do original, porém perdendo suas características? Ou encontrar um equivalente na língua de chegada que pode não refletir fielmente o sentido do original, mas seria uma opção de uso? Envoltos em toda esta discussão estão os tradutores que, independentemente de como, freqüentemente se deparam com fraseologismos a serem traduzidos. E, em muitas das vezes, recorrem aos dicionários como apoio externo para a tarefa de tradução. Visto que todos os dicionários possuem suas limitações e os dicionários monolíngües não trazerem o equivalente dos fraseologismos em língua estrangeira, esta pesquisa procurou analisar o comportamento da tradução dos fraseologismos nos dicionários bilíngües Inglês-Português / Português-Inglês – como tais fraseologismos são traduzidos, se são traduzidos ao pé da letra, ou obedecendo a alguma ordem que procure manter os aspectos semânticos da língua de origem. Para tal, foram utilizados 4 dicionários bilíngües para estudantes brasileiros de Língua Inglesa como instrumentos para a coleta de dados. Os resultados sugerem que apesar dos fraseologismos terem sido traduzidos, não foram encontradas observações com relação à relevância cultural que estes fraseologismos possuem em Língua Portuguesa. Porém, percebe-se uma preocupação em que estes sejam traduzidos por um equivalente pré-existente em Língua Inglesa ou por um equivalente de situação que permita ao usuário ter noção do sentido conotativo do fraseologismo original. ___________________________________________________________________________________________ ABSTRACT / For a long time, the fixed expressions have been matter of discussion among the translators, since they have the original language peculiarities and, sometimes, these fixed expressions are so specific of a culture that don’t have an equivalent in the translation that covers all their connotative meanings. The discussion is all around in how translators should translate them. Should they keep the original connotative meaning, despite the fixed expression characteristics? Or should they search for an equivalent in the foreign language that may not reflect the original meaning? The translators are involved in these questions but they frequently face the task of translating the fixed expressions, no matter how. And, most of the times, they run over the dictionaries as an external support for the translation task. Since most of the dictionaries have their restrictions and the monolingual dictionaries don’t have the fixed expressions equivalent in the foreign languages, this study aimed at analyzing the behavior of the fixed expression translation in the bilingual dictionary – English-Portuguese / Portuguese-English. It expected to analyze how the fixed expressions are translated – literally or with some order to keep their semantic meaning of the original language. So, four bilingual dictionaries for Brazilian students of English were used as means for data collection. The results suggest that, despite the fixed expression have been translated; there weren’t any information on their cultural relevance for the original language. But, it can be seen some preoccupation on their translation for an equivalent in the foreign language or a situation equivalent that should allow the user to perceive the connotative meaning of the original fixed expression.
|
4 |
Análise automática do sistema lingüístico português : o sistema linga e suas aplicaçõesScher, Nelmo Roque 06 1900 (has links)
Submitted by Guimaraes Jacqueline (jacqueline.guimaraes@bce.unb.br) on 2017-09-06T14:47:07Z
No. of bitstreams: 1
1985_NelmoRoqueScher.pdf: 62068510 bytes, checksum: a3e9dbd113ad798cdf84b81940e83d7d (MD5) / Approved for entry into archive by Guimaraes Jacqueline (jacqueline.guimaraes@bce.unb.br) on 2017-09-06T14:57:37Z (GMT) No. of bitstreams: 1
1985_NelmoRoqueScher.pdf: 62068510 bytes, checksum: a3e9dbd113ad798cdf84b81940e83d7d (MD5) / Made available in DSpace on 2017-09-06T14:57:37Z (GMT). No. of bitstreams: 1
1985_NelmoRoqueScher.pdf: 62068510 bytes, checksum: a3e9dbd113ad798cdf84b81940e83d7d (MD5) / A Lingüística Computacional tem tido influência considerável sobre o desenvolvimento da teoria lingüística nos últimos anos, pois induz os lingüístas a definirem com a maior precisão possível as regras e as idiossincrasias de um sistema lingüístico para que o mesmo possa ser submetido à análise automática e, então, receber as mais diversas aplicações, como, por exemplo, a indexação automática, a tradução automática, a criação automática de um tesauro de uma ciência, aplicações na Informática, nos meios modernos de comunicação, no ensino de línguas estrangeiras, etc. Nesta dissertação, objetivou-se apresentar o desenvolvimento de um sistema de análise automática da língua portuguesa, denominado LINGA ("Linguistic Analysis"). Esse sistema está organizado em tabelas, dicionários, rotinas e algoritmos obedecendo à distinção entre as categorias lexicais e não-lexicais. Os passos da análise linguística operados pela LINGA são: segmentação de um texto em frases e das frases em palavras: busca nos dicionários desenvolvidos no sistema, análise morfológica, sintática e das homografias. A partir das definições das categorias lexicais e não-lexicais, o sistema LINGA define a posição sintática das palavras por meio de uma sofisticada rotina estruturada a partir dos traços configuracionais dos itens lexicais. Assim, toda a estrutura gramatical nos níveis morfológicos e sintáticos é abrangida por procedimentos pré-estabelecidos. Com o desenvolvimento de procedimentos que analisam a estrutura morfossintática da língua portuguesa, o sistema LINGA está apto a diversas aplicações. Como objetivo prático desta dissertação oferecemos contribuições da análise lingüística para a área da Teoria da Informação. Especificamente tratamos da análise do sintagma nominal (SN) e de suas implicações na indexação automática. / Computacional linguistics has had a large influence in the development of the linguistic theory in the last years because it contributes to the accuracy in the definition of the linguistic rules. Its main applications have been in indexing systems, automatic translation, development of scientific thesauri, modern system of mass midia, language teaching, retrieval of information, etc. The purpose of the present dissertation is to describe in detail the system of automatica analysis of the Portuguese language - LINGA. This system comprises tables, dictionaires, routines and algorithms wich are organized according distinction between lexical and non-lexical categories. The procedures of linguistic analysis performed by LINGA are: text segmentation into sentences and sentence segmentation into words; research in the dictionary and morphological analysis; syntactic analysis and analysis of homographies. After the definition of the lexical and non-lexical categories, the LINGA system defines the syntactic position of the words through a sophisticated structured routine wich takes into account the configurational features of the lexical items. It covers therefore all the morphological and syntactic structure of the grammar. With the development of procedures to analyse the morpho-syntactic structure of the Portuguese language, the LINGA system can have several applications. The practical purposeof this dissertation was to offer contributions of linguistic analysis to the theory of infomration. We deal in particular with the noun phrase analysis and offer a discussion of its implication to indexing systems.
|
5 |
Interface multimodal de interação humano-computador em sistema de recuperação de informação baseado em voz e texto em portuguêsSantos, Marcelo Alves dos 20 June 2013 (has links)
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2013. / Submitted by Alaíde Gonçalves dos Santos (alaide@unb.br) on 2013-12-05T14:07:43Z
No. of bitstreams: 1
2013_MarceloAlvesdosSantos.pdf: 1941817 bytes, checksum: 04c5661332b88f595e808c2e4bfcfd2c (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2013-12-13T12:09:25Z (GMT) No. of bitstreams: 1
2013_MarceloAlvesdosSantos.pdf: 1941817 bytes, checksum: 04c5661332b88f595e808c2e4bfcfd2c (MD5) / Made available in DSpace on 2013-12-13T12:09:25Z (GMT). No. of bitstreams: 1
2013_MarceloAlvesdosSantos.pdf: 1941817 bytes, checksum: 04c5661332b88f595e808c2e4bfcfd2c (MD5) / Com o advento tecnológico, as Interfaces de Interação Humano-Computador apresentam um modelo diferente do tradicional e tendem, cada vez mais, a se tornarem multimodais. Essa diferença consiste na integração da informática às ações e aos comportamentos naturais do dia-a-dia, como a fala, a visão, gestos e a audição, para operar um computador e na superação da necessidade do uso de equipamentos convencionais, como teclado e mouse, utilizados no modelo tradicional. Nesse novo modelo, o foco passa a ser a tarefa a ser executada e não mais os computadores. Logo, tem-se como proposta verificar os possíveis benefícios provenientes do uso da Interação Humano- Computador Multimodal (IHCM) em uma interface computacional baseada em voz artificial - voz gerada por computador - associada a um mecanismo de recuperação da informação em que se busca a melhoria do diálogo entre o homem e a máquina nas operações de troca de informação. _______________________________________________________________________________________ ABSTRACT / Since the advent of technology, Interfaces of Human-Computer Interaction presents a different model of the traditional and tend increasingly to become multimodals. This difference consist in the integration of information technology to the actions and natural behaviors of the day-to-day, such as speech, vision, gestures and hearing, to operate a computer and in overcoming the necessity of using conventional equipment such as keyboard and mouse used in the traditional model. In this new model, the focus becomes the task rather than computers. Therefore, the proposed intends to verify the possible benefits from the use of Interaction Multimodal Human-Computer (IHCM) in a computational interface based in artificial voice - computer-generated voice - associated with a information retrieval mechanism aiming to improve the dialogue between man and machine in information exchange operations.
|
6 |
B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionáriaAfonso, Alexandre Ribeiro 11 November 2013 (has links)
Tese (doutorado)—Universidade de Brasília,
Faculdade de Ciência da Informação,
Programa de Pós-Graduação em Ciência da Informação, 2013. / Submitted by Alaíde Gonçalves dos Santos (alaide@unb.br) on 2014-04-08T12:57:37Z
No. of bitstreams: 1
2013_AlexandreRibeiroAfonso.pdf: 2162448 bytes, checksum: 65e0879f67cfb9f2deb91c9642e5d9ac (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2014-04-23T13:20:38Z (GMT) No. of bitstreams: 1
2013_AlexandreRibeiroAfonso.pdf: 2162448 bytes, checksum: 65e0879f67cfb9f2deb91c9642e5d9ac (MD5) / Made available in DSpace on 2014-04-23T13:20:38Z (GMT). No. of bitstreams: 1
2013_AlexandreRibeiroAfonso.pdf: 2162448 bytes, checksum: 65e0879f67cfb9f2deb91c9642e5d9ac (MD5) / Nesta tese é apresentado um estudo estatístico sobre o agrupamento automático de artigos científicos escritos em português do Brasil, são propostos novos métodos de indexação e agrupamento de textos com o objetivo futuro de desenvolver um software para indexar e agrupar textos por área de conhecimento. Foram testadas três classes conhecidas de termos simples para representar (indexar) os textos de entrada a agrupar: (substantivos), (substantivos e adjetivos), (substantivos, adjetivos e verbos) e também foram desenvolvidas três novas classes de termos compostos para representação (indexação) dos textos: classes de termos mais complexos, onde um termo pode ser composto pela junção de substantivos, adjetivos e preposições. Durante a fase de agrupamento textual dos experimentos foram testados os algoritmos de agrupamento: Expectation-Maximization (EM), X-Means, um Algoritmo Evolucionário de Agrupamento Convencional e, ainda, um novo Algoritmo Evolucionário de Agrupamento Proposto cujo diferencial é trabalhar em duas etapas de processamento: uma etapa para localização do agrupamento subótimo genérico e outra etapa para melhorar tal solução. Adicionalmente, o novo algoritmo permite ao usuário definir a formação de mais grupos ou menos grupos no resultado de agrupamento. Os algoritmos de indexação e agrupamento propostos foram codificados e implementados em um protótipo denominado B2, no entanto, para testar os algoritmos de agrupamento EM e X-Means foi utilizado o pacote de mineração de dados WEKA. Quatro corpora de artigos científicos, diferentes entre si por guardarem artigos de áreas científicas distintas, foram reunidos para testar as combinações de indexação e algoritmo de agrupamento propostas. Melhores resultados de agrupamento (por área de conhecimento dos artigos) foram obtidos utilizando termos compostos na indexação, ao invés do uso de termos simples, quando combinados com o uso do novo Algoritmo Evolucionário de Agrupamento Proposto, porém, para obter grupos bem formados, um número excessivo de grupos é gerado pelo protótipo, consumindo alto tempo de computação para executar tais novos métodos, em um computador pessoal convencional do ano de 2012. Pode-se concluir que o problema de agrupar automaticamente artigos científicos em suas áreas originais é uma tarefa complexa. Logo, acredita-se que os métodos de indexação e agrupamento desenvolvidos possam ser aprimorados para utilização futura em situações específicas, onde a fragmentação e geração adicional de grupos além do esperado não seja um problema maior. ______________________________________________________________________________________ ABSTRACT / This thesis presents an empirical study about automated text clustering for scientific articles written in Brazilian Portuguese. We tested three already known classes of simple terms for representing (or indexing) the input texts: (nouns), (nouns and adjectives) and (nouns, adjectives and verbs); we also developed three new classes of composed terms for text representation (or indexing): the new classes consist of more complex terms, where a complex term could be composed by the joint of nouns, adjectives and prepositions. Our final goal is to develop new software for text indexing and clustering. During the clustering stage of the experiments we tested the Expectation-Maximization (EM) Clustering Algorithm, the X-Means Clustering Algorithm, the Conventional Clustering Evolutionary Algorithm and, finally, we also proposed a new Two Phase Clustering Evolutionary Algorithm which works in two phases, the first phase finds the sub-optimal text clustering and the second one improves the result found by the first phase. The Two Phase Clustering Evolutionary Algorithm also permits the user to define whether the system should create a high number or a low number of clusters. The new indexing and clustering algorithmic strategies presented were implemented in a prototype named B2, but for testing the EM and X-Means algorithms we used the known WEKA data mining package. Four different scientific corpora having different sets of scientific topics were assembled and applied for testing the combinations of indexing and clustering methods. Although considerable better results were achieved when indexing with the classes of composed terms combined with the new Two Phase Clustering Evolutionary Algorithm, a considerable higher number of clusters was generated and a considerable additional time was consumed when running the new system over a 2012 conventional personal computer. We conclude that the problem of clustering scientific articles in their original topics is a complex task. Good results of clustering correctness were achieved by the new methods but producing many fragmented additional clusters as output, so, in the future, the methods can be improved and applied in specific situations where the fragmentation and additional production of clusters are not a major problem.
|
7 |
Complexidade semântica e habilidade de decodificação: um modelo quantitativo da compreensão de textos denotativos em língua portuguesa baseado na teoria da informaçãoRIBEIRO, Louise Bogéa 26 February 2018 (has links)
Submitted by JACIARA CRISTINA ALMEIDA DO AMARAL (jaciaramaral@ufpa.br) on 2018-05-10T16:55:39Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
dissert2018 pos correçao.pdf: 2158463 bytes, checksum: 2eb69be3fdfd585c0c97da1f25a2d9e2 (MD5) / Approved for entry into archive by JACIARA CRISTINA ALMEIDA DO AMARAL (jaciaramaral@ufpa.br) on 2018-05-10T16:56:30Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
dissert2018 pos correçao.pdf: 2158463 bytes, checksum: 2eb69be3fdfd585c0c97da1f25a2d9e2 (MD5) / Made available in DSpace on 2018-05-10T16:56:30Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
dissert2018 pos correçao.pdf: 2158463 bytes, checksum: 2eb69be3fdfd585c0c97da1f25a2d9e2 (MD5)
Previous issue date: 2018-02-26 / Com base em princípios da neurociência cognitiva e da teoria da informação, com ênfase no trabalho de Claude Shannon, realizou-se uma análise estatística de 33.101 palavras a partir da coleta de textos científicos da Biblioteca Digital Brasileira de Teses e Dissertações e da Biblioteca Digital da USP, mediante a utilização da linguagem de programação C# e do Microsoft Visual Studio 2012 enquanto complemento do código, incluindo o SQL Server Management Studio 2012 para o gerenciamento do banco de dados, em prol do desenvolvimento do programa de processamento de informação intitulado de CalcuLetra, com o objetivo de mensurar a dificuldade de compreensão textual em Língua Portuguesa. A partir das premissas de que o aprendizado dos significados das letras, palavras e outros símbolos favorece o desenvolvimento do sistema nervoso central de humanos; que o comportamento metacognitivo do leitor permite a resposta a estímulos advindos do processo de leitura; e que as palavras de maior ocorrência no banco representam as mais conhecidas pelos seus autores, o algoritmo determina, assim, o grau de familiaridade das palavras conforme os parâmetros matemáticos e estatísticos do banco. Ao comparar textos não literários ou denotativos com os valores probabilísticos encontrados, revela-se quão compreensivo é o texto inserido no programa, considerando leitores neurotípicos e que o conteúdo possua os devidos elementos de coesão textual, conforme as regras gramaticais da língua. Nossos resultados revelam grupos de palavras que causam a incompreensão ou facilitam a leitura. Adicionalmente, mostramos lacunas de vocabulário e na utilização do dicionário.
Apesar dos resultados preliminares, este estudo foi mais uma prova de conceito para o método empregado e demonstrou seu potencial para futuras pesquisas.
A metodologia do modelo de quantificação pode ser adaptada a outras línguas, e espera-se que a pesquisa possa contribuir em prol da elaboração de diagnóstico objetivo de transtornos do comportamento (ex. dislexia), mediante classificação quantitativa da incompreensão escrita; e ter a sua aplicabilidade enquanto instrumento auxiliar na análise de exames dissertativos de vestibulares, do Enem e de concursos públicos, cuja avaliação é ainda de forma subjetiva. / Based on the principles of cognitive neuroscience and information theory, with emphasis on the work of Claude Shannon, a statistical analysis of 33,101 words was done from the collection of scientific texts of the Brazilian Digital Library Of Thesis And Dissertation and the Digital Library of USP, using the C # programming language and Microsoft Visual Studio 2012 as a code complement, including SQL Server Management Studio 2012 for database management, for the development of the information processing program titled CalcuLetra, with the purpose of measuring the difficulty of textual comprehension in Portuguese Language. From the premises that the learning of the meanings of letters, words and other symbols provides the development of the central nervous system of humans; that the reader's metacognitive behavior allows the response to stimuli coming from the reading process; And that the words of greatest occurrence in the bank represent those best known by their authors, the algorithm thus determines the degree of familiarity of the words according to the mathematical and statistical parameters of the bank. Therefore, when comparing non-literary or denotative texts with the probabilistic values found, it shows how comprehensible is the text inserted in the program, considering neurotypical readers and that its content has the necessary elements of textual cohesion, according to the grammatical rules of the language. Our results reveal groups of words that cause misunderstanding or make reading easier. Additionally, we show gaps in vocabulary and dictionary usage. Despite the preliminary findings, this study was more a proof of concept for the method employed, and demonstrated its potential for future research. The quantification model’s methodology presented in the present study can be adapted to other languages, and we hope it contributes to the development of objective evaluation of behavioral disorders (e.g., dyslexia), by quantitative classification of written incomprehension; and helps in the analysis of dissertations of vestibular, ENEM and other public examinations, whose evaluation is still of a subjective form.
|
8 |
O uso de informações semânticas do PALAVRAS : em busca do aprimoramento da seleção de unidades textuais correferentes na Sumarização AutomáticaTomazela, Élen Cátia 21 June 2010 (has links)
Made available in DSpace on 2016-06-02T20:25:07Z (GMT). No. of bitstreams: 1
3413.pdf: 1158214 bytes, checksum: 96b742071a87c5d34f6d705e6fa72237 (MD5)
Previous issue date: 2010-06-21 / Universidade Federal de Minas Gerais / This dissertation aims at presenting a theoretical heuristic model which not only takes into consideration the Veins Theory, but also semantic information obtained from the Parser PALAVRAS to improve the selection of correferential textual units to be included in automatic summaries. Based on the analysis of the problems presented by VeinSum, an automatic summarizer, two main issues have been raised: the necessity of improving its summaries salience and reducing their size so that they suit the compression rate more adequately. Better results can be achieved through the elimination of irrelevant textual units although the summaries referential clarity may not be damaged. Heuristics based on the semantic information have then been proposed. Despite the semantic annotation inconsistencies, all the noun phrases that compose the Summ-it Corpus have been post-edited manually, which increases the credibility of the heuristics. Eleven texts from the corpus have been analysed and the results obtained are satisfactory, although a wider study would be required to better evaluate the results of this proposal. / Esta dissertação tem como foco a proposta de um modelo heurístico teórico que utiliza, além da Teoria das Veias, informações semânticas provenientes do Parser PALAVRAS para melhorar a seleção de unidades correferentes para a inclusão em sumários automáticos. A partir da análise dos problemas apresentados pelo sumarizador automático VeinSum, identificou-se a necessidade de melhorar a saliência dos sumários produzidos, além de reduzir o tamanho dos mesmos para que se aproximassem mais da taxa de compressão ideal. Propõese, então, a eliminação de unidades textuais de importância secundária no que tange à clareza referencial, sem danificá-la, no entanto. Para isso, heurísticas baseadas nas informações semânticas do PALAVRAS foram propostas. Apesar de o parser apresentar inconsistências de etiquetação semântica, a anotação de todos os sintagmas nominais dos 50 textos-fonte que compõem o corpus Summ-it foi pós-editada manualmente para melhorar a confiabilidade das heurísticas geradas. Foram analisados 11 textos pertencentes ao corpus e os resultados são satisfatórios, porém reconhece-se que, para melhor avaliar os resultados desta proposta, faz-se necessário um estudo mais amplo.
|
9 |
Alinhamento de árvores sintáticas português-inglêsAraújo, Josué Garcia de 20 June 2011 (has links)
Made available in DSpace on 2016-06-02T19:05:53Z (GMT). No. of bitstreams: 1
3976.pdf: 1798870 bytes, checksum: 00ab81148c7fb6dad5738877a4809e84 (MD5)
Previous issue date: 2011-06-20 / Financiadora de Estudos e Projetos / The manual translation of a source natural language into a target natural language is a task that demands time and expertise. In order to reduce the work needed for manual translations, the aim is to accomplish this task through Machine Translation (MT) systems. Since the 1940s, various approaches and techniques of MT have been proposed, investigated and evaluated in order to improve the quality of translations generated automatically. Nowadays, statistical machine translation methods are considered the state-of-art regarding the evaluation automatic measures commonly used in the area (such as BLEU and NIST), however a recent trend indicates that such systems will not improve their level of performance without the application of deeper linguistic knowledge, for instance, syntactic information. Thus, as an attempt to support the building of automatic translators, this dissertation presents the research, the implementation and the evaluation of parse trees alignment techniques. The computational tool for the automatic alignment of syntactic trees, result of this work, may be used to generate an extremely useful resource for various MT techniques: the aligned syntactic trees . This resource, so far unavailable for Brazilian Portuguese, will allow the development of new researches, which can provide the scientific advancement of the area. In this dissertation, a study of various techniques for parse trees alignment from the literature is presented. Besides, the pre-processing of a corpus for the inclusion of syntactic information from which the alignment is performed is also described, as well as the phases of lexical alignment and syntactic analysis. Some implementations and tests have been carried out with the pre-processed corpus, based on the theoretical foundations derived from the study of the techniques proposed in the literature. Based on the results of the intrinsic evaluation of the alignment, it was possible to conclude that the alignment of syntactic trees reached the accuracy of 97.36% and the coverage of 93.48% for tree pairs, representing parallel sentences in Brazilian Portuguese and in English by using different settings. Since the results have been promising, as future work, the aim is to apply the tool to a larger corpus of parallel syntactic trees, in order to obtain more examples of translation and, thus, allow its application to syntax-based machine translation techniques, such as syntax-based statistical methods or data-oriented translation. / A tradução manual de uma língua natural fonte para uma língua natural alvo é uma tarefa que demanda tempo e conhecimento. Para reduzir o trabalho árduo necessário na construção manual de traduções, propõe-se realizar esta tarefa por meio de sistemas computacionais de Tradução Automática (TA). Desde a década de 1940, várias técnicas e abordagens de TA têm sido propostas, investigadas e avaliadas com o intuito de melhorar a qualidade das traduções geradas automaticamente. No momento, os métodos de tradução automática estatística são considerados o estado-da-arte em termos de medidas automáticas de avaliação comumente utilizadas na área (como BLEU e NIST), porém há uma tendência recente de que tais sistemas não conseguirão sair do patamar de desempenho no qual se encontram estagnados sem a aplicação de conhecimento linguístico mais aprofundado, por exemplo, informação sintática. Nesse sentido, como uma tentativa de auxiliar o processo de construção de tradutores automáticos, este documento apresenta a investigação, implementação e avaliação de técnicas de alinhamento de árvores sintáticas. A ferramenta computacional para alinhamento automático de árvores sintáticas resultante deste trabalho pode ser utilizada para a geração de um recurso extremamente útil para diversas técnicas de TA: as árvores sintáticas alinhadas. Esse recurso, até então inexistente para o português do Brasil, possibilitará o desenvolvimento de pesquisas inovadoras e que propiciem o avanço científico da área. Neste documento, um estudo de várias técnicas de alinhamento de árvores sintáticas é apresentado, baseado na literatura. O pr´e-processamento de um corpus para inserção de informações sintáticas a partir das quais o alinhamento é realizado também é descrito, destacando-se as fases de alinhamento lexical e análise sintática. A partir do embasamento teórico derivado do estudo das técnicas propostas na literatura, cinco modelos foram implementados para realizar a tarefa de alinhar as árvores sintáticas. Estes modelos foram avaliados usando o corpus pré-processado. Com base nos resultados da avaliação intrínseca do alinhamento propriamente dito, é possível concluir que o alinhamento de árvores sintáticas atingiu cerca de 97,36% de precisão e 93,48% de cobertura em pares de árvores representando sentenças paralelas em português do Brasil e inglês usando diferentes configurações. A partir desses resultados promissores pretende-se aplicar a ferramenta a um corpus maior de árvores sintáticas paralelas visando a obtenção de mais exemplos de tradução e permitindo, assim, sua aplicação nas técnicas de tradução automática baseada em sintaxe como os métodos estatísticos baseados em sintaxe ou a tradução orientada a dados.
|
10 |
Técnicas de processamento de linguagem natural aplicadas às ciências sociaisScarpa, Alice Duarte 24 August 2017 (has links)
Submitted by Alice Duarte Scarpa (alicescarpa@gmail.com) on 2017-09-26T15:54:11Z
No. of bitstreams: 1
dissertacao (3).pdf: 2075770 bytes, checksum: 4838890c00b2e15a62cffbbbcb4ab5a8 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2017-10-31T11:43:22Z (GMT) No. of bitstreams: 1
dissertacao (3).pdf: 2075770 bytes, checksum: 4838890c00b2e15a62cffbbbcb4ab5a8 (MD5) / Made available in DSpace on 2017-11-10T18:24:46Z (GMT). No. of bitstreams: 1
dissertacao (3).pdf: 2075770 bytes, checksum: 4838890c00b2e15a62cffbbbcb4ab5a8 (MD5)
Previous issue date: 2017-08-24 / The vast amount of documents available nowadays presents a great opportunity for advancing Political Sciences. At the same time, this deluge of information poses a problem, because it is no longer feasible for researchers to analyze every document manually. Modern natural language processing techniques have an essential role in helping with this process. The goal of this work is to create a tool based on natural language processing techniques that helps researchers to navigate an important database, Cablegate, which is a corpus of over 250 thousand diplomatic cables sent between US embassies that was published as part of WikiLeaks. This is a very important database that can shed new light at key historical moments of the twenty-first century. / A enorme quantidade de documentos disponíveis atualmente representa um grande potencial de avanço para as Ciências Políticas. Ao mesmo tempo essa riqueza de informações gera um problema, pois não é mais possível que pesquisadores analisem todos os documentos manualmente. Técnicas modernas de processamento de linguagem natural têm um papel essencial a cumprir para auxiliar tal avanço. O objetivo desse trabalho é criar uma ferramenta baseada em processamento de linguagem de natural que ajude pesquisadores a navegar uma base de dados muito importante, o \textit{Cablegate}, que é um conjunto de mais de 250 mil cabos diplomáticos de embaixadas dos Estados Unidos que foi publicado como parte do \textit{WikiLeaks}. Essa é uma base muito importante que pode trazer uma nova luz sobre vários momentos-chave do início do século XXI.
|
Page generated in 0.1241 seconds