• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 21
  • Tagged with
  • 21
  • 21
  • 21
  • 6
  • 5
  • 5
  • 5
  • 5
  • 5
  • 5
  • 4
  • 4
  • 4
  • 4
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Aspectos semânticos da definição terminológica (DT): descrição linguística e proposta de sistematização

Kamikawachi, Dayse Simon Landim 27 April 2009 (has links)
Made available in DSpace on 2016-06-02T20:25:05Z (GMT). No. of bitstreams: 1 2803.pdf: 1502463 bytes, checksum: f8ef76dd8fc8086da52568182426288b (MD5) Previous issue date: 2009-04-27 / Universidade Federal de Minas Gerais / The making of the definitions is the most complex step in terminological research which aims to compile specialized dictionaries, for the good ones are evaluated mainly as to the quality of their definitions. As there are differences between terms and words, there are also differences between defining them. While the lexicographic definition specifies and describes the meanings of words as language units, giving all their possible senses, the terminological definition (TD) identifies and describes terms only in reference to the specific conceptual system to which they belong. Therefore, the TD is the object of this Master s study. Our undergraduate experience in terminological research in the Group of Studies and Research in Terminology (GETerm), revealed several difficulties associated with the TD process. The defining method was changed, adapted, extended, and revised to handle the challenges of the research. From that experience, we came to a set of methodological procedures to aid the TD routines in any domain knowledge. Accordingly, this Master s dissertation research aims to systematize those procedures to be implemented into a Web-based, computational environment (E-Termos) to aid research groups in their terminological endeavor. / A elaboração da definição é a etapa mais complexa e custosa numa pesquisa terminológica que objetiva a elaboração de dicionários especializados, já que um bom dicionário se avalia, principalmente, pela qualidade das suas definições. Assim como há diferença entre termo e palavra, também há diferenças entre os modos de definir termos e palavras. Enquanto a definição lexicográfica descreve e delimita os sentidos das palavras enquanto unidades do sistema, oferecendo todas as acepções possíveis, a definição terminológica (DT) oferece a identificação do termo somente com referência ao sistema conceitual do qual faz parte. É esse segundo tipo de definição, portanto, que é objeto desta pesquisa de mestrado. Na experiência adquirida durante nossa pesquisa terminológica realizada durante a Iniciação Científica, junto ao Grupo de Estudos e Pesquisas em Terminologia (GETerm), deparamo-nos com diversas dificuldades para a elaboração da DT. O método de trabalho foi por diversas vezes alterado, adaptado, ampliado, revisto, de forma a dar conta dos desafios que iam surgindo. A partir dessa experiência, chegamos a um conjunto de procedimentos metodológicos úteis para a redação da definição, em qualquer domínio de conhecimento. Pretendeu-se, pois, nesta pesquisa de mestrado, sistematizar esses procedimentos, de modo a proporcionar conhecimento linguístico que será implementado num ambiente computacional baseado na Web, de maneira a auxiliar demais grupos que desenvolvem pesquisas terminológicas em língua portuguesa a elaborar a DT de forma mais sistemática.
12

Geração multi-parametrizada de corpora linguísticos

Silva, Nayara Rosy Felix da 31 August 2015 (has links)
Fundação de Apoio a Pesquisa e à Inovação Tecnológica do Estado de Sergipe - FAPITEC/SE / Não informado. / O desenvolvimento de software de Processamento de Linguagem Natural (PLN) é altamente dependente da boa qualidade do que chamamos de corpus Linguístico. Um corpus é uma coleção de textos processáveis pelo computador, mas produzidos dentro de um ambiente comunicativo natural. Essa dependência advém do fato de que a maior parte do trabalho realizado com PLN hoje em dia está relacionado ao uso de técnicas de Aprendizado de Máquina para criação de modelos de linguagem. Para sistemas que permitem correção automática e previsão de palavras e sentenças, por exemplo, modelos linguísticos são gerados a partir de um corpus de texto a partir de transcrições usando N-Gram. Infelizmente, corpora linguísticos em português do Brasil não são abundantes e sua confecção não é uma tarefa trivial. Um caminho para a confecção de corpus linguísticos em Português é a confecção de CrawlersWeb. Focused Crawlers, em particular, têm o propósito de coletar páginas da Web que sejam relevantes a um tópico ou interesse específico do usuário. FocusedCrawlers existentes ainda não atendem completamente a necessidades específicas e toda potencialidade de um sistema de PLN. Esta dissertação de mestrado se propõe a contribuir com o Estado da Arte ao propor uma ferramenta para a confecção automática de corpora bem representativos ao objetivo do usuário que possam ser balanceados em respeito a fatores tais como tipo de coleta, domínio, língua, formalidade do discurso e rotulação do texto. A ferramenta permite ainda que etapas de pós-processamento sejam realizadas, como por exemplo limpeza do corpus, construção de um modelo de linguagem e de um modelo de entidades nomeadas. Dois corpora foram criados em duas formas de coleta distintas: por dados da Web (corpus Vaza- Barris) ou por dados do Twitter (corpus Poxim). O corpus VazaBarris possui 86 milhões de palavras e o Poxim possui 3 milhões de palavras. Estes corpora foram avaliados por meio da criação de modelo de linguagem e comparação com dois outros corpora em Português. Os resultados mostram que Poxim alcançou o melhor valor de perplexidade. Poxim também traz maior contribuição quando interpolado com algum outro corpus. Além dos corpora, foi criado um método de coleta automática para streaming de dados, utilizando o algoritmo de Relevance Feedback. Segundo os resultados, utilizar Relevance Feedback para a coleta dos dados melhorou o valor de perplexidade com o corpus coletado inicialmente. Um terceiro corpus foi criado para rotulação de Entidades Nomeadas, o Paramopama. O Paramopama é uma versão estendida PtBR do corpus WikiNer, com inclusão das entidades Pessoa, Localização, Organização e Tempo. Os resultados mostram que o Paramopama apresentou melhoria para as métricas de Precisão, Cobertura e Medida-F na comparação com outros três corpora do Estado da Arte.
13

Nova classe média: um estudo empírico sobre os enquadramentos da mídia

Soares, Ana Angélica Rodrigues de Andrade 03 1900 (has links)
Submitted by Ana Angélica Rodrigues de Andrade Soares (anaangelica11@gmail.com) on 2015-04-28T17:38:46Z No. of bitstreams: 1 tese_MP_ana_angelica_BMHS.pdf: 3884236 bytes, checksum: 0775eca428617ac2ffe1bda17e4e9c47 (MD5) / Approved for entry into archive by Rafael Aguiar (rafael.aguiar@fgv.br) on 2015-05-04T19:02:15Z (GMT) No. of bitstreams: 1 tese_MP_ana_angelica_BMHS.pdf: 3884236 bytes, checksum: 0775eca428617ac2ffe1bda17e4e9c47 (MD5) / Approved for entry into archive by Marcia Bacha (marcia.bacha@fgv.br) on 2015-05-05T19:55:47Z (GMT) No. of bitstreams: 1 tese_MP_ana_angelica_BMHS.pdf: 3884236 bytes, checksum: 0775eca428617ac2ffe1bda17e4e9c47 (MD5) / Made available in DSpace on 2015-05-05T19:55:59Z (GMT). No. of bitstreams: 1 tese_MP_ana_angelica_BMHS.pdf: 3884236 bytes, checksum: 0775eca428617ac2ffe1bda17e4e9c47 (MD5) Previous issue date: 2015-03 / Em agosto de 2012, o economista-chefe do Centro de Políticas Sociais da Fundação Getulio Vargas (FGV), Marcelo Neri, foi nomeado presidente do Instituto de Pesquisa Econômica Aplicada (Ipea). Em março do mesmo ano, ainda pela FGV, Neri lançara o livro A Nova Classe Média: o lado brilhante da base da pirâmide, que retoma a série de estudos sobre a nova classe média que vinha realizando pela Fundação desde 2008. O presente trabalho analisa mudanças no enquadramento das notícias do jornal O Globo relativas à nova classe média nos períodos em que Marcelo Neri atuou na FGV e, posteriormente, no governo federal, por meio de uma Análise de Enquadramento Textualmente Orientada – método crítico de análise dos enquadramentos da mídia cujo intuito é auxiliar na percepção e mensuração de mudanças nos vieses noticiosos em função de variáveis políticas. Tal metodologia alia a análise linguística de grandes volumes de texto à teoria social do discurso, e foi desenvolvida em parceria com a Escola de Matemática Aplicada (EMAp/FGV), tendo como base ferramentas computacionais de Linguística de Corpus e Processamento de Linguagem Natural (PLN).
14

A criação de um sistema híbrido de tradução automática para a conversão de expressões nominais da língua inglesa / The creation of a hybrid machine translation for the conversion of nominal expressions from English

Cunha, Tiago Martins da January 2013 (has links)
CUNHA, Tiago Martins da. A criação de um sistema híbrido de tradução automática para a conversão de expressões nominais da língua inglesa. 2013. 165f. – Tese (Doutorado) – Universidade Federal do Ceará, Departamento de Letras Vernáculas, Programa de Pós-graduação em Linguística, Fortaleza (CE), 2013. / Submitted by Márcia Araújo (marcia_m_bezerra@yahoo.com.br) on 2014-06-06T11:34:07Z No. of bitstreams: 1 2013_tese_tmcunha.pdf: 2297384 bytes, checksum: 3e9b3947bf85b0ed8cd10a76a12f1fa0 (MD5) / Approved for entry into archive by Márcia Araújo(marcia_m_bezerra@yahoo.com.br) on 2014-06-06T12:33:22Z (GMT) No. of bitstreams: 1 2013_tese_tmcunha.pdf: 2297384 bytes, checksum: 3e9b3947bf85b0ed8cd10a76a12f1fa0 (MD5) / Made available in DSpace on 2014-06-06T12:33:22Z (GMT). No. of bitstreams: 1 2013_tese_tmcunha.pdf: 2297384 bytes, checksum: 3e9b3947bf85b0ed8cd10a76a12f1fa0 (MD5) Previous issue date: 2013 / Machine translation (MT) had much of its credibility questioned by professional translators for many years. However, the use of MT systems has become a necessity in order to organize and accelerate the translation process. Most users, professionals or not, have no knowledge about the design of the tools that integrate the system they use. The design of a MT system consists of a pipeline of tools that form the system’s engine. Thus, we propose the description and the creation of a translation tool that would able to handle nominal expressions from English to Portuguese. The nominal expressions in English may be composed of elements as genitive and gerunds, which lack Portuguese correspondents. Thus, these elements cause difficulties for MT systems. Our goal is to create a MT system that is able to deal satisfactorily with this problem. The system developed and described in this thesis was trained with nominal expressions from the Europarl corpus and tested with nominal expressions handled in the literature of noun phrases syntax. Our system showed what we consider satisfactory results according to the scores in the manual and automatic evaluation when we compare the results from other MT systems freely available for use. / A tradução automática (TA) teve grande parte de sua credibilidade questionada por tradutores profissionais por muitos anos. No entanto, o uso de sistemas de TA tornou-se uma necessidade, a fim de organizar e acelerar o processo de tradução. A maioria dos usuários, profissionais ou não, não tem conhecimento sobre o design das ferramentas que integram o sistema que eles usam. A concepção de um sistema de TA consiste de uma cadeia de ferramentas que formam o motor de um sistema de TA. Assim, propõe-se a descrição e a criação de uma ferramenta de tradução que seja capaz de lidar com expressões nominais da língua Inglesa para portuguesa. As expressões nominais em Inglês podem ser compostas de elementos como genitivo e gerúndios, que não apresentam correspondentes para o português. Assim, estes elementos causam dificuldades para os sistemas de TA . O nosso objetivo é o de criar um sistema de TA que seja capaz de lidar com este problema de maneira satisfatória. O sistema desenvolvido e descrito nesta tese foi treinado com expressões nominais do corpus Europarl e testado com expressões nominais tratadas na literatura sobre a sintaxe dos sintagmas nominais. Nosso sistema apresentou resultados que consideramos satisfatórios de acordo com escores obtidos nas avaliações manual e automática ao compararmos com os resultados obtidos por outros sistemas de TA disponíveis gratuitamente para utilização.
15

Compilação, anotação e análise linguístico-computacional de um corpus de textos literários dos séculos XIX e XX: corpus Coelho Neto / Compilation, annotation and linguistic and computational analysis of corpus Coelho Netto (CCN), a corpus of literary texts of 19th and 20th centuries

Martins, Francimary Macedo January 2014 (has links)
MARTINS, Francimary Macedo. Compilação, anotação e análise linguístico-computacional de um corpus de textos literários dos séculos XIX e XX: corpus Coelho Neto. 2014. 210f. – Tese (Doutorado) – Universidade Federal do Ceará, Departamento de Letras Vernáculas, Programa de Pós-graduação em Linguística, Fortaleza (CE), 2014. / Submitted by Márcia Araújo (marcia_m_bezerra@yahoo.com.br) on 2015-06-03T16:50:56Z No. of bitstreams: 1 2014_tese_fmmartins.pdf: 3122639 bytes, checksum: f251253305ab71e79ecfe59b00663f82 (MD5) / Approved for entry into archive by Márcia Araújo(marcia_m_bezerra@yahoo.com.br) on 2015-06-05T11:08:56Z (GMT) No. of bitstreams: 1 2014_tese_fmmartins.pdf: 3122639 bytes, checksum: f251253305ab71e79ecfe59b00663f82 (MD5) / Made available in DSpace on 2015-06-05T11:08:56Z (GMT). No. of bitstreams: 1 2014_tese_fmmartins.pdf: 3122639 bytes, checksum: f251253305ab71e79ecfe59b00663f82 (MD5) Previous issue date: 2014 / This thesis is the compilation, morphosyntactic annotation and linguistic and computational analysis of a corpus of literary texts of 19th and 20th centuries: Corpus Coelho Netto (CCN), containing texts of the novels A Conquista and Turbilhão and short stories of the book Sertão. The work is in the Corpus Linguistics and Computational Linguistics interface (BERBER SARDINHA, 2000, 2003, 2004, 2005, 2009; BERBER SARDINHA; ALMEIDA, 2008; OLIVEIRA, 2009; BIDERMAN, 1998, 2001; ALUÍSIO; ALMEIDA, 2006; SHEPHERD, 2012; MACENERY AND WILSON, 2001; LEECH, 2004; ALVES; TAGNIN, 2012; ALENCAR, 2009, 2010a, 2010b, 2011a, 2011b, 2013a, 2013b). The CCN contains 53.080 (fifty-three thousand and eighty) tokens. The compilation consists of the steps selection, collection off texts and handling; in which cleaning, editing and updating of texts (ALUÍSIO; ALMEIDA, 2006), and then be submitted to the morphosyntactic annotation and linguistic-computational analysis, with the goal of obtaining data to show whether or not the "excessive" use of adjectives, verbs and adverbs in “–mente”, demonstrating the lexical diversity in Coelho Netto´s texts, noting if what the modernist critics said about the writer was correct. The annotation was performed by automatic tagger Aelius, AeliusHunPos model, free software in Python that uses the Natural Language Toolkit – NLTK library (BIRD; KLEIN; LOPER, 2009), in the pre-processing of texts, in the construction of morphosyntactic tagger and the automatic annotation of corpora with the help of human review (ALENCAR, 2010a, 2013a, 2013b), and it was trained in the Historical Corpus of Tycho Brahe Portuguese (CHPTB). The compilation and annotation CCN involves other actions such as revaluation the accuracy of this tagger in literary texts. The search results indicated that: AeliusHunpos demonstrated better performance than other texts already noted (97.9 %); AeliusHunPos model showed a far beyond performance by annotating corpora with AeliusMaxEnt model; and that, after selection and manual correction of 10% annotated corpora and generated gold standard files, it is suggested an improvement of the approximate 3% of errors by the tagger, in order to increase its accuracy. Regarding the analyzes performed with the CCN, it was found that: lexical diversity - about verbs, adjectives and adverbs in “–mente” considered exaggerated by critics to Coelho Netto unfounded, because his texts are rich, but when compared to the texts by Aluísio Azevedo and Camilo Castelo Branco, comparison of corpus, present vocabulary richness similar to CCN, as exposed in the results. / Esta tese é a compilação, anotação morfossintática e análise linguístico-computacional de um corpus de textos literários dos séc. XIX e XX: o Corpus Coelho Netto (CCN), contendo textos dos romances A Conquista e Turbilhão e contos do livro Sertão. O trabalho está na interface da Linguística de Corpus e da Linguística Computacional (BERBER SARDINHA, 2000, 2003, 2004, 2005, 2009; BERBER SARDINHA; ALMEIDA, 2008; OLIVEIRA, 2009; BIDERMAN, 1998, 2001; ALUÍSIO; ALMEIDA, 2006; SHEPHERD, 2012; MACENERY E WILSON, 2001; LEECH, 2004; ALVES; TAGNIN, 2012; ALENCAR, 2009, 2010a, 2010b, 2011a, 2011b, 2013a, 2013b). O CCN contém 53.080 (cinquenta e três mil e oitenta) tokens (pontuação e palavras). A compilação consiste nas etapas de seleção, coleta de textos e manipulação; nesta são realizadas a limpeza, edição e atualização dos textos (ALUÍSIO; ALMEIDA, 2006), para depois ser submetido à anotação morfossintática e análise linguístico-computacional, com o objetivo de obter dados que comprovem ou não o uso “excessivo” de adjetivos, de verbos e de advérbios em –mente, demonstrando a diversidade lexical nos textos de Coelho Netto, constatando se o que a crítica modernista dizia a respeito do escritor era procedente. A anotação morfossintática foi realizada pelo etiquetador automático Aelius, modelo AeliusHunPos, um software livre em Python que utiliza a biblioteca Natural Language Toolkit – NLTK (BIRD; KLEIN; LOPER, 2009), no pré-processamento de textos, na construção de etiquetador morfossintático e na anotação de corpora com auxílio de revisão humana (ALENCAR, 2010a, 2013a, 2013b), e que foi treinado no Corpus Histórico do Português Tycho Brahe (CHPTB). A compilação e anotação do CCN envolve outras ações como a reavaliação da acurácia desse etiquetador em textos literários. Os resultados da pesquisa revelaram que: o AeliusHunpos ao anotar os textos do CCN demonstrou maior acurácia que em outros textos já anotados, de 97,9%; que o modelo AeliusHunPos mostrou um desempenho muito além ao anotar os corpora que com o modelo AeliusMaxEnt; e que, após a seleção e correção manual dos 10% dos corpora anotados e gerados arquivos padrão gold, sugerimos um melhoramento dos aproximados 3% de erros cometidos pelo etiquetador, visando o aumento de sua acurácia. Quanto às analises realizadas com os dados obtidos no CCN constatamos que: a diversidade lexical, especificamente quanto a verbos, adjetivos e advérbios em –mente, declarada como exagerada pela crítica à Coelho Netto não procede, pois seus textos são ricos, mas quando comparados aos textos de Aluísio Azevedo e Camilo Castelo Branco, o Corpus de Comparação, apresentam riqueza vocabular similar ao CCN, como expostos nos resultados.
16

Deverbais de ação em corpus histórico: contribuição computacional para a morfologia construcional do português

Cucatto, Livia Aluisi 17 December 2009 (has links)
Made available in DSpace on 2016-06-02T20:25:09Z (GMT). No. of bitstreams: 1 3547.pdf: 2139633 bytes, checksum: f475e62efc91a89ea44917a0eb9b20f1 (MD5) Previous issue date: 2009-12-17 / In the past few years, several studies based on constructional morphology to describe the mechanisms of construction of deverbal nouns, that is, nouns derived from verbs, using a synchronic perspective were carried out. The interest in this topic comes from the productivity of the construction mechanism of this type of noun. The impact in the Portuguese language, especially on its formal use, is not irrelevant. There aren't studies showing the variations of these mechanisms in Brazilian Portuguese (PB), much less, a diachronic perspective of him. We believe the current mechanisms be very similar with from XVI, XVII e VXIII. The suffix productivity and formation process can been suffering some kind of changing to specific words. The project Historical Dictionary of Brazilian Portuguese (DHPB) of centuries from XVI through XVIII, sponsored by the Programa Institutos do Milênio, and the construction of a corpus collected for this project, are, at the same time, a challenge and an opportunity to deepen the knowledge about this aspect of the Portuguese language. The analysis of this corpus gives us an opportunity to observe how these mechanisms evolved on the Portuguese language. However, there aren't yet tools that automate this type of research, enabling the morphologists to acquire this kind of data efficiently. The objective of this research was, first of all, to describe the different mechanisms of deverbal nouns construction in PB according to the SILEX morphological construction model (cf. Corbin 1987, 1991, 1997, Correia 1999, Rio-Torto (org.) 2004 and Rodrigues 2006). A second objective was the development of a computational system, named EXTRADEV, which allows easy access to the following data: (a) deverbal nouns (current and historic) with various morphological structures; and (b) graphical variants of nominal action (historic), to allow easier information retrieval. The methodology used on the construction of this system is grounded on: (i) description of deverbal nouns and computational rule‟s building about these; (ii) a pilot study of the fifty most frequent verbs of the DHPB project, extracted using UNITEX, and on the analysis of the graphical variations of these verbs; (iii) the knowledge of the Python programming language and regular expressions; and (iv) the use of the resources constructed for the DHPB project, such as a system of generation of graphical variants, SIACONF. We found 1,742,663 action deverbal instances and 15,633 distinct forms of the same without change of spelling. This number more variants extracted in the second module EXTRADEV, totalling 22,442 occurrences of deverbal history (6,809 variants and 15,633 deverbal no change in spelling). We followed some criteria analysis: frequency data, analysis about deverbal form based on in etymoly and history dictionaries and the last criteria was based on the observation of the final list of historical deverbal. With this study, we aim to increase the knowledge of the diachronic variations of deverbal nouns and to motivate the joint linguistics and computer science contribution, particularly the one made by the natural language processing area, to empower future studies about the Portuguese language. / Nos últimos anos, têm-se desenvolvido trabalhos em morfologia construcional que visam à descrição dos mecanismos de construção de nomes deverbais, isto é, nomes derivados de verbos, numa perspectiva sincrônica. As razões para esse interesse podem encontrar-se na produtividade dos mecanismos de construção deste tipo de nomes, cujo impacto no uso do português, sobretudo em contextos formais de uso, não é irrelevante. Faltam, no entanto, estudos que nos permitam conhecer, por um lado, o Português do Brasil (PB) em nível destes mecanismos e, por outro, ter uma perspectiva diacrônica deles. Acreditamos que os mecanismos de construção atuais para o PB sejam iguais aos dos séculos XVI, XVII e XVIII, podendo existir alterações relacionadas aos sufixos mais produtivos e à mudança dos processos de construção mais produtivos para determinadas palavras. A realização do projeto Dicionário Histórico do Português do Brasil (DHPB) dos séculos XVI a XVIII, financiado pelo Programa Institutos do Milênio, associada à construção do corpus coligido para esse efeito constituem ao mesmo tempo um desafio e uma oportunidade para o aprofundamento do conhecimento sobre este aspecto da língua portuguesa. Por um lado, a análise do corpus dános a oportunidade de verificar como se processou a evolução destes mecanismos de construção no português. Porém (e este é o desafio), não existem ainda ferramentas para realizar tais pesquisas de forma (semi-) automática, que permitam aos morfologistas obter os dados necessários para o seu trabalho com agilidade e eficiência. O objetivo desta pesquisa de mestrado foi, em primeiro lugar, descrever os diferentes mecanismos de construção de nomes deverbais em PB de acordo com o modelo de morfologia construcional SILEX (cf. Corbin 1987, 1991, 1997, Correia 1999, Rio-Torto (org.) 2004 e Rodrigues 2006) e, em segundo, desenvolver um sistema computacional denominado EXTRADEV que permitiu um acesso fácil aos seguintes dados: (a) nomes deverbais de ação históricos com as mais diversas estruturas morfológicas; e (b) variantes gráficas desses nomes deverbais (históricos), que facilitem o trabalho de recuperação de informação relativa aos mesmos. A metodologia utilizada para a construção deste sistema se embasa: (i) na descrição dos deverbais e na contrução de regras; (ii) em um estudo piloto dos cinquenta verbos mais frequentes do corpus do projeto DHPB, extraídos por meio da ferramenta UNITEX e na análise das variantes gráficas destes verbos; (iii) no conhecimento da linguagem de programação Python e expressões regulares; e (iv) no uso de recursos criados no projeto DHPB, como o sistema de geração de variantes gráficas SIACONF. Foram encontrados 1.742.663 ocorrências de deverbais de ação e 15.633 formas distintas dos mesmos sem variação de grafia. Este número, mais as variantes extraídas no segundo módulo do EXTRADEV, somam um total de 22.442 ocorrências de deverbais históricos, sendo eles 6.809 variantes e 15.633 deverbais sem variação de grafia. Seguimos os seguintes critérios de análise: frequência, análise da estrutura morfológica com auxílio de dicionários históricos e etimológicos, e observação da lista final de deverbais históricos. Com este trabalho pretendemos contribuir para um melhor conhecimento da variação diacrônica na construção de nomes deverbais através dos dados que foram encontrados, mas, sobretudo, motivar a aliança entre linguística e a ciência da computação, particularmente o processamento de língua natural, de modo a potencializar estudos futuros sobre a língua portuguesa.
17

Proposta de aplicação do modelo de classes de objeto para a construção de uma ontologia do domínio do futebol

Santos, Maria Cristina Andrade dos 26 February 2013 (has links)
Made available in DSpace on 2016-06-02T20:25:16Z (GMT). No. of bitstreams: 1 4972.pdf: 1522041 bytes, checksum: db019c70292770f46154a538a2544c74 (MD5) Previous issue date: 2013-02-26 / Universidade Federal de Minas Gerais / This work aimed at developing an ontology of the football domain based on the model of classes of objects proposed by Gaston Gross (1994). The construction of an ontology in general follows a methodology based on the semantic tradition through which conceptual classes are established according to the conceiver‟s judgment. The proposal of this study was to arrive at semantic classes through the application of syntactic criteria which may be reproduced by other researchers. In order to do that, we use the theory proposed on Harris (1976), who considers the sentence as the minimal unit of meaning and a grammar of operators and arguments. The classes of objects are semantic classes selected from the argumental restrictions of each predicate. / Este trabalho tem como objetivo aplicar o modelo de classes de objeto de Gaston Gross (1994) à construção de ontologias de domínio, no caso uma ontologia do domínio do futebol. As classes de objetos são classes semânticas selecionadas a partir das restrições argumentais de cada predicado. A construção de ontologias, de modo geral, segue uma metodologia baseada na tradição semântica, pela qual são estabelecidas classes conceituais a partir do julgamento do criador. A proposta deste estudo foi chegar às classes semânticas por meio da aplicação de critérios sintáticos que possam ser reproduzidos por outros pesquisadores. Para isso, utilizamos uma gramática de operadores e argumentos, tendo, como unidade mínima de significação, a frase. Assim, cada item lexical deve ser analisado em função do ambiente sintático em que se encontra, pois as relações de co-ocorrência das palavras determinam seu significado.
18

MorphoMap: mapeamento automático de narrativas clínicas para uma terminologia médica

Pacheco, Edson José 2010 October 1914 (has links)
A documentação clínica requer a representação de situações complexas como pareceres clínicos, imagens e resultados de exames, planos de tratamento, dentre outras. Entre os profissionais da área de saúde, a linguagem natural é o meio principal de documentação. Neste tipo de linguagem, caracterizada por uma elevada flexibilidade sintática e léxica, é comum a prevalência de ambigüidades em sentenças e termos. O objetivo do presente trabalho consiste em mapear informações codificadas em narrativas clínicas para uma ontologia de domínio (SNOMED CT). Para sua consecução, aplicaram-se ferramentas processamento de linguagem natural (PLN), assim como adotaram-se heurísticas para o mapeamento de textos para ontologias. Para o desenvolvimento da pesquisa, uma amostra de sumários de alta foi obtida junto ao Hospital das Clínicas de Porto Alegre, RS, Brasil. Parte dos sumários foi manualmente anotada, com a aplicação da estratégia de Active Learning, visando a preparação de um corpus para o treinamento de ferramentas de PLN. Paralelamente, foram desenvolvidos algoritmos para o pré-processamento dos textos ‘sujos’ (com grande quantidade de erros, acrônimos, abreviações, etc). Com a identificação das frases nominais, resultado do processamento das ferramentas de PLN, diversas heurísticas (identificação de acrônimos, correção ortográfica, supressão de valores numéricos e distância conceitual) para o mapeamento para a SNOMED CT foram aplicadas. A versão atual da SNOMED CT não está disponível em português, demandando o uso de ferramentas para processamento multi-lingual. Para tanto, o pesquisa atual é parte da iniciativa do projeto MorphoSaurus, por meio do qual desenvolve-se e disponibiliza-se um thesaurus multi-língue (português, alemão, inglês, espanhol, sueco, francês), bem como componentes de software que permitem o processamento inter-lingual. Para realização da pesquisa, 80% da base de sumários foi analisada e manualmente anotada, resultando em um corpus de domínio (textos médicos e em português) que permitiu a especialização do software OpenNLP (baseado no modelo estatístico para o PLN e selecionado após a avaliação de outras soluções disponíveis). A precisão do etiquetador atingiu 93.67%. O thesaurus multi-língue do MorphoSaurus foi estendido, reestruturado e avaliado (automaticamente com a comparação por meio de textos comparáveis – ‘traduções de um mesmo texto para diferentes idiomas’) e sofreu intervenções objetivando a correção de imperfeições existentes, resultando na melhoria da cobertura lingüística, no caso do português, em 2%; e 50% para o caso do espanhol, medidas obtidas por meio do levantamento das curvas de precisão e revocação para a base do OHSUMED. Por fim, a codificação de informações de narrativas clínicas para uma ontologia de domínio é uma área de elevado interesse científico e clínico, visto que grande parte dos dados produzidos quando do atendimento médico é armazenado em texto livre e não em campos estruturados. Para o alcance deste fim, adotou-se a SNOMED CT. A viabilidade da metodologia de mapeamento foi demonstrada com a avaliação dos resultados do mapeamento automático contra um padrão ouro, manualmente desenvolvido, indicando precisão de 83,9%. / Clinical documentation requires the representation of fine-grained descriptions of patients' history, evolution, and treatment. These descriptions are materialized in findings reports, medical orders, as well as in evolution and discharge summaries. In most clinical environments natural language is the main carrier of documentation. Written clinical jargon is commonly characterized by idiosyncratic terminology, a high frequency of highly context-dependent ambiguous expressions (especially acronyms and abbreviations). Violations of spelling and grammar rules are common. The purpose of this work is to map free text from clinical narratives to a domain ontology (SNOMED CT). To this end, natural language processing (NLP) tools will be combined with a heuristic of semantic mapping. The study uses discharge summaries from the Hospital das Clínicas de Porto Alegre, RS, Brazil. Parts of these texts are used for creating a training corpus, using manual annotation supported by active learning technology, used for the training of NLP tools that are used for the identification of parts of speech, the cleansing of "dirty" text passages. Thus it was possible to obtain relatively well-formed and unambiguous noun phrases, heuristics was implemented to semantic mapping between these noun phrases (in Portuguese) and the terms describing the SNOMED CT concepts (English and Spanish) uses the technology of morphosemantic indexing, using a multilingual subword thesaurus, provided by the MorphoSaurus system, the resolution of acronyms, and the identification of named entities (e.g. numbers). In this study, 80 per cent of the summaries are analyzed and manually annotated, resulting in a domain corpus that supports the specialization of the OpenNLP system, mainly following the paradigm of statistical natural language processing (the accuracy of the tagger obtained was 93.67%). Simultaneously, several techniques have been used for validating and improving the subword thesaurus. To this end, the semantic representations of comparable test corpora from the medical domain in English, Spanish, and Portuguese were compared with regard to the relative frequency of semantic identifiers, improving the corpus coverage (2% to Portuguese, and 50% to Spanish). The result was used as an input by a team of lexicon curators, which continuously fix errors and fill gaps in the trilingual thesaurus underlying the MorphoSaurus system. The progress of this work could be objectified using OHSUMED, a standard medical information retrieval benchmark. The mapping of text-encoded clinical information to a domain ontology constitutes an area of high scientific and practical interest due to the need for the analysis of structured data, whereas the clinical information is routinely recorded in a largely unstructured way. In this work the ontology used was SNOMED CT. The evaluation of mapping methodology indicates accuracy of 83.9%.
19

MorphoMap: mapeamento automático de narrativas clínicas para uma terminologia médica

Pacheco, Edson José 2010 October 1914 (has links)
A documentação clínica requer a representação de situações complexas como pareceres clínicos, imagens e resultados de exames, planos de tratamento, dentre outras. Entre os profissionais da área de saúde, a linguagem natural é o meio principal de documentação. Neste tipo de linguagem, caracterizada por uma elevada flexibilidade sintática e léxica, é comum a prevalência de ambigüidades em sentenças e termos. O objetivo do presente trabalho consiste em mapear informações codificadas em narrativas clínicas para uma ontologia de domínio (SNOMED CT). Para sua consecução, aplicaram-se ferramentas processamento de linguagem natural (PLN), assim como adotaram-se heurísticas para o mapeamento de textos para ontologias. Para o desenvolvimento da pesquisa, uma amostra de sumários de alta foi obtida junto ao Hospital das Clínicas de Porto Alegre, RS, Brasil. Parte dos sumários foi manualmente anotada, com a aplicação da estratégia de Active Learning, visando a preparação de um corpus para o treinamento de ferramentas de PLN. Paralelamente, foram desenvolvidos algoritmos para o pré-processamento dos textos ‘sujos’ (com grande quantidade de erros, acrônimos, abreviações, etc). Com a identificação das frases nominais, resultado do processamento das ferramentas de PLN, diversas heurísticas (identificação de acrônimos, correção ortográfica, supressão de valores numéricos e distância conceitual) para o mapeamento para a SNOMED CT foram aplicadas. A versão atual da SNOMED CT não está disponível em português, demandando o uso de ferramentas para processamento multi-lingual. Para tanto, o pesquisa atual é parte da iniciativa do projeto MorphoSaurus, por meio do qual desenvolve-se e disponibiliza-se um thesaurus multi-língue (português, alemão, inglês, espanhol, sueco, francês), bem como componentes de software que permitem o processamento inter-lingual. Para realização da pesquisa, 80% da base de sumários foi analisada e manualmente anotada, resultando em um corpus de domínio (textos médicos e em português) que permitiu a especialização do software OpenNLP (baseado no modelo estatístico para o PLN e selecionado após a avaliação de outras soluções disponíveis). A precisão do etiquetador atingiu 93.67%. O thesaurus multi-língue do MorphoSaurus foi estendido, reestruturado e avaliado (automaticamente com a comparação por meio de textos comparáveis – ‘traduções de um mesmo texto para diferentes idiomas’) e sofreu intervenções objetivando a correção de imperfeições existentes, resultando na melhoria da cobertura lingüística, no caso do português, em 2%; e 50% para o caso do espanhol, medidas obtidas por meio do levantamento das curvas de precisão e revocação para a base do OHSUMED. Por fim, a codificação de informações de narrativas clínicas para uma ontologia de domínio é uma área de elevado interesse científico e clínico, visto que grande parte dos dados produzidos quando do atendimento médico é armazenado em texto livre e não em campos estruturados. Para o alcance deste fim, adotou-se a SNOMED CT. A viabilidade da metodologia de mapeamento foi demonstrada com a avaliação dos resultados do mapeamento automático contra um padrão ouro, manualmente desenvolvido, indicando precisão de 83,9%. / Clinical documentation requires the representation of fine-grained descriptions of patients' history, evolution, and treatment. These descriptions are materialized in findings reports, medical orders, as well as in evolution and discharge summaries. In most clinical environments natural language is the main carrier of documentation. Written clinical jargon is commonly characterized by idiosyncratic terminology, a high frequency of highly context-dependent ambiguous expressions (especially acronyms and abbreviations). Violations of spelling and grammar rules are common. The purpose of this work is to map free text from clinical narratives to a domain ontology (SNOMED CT). To this end, natural language processing (NLP) tools will be combined with a heuristic of semantic mapping. The study uses discharge summaries from the Hospital das Clínicas de Porto Alegre, RS, Brazil. Parts of these texts are used for creating a training corpus, using manual annotation supported by active learning technology, used for the training of NLP tools that are used for the identification of parts of speech, the cleansing of "dirty" text passages. Thus it was possible to obtain relatively well-formed and unambiguous noun phrases, heuristics was implemented to semantic mapping between these noun phrases (in Portuguese) and the terms describing the SNOMED CT concepts (English and Spanish) uses the technology of morphosemantic indexing, using a multilingual subword thesaurus, provided by the MorphoSaurus system, the resolution of acronyms, and the identification of named entities (e.g. numbers). In this study, 80 per cent of the summaries are analyzed and manually annotated, resulting in a domain corpus that supports the specialization of the OpenNLP system, mainly following the paradigm of statistical natural language processing (the accuracy of the tagger obtained was 93.67%). Simultaneously, several techniques have been used for validating and improving the subword thesaurus. To this end, the semantic representations of comparable test corpora from the medical domain in English, Spanish, and Portuguese were compared with regard to the relative frequency of semantic identifiers, improving the corpus coverage (2% to Portuguese, and 50% to Spanish). The result was used as an input by a team of lexicon curators, which continuously fix errors and fill gaps in the trilingual thesaurus underlying the MorphoSaurus system. The progress of this work could be objectified using OHSUMED, a standard medical information retrieval benchmark. The mapping of text-encoded clinical information to a domain ontology constitutes an area of high scientific and practical interest due to the need for the analysis of structured data, whereas the clinical information is routinely recorded in a largely unstructured way. In this work the ontology used was SNOMED CT. The evaluation of mapping methodology indicates accuracy of 83.9%.
20

Movimento do verbo e categorias vazias em I e V em um fragmento de gramática computacional do português / Moviment of verb and slash categories in I or V in a fragment of computacional grammar of portuguese

Santos, Andrea Feitosa dos January 2009 (has links)
SANTOS, Andrea Feitosa. Movimento do verbo e categorias vazias em I e V em um fragmento de gramática computacional do português. 2009.96f.Dissertação (Mestrado em Linguistica) – Universidade Federal do Ceará, Departamento de Letras Vernaculas, Programa de Pós-Graduação em Linguística, Fortaleza-CE, 2009. / Submitted by nazareno mesquita (nazagon36@yahoo.com.br) on 2012-06-21T16:00:03Z No. of bitstreams: 1 2009_diss_AFSantos.pdf: 616159 bytes, checksum: 59bd79e8c618b1d231d8b7b98b8f767e (MD5) / Approved for entry into archive by Maria Josineide Góis(josineide@ufc.br) on 2012-06-22T16:39:36Z (GMT) No. of bitstreams: 1 2009_diss_AFSantos.pdf: 616159 bytes, checksum: 59bd79e8c618b1d231d8b7b98b8f767e (MD5) / Made available in DSpace on 2012-06-22T16:39:36Z (GMT). No. of bitstreams: 1 2009_diss_AFSantos.pdf: 616159 bytes, checksum: 59bd79e8c618b1d231d8b7b98b8f767e (MD5) Previous issue date: 2009 / This work has a theoretical and methodological framework that is divided into two complementary areas: the Language and Computational/Implementacional. For its computational stamp, the first scope of this work is directly linked to the processing of natural language (PNL). Thus, it implements an automatic syntactic analysis (parsing) of expressions of Portuguese in a computational program from the Python library of NLTK, whose tests are represented in tree configurations that show slash categories of finite sentences of Portuguese. Although the stamp computing, this research elaborates a grammar fragment, modeled to capture specific features of linguistic structure of Portuguese, based on the formal model of description linguistic known as Context Free Grammar (CFG) Based on Features, with the purpose of demonstrate how the library of NLTK programs supports the implementation of parsers for analyzing the feature structure. For its stamp of language, it analyzes, according to X-bar Theory and the Minimalist Program, sentences in European and Brazilian variants of Portuguese, obtained from surveys in electronic corpora available on the web. And this work describes and discusses the category IP (inflectional phrase) within the hierarchical structure of constituents, according to the hypothesis of syntactic operation of visible and invisible movement of elements of language, specifically the movement of the verb / Esse trabalho possui um recorte teórico-metodológico que se decompõe em dois domínios complementares: o Linguístico e o Computacional/Implementacional. Pelo seu cunho computacional, o escopo primeiro desse trabalho está diretamente ligado ao processamento de língua natural (PLN). Desse modo, implementa-se uma análise sintática automática (parsing) de expressões de língua portuguesa em programas da biblioteca em Python do NLTK, cujas análises são representadas em forma de configurações arbóreas que demonstram categorias vazias de sentenças finitas do português. Ainda pelo cunho computacional, esse trabalho elabora um fragmento de gramática, modelado para capturar traços específicos da estrutura linguística do português, com base no modelo formal de descrição linguística conhecido como Gramática Livre de Contexto (CFG) Baseada em Traços, com a finalidade de demonstrar como a biblioteca de programas do NLTK dá suporte à realização dos analisadores sintáticos na análise da estrutura de traços. Pelo seu cunho lingüístico, analisa-se, de acordo com a Teoria X-barra e o Programa Minimalista, frases nas variantes europeia e brasileira da língua portuguesa, obtidas de pesquisas em corpora eletrônicos disponíveis na web. E ainda nesse trabalho, descreve-se e discute-se a categoria IP (sintagma flexional) dentro da sua estrutura hierárquica de constituintes, de acordo com a hipótese da operação sintática de movimento visível e não visível dos elementos linguísticos, especificamente o movimento do verbo

Page generated in 0.5836 seconds