Global ETD Search

1	Um modelo h?brido para o WSD em biomedicina Goulart, Rodrigo Rafael Vilarreal 26 March 2013 (has links) Made available in DSpace on 2015-04-14T14:50:02Z (GMT). No. of bitstreams: 1 448850.pdf: 2763654 bytes, checksum: 430bc12ce50b74821fe6a8aa37994260 (MD5) Previous issue date: 2013-03-26 / This work studies Word Sense Disambiguation (WSD) in the Biomedicine domain for English language, using external knowledge sources. Among the existing proposals for the selection of a sense for an ambiguous word, there is the graph-based approach. This approach uses a metric in the evaluation of graphs containing candidates to the correct sense for the ambiguous word. In this research, a set of metrics is analyzed individually, and, based on this evaluation, we propose a hybrid model for the selection of the metrics in order to determine the most adequate metric to be employed. The model makes use of a set of features and heuristics that determine a semi-supervised solution for WSD. The results obtained with experiments show an improvement in performance and reveal new perspectives of research. The proposed model raises the hit rate to 68,48%, increasing significantly in 3,52% the rate reported in literature / Este trabalho estuda o Word Sense Disambiguation no dom?nio da Biomedicina, para a l?ngua inglesa, com uso de fontes externas de conhecimento. Dentre as propostas existentes para a sele??o de um sentido para uma palavra amb?gua, est? a abordagem baseadas em grafos. Essa abordagem emprega uma m?trica na avalia??o de grafos que cont?m candidatos ao sentido correto da palavra amb?gua. Nesta pesquisa um conjunto de m?tricas ? analisado individualmente e, com base nas avalia??es, prop?e-se um modelo h?brido de sele??o de m?tricas com o objetivo de determinar a m?trica mais adequada a ser empregada. O modelo faz uso de um conjunto de features e heur?sticas que determinam uma solu??o semi-supervisionada para o WSD. Os resultados obtidos com experimentos apontam melhoria na performance e revelam novas perspectivas de pesquisa. O modelo proposto eleva a taxa de acerto a 68,48%, aumentando significativamente em 3,52% a taxa reportada na literatura INFORM?TICA SEM?NTICA LINGU?STICA COMPUTACIONAL ALGORITMOS - GRAFOS BIOMEDICINA
2	Feature-level sentiment analysis applied to brazilian portuguese reviews Freitas, Larissa Astrogildo de 23 March 2015 (has links) Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2015-05-19T12:00:48Z No. of bitstreams: 1 468945 - Txto Completo.pdf: 990591 bytes, checksum: 7d04b4b3b2f91050851802c6d65349f1 (MD5) / Made available in DSpace on 2015-05-19T12:00:48Z (GMT). No. of bitstreams: 1 468945 - Txto Completo.pdf: 990591 bytes, checksum: 7d04b4b3b2f91050851802c6d65349f1 (MD5) Previous issue date: 2015-03-23 / Funda??o de Amparo ? Pesquisa do Estado do Rio Grande do Sul - FAPERGS / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior - CAPES / Sentiment Analysis is the field of study that analyzes people?s opinions in texts. In the last decade, humans have come to share their opinions in social media on the Web (e.g., forum discussions and posts in social network sites). Opinions are important because whenever we need to take a decision, we want to know others? points of view. The interest of industry and academia in this field of study is partly due to its potential applications, such as: marketing, public relations and political campaign. Research in this field often considers English data, while data from other languages are less explored. It is possible realize data analysis in different levels, in this work we choose a finer-grain analysis, at aspect-level. Ontologies can represent aspects, that are ?part-of? an object or property of ?part-of? an object, we proposed a method for feature-level sentiment analysis using ontologies applied to Brazilian Portuguese reviews. In order to obtain a complete analysis, we recognized features explicit and implicit using ontologies. Relatively less work has been done about implicit feature identification. Finally, determine whether the sentiment in relation to the aspects is positive or negative using sentiment lexicons and linguistic rules. Our method is comprised of four steps: preprocessing, feature identification, polarity identification and summarizing. For evaluate this work, we apply our proposal method to a dataset of accommodation sector. According to our experiments, in general the best results were obtained when using TreeTagger, synsets with polarities from Onto.PT and linguistic rule (adjective position) for negative polarity identification and (baseline) for positive polarity identificatio / An?lise de sentimento ? o campo de estudo que analisa a opini?o de pessoas em textos. Na ?ltima d?cada, humanos t?m compartilhado suas opini?es em m?dias sociais na Web (por exemplo, f?runs de discuss?o e posts em sites de redes sociais). Opini?es s?o importantes porque sempre que necessitamos tomar uma decis?o, queremos saber o ponto de vista de outras pessoas. O interesse da ind?stria e da academia neste campo de estudo se deve a aplica??es potenciais, tais como: compra/venda, rela??es p?blicas e campanhas pol?ticas. Pesquisas neste campo muitas vezes consideram dados em ingl?s, enquanto dados em outros idiomas s?o pouco explorados. ? poss?vel realizar a an?lise dos dados em diferentes n?veis, neste trabalho optamos pela an?lise no n?vel de aspecto, na qual a granularidade ? mais fina. Como ontologias podem ser utilizadas para representar aspectos, que s?o ?parte-de? um objeto ou propriedade de ?parte-de? um objeto, propomos um m?todo para an?lise de sentimento aplicado a coment?rios em portugu?s brasileiro, sob o n?vel de aspecto usando ontologias. A fim de obter uma an?lise completa, reconhecemos aspectos expl?citos e impl?citos usando ontologias. Relativamente poucos trabalhos t?m sido feitos sobre identifica??o de aspectos impl?citos. Finalmente determinamos se o sentimento em rela??o aos aspectos ? positivo ou negativo usando l?xicos de sentimento e regras lingu?sticas. Nosso m?todo ? composto de quatro etapas: pr?-processamento, identifica??o de aspecto, identifica??o de polaridade e sumariza??o. Para avaliar este trabalho, aplicamos o m?todo proposto nos coment?rios do setor hoteleiro. De acordo com nosso experimento, o melhor resultado obtido foi quando utilizamos o TreeTagger, o synset com polaridade do Onto.PT e a regra lingu?stica (posi??o do adjetivo) na identifica??o da polaridade negativa e (baseline) na identifica??o da polaridade positiva INFORM?TICA ONTOLOGIA LINGU?STICA COMPUTACIONAL PROCESSAMENTO DA LINGUAGEM NATURAL
3	Constru??o de um corpus anotado para classifica??o de entidades nomeadas utilizando a Wikipedia e a DBpedia Weber, Cristofer 16 March 2015 (has links) Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2015-12-14T19:55:10Z No. of bitstreams: 1 476712 - Texto Completo.pdf: 1416751 bytes, checksum: 0b603e0667dd53303efd13181a62d31e (MD5) / Made available in DSpace on 2015-12-14T19:55:11Z (GMT). No. of bitstreams: 1 476712 - Texto Completo.pdf: 1416751 bytes, checksum: 0b603e0667dd53303efd13181a62d31e (MD5) Previous issue date: 2015-03-16 / Some natural language processing tasks can be learned from example corpora, but having enough examples for the task at hands can be a bottleneck. In this work we address how Wikipedia and DBpedia, two freely available language resources, can be used to support Named Entity Recognition, a fundamental task in Information Extraction and a necessary step of other tasks such as Co-reference Resolution and Relation Extraction. / Algumas tarefas de processamento de linguagem natural podem ser aprendidas por algoritmos a partir de corpus de exemplo, mas a obten??o destes exemplos pode ser um gargalo. Neste trabalho n?s investigamos como a Wikipedia e a DBpedia, dois recursos de linguagem dispon?veis de forma gratuita, podem ser utilizados como corpus para a classifica??o de entidades nomeadas, uma tarefa fundamental de extra??o de informa??es e um passo necess?rio para outras tarefas como extra??o de rela??es e resolu??o de co-refer?ncias. INFORM?TICA PROCESSAMENTO DA LINGUAGEM NATURAL LINGU?STICA COMPUTACIONAL
4	Resolu??o de correfer?ncia e categorias de entidades nomeadas Moraes, Tatiane Coreixas 10 March 2010 (has links) Made available in DSpace on 2015-04-14T14:49:27Z (GMT). No. of bitstreams: 1 427028.pdf: 957635 bytes, checksum: fbedf4df218091e4bc1e919c4ffd808b (MD5) Previous issue date: 2010-03-10 / Define-se correfer?ncia como a rela??o entre diversos componentes lingu?sticos com uma mesma entidade de mundo. A resolu??o autom?tica de correfer?ncia textual est? inserida num contexto muito importante na ?rea de Processamento da Linguagem Natural, pois v?rios sistemas necessitam dessa tarefa. O n?vel de processamento lingu?stico depende do conhecimento de mundo, e isso ainda ? um desafio para a ?rea. Esse desafio estimulou e tornou-se o objeto de estudo desta disserta??o. Nesse sentido, analisamos o papel das categorias de entidades nomeadas e, atrav?s de aprendizado de m?quina, verificamos as condi??es de resolu??o em diferentes categorias. Os resultados dos experimentos demonstraram que o conhecimento de mundo, representado nas categorias de entidades nomeadas, auxilia nessa tarefa, pois o percentual de retorno do sistema com base nas categorias teve uma melhora de 17% em compara??o com a vers?o sem as categorias. INFORM?TICA PROCESSAMENTO DA LINGUAGEM NATURAL LINGU?STICA COMPUTACIONAL APRENDIZAGEM DE M?QUINA
5	Extra??o de vocabul?rio multil?ngue a partir de documenta??o de software Hilgert, Lucas Welter 26 March 2013 (has links) Made available in DSpace on 2015-04-14T14:50:11Z (GMT). No. of bitstreams: 1 457560.pdf: 1023326 bytes, checksum: f34cdce0dc99790d1770e8e63219e649 (MD5) Previous issue date: 2013-03-26 / Real-time machine translation tools and services have been investigated as an alternative approach to the utilization of a common language (lingua franca) during distributed meetings involving teams with differet native languages. However, as presented by different research works, this kind of technologies presents a set of problems that difficults the communication. Among the solution proposed in the literature, the construction of domain specific vocabularies are highlited. This work propose a multilingual vocabulary extraction process for multilingual dicionary entries extraction from software user guides. The process here proposed follows a well stablished set of steps presenting as the main difference the way in wich the domain vocabulary is identified: through the utilization of terminology extraction softwares. A manual evaluation of the dictionaries generated by the process has shown a precision of 81% for simple world translation and 39% for multiword expressions. This values are consistent with the related work. / Ferramentas e servi?os de tradu??o de m?quina (autom?tica) em tempo real t?m sido investigadas como uma alternativa ? utiliza??o de idiomas comum (Lingua Franca) durante reuni?es de equipes com diferentes idiomas nativos. No entanto, como demonstrado por diferentes pesquisadores, este tipo de tecnologia ainda apresenta alguns tipos problemas que dificultam a sua utiliza??o neste contexto, dentre os quais destaca-se neste trabalho as tradu??es inconsistentes (diferentes tradu??es atribu?das a uma mesma palavra em um mesmo contexto). Dentre as solu??es apontadas na literatura para melhorar a qualidade das tradu??es, destaca-se a constru??o de vocabul?rios multil?ngues espec?ficos de dom?nios. Sendo assim, neste trabalho ? proposto um processo para a extra??o de vocabul?rio multil?ngue a partir de documentos de software. O processo proposto seguiu um conjunto de etapas consolidadas na literatura, tendo apresentado, como principal diferencial a forma pela qual o vocabul?rio de dom?nio ? identificado: mediante a utiliza??o de softwares extratores de terminologia. Uma avalia??o manual dos dicion?rios gerados pelo processo demonstrou uma precis?o de 81% na tradu??o de palavras simples e 39% na tradu??o de express?es multipalavras. Estes valores demonstraram-se condizentes com os trabalhos relacionados. INFORM?TICA LINGU?STICA COMPUTACIONAL TRADU??O AUTOM?TICA ENGENHARIA DE SOFTWARE
6	Resolu??o de correfer?ncias em l?ngua portuguesa : pessoa, local e organiza??o Fonseca, Evandro Brasil 21 March 2014 (has links) Made available in DSpace on 2015-04-14T14:50:12Z (GMT). No. of bitstreams: 1 458767.pdf: 3173862 bytes, checksum: 0f4ea1ec0b9741e176522697d0d4dd1d (MD5) Previous issue date: 2014-03-21 / Coreference resolution is a process that consists in identifying the several forms that a specific named entity may assume on certain text. In other words, this process consists in identifying certain terms and expressions that refer certain named entity. The automatic textual coreference resolution is in a very important context in the Natural Language Processing (NLP) area, because several systems need itstasks, such as the relation extraction between named entities. The linguistic processing level depends on the knowledgeabout the world, and this is a challenge for thisarea, mainly for the Portuguese language. The growing necessity of NLP tools and the lack of open source resources for Portuguese have inspired the research on this language, and they became the focus of this dissertation. The present work aims at building an open source tool for the Coreference resolution in Portuguese, focusing on the Person, Location and Organization domains. These three categories were chosen given their relevance for most NLP tasks, because they represent more specifically entities of common interest.Furthermore, they are the most explored categories in the related works. The choice for working only with open source resourcesis because most of related works forPortuguese usesprivate software, which limits his availability and his usability.The methodology is based on supervised machine learning. For this task, the use of features that help on the correct classification of noun phrase pairs as coreferent or non-coreferent are essential for grouping them later, thus building coreference chains.Although there are still many challenges to be overcome, the results of the system described in this dissertationare encouraging when compared indirectly, by using the same metric,to the current state of the art. / Resolu??o de correfer?ncias ? um processo que consiste em identificar as diversas formas que uma mesma entidade nomeada pode assumir em um determinado texto. Em outras palavras, esse processo consiste em identificar determinados termos e express?es que remetem a uma mesma entidade. A resolu??o autom?tica de correfer?ncia textual est? inserida num contexto muito importante na ?rea de Processamento da Linguagem Natural (PLN), pois v?rios sistemas necessitam dessa tarefa, como, por exemplo, a extra??o de rela??o entre entidades nomeadas. O n?vel de processamento lingu?stico depende do conhecimento de mundo, e isso ainda ? um desafio para a ?rea. A necessidade crescente por ferramentas de PLN e a escassez de recursos livres para a l?ngua portuguesa motivaram trabalhar com essa l?ngua nesta disserta??o de mestrado. O presente trabalho teve por objetivo desenvolver uma ferramenta open source para a resolu??o de correfer?ncias em l?ngua portuguesa, tendo como foco as categorias de entidades nomeadas Pessoa, Local e Organiza??o. Optou-se por essas tr?s categorias por essas serem as mais relevantes para a maioria das tarefas de PLN, pelo fato de tratarem entidades mais espec?ficas e de interesse comum. Al?m disso, s?o as categorias mais exploradas em trabalhos voltados ? resolu??o de correfer?ncia. Escolheu-se trabalhar apenas com recursos open source pelo fato de a maioria dos trabalhos para a l?ngua portuguesa utilizar recursos propriet?rios. Isso acaba limitando a disponibilidade da ferramenta e, consequentemente, o seu uso. A metodologia utilizada ? baseada em aprendizado de m?quina supervisionado. Para tal, o uso de features que auxiliem na correta classifica??o de pares de sintagmas como correferentes ou n?o-correferentes ? fundamental para,posteriormente,agrup?-los, gerando cadeias de correfer?ncia.Embora ainda existam muitos desafios a serem resolvidos, os resultados do sistema descrito nesta disserta??o s?o animadores, quando comparados indiretamente, por meio de uma mesma m?trica, ao atual estado da arte. INFORM?TICA PROCESSAMENTO DA LINGUAGEM NATURAL LINGU?STICA COMPUTACIONAL APRENDIZAGEM DE M?QUINA
7	PragmaSUM: novos m?todos na utiliza??o de palavras-chave na sumariza??o autom?tica Rocha, Valdir J?nior Cordeiro 05 December 2017 (has links) Submitted by Jos? Henrique Henrique (jose.neves@ufvjm.edu.br) on 2018-05-03T18:35:26Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) valdir_junior_cordeiro_rocha.pdf: 3757934 bytes, checksum: 00a2e6ee18188436daa1415ec6a05021 (MD5) / Approved for entry into archive by Rodrigo Martins Cruz (rodrigo.cruz@ufvjm.edu.br) on 2018-05-04T16:22:37Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) valdir_junior_cordeiro_rocha.pdf: 3757934 bytes, checksum: 00a2e6ee18188436daa1415ec6a05021 (MD5) / Made available in DSpace on 2018-05-04T16:22:37Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) valdir_junior_cordeiro_rocha.pdf: 3757934 bytes, checksum: 00a2e6ee18188436daa1415ec6a05021 (MD5) Previous issue date: 2017 / Com a amplia??o do acesso ? internet e a cria??o de ferramentas que possibilitam pessoas a criarem conte?do, a informa??o dispon?vel cresce de forma acelerada. Textos sobre os mais diversos assuntos e autores s?o criados todos os dias. ? imposs?vel absorver a quantidade de informa??o dispon?vel, o que dificulta a escolha da mais adequada para determinado interesse ou p?blico. A sumariza??o autom?tica de textos, al?m de apresentar um texto de forma condensada, pode simplifica-lo, gerando uma alternativa para ganho de tempo e amplia??o do acesso a informa??o contida aos mais diferentes tipos de leitores. Os sumarizadores autom?ticos existentes atualmente na literatura n?o apresentam m?todos de personifica??o dos sum?rios para cada tipo de leitor, e consequentemente geram resultados pouco precisos. Este trabalho tem como objetivo utilizar o sumarizador autom?tico de textos PragmaSUM em textos educacionais com novas t?cnicas de sumariza??o utilizando palavras-chave. A utiliza??o de m?todos de personifica??o do sum?rio com palavras-chave visa aumentar a precis?o e melhorar o desempenho do PragmaSUM e seus sum?rios. Para isto, um corpus formado apenas por artigos cient?ficos da ?rea educacional foi criado para realiza??o de testes e compara??es entre diferentes sumarizadores e m?todos de sumariza??o. O desempenho dos sumarizadores foi medido pelas m?tricas Recall, Precision e F-Measure presentes na ferramenta ROUGE e validados com os testes estat?sticos ANOVA de Friedman e Coeficiente de Concord?ncia de Kendall. Os resultados obtidos apontam uma melhora no desempenho com a utiliza??o de palavras-chave na sumariza??o com o PragmaSUM, indicando a import?ncia na escolha adequada destas palavras-chave para classifica??o do conte?do do texto fonte. / Disserta??o (Mestrado Profissional) ? Programa de P?s-Gradua??o em Educa??o, Universidade Federal dos Vales do Jequitinhonha e Mucuri, 2017. / By expanding access to the internet and creating tools that enable people to create content, available information grows rapidly. Texts on the most diverse subjects and authors are created every day. It is impossible to absorb the amount of information available, which makes it difficult to choose the most appropriate for a particular interest or public. Automatic text summarization, as well as presenting a condensed text, can simplify it, generating an alternative to gain time and increase the access to information contained to the most different types of readers. The automatic summarizers that currently exist in the literature do not present methods of personification of the summaries for each type of reader, and consequently generate results inaccurate. This work aims to use the PragmaSUM automatic text summarizer in educational texts with new summarization techniques using keywords. Using summary keywords impersonation methods is intended to increase accuracy and improve the performance of PragmaSUM and its summaries. For this, a corpus formed only by scientific articles of the educational area was created to carry out tests and comparisons between different summarizers and summarization methods. The performance of the summarizers was measured by the Recall, Precision and F-Measure metrics present in the ROUGE tool and validated with the Friedman ANOVA statistical tests and Kendall's coefficient of agreement. The results obtained indicate an improvement in the performance with the use of keywords in the summarization with PragmaSUM, pointing out importance in the appropriate choice of these keywords for classification of the content of the source text. PragmaSUM Sumariza??o autom?tica de textos ROUGE Corpus Linguistics Lingu?stica computacional Lingu?stica de corpus Automatic summarization of texts Computational linguistics
8	Reconhecimento de entidades nomeadas e rela??es no dom?nio de privacidade e responsabiliza??o Bruckschen, M?rian 20 December 2010 (has links) Made available in DSpace on 2015-04-14T14:49:38Z (GMT). No. of bitstreams: 1 434166.pdf: 1758256 bytes, checksum: cc66addbe46b0c23f53ed7ab0e0c41a8 (MD5) Previous issue date: 2010-12-20 / O gerenciamento de grandes volumes de informa??o ? uma ?rea de crescente interesse e pesquisa, tanto na academia quanto na ind?stria. Diferentes mecanismos j? foram propostos com o objetivo de facilitar a cria??o, gerenciamento e manuten??o de bases de conhecimento, e recentemente ontologias t?m despontado como um forte candidato para tal fun??o. Ontologias s?o o principal mecanismo para representa??o do conhecimento em contextos tecnol?gicos atuais como o da Web Sem?ntica. Entretanto, a constru??o manual destas ontologias ? custosa, dado o montante de informa??o a ser processada para a execu??o desta tarefa. Com esta motiva??o, este trabalho prop?e que a confec??o de ontologias, mais especificamente a sua popula??o, pode ser automatizada pela tarefa de Reconhecimento de Entidades Nomeadas (REN). O trabalho compreende diferentes tarefas da ?rea de Processamento de Linguagem Natural: Reconhecimento de Entidades Nomeadas, Reconhecimento de Rela??es e Aprendizado de Ontologias. Para a execu??o da tarefa de popula??o de ontologias, foi constru?da manualmente uma ontologia do dom?nio de privacidade e posteriormente desenvolvido um m?todo para executar a sua popula??o atrav?s da tarefa de REN. Este m?todo compreende a popula??o da ontologia com inst?ncias e rela??es. Para validar este m?todo, foi desenvolvido um sistema que o implementa. Este sistema foi testado sobre um corpus montado pela autora deste trabalho. Este corpus ? composto por documentos da ?rea de privacidade e responsabiliza??o, e da legisla??o associada a este tema. S?o apresentados neste trabalho o m?todo, o sistema desenvolvido, as avalia??es a que este trabalho foi submetido e suas conclus?es INFORM?TICA AN?LISE SEM?NTICA (PROGRAMA??O) ONTOLOGIA

Search results