• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 202
  • 25
  • 6
  • 5
  • 5
  • 5
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • Tagged with
  • 233
  • 233
  • 233
  • 114
  • 113
  • 82
  • 52
  • 51
  • 51
  • 47
  • 47
  • 36
  • 36
  • 35
  • 34
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
91

Uma abordagem unificada para análise de sentimento de tweets com domínio específico

Ribeiro, Patrícia Lustosa Ventura 24 April 2015 (has links)
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2015. / Submitted by Fernanda Percia França (fernandafranca@bce.unb.br) on 2016-01-06T15:17:23Z No. of bitstreams: 1 2015_PatríciaLustosaVenturaRibeiro.pdf: 1900858 bytes, checksum: f612b5d977ca76e8d1fc4e2cc0bb5aeb (MD5) / Approved for entry into archive by Raquel Viana(raquelviana@bce.unb.br) on 2016-03-24T15:44:39Z (GMT) No. of bitstreams: 1 2015_PatríciaLustosaVenturaRibeiro.pdf: 1900858 bytes, checksum: f612b5d977ca76e8d1fc4e2cc0bb5aeb (MD5) / Made available in DSpace on 2016-03-24T15:44:39Z (GMT). No. of bitstreams: 1 2015_PatríciaLustosaVenturaRibeiro.pdf: 1900858 bytes, checksum: f612b5d977ca76e8d1fc4e2cc0bb5aeb (MD5) / Twitter é uma rede social online que permite que os usuários enviem e leiam mensagens curtas chamadas tweets. Em dezembro de 2014, o Twitter possuia mais de 500 milhões de usuários, dos quais mais de 284 milhões são usuários ativos, gerando aproximadamente 500 milhões de tweets todos os dias. O uso massivo de redes sociais online está atraindo atenção da academia e de empresas para o estudo da análise de sentimento, especialmente o Twitter, através da Análise de Sentimento de Tweets (AST). Essa análise proporciona insights sobre a opinião do público sobre vários tópicos, como política, notícias e produtos. Para executar AST eficientemente em um domínio específico, uma abordagem com uma ferramenta unificada é proposta. Essa abordagem possui quatro passos: coletar tweets relacionados ao domínio, identificar e excluir tweets que são spam, construir um léxico de sentimento específico para o domínio e analisar o sentimento dos tweets válidos. O léxico é um elemento chave que deve ser específico para domínio para poder incorporar expressões cujo sentimento varia de um domínio para outro. A ferramenta de AST proposta foi implementada e testada nos domínios ’iPhone 6 ’ e ’cigarros eletrônicos’ e obteve resultados convincentes nas quatro etapas, mostrando a superioridade de uma ferramenta de AST específica para domínio em relação a uma genérica. ______________________________________________________________________________________________ ABSTRACT / Twitter is an online social networking (OSN) service that enables users to send and read short messages called "tweets". As of December 2014, Twitter has more than 500 million users, out of which more than 284 million are active users and about 500 million tweets are posted every day. The massive use of online social networks is attracting great attention to the study of sentiment analysis, specially Tweet Sentiment Analysis (TSA). This analysis provides insights into the opinion of the public on various topics, from political affairs, hot news to commercial products. In order to execute efficient TSA on a particular topic or domain, an approach with a unified tool is proposed. This approach consists of four steps: collecting tweets related to that topic, identifying and excluding spam tweets, building a domain-specific sentiment lexicon and analyzing the sentiment of tweets. Among them, the lexicon is a key element that is domain-specific as well as incorporates expressions whose sentiment varies from one domain to another. The proposed TSA tool is tested on the ’iPhone 6’ and ’electronic cigarettes’ domains which obtains convincing results in all of the four phases, showing the superiority of the domain-specific TSA tool over a generic one.
92

Reconhecimento de padrões lexicais por meio de redes neurais /

Babini, Maurizio. January 2006 (has links)
Orientador: Norian Marranghello / Banca: Aledir Silveira Pereira / Banca: Furio Damiani / Resumo: A compreensão da linguagem humana é uma das tarefas mais difíceis do Processamento da Linguagem Natural (PLN) e de modo mais geral da Automação e da Inteligência Artificial (IA). O objetivo desta pesquisa é estudar os mecanismos que permitem utilizar uma rede neural artificial para poder interpretar textos. Este trabalho deveria ser utilizado, futuramente, para criar uma interface em um ambiente de co-projeto, capaz de agrupar/classificar termos/conceitos, reconhecendo padrões textuais. Para alcançar nossos objetivos de pesquisa em nível de Mestrado, utilizamos o modelo semântico de Bernard Pottier, e uma Rede Neural Artificial de Kohonen. A escolha do modelo de Bernard Pottier deve-se ao fato de que este autor é um dos mais conceituados lingüistas da atualidade e que seu modelo é largamente utilizado por pesquisadores de vários paises, tendo sido, assim, comprovada a sua validade. No que diz respeito à rede de Kohonen, acreditamos que seja a mais indicada para este tipo de aplicação, tendo em vista o fato de que essa rede tenta imitar o funcionamento do cérebro humano, em particular, reproduzindo o mapeamento de suas áreas especializadas, e tendo como hipótese de partida que, no córtex humano, conceitos similares ou de áreas afins distribuem-se em áreas limítrofes. A escolha desse tipo de rede para o nosso trabalho deve-se, outrossim, ao fato de que ela utiliza um tipo de treinamento competitivo e não-supervisionado que permite organizar os vetores (dados) de entrada em agrupamentos (clusters). / Abstract: The understanding of human language is one of the most difficult tasks of Natural Language Processing (NLP), and, in general, of Automation and Artificial Intelligence (AI). The aim of our research is to study the mechanisms that allow using an artificial neural network for interpreting text. Later, our work should be used to create an interface, in a hardware/software co-design environment, capable of clustering/classifying terms/concepts, and recognizing text patterns. In order to achieve the objectives of our research, we used the semantic model of Bernard Pottier, and a Kohonen Artificial Neural Network. The choice of Bernard Pottier's model was motivated by the fact that the author is one of the most eminent linguists nowadays, and his model is largely used by researchers in many countries, thus proving the validity of his proposal. About the Kohonen net, we believe that it is the most appropriate net for this kind of application, due to the fact that this net tries to imitate the functioning of the human brain, particularly reproducing the map of its specialized areas, as well as due to the fact that this net has as initial hypothesis that, in the human cortex, similar concepts or concepts of similar areas are distributed in closed areas. Another reason for the choice of this kind of net in our study is that it uses a competitive and non-supervising training, that allows organizing entry vectors (data) in clusters. / Mestre
93

Reconhecimento de padrões lexicais por meio de redes neurais

Babini, Maurizio [UNESP] 21 December 2006 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:22:35Z (GMT). No. of bitstreams: 0 Previous issue date: 2006-12-21Bitstream added on 2014-06-13T19:48:56Z : No. of bitstreams: 1 babini_m_me_ilha_prot.pdf: 976475 bytes, checksum: 371792f3e205462129827cc925906822 (MD5) / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / A compreensão da linguagem humana é uma das tarefas mais difíceis do Processamento da Linguagem Natural (PLN) e de modo mais geral da Automação e da Inteligência Artificial (IA). O objetivo desta pesquisa é estudar os mecanismos que permitem utilizar uma rede neural artificial para poder interpretar textos. Este trabalho deveria ser utilizado, futuramente, para criar uma interface em um ambiente de co-projeto, capaz de agrupar/classificar termos/conceitos, reconhecendo padrões textuais. Para alcançar nossos objetivos de pesquisa em nível de Mestrado, utilizamos o modelo semântico de Bernard Pottier, e uma Rede Neural Artificial de Kohonen. A escolha do modelo de Bernard Pottier deve-se ao fato de que este autor é um dos mais conceituados lingüistas da atualidade e que seu modelo é largamente utilizado por pesquisadores de vários paises, tendo sido, assim, comprovada a sua validade. No que diz respeito à rede de Kohonen, acreditamos que seja a mais indicada para este tipo de aplicação, tendo em vista o fato de que essa rede tenta imitar o funcionamento do cérebro humano, em particular, reproduzindo o mapeamento de suas áreas especializadas, e tendo como hipótese de partida que, no córtex humano, conceitos similares ou de áreas afins distribuem-se em áreas limítrofes. A escolha desse tipo de rede para o nosso trabalho deve-se, outrossim, ao fato de que ela utiliza um tipo de treinamento competitivo e não-supervisionado que permite organizar os vetores (dados) de entrada em agrupamentos (clusters). / The understanding of human language is one of the most difficult tasks of Natural Language Processing (NLP), and, in general, of Automation and Artificial Intelligence (AI). The aim of our research is to study the mechanisms that allow using an artificial neural network for interpreting text. Later, our work should be used to create an interface, in a hardware/software co-design environment, capable of clustering/classifying terms/concepts, and recognizing text patterns. In order to achieve the objectives of our research, we used the semantic model of Bernard Pottier, and a Kohonen Artificial Neural Network. The choice of Bernard Pottier's model was motivated by the fact that the author is one of the most eminent linguists nowadays, and his model is largely used by researchers in many countries, thus proving the validity of his proposal. About the Kohonen net, we believe that it is the most appropriate net for this kind of application, due to the fact that this net tries to imitate the functioning of the human brain, particularly reproducing the map of its specialized areas, as well as due to the fact that this net has as initial hypothesis that, in the human cortex, similar concepts or concepts of similar areas are distributed in closed areas. Another reason for the choice of this kind of net in our study is that it uses a competitive and non-supervising training, that allows organizing entry vectors (data) in clusters.
94

Recuperação de informação com auxílio de extratos automáticos.

Batista Junior, Wilson dos Santos 08 May 2006 (has links)
Made available in DSpace on 2016-06-02T19:05:17Z (GMT). No. of bitstreams: 1 DissWSBJ.pdf: 1130582 bytes, checksum: cddbd8f8a11a6e29a95cea9e62612f2b (MD5) Previous issue date: 2006-05-08 / Financiadora de Estudos e Projetos / This dissertation investigates the use of Automatic Summarization (AS) techniques on Information Retrieval (IR), two areas that have attracted growing attention due to the continuous growth of information repositories in digital format. The main goal of this work is to verify the contribution of extracts generated automatically in two stages of the IR: indexing and Pseudo Relevance Feedback (PRF). In general, the main goal of both phases is to find the most descriptive terms of a given document. This goal in turn is strongly related to that of the AS techniques to summarize the main parts of a document which justifies the study. In order to verify the effectiveness of the AS techniques, we have developed five systems that use extracts generated by a summarizing system that was considered useful in the task of indicating the content of documents to human readers. These systems were assessed through a set of documents written in Portuguese to test IR. In general, the results show that the generated extracts were not useful for indexing, presenting worse performance compared to when using a full document for IR. In the PRF case, however, the results obtained using specific extracts were better than those obtained by a system that does not embed PRF. The best results were obtained when using query-biased multi-documents extracts, indicating that this type of extract may be useful for PRF. / Este trabalho de mestrado investiga a aplicação de técnicas de Sumarização Automática (SA) na Recuperação de Informação (RI), duas áreas que, devido ao crescente número de repositórios de informação digital disponíveis, têm se mostrado muito importantes para a captura de informações. O intuito do trabalho é verificar a contribuição de extratos gerados automaticamente em duas etapas da RI: a indexação e a realimentação de pseudo-relevantes. O principal objetivo dessas duas etapas é encontrar os termos mais descritivos de um documento. Esse objetivo é relacionado fortemente com o objetivo principal da SA que é condensar as principais partes do documento, o que justifica o emprego. Para verificar a efetividade das técnicas de SA, foram construídos cinco sistemas que utilizam extratos gerados por um sistema de sumarização que foi considerado útil na tarefa de indicar aos leitores humanos o conteúdo de documentos. Esses sistemas foram avaliados com uma coleção de documentos para testes em RI, escritos em português. Em geral, os resultados apontam que os extratos gerados não foram úteis para a indexação, apresentando desempenho inferior à recuperação que usou o conteúdo completo dos documentos na indexação. No caso da realimentação de pseudo-relevantes, os resultados dos sistemas que utilizam extratos específicos foram superiores aos de um sistema sem esta realimentação em muitos casos. Os melhores resultados foram obtidos pelos extratos específicos multi-documentos, mostrando que esse tipo de extrato pode ser útil para a realimentação de pseudo-relevantes.
95

ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia.

Silva, Patrick Pedreira 10 July 2006 (has links)
Made available in DSpace on 2016-06-02T19:05:19Z (GMT). No. of bitstreams: 1 DissPPS.pdf: 2486545 bytes, checksum: 45bf3bd34f1453685126954dc3708459 (MD5) Previous issue date: 2006-07-10 / Financiadora de Estudos e Projetos / This dissertation presents an automatic summarizer of Web documents based on both HTML tags and ontological knowledge. It has been derived from two independent approaches: one that focuses solely upon HTML tags, and another that focuses only on ontological knowledge. The three approaches were implemented and assessed, indicating that associating both knowledge types have a promising descriptive power for Web documents. The resulting prototype has been named ExtraWeb. The ExtraWeb system explores the HTML structure of Web documents in Portuguese and semantic information using the Yahoo ontology in Portuguese. This has been enriched with additional terms extracted from both a thesaurus, Diadorim and the Wikipedia. In a simulated Web search, ExtraWeb achieved a similar utility degree to Google one, showing its potential to signal through extracts the relevance of the retrieved documents. This has been an important issue recently. Extracts may be particularly useful as surrogates of the current descriptions provided by the existing search engines. They may even substitute the corresponding source documents. In the former case, those descriptions do not necessarily convey relevant content of the documents; in the latter, reading full documents demands a substantial overhead of Web users. In both cases, extracts may improve the search task, provided that they actually signal relevant content. So, ExtraWeb is a potential plug-in of search engines, to improve their descriptions. However, its scability and insertion in a real setting have not yet been explored. / Esta dissertação propõe um sumarizador de documentos Web baseado em etiquetas HTML e conhecimento ontológico, derivado de outras duas abordagens independentes: uma que contempla somente etiquetas HTML e outra, somente conhecimento ontológico. As três abordagens foram implementadas e avaliadas, indicando que a composição desses dois tipos de conhecimento tem um bom potencial descritivo de documentos Web. O protótipo resultante é denominado ExtraWeb. O ExtraWeb explora a estrutura de marcação de documentos em português e informações de nível semântico usando a ontologia do Yahoo em português, enriquecida com vocabulário extraído de um thesaurus, Diadorim, e da Wikipédia. Em uma tarefa simulada por internautas, de busca de documentos, o ExtraWeb obteve um grau de utilidade próximo ao do Google, evidenciando seu potencial para indicar, por meio de extratos, a relevância de documentos recuperados na Web. Esse foco é de grande interesse atualmente, pois os extratos podem ser particularmente úteis como substitutos das descrições atuais das ferramentas de busca ou, mesmo, como substitutos dos documentos correspondentes completos. No primeiro caso, as descrições nem sempre contemplam as informações mais relevantes dos documentos; no segundo, sua leitura implica um esforço considerável por parte do internauta. Em ambos os casos, extratos podem otimizar essa tarefa, se comprovada sua utilidade para a indicação da relevância dos documentos. Assim, o ExtraWeb tem potencial para ser um acessório das ferramentas de busca, para melhorar a forma como os resultados são apresentados, muito embora sua escalabilidade e implantação em um ambiente real ainda não tenham sido exploradas.
96

A resolução de anáforas pronominais da língua portuguesa com base no algoritmo de Mitkov.

Chaves, Amanda Rocha 22 August 2007 (has links)
Made available in DSpace on 2016-06-02T19:05:25Z (GMT). No. of bitstreams: 1 ChavesDissMestrado2007.pdf: 1531762 bytes, checksum: 7abc0f23650c4081b1838680a8af1dd3 (MD5) Previous issue date: 2007-08-22 / One of the problems of natural language processing systems is to assure referential cohesion in a text. This property allows connecting the text constituents and making it readable. We address the anaphoric phenomenon as one of the main factors of referential cohesion. Anaphors depict a reference relationship between two or more text components, and the interpretation of the anaphor is dependent upon the interpretation of its antecedent. This work is limited to pronominal anaphors, thus, to automatic pronoun resolution. Several algorithms have been proposed to this end. They usually involve (1) identifying the anaphoric component; (2) determining the set of its possible antecedents; and (3) identifying and selecting the most likely antecedent of the anaphor. The lack of anaphora resolution in, e.g., information extraction and automatic translation or summarization may yield non-cohesive texts. Herein we present an adaptation of the Mitkov´s algorithm for pronoun resolution. 3rd person pronouns for Brazilian Portuguese are especially addressed, whose antecedents are noun phrases. This approach has been intrinsically evaluated on annotated corpora. It has also been compared with Lappin and Leass algorithm for pronoun resolution, adapted to Portuguese. Annotations embed morphological, syntactic and co-referential information. The evaluation measure adopted was the success rate. This is defined as the ratio between the number of anaphors correctly resolved by the system and the total number of anaphors in the text. The results of both evaluations are discussed here. / Um dos problemas encontrados em sistemas de processamento de línguas naturais é conseguir manter a coesão referencial de um texto, propriedade que permite estabelecer as ligações entre os seus constituintes, tornando-o inteligível. Dentre os fatores de coesão referencial destacamos a anáfora, que ocorre quando duas ou mais expressões de um texto estabelecem uma relação de referência entre si, isto é, a interpretação da anáfora depende de um antecedente ao qual ela se refere no texto. Diversos algoritmos na literatura foram propostos para a resolução automática de anáforas pronominais, que consiste em: 1) identificar a anáfora, 2) determinar o conjunto de possíveis antecedentes e 3) identificar e selecionar o antecedente da anáfora. A ausência da resolução anafórica em aplicações como extração de informação, tradução automática e sumarização textual, dentre outras, pode levar à descontinuidade referencial de seus resultados, tornando-os não-coesos. Nesse contexto, apresentamos uma adaptação do algoritmo de Mitkov, originalmente aplicado no inglês, para resolver anáforas da língua portuguesa, especialmente as determinadas por pronomes pessoais de terceira pessoa cujo antecedente seja um sintagma nominal. Essa abordagem foi avaliada com base em corpora anotados com informações morfossintáticas e coreferenciais, utilizando-se como medida de avaliação de desempenho a taxa de sucesso, que determina o número de anáforas resolvidas corretamente pelo sistema automático em relação ao número de anáforas presentes no corpus avaliado. Além disso, fez-se uma comparação de desempenho entre essa abordagem e o algoritmo de Lappin & Leass adaptado para o português. Os resultados dessa avaliação são discutidos ao final do trabalho.
97

Alinhamento de árvores sintáticas português-inglês

Araújo, Josué Garcia de 20 June 2011 (has links)
Made available in DSpace on 2016-06-02T19:05:53Z (GMT). No. of bitstreams: 1 3976.pdf: 1798870 bytes, checksum: 00ab81148c7fb6dad5738877a4809e84 (MD5) Previous issue date: 2011-06-20 / Financiadora de Estudos e Projetos / The manual translation of a source natural language into a target natural language is a task that demands time and expertise. In order to reduce the work needed for manual translations, the aim is to accomplish this task through Machine Translation (MT) systems. Since the 1940s, various approaches and techniques of MT have been proposed, investigated and evaluated in order to improve the quality of translations generated automatically. Nowadays, statistical machine translation methods are considered the state-of-art regarding the evaluation automatic measures commonly used in the area (such as BLEU and NIST), however a recent trend indicates that such systems will not improve their level of performance without the application of deeper linguistic knowledge, for instance, syntactic information. Thus, as an attempt to support the building of automatic translators, this dissertation presents the research, the implementation and the evaluation of parse trees alignment techniques. The computational tool for the automatic alignment of syntactic trees, result of this work, may be used to generate an extremely useful resource for various MT techniques: the aligned syntactic trees . This resource, so far unavailable for Brazilian Portuguese, will allow the development of new researches, which can provide the scientific advancement of the area. In this dissertation, a study of various techniques for parse trees alignment from the literature is presented. Besides, the pre-processing of a corpus for the inclusion of syntactic information from which the alignment is performed is also described, as well as the phases of lexical alignment and syntactic analysis. Some implementations and tests have been carried out with the pre-processed corpus, based on the theoretical foundations derived from the study of the techniques proposed in the literature. Based on the results of the intrinsic evaluation of the alignment, it was possible to conclude that the alignment of syntactic trees reached the accuracy of 97.36% and the coverage of 93.48% for tree pairs, representing parallel sentences in Brazilian Portuguese and in English by using different settings. Since the results have been promising, as future work, the aim is to apply the tool to a larger corpus of parallel syntactic trees, in order to obtain more examples of translation and, thus, allow its application to syntax-based machine translation techniques, such as syntax-based statistical methods or data-oriented translation. / A tradução manual de uma língua natural fonte para uma língua natural alvo é uma tarefa que demanda tempo e conhecimento. Para reduzir o trabalho árduo necessário na construção manual de traduções, propõe-se realizar esta tarefa por meio de sistemas computacionais de Tradução Automática (TA). Desde a década de 1940, várias técnicas e abordagens de TA têm sido propostas, investigadas e avaliadas com o intuito de melhorar a qualidade das traduções geradas automaticamente. No momento, os métodos de tradução automática estatística são considerados o estado-da-arte em termos de medidas automáticas de avaliação comumente utilizadas na área (como BLEU e NIST), porém há uma tendência recente de que tais sistemas não conseguirão sair do patamar de desempenho no qual se encontram estagnados sem a aplicação de conhecimento linguístico mais aprofundado, por exemplo, informação sintática. Nesse sentido, como uma tentativa de auxiliar o processo de construção de tradutores automáticos, este documento apresenta a investigação, implementação e avaliação de técnicas de alinhamento de árvores sintáticas. A ferramenta computacional para alinhamento automático de árvores sintáticas resultante deste trabalho pode ser utilizada para a geração de um recurso extremamente útil para diversas técnicas de TA: as árvores sintáticas alinhadas. Esse recurso, até então inexistente para o português do Brasil, possibilitará o desenvolvimento de pesquisas inovadoras e que propiciem o avanço científico da área. Neste documento, um estudo de várias técnicas de alinhamento de árvores sintáticas é apresentado, baseado na literatura. O pr´e-processamento de um corpus para inserção de informações sintáticas a partir das quais o alinhamento é realizado também é descrito, destacando-se as fases de alinhamento lexical e análise sintática. A partir do embasamento teórico derivado do estudo das técnicas propostas na literatura, cinco modelos foram implementados para realizar a tarefa de alinhar as árvores sintáticas. Estes modelos foram avaliados usando o corpus pré-processado. Com base nos resultados da avaliação intrínseca do alinhamento propriamente dito, é possível concluir que o alinhamento de árvores sintáticas atingiu cerca de 97,36% de precisão e 93,48% de cobertura em pares de árvores representando sentenças paralelas em português do Brasil e inglês usando diferentes configurações. A partir desses resultados promissores pretende-se aplicar a ferramenta a um corpus maior de árvores sintáticas paralelas visando a obtenção de mais exemplos de tradução e permitindo, assim, sua aplicação nas técnicas de tradução automática baseada em sintaxe como os métodos estatísticos baseados em sintaxe ou a tradução orientada a dados.
98

Extração automática de relações semânticas a partir de textos escritos em português do Brasil

Taba, Leonardo Sameshima 11 July 2013 (has links)
Made available in DSpace on 2016-06-02T19:06:08Z (GMT). No. of bitstreams: 1 5456.pdf: 1895896 bytes, checksum: 0a6d9c5bee84eaab067717a8c3e11b11 (MD5) Previous issue date: 2013-07-11 / Universidade Federal de Minas Gerais / Information extraction (IE) is one of the many applications in Natural Language Processing (NLP); it focuses on processing texts in order to retrieve specific information about a certain entity or concept. One of its subtasks is the automatic extraction of semantic relations between terms, which is very useful in the construction and improvement of linguistic resources such as ontologies and lexical bases. Moreover, there s a rising demand for semantic knowledge, as many computational NLP systems need that information in their processing. Applications such as information retrieval from web documents and automatic translation to other languages could benefit from that kind of knowledge. However, there aren t sufficient human resources to produce that knowledge at the same rate of its demand. Aiming to solve that semantic data scarcity problem, this work investigates how binary semantic relations can be automatically extracted from Brazilian Portuguese texts. These relations are based on Minsky s (1986) theory and are used to represent common sense knowledge in the Open Mind Common Sense no Brasil (OMCS-Br) project developed at LIA (Laboratório de Interação Avanc¸ada), partner of LaLiC (Laborat´orio de Lingu´ıstica Computacional), where this research was conducted, both in Universidade Federal de São Carlos (UFSCar). The first strategies for this task were based on searching textual patterns in texts, where a certain textual expression indicates that there is a specific relation between two terms in a sentence. This approach has high precision but low recall, which led to the research of methods that use machine learning as their main model, encompassing techniques such as probabilistic and statistical classifiers and also kernel methods, which currently figure among the state of the art. Therefore, this work investigates, implements and evaluates some of these techniques in order to determine how and to which extent they can be applied to the automatic extraction of binary semantic relations in Portuguese texts. In that way, this work is an important step in the advancement of the state of the art in information extraction for the Portuguese language, which still lacks resources in the semantic area, and also advances the Portuguese language NLP scenario as a whole. / A extração de informação (EI) é uma das muitas aplicações do Processamento de Língua Natural (PLN); seu foco é o processamento de textos com o objetivo de recuperar informações específicas sobre uma determinada entidade ou conceito. Uma de suas subtarefas é a extração automática de relações semânticas entre termos, que é muito útil na construção e melhoramento de recursos linguísticos como ontologias e bases lexicais. A esse contexto soma-se o fato de que há uma demanda crescente por conhecimento semântico, visto que diversos sistemas computacionais de PLN necessitam dessas informações em seu processamento. Aplicações como recuperação de informação em documentos web e tradução automática para outros idiomas podem se beneficiar desse tipo de conhecimento. No entanto, não há recursos humanos suficientes para produzir esse conhecimento na mesma velocidade que sua demanda. Com o objetivo de remediar essa escassez de dados semânticos, esta dissertação apresenta a investigação da extração automática de relações semânticas binárias a partir de textos escritos no português do Brasil. Tais relações se baseiam na teoria de Minsky (1986) e são usadas para representar conhecimento de senso comum no projeto Open Mind Common Sense no Brasil (OMCS-Br) desenvolvido no LIA (Laboratório de Interação Avançada), laboratório parceiro do LaLiC (Laboratório de Linguística Computacional) no qual esta pesquisa se desenvolveu, ambos da Universidade Federal de São Carlos (UFSCar). As primeiras estratégias para essa tarefa se basearam na busca de padrões textuais em textos, onde uma determinada expressão textual indica que há uma relação específica entre dois termos em uma sentença. Essa abordagem tem alta precisão mas baixa cobertura, o que levou ao estudo de métodos que utilizam aprendizado de máquina como modelo principal, englobando o uso de técnicas como classificadores probabilísticos e estatísticos, além de métodos de kernel, que atualmente figuram no estado da arte. Esta dissertação apresenta a investigação, implementação e avaliação de algumas dessas técnicas com o objetivo de determinar como e em que medida elas podem ser aplicadas para a extração automática de relações semânticas binárias em textos escritos em português. Desse modo, este trabalho é um importante passo no avanço do estado da arte em extração de informação com foco no idioma português, que ainda carece de recursos na área semântica, além de um avanço no cenário de PLN do português como um todo.
99

RHeSumaRST: um sumarizador automático de estruturas RST.

Seno, Eloize Rossi Marques 05 August 2005 (has links)
Made available in DSpace on 2016-06-02T19:06:27Z (GMT). No. of bitstreams: 1 DissERMS.pdf: 1350059 bytes, checksum: b053cbd6eaf16da40d372057cbe1d76d (MD5) Previous issue date: 2005-08-05 / This work presents an automatic summarization model based on both the Rhetorical Structure Theory RST and the Veins Theory VT. RST allows inter-relating discourse units by means of rhetorical relations. These, in turn, mirror meaning relations between those units. Adding to RST, VT delimits the domain of referential accessibility of each discourse unit of an RST tree, resulting in its vein . A vein signals, thus, the limits of a discourse unit that may enclose its anaphora antecedents. The automatic summarization model also embeds Marcu s model of salience: once a discourse is structured as an RST tree, its units are classified according to their salience by considering the its deep in the tree. The model consists of a set of pruning heuristics that aim at identifying superfluous information in an RST tree of a text. In excluding them, the resulting summary RST tree and, thus, the text summary, should preserve the co-referential chains. In this way, the heuristics are driven by both, specific features of RST relations and constraints on the referential accessibility provided by VT. The main contributions of this work include the proposal of the AS model itself and the availability of a prototype for its automatic exploration. / Este trabalho apresenta um modelo de sumarização automática que se baseia no modelo de estruturação de discurso Rhetorical Structure Theory RST e no modelo de coerência global do discurso Veins Theory VT. A RST permite a estruturação de um discurso relacionando-se unidades discursivas com base em relações retóricas, isto é, permitindo recuperar as relações de significados entre tais unidades. Com base na estruturação RST, a Veins Theory delimita o domínio de acessibilidade referencial para cada unidade do discurso na forma de veias , indicando os limites nos quais os antecedentes de uma anáfora podem ocorrer ao longo do discurso. Além dessas teorias, o modelo também incorpora o modelo de classificação de saliência de unidades discursivas proposto por Marcu (1997a), que obtém uma ordem de importância das unidades discursivas de uma estrutura RST. O modelo de sumarização proposto consiste em um elenco de heurísticas que visam identificar informações supérfluas em uma estrutura RST de um texto, para exclusão durante a construção do seu sumário, tendo sempre como foco a preservação dos elos coreferenciais. Dessa forma, as heurísticas são guiadas por características específicas das relações retóricas da RST e por restrições de acessibilidade referencial da Veins Theory. Assim, o sumarizador proposto se resume à poda de segmentos discursivos irrelevantes das estruturas RST de textos, resultando em seus correspondentes sumários. As principais contribuições deste trabalho são a proposta de um novo modelo de sumarização automática e um protótipo para a sua aplicação automática.
100

Inferência de emoções em fragmentos de textos obtidos do Facebook / Inference of emotions in fragments of texts obtained from the Facebook

Medeiros, Richerland Pinto [UNESP] 27 April 2017 (has links)
Submitted by Richerland Pinto Medeiros null (rick.land@gmail.com) on 2017-06-27T15:12:38Z No. of bitstreams: 1 DISSERTACAO_RICHERLAND_MEDEIROS.pdf: 1209454 bytes, checksum: 251490a058f4248162de9508b4627e65 (MD5) / Approved for entry into archive by LUIZA DE MENEZES ROMANETTO (luizamenezes@reitoria.unesp.br) on 2017-06-27T17:04:08Z (GMT) No. of bitstreams: 1 medeiros_rp_me_bauru.pdf: 1209454 bytes, checksum: 251490a058f4248162de9508b4627e65 (MD5) / Made available in DSpace on 2017-06-27T17:04:09Z (GMT). No. of bitstreams: 1 medeiros_rp_me_bauru.pdf: 1209454 bytes, checksum: 251490a058f4248162de9508b4627e65 (MD5) Previous issue date: 2017-04-27 / Esta pesquisa tem como objetivo analisar o uso da técnica estatística de aprendizado de máquina Maximização de Entropia, voltado para tarefas de processamento de linguagem natural na inferência de emoções em textos obtidos da rede social Facebook. Foram estudados os conceitos primordiais das tarefas de processamento de linguagem natural, os conceitos inerentes a teoria da informação, bem como o aprofundamento no conceito de um modelo entrópico como classificador de textos. Os dados utilizados na presente pesquisa foram obtidos de textos curtos, ou seja, textos com no máximo 500 caracteres. A técnica em questão foi abordada dentro do aprendizado supervisionado de máquina, logo, parte dos dados coletados foram usados como exemplos marcados dentro de um conjunto de classes predefinidas, a fim de induzir o mecanismo de aprendizado a selecionar a classe de emoção mais provável dado o exemplo analisado. O método proposto obteve índice de assertividade médio de 90%, baseado no modelo de validação cruzada. / This research aims to analyze the use of entropy maximization machine learning statistical technique, focused on natural language processing tasks in the inferencing of emotions in short texts from Facebook social network. Were studied the primary concepts of natural language processing tasks, IT intrinsic concepts, as well as deepening the concept of Entropy model as a text classifier. All data used for this research came from short texts found in social networks and had 500 characters or less. The model was used within supervised machine learning, therefore, part of the collected data was used as examples marked within a set of predefined classes in order to induce the learning mechanism to select the most probable emotion class given the analyzed sample. The method has obtained the mean accuracy rate of 90%, based on the cross-validation model.

Page generated in 0.1342 seconds