Global ETD Search

141	Aquisição de conhecimento de mundo para sistemas de processamento de linguagem natural / World of knowledge acquisition for systems of natural language processing Silva, José Wellington Franco da January 2013 (has links) SILVA, José Wellington Franco da. Aquisição de conhecimento de mundo para sistemas de processamento de linguagem natural. 2013. 88 f. Dissertação (Mestrado em ciência da computação)- Universidade Federal do Ceará, Fortaleza-CE, 2013. / Submitted by Elineudson Ribeiro (elineudsonr@gmail.com) on 2016-07-11T17:27:20Z No. of bitstreams: 1 2013_dis_jwfsilva.pdf: 3234188 bytes, checksum: 9b5bbdb17bd9bce014a2e05dd96198bc (MD5) / Approved for entry into archive by Rocilda Sales (rocilda@ufc.br) on 2016-07-18T15:14:38Z (GMT) No. of bitstreams: 1 2013_dis_jwfsilva.pdf: 3234188 bytes, checksum: 9b5bbdb17bd9bce014a2e05dd96198bc (MD5) / Made available in DSpace on 2016-07-18T15:14:38Z (GMT). No. of bitstreams: 1 2013_dis_jwfsilva.pdf: 3234188 bytes, checksum: 9b5bbdb17bd9bce014a2e05dd96198bc (MD5) Previous issue date: 2013 / One of the challenges of research in Natural Language Processing(NLP) is to provide semantic and linguistic resources to express knowledge of the world to support tasks such as Information Extraction, Information Retrieval systems, Questions & Answering, Text Summarization, Annotation Semantics of texts, etc. For this challenge this work proposes strategies for acquiring knowledge of the world. We propose two methods. The first is a semi-automatic method that has main idea of using a semantic reasoning process on pre-existing knowledge base semantics. The second is an acquisition method that utilizes automatic Wikipedia for generating semantical content. Wikipedia was used as a source of knowledge because of the reliability, dynamism and scope of its content. In this work we propose a method for acquiring semantic relations between concepts from the texts of Wikipedia articles that makes use of an implicit knowledge that exists in Wikipedia and in hypermedia systems: links between articles. Throughout the descriptive text of a Wikipedia article appear links to other articles that are evidence that there is a relationship between the current article and another article referenced by the link. The proposed method aims to capture the semantic relationship expressed in the text between them (current article and link to another article), no regular expressions identifying similar relationships through a semantic similarity measure. / Um dos desafios das pesquisas na área de Processamento de Linguagem Natural (PLN) é prover recursos semântico-linguísticos que expressem conhecimento de mundo para suportar tarefas como: extração de informação, recuperação de informação, sistemas de perguntas e respostas, sumarização de textos, anotação semântica de textos, dentre outras. Para esse desafio este trabalho propõe estratégias para aquisição de conhecimento de mundo. Propomos dois métodos. O primeiro é um método semiautomático que tem como ideia principal utilizar um processo de raciocínio semântico sobre o conhecimento pré-existente em uma base semântica. O segundo é um método de aquisição automática que utiliza a Wikipédia para a geração de conteúdo semântico. A Wikipédia foi utilizada como fonte de conhecimento devido à confiabilidade, dinamicidade e abrangência de seu conteúdo. Neste trabalho propomos um método para aquisição de relações semânticas entre conceitos a partir de textos de artigos da Wikipédia que faz uso de um conhecimento implícito existente na Wikipédia e em sistemas hipermídia: os links entre artigos. Ao longo do texto descritivo de um artigo da Wikipédia aparecem links para outros artigos que são evidências de que há uma relação entre o artigo corrente e o outro artigo referenciado pelo link. O método proposto objetiva capturar a relação semântica expressa no texto entre eles (artigo corrente e link para outro artigo), sem expressões regulares identificando relações similares através de uma medida de similaridade semântica. Sistemas de computação Aquisição de conhecimento de mundo Entendimento de linguagem natural Processamento de linguagem natural Acquisition of world knowledge Understanding natural language
142	MALTU – um modelo para avaliação da interação em sistemas sociais a partir da linguagem textual do usuário / MALTU - model for evaluation of interaction in social systems from the Users Textual Language Mendes, Marília Soares January 2015 (has links) MENDES, Marília Soares. MALTU – um modelo para avaliação da interação em sistemas sociais a partir da linguagem textual do usuário. 2015. 199 f. Tese (Doutorado em Ciência da Computação)-Universidade Federal do Ceará, Fortaleza, 2015. / Submitted by Vitor Campos (vitband@gmail.com) on 2016-09-27T23:24:34Z No. of bitstreams: 1 2015_tese_msmendes.pdf: 9165504 bytes, checksum: 35e2398a141e078cdbae6331e1173c8a (MD5) / Approved for entry into archive by Jairo Viana (jairo@ufc.br) on 2016-09-27T23:40:31Z (GMT) No. of bitstreams: 1 2015_tese_msmendes.pdf: 9165504 bytes, checksum: 35e2398a141e078cdbae6331e1173c8a (MD5) / Made available in DSpace on 2016-09-27T23:40:31Z (GMT). No. of bitstreams: 1 2015_tese_msmendes.pdf: 9165504 bytes, checksum: 35e2398a141e078cdbae6331e1173c8a (MD5) Previous issue date: 2015 / The field of Human Computer Interaction (HCI) has suggested various methods for evaluating systems in order to improve their usability and User eXperience (UX). The advent of Web 2.0 has allowed the development of applications marked by collaboration, communication and interaction among their users in a way and on a scale never seen before. Social Systems (SS) (e.g. Twitter, Facebook, MySpace, LinkedIn etc.) are examples of such applications and have features such as: frequent exchange of messages, spontaneity and expression of feelings. The opportunities and challenges posed by these types of applications require the traditional evaluation methods to be reassessed, taking into consideration these new characteristics. For instance, the postings of users on SS reveal their opinions on various issues, including on what they think of the system. This work aims to test the hypothesis that the postings of users in SS provide relevant data for evaluation of the usability and of UX in SS. While researching through literature, we have not identified any evaluation model intending to collect and interpret texts from users in order to assess the user experience and system usability. Thus, this thesis proposes MALTU - Model for evaluation of interaction in social systems from the Users Textual Language. In order to provide a basis for the development of the proposed model, we conducted a study of how users express their opinions on the system in natural language. We extracted postings of users from four SS of different contexts. HCI experts classified, studied and processed such postings by using Natural Language Processing (PLN) techniques and data mining, and then analyzed them in order to obtain a generic model. The MALTU was applied in two SS: an entertainment and an educational SS. The results show that is possible to evaluate a system from the postings of users in SS. Such assessments are aided by extraction patterns related to the use, to the types of postings and to HCI factors used in system. / A área de Interação Humano-Computador (IHC) tem sugerido muitas formas para avaliar sistemas a fim de melhorar sua usabilidade e a eXperiência do Usuário (UX). O surgimento da web 2.0 permitiu o desenvolvimento de aplicações marcadas pela colaboração, comunicação e interatividade entre seus usuários de uma forma e em uma escala nunca antes observadas. Sistemas Sociais (SS) (e.g., Twitter, Facebook, MySpace, LinkedIn etc.) são exemplos dessas aplicações e possuem características como: frequente troca de mensagens e expressão de sentimentos de forma espontânea. As oportunidades e os desafios trazidos por esses tipos de aplicações exigem que os métodos tradicionais de avaliação sejam repensados, considerando essas novas características. Por exemplo, as postagens dos usuários em SS revelam suas opiniões sobre diversos assuntos, inclusive sobre o que eles pensam do sistema em uso. Esta tese procura testar a hipótese de que as postagens dos usuários em SS fornecem dados relevantes para avaliação da Usabilidade e da UX (UUX) em SS. Durante as pesquisas realizadas na literatura, não foi identificado nenhum modelo de avaliação que tenha direcionado seu foco na coleta e análise das postagens dos usuários a fim de avaliar a UUX de um sistema em uso. Sendo assim, este estudo propõe o MALTU – Modelo para Avaliação da interação em sistemas sociais a partir da Linguagem Textual do Usuário. A fim de fornecer bases para o desenvolvimento do modelo proposto, foram realizados estudos de como os usuários expressam suas opiniões sobre o sistema em língua natural. Foram extraídas postagens de usuários de quatro SS de contextos distintos. Tais postagens foram classificadas por especialistas de IHC, estudadas e processadas utilizando técnicas de Processamento da Linguagem Natural (PLN) e mineração de dados e, analisadas a fim da obtenção de um modelo genérico. O MALTU foi aplicado em dois SS: um de entretenimento e um SS educativo. Os resultados mostram que é possível avaliar um sistema a partir das postagens dos usuários em SS. Tais avaliações são auxiliadas por padrões de extração relacionados ao uso, aos tipos de postagens e às metas de IHC utilizadas na avaliação do sistema. Interação Humano-Computador Usabilidade Experiência do usuário Processamento da Linguagem Natural Mineração de Dados Human Computer Interaction (HCI) Usability User Experience
143	[en] USING MACHINE LEARNING TO BUILD A TOOL THAT HELPS COMMENTS MODERATION / [pt] UTILIZANDO APRENDIZADO DE MÁQUINA PARA CONSTRUÇÃO DE UMA FERRAMENTA DE APOIO A MODERAÇÃO DE COMENTÁRIOS SILVANO NOGUEIRA BUBACK 05 March 2012 (has links) [pt] Uma das mudanças trazidas pela Web 2.0 é a maior participação dos usuários na produção do conteúdo, através de opiniões em redes sociais ou comentários nos próprios sites de produtos e serviços. Estes comentários são muito valiosos para seus sites pois fornecem feedback e incentivam a participação e divulgação do conteúdo. Porém excessos podem ocorrer através de comentários com palavrões indesejados ou spam. Enquanto para alguns sites a própria moderação da comunidade é suficiente, para outros as mensagens indesejadas podem comprometer o serviço. Para auxiliar na moderação dos comentários foi construída uma ferramenta que utiliza técnicas de aprendizado de máquina para auxiliar o moderador. Para testar os resultados, dois corpora de comentários produzidos na Globo.com foram utilizados, o primeiro com 657.405 comentários postados diretamente no site, e outro com 451.209 mensagens capturadas do Twitter. Nossos experimentos mostraram que o melhor resultado é obtido quando se separa o aprendizado dos comentários de acordo com o tema sobre o qual está sendo comentado. / [en] One of the main changes brought by Web 2.0 is the increase of user participation in content generation mainly in social networks and comments in news and service sites. These comments are valuable to the sites because they bring feedback and motivate other people to participate and to spread the content. On the other hand these comments also bring some kind of abuse as bad words and spam. While for some sites their own community moderation is enough, for others this impropriate content may compromise its content. In order to help theses sites, a tool that uses machine learning techniques was built to mediate comments. As a test to compare results, two datasets captured from Globo.com were used: the first one with 657.405 comments posted through its site and the second with 451.209 messages captured from Twitter. Our experiments show that best result is achieved when comment learning is done according to the subject that is being commented. [pt] CLASSIFICACAO DE TEXTOS [en] TEXT CLASSIFICATION [pt] PROCESSAMENTO DA LINGUAGEM NATURAL [en] NATURAL LANGUAGE PROCESSING [pt] SVM [en] SVM [pt] BOOSTING [en] BOOSTING
144	AquisiÃÃo de Conhecimento de Mundo para Sistemas de Processamento de Linguagem Natural / World of Knowledge Acquisition for Systems of Natural Language Processing JosÃ Wellington Franco da Silva 30 August 2013 (has links) CoordenaÃÃo de AperfeiÃoamento de Pessoal de NÃvel Superior / Um dos desafios das pesquisas na Ãrea de Processamento de Linguagem Natural (PLN) Ã prover recursos semÃntico-linguÃsticos que expressem conhecimento de mundo para suportar tarefas como: extraÃÃo de informaÃÃo, recuperaÃÃo de informaÃÃo, sistemas de perguntas e respostas, sumarizaÃÃo de textos, anotaÃÃo semÃntica de textos, dentre outras. Para esse desafio este trabalho propÃe estratÃgias para aquisiÃÃo de conhecimento de mundo. Propomos dois mÃtodos. O primeiro Ã um mÃtodo semiautomÃtico que tem como ideia principal utilizar um processo de raciocÃnio semÃntico sobre o conhecimento prÃ-existente em uma base semÃntica. O segundo Ã um mÃtodo de aquisiÃÃo automÃtica que utiliza a WikipÃdia para a geraÃÃo de conteÃdo semÃntico. A WikipÃdia foi utilizada como fonte de conhecimento devido Ã confiabilidade, dinamicidade e abrangÃncia de seu conteÃdo. Neste trabalho propomos um mÃtodo para aquisiÃÃo de relaÃÃes semÃnticas entre conceitos a partir de textos de artigos da WikipÃdia que faz uso de um conhecimento implÃcito existente na WikipÃdia e em sistemas hipermÃdia: os links entre artigos. Ao longo do texto descritivo de um artigo da WikipÃdia aparecem links para outros artigos que sÃo evidÃncias de que hÃ uma relaÃÃo entre o artigo corrente e o outro artigo referenciado pelo link. O mÃtodo proposto objetiva capturar a relaÃÃo semÃntica expressa no texto entre eles (artigo corrente e link para outro artigo), sem expressÃes regulares identificando relaÃÃes similares atravÃs de uma medida de similaridade semÃntica. / One of the challenges of research in Natural Language Processing(NLP) is to provide semantic and linguistic resources to express knowledge of the world to support tasks such as Information Extraction, Information Retrieval systems, Questions & Answering, Text Summarization, Annotation Semantics of texts, etc. For this challenge this work proposes strategies for acquiring knowledge of the world. We propose two methods. The first is a semi-automatic method that has main idea of using a semantic reasoning process on pre-existing knowledge base semantics. The second is an acquisition method that utilizes automatic Wikipedia for generating semantical content. Wikipedia was used as a source of knowledge because of the reliability, dynamism and scope of its content. In this work we propose a method for acquiring semantic relations between concepts from the texts of Wikipedia articles that makes use of an implicit knowledge that exists in Wikipedia and in hypermedia systems: links between articles. Throughout the descriptive text of a Wikipedia article appear links to other articles that are evidence that there is a relationship between the current article and another article referenced by the link. The proposed method aims to capture the semantic relationship expressed in the text between them (current article and link to another article), no regular expressions identifying similar relationships through a semantic similarity measure. AquisiÃÃo de Conhecimento de Mundo Entendimento de Linguagem Natural Processamento de Linguagem Natural Acquisition of World Knowledge Understanding Natural Language Natural Language Processing SISTEMAS DE COMPUTACAO
145	Resolução de anafora pronominal em portugues utilizando o algoritmo de Lappin e Leass / Lappin and Leass' algorithm for pronominal anaphora resolution in portuguese Coelho, Thiago Thomes 16 December 2005 (has links) Orientador: Ariadne Maria Brito Rizzoni Carvalho / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-07T04:43:41Z (GMT). No. of bitstreams: 1 Coelho_ThiagoThomes_M.pdf: 1293031 bytes, checksum: e0e6b1cd98ea1818dfa38a0c78aaf2e0 (MD5) Previous issue date: 2005 / Resumo: Um dos problemas do processamento de língua natural é a resolução de anáforas, fenômeno que ocorre quando duas ou mais expressões de um texto se referem a uma mesma entidade do discurso. Diversos algoritmos foram propostos para fazer a identificação do antecedente anafórico de pronomes, como o algoritmo de Lappin e Leass (1994), Hobbs (1978) e Grosz et aI. (1995). A resolução de anáforas pode melhorar consideravelmente a qualidade do resultado em diversas aplicações de processamento de língua natural, como por exemplo a recuperação e extração de informações, geração automática de resumos, traduções automáticas, entre outros. A pesquisa envolvendo o processamento automático do português ainda é limitada, se comparada a outras línguas, como inglês, francês e espanhol. Este trabalho visa implementar e avaliar o algoritmo de Lappin e Leass para a resolução de anáforas pronominais em terceira pessoa e pronomes reflexivos e recíprocos, em português. O algoritmo é baseado em um sistema de pesos, atribuídos de acordo com a estrutura sintática da sentença, e utiliza apenas conhecimento sintático na resolução das anáforas / Abstract: One of the most challenging problems in naturallanguage processing is anaphora resolution. This phenomenon occurs when one or more expressions in a text refer to the same entity previously mentioned in the discourse. Several approaches to anaphora resolution have been proposed, such as Lappin e Leass' algorithm (1994), Hobbs (1978) and Grosz et aI. (1995). Anaphora resolution can improve significantly the performance of several naturallanguage processing applications, such as automatic translation and summarisation, among others. Research in automatic processing of Portuguese is still incipient, when compared with other languages such as English, Spanish or French. This work aims at developing and evaluating the Lappin and Leass' algorithm for third person, as well as reflexive and reciprocal pronoun resolution, in Portuguese. The algorithm relies on an weighting scheme assigned according to the syntactic structure of the sentence, and on syntactic knowledge to perform anaphora resolution / Mestrado / Processamento de Linguas Naturais / Mestre em Ciência da Computação Anáfora (Linguística) Algoritmos de computador Anaphora (Linguistics) Computer algorithms
146	Emoção e a sumarização automatica de dialogos / Emotion and automatic dialogue summarisation Roman, Norton Trevisan 31 July 2007 (has links) Orientadores: Ariadne Maria Brito Rizzoni Carvalho, Paul Piwek / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-08T21:38:00Z (GMT). No. of bitstreams: 1 Roman_NortonTrevisan_D.pdf: 3357998 bytes, checksum: 3ae61241e75f8f93a517ecbc678e1caf (MD5) Previous issue date: 2007 / Resumo: Esta tese apresenta várias contribuições ao campo da sumarização automática de diálogos. Ela fornece evidências em favor da hipótese de que toda vez que um diálogo apresentar um comportamento muito impolido, por um ou mais de seus interlocutores, este comportamento tenderá a ser descrito em seu resumo. Além disso, os resultados experimentais mostraram também que o relato deste comportamento é feito de modo a apresentar um forte viés, determinado pelo ponto de vista do sumarizador. Este resultado não foi afetado por restrições no tamanho do resumo. Além disso, os experimentos forneceram informações bastante úteis com relação a quando e como julgamentos de emoção e comportamento devem ser adicionados ao resumo. Para executar os experimentos, um esquema de anotação multi-dimensional e categórico foi desenvolvido, podendo ser de grande ajuda a outros pesquisadores que precisem classificar dados de maneira semelhante. Os resultados dos estudos empíricos foram usados para construir um sistema automático de sumarização de diálogos, de modo a testar sua aplicabilidade computacional. A saída do sistema consiste de resumos nos quais a informação técnica e emocional, como julgamentos do comportamento dos participantes do diálogos, são combinadas de modo a refletir o viés do sumarizador, sendo o ponto de vista definido pelo usuário / Abstract: This thesis presents a number of contributions to the field of automatic dialogue summarisation. It provides evidence for the hypothesis that whenever a dialogue features very impolite behaviour by one or more of its interlocutors, this behaviour will tend to be described in the dialogue¿s summary. Moreover, further experimental results showed that this behaviour is reported with a strong bias determined by the point of view of the summariser. This result was not affected by constraints on the summary length. The experiments provided useful information on when and how assessments of emotion and behaviour should be added to a dialogue summary. To conduct the experiments, a categorical multi-dimensional annotation scheme was developed which may also be helpful to other researchers who need to annotate data in a similar way. The results from the empirical studies were used to build an automatic dialogue summarisation system, in order to test their computational applicability. The system¿s output consists of summaries in which technical and emotional information, such as assessments of the dialogue participants¿ behaviour, are combined in a way that reflects the bias of the summariser, being the point of view defined by the user / Doutorado / Doutor em Ciência da Computação Comportamento - Avaliação Inteligência artificial Behavioral analysis Artificial intelligence
147	Modelos para previsão do risco de crédito / Models to forecast financial risk Souza, Cristiano Roberto de 15 August 2018 (has links) Orientador: Gilmar Barreto / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-15T23:37:59Z (GMT). No. of bitstreams: 1 Souza_CristianoRobertode_M.pdf: 1062354 bytes, checksum: 8217be7daba7d7fd194700fdacfc5b03 (MD5) Previous issue date: 2010 / Resumo: Os modelos computacionais para previsão do risco financeiro têm ganhado grande importância desde 1970. Com a atual crise financeira os governos tem discutido formas de regular o setor financeiro e a mais conhecida e adotada é a de Basiléia I e II, que é fortemente suportada por modelo de previsão de risco de crédito. Assim este tipo de modelo pode ajudar os governos e as instituições financeiras a conhecerem melhor suas carteiras para assim criarem controle sobre os riscos envolvidos. Para se ter uma idéia da importância destes modelos para as instituições financeiras a avaliação de risco dada pelo modelo é utilizada como forma de mostrar ao Banco Central a qualidade da carteira de crédito. Através desta medida de qualidade o Banco Central exige que os acionistas do banco deixem depositados um percentual do dinheiro emprestado como garantia dos empréstimos duvidosos criando assim o Índice de Basiléia. Com o objetivo de estudar as ferramentas que atualmente auxiliam no desenvolvimento dos modelos de risco de crédito iremos abordar: 1. Técnicas tradicionais Estatísticas, 2. Técnicas Não Paramétricas, 3. Técnicas Computação Natural / Abstract: The computer models to forecast financial risk have gained great importance since 1970 [1]. With the current crisis Financial government has discussed ways to regulate the financial sector, and the most widely known and adopted form is Basel I and II, which is strongly supported by the forecasting models of credit risk. This type of model can help governments and financial institutions to better understand their portfolios so they can establish control over the risks involved. To get an idea of the importance of this models for financial institutions, the risk assessment given by the model is used as a way of showing the central bank quality of credit portfolio. This measure of quality the Central Bank requires that the shareholders of the bank no longer paid a percentage of the borrowed money as collateral in problem loans and thus creating the index of Basel. In order to study the tools that actually support the development to models of credit risk we will cover: 1. Statistics techniques, 2. Non-Parametric Techniques, 3. Natural Computation Techniques / Mestrado / Automação / Mestre em Engenharia Elétrica Creditos - Avaliação de riscos Redes neurais (Computação) Computer - Human interaction Neural networks Natural language process
148	Resolução de anafora pronominal em portugues utilizando o algoritmo de Hobbs / Hobbs' algorithm for pronomin resolution in portuguese Santos, Denis Neves de Arruda 20 June 2008 (has links) Orientador: Ariadne Maria Brito Rizzoni Carvalho / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-11T18:00:17Z (GMT). No. of bitstreams: 1 Santos_DenisNevesdeArruda_M.pdf: 1378385 bytes, checksum: 10cb49b058677a79380f46221351fb8a (MD5) Previous issue date: 2008 / Resumo: Anáfora é uma referência abreviada a uma entidade, esperando que o receptor do discurso possa compreender a referência. A automatização da resolução de anáforas pode melhorar o desempenho de vários sistemas de processamento de língua natural, como tradutores, geradores e sumarizadores. A dificuldade no processo de resolução acontece nos casos em que existe mais de um referente possível. Pesquisas sobre a resolução de anáforas na língua portuguesa ainda são escassas, quando comparadas com as pesquisas para outras línguas, como por exemplo, o inglês. Este trabalho descreve uma adaptação para o português do algoritmo sintático proposto por Hobbs para resolução de anáfora pronominal. A avaliação foi feita comparando os resultados com os obtidos por outro algoritmo sintático para resolução de pronomes, o algoritmo de Lappin e Leass. Os mesmos corpora foram utilizados e uma melhora significativa foi obtida com o algoritmo de Hobbs. / Abstract: Anaphora is an abreviated reference to an entity expecting the receiver of the discourse can understand the reference. Automatic pronoun resolution may improve the performance of natural language systems, such as translators, generators and summarizers. Difficulties may arise when there is more than one potential candidate for a referent. There has been little research on pronoun resolution for Portuguese, if compared to other languages, such as English. This paper describes a variant of Hobbs' syntactic algorithm for pronoun resolution in Portuguese. The system was evaluated comparing the results with the ones obtained with another syntactic algorithm for pronoun resolution handling, the Lappin and Leass' algorithm. The same Portuguese corpora were used and significant improvement was verified with Hobbs' algorithm. / Mestrado / Processamento de Linguas Naturais / Mestre em Ciência da Computação Algoritmos de computador Inteligência artificial Artificial intelligence Computer algorithms
149	Extractive document summarization using complex networks / Sumarização extractiva de documentos usando redes complexas Jorge Andoni Valverde Tohalino 15 June 2018 (has links) Due to a large amount of textual information available on the Internet, the task of automatic document summarization has gained significant importance. Document summarization became important because its focus is the development of techniques aimed at finding relevant and concise content in large volumes of information without changing its original meaning. The purpose of this Masters work is to use network theory concepts for extractive document summarization for both Single Document Summarization (SDS) and Multi-Document Summarization (MDS). In this work, the documents are modeled as networks, where sentences are represented as nodes with the aim of extracting the most relevant sentences through the use of ranking algorithms. The edges between nodes are established in different ways. The first approach for edge calculation is based on the number of common nouns between two sentences (network nodes). Another approach to creating an edge is through the similarity between two sentences. In order to calculate the similarity of such sentences, we used the vector space model based on Tf-Idf weighting and word embeddings for the vector representation of the sentences. Also, we make a distinction between edges linking sentences from different documents (inter-layer) and those connecting sentences from the same document (intra-layer) by using multilayer network models for the Multi-Document Summarization task. In this approach, each network layer represents a document of the document set that will be summarized. In addition to the measurements typically used in complex networks such as node degree, clustering coefficient, shortest paths, etc., the network characterization also is guided by dynamical measurements of complex networks, including symmetry, accessibility and absorption time. The generated summaries were evaluated by using different corpus for both Portuguese and English language. The ROUGE-1 metric was used for the validation of generated summaries. The results suggest that simpler models like Noun and Tf-Idf based networks achieved a better performance in comparison to those models based on word embeddings. Also, excellent results were achieved by using the multilayered representation of documents for MDS. Finally, we concluded that several measurements could be used to improve the characterization of networks for the summarization task. / Devido à grande quantidade de informações textuais disponíveis na Internet, a tarefa de sumarização automática de documentos ganhou importância significativa. A sumarização de documentos tornou-se importante porque seu foco é o desenvolvimento de técnicas destinadas a encontrar conteúdo relevante e conciso em grandes volumes de informação sem alterar seu significado original. O objetivo deste trabalho de Mestrado é usar os conceitos da teoria de grafos para o resumo extrativo de documentos para Sumarização mono-documento (SDS) e Sumarização multi-documento (MDS). Neste trabalho, os documentos são modelados como redes, onde as sentenças são representadas como nós com o objetivo de extrair as sentenças mais relevantes através do uso de algoritmos de ranqueamento. As arestas entre nós são estabelecidas de maneiras diferentes. A primeira abordagem para o cálculo de arestas é baseada no número de substantivos comuns entre duas sentenças (nós da rede). Outra abordagem para criar uma aresta é através da similaridade entre duas sentenças. Para calcular a similaridade de tais sentenças, foi usado o modelo de espaço vetorial baseado na ponderação Tf-Idf e word embeddings para a representação vetorial das sentenças. Além disso, fazemos uma distinção entre as arestas que vinculam sentenças de diferentes documentos (inter-camada) e aquelas que conectam sentenças do mesmo documento (intra-camada) usando modelos de redes multicamada para a tarefa de Sumarização multi-documento. Nesta abordagem, cada camada da rede representa um documento do conjunto de documentos que será resumido. Além das medições tipicamente usadas em redes complexas como grau dos nós, coeficiente de agrupamento, caminhos mais curtos, etc., a caracterização da rede também é guiada por medições dinâmicas de redes complexas, incluindo simetria, acessibilidade e tempo de absorção. Os resumos gerados foram avaliados usando diferentes corpus para Português e Inglês. A métrica ROUGE-1 foi usada para a validação dos resumos gerados. Os resultados sugerem que os modelos mais simples, como redes baseadas em Noun e Tf-Idf, obtiveram um melhor desempenho em comparação com os modelos baseados em word embeddings. Além disso, excelentes resultados foram obtidos usando a representação de redes multicamada de documentos para MDS. Finalmente, concluímos que várias medidas podem ser usadas para melhorar a caracterização de redes para a tarefa de sumarização. Inteligência artificial Processamento de linguagem natural Redes complexas Sumarização automática Artificial intelligence Automatic summarization Complex networks Natural language processing
150	Aperfeiçoamento de um tradutor automático Português-Inglês: tempos verbais / Development of a Portuguese-to-English machine translation system: tenses Lucia Helena Rozario da Silva 03 August 2010 (has links) Esta dissertação apresenta o aperfeiçoamento de um sistema de tradução automática português-inglês. Nosso objetivo principal é criar regras de transferência estrutural entre o par de línguas português e inglês e avaliar, através do uso da métrica de avaliação METEOR, o desempenho do sistema. Para isto, utilizamos um corpus teste criado especialmente para esta pesquisa. Tendo como ponto de partida a relevância de uma correta tradução para os tempos verbais de uma sentença, este trabalho priorizou a criação de regras que tratassem a transferência entre os tempos verbais do português brasileiro para o inglês americano. Devido ao fato de os verbos em português estarem distribuídos por três conjugações, criamos um corpus para cada uma dessas conjugações. O objetivo da criação desses corpora é verificar a aplicação das regras de transferência estrutural entre os tempos verbais em todas as três classes de conjugação. Após a criação dos corpora, mapeamos os tempos verbais em português no modo indicativo, subjuntivo e imperativo para os tempos verbais do inglês. Em seguida, iniciamos a construção das regras de transferência estrutural entre os tempos verbais mapeados. Ao final da construção das regras, submetemos os corpora obedecendo as três classes de conjugação à métrica de avaliação automática METEOR. Os resultados da avaliação do sistema após a inserção das regras apresentaram uma regressão quando comparado a avaliação do sistema no estágio inicial da pesquisa. Detectamos, através de análises dos resultados, que a métrica de avaliação automática METEOR não foi sensível às modificações feitas no sistema, embora as regras criadas sigam a gramática tradicional da língua portuguesa e estejam sendo aplicadas a todas as três classes de conjugação. Apresentamos em detalhes o conjunto de regras sintáticas e os corpora utilizados neste estudo, e que acreditamos serem de utilidade geral para quaisquer sistemas de tradução automática entre o português brasileiro e o inglês americano. Outra contribuição deste trabalho está em discutir os valores apresentados pela métrica METEOR e sugerir que novos ajustes sejam feitos a esses parâmetros utilizados pela métrica. / This dissertation presents the development of a Portuguese-to-English Machine Translation system. Our main objective is creating structural transfer rules between this pair of languages, and evaluate the performance of the system using the METEOR evaluation metric. Therefore, we developed a corpus to enable this study. Taking translation relevance as a starting point, we focused on verbal tenses and developed rules that dealt with transfer between verbal tenses from the Brazilian Portuguese to US English. Due to the fact that verbs in Portuguese are distributed in three conjugations, we created one corpus for each of these conjugations. The objective was to verify the application of structural transfer rules between verbal tenses in each conjugation class in isolation. After creating these corpora, we mapped the Portuguese verbal tenses in the indicative, subjunctive and imperative modes to English. Next, we constructed structural transfer rules to these mapped verbal tenses. After constructing these rules, we evaluated our corpora using the METEOR evaluation metric. The results of this evaluation showed lack of improvement after the insertion of these transfer rules, when compared to the initial stage of the system. We detected that the METEOR evaluation metric was not sensible to these modi_cations made to the system, even though they were linguistically sound and were being applied correctly to the sentences. We introduce in details the set of transfer rules and corpora used in this study, and we believe they are general enough to be useful in any rule-based Portuguese-to-English Machine Translation system. Another contribution of this work lies in the discussion of the results presented by the METEOR metric. We suggest adjustments to be made to its parameters, in order to make it more sensible to sentences variation such as those introduced by our rules. Inteligência artifical Linguística Linguística computacional Processamento de linguagem natural Tradução automática Articial intelligence Computational linguistics Linguistics Machine translation Natural language processing

Search results