Spelling suggestions: "subject:"linguagem batural"" "subject:"linguagem datural""
321 |
Um analisador sintático neural multilíngue baseado em transiçõesCosta, Pablo Botton da 24 January 2017 (has links)
Submitted by Ronildo Prado (ronisp@ufscar.br) on 2017-08-23T18:26:08Z
No. of bitstreams: 1
DissPBC.pdf: 1229668 bytes, checksum: 806b06dd0fbdd6a4076384a7d0f90456 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-08-23T18:26:15Z (GMT) No. of bitstreams: 1
DissPBC.pdf: 1229668 bytes, checksum: 806b06dd0fbdd6a4076384a7d0f90456 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-08-23T18:26:21Z (GMT) No. of bitstreams: 1
DissPBC.pdf: 1229668 bytes, checksum: 806b06dd0fbdd6a4076384a7d0f90456 (MD5) / Made available in DSpace on 2017-08-23T18:26:28Z (GMT). No. of bitstreams: 1
DissPBC.pdf: 1229668 bytes, checksum: 806b06dd0fbdd6a4076384a7d0f90456 (MD5)
Previous issue date: 2017-01-24 / Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) / A dependency parser consists in inducing a model that is capable of extracting the right
dependency tree from an input natural language sentence. Nowadays, the multilingual techniques
are being used more and more in Natural Language Processing (NLP) (BROWN
et al., 1995; COHEN; DAS; SMITH, 2011), especially in the dependency parsing task.
Intuitively, a multilingual parser can be seen as vector of different parsers, in which each
one is individually trained on one language. However, this approach can be a really pain
in the neck in terms of processing time and resources. As an alternative, many parsing
techniques have been developed in order to solve this problem (MCDONALD; PETROV;
HALL, 2011; TACKSTROM; MCDONALD; USZKOREIT, 2012; TITOV; HENDERSON,
2007) but all of them depends on word alignment (TACKSTROM; MCDONALD;
USZKOREIT, 2012) or word clustering, which increases the complexity since it is difficult
to induce alignments between words and syntactic resources (TSARFATY et al., 2013;
BOHNET et al., 2013a). A simple solution proposed recently (NIVRE et al., 2016a)
uses an universal annotated corpus in order to reduce the complexity associated with the
construction of a multilingual parser. In this context, this work presents an universal
model for dependency parsing: the NNParser. Our model is a modification of Chen e
Manning (2014) with a more greedy and accurate model to capture distributional representations
(MIKOLOV et al., 2011). The NNparser reached 93.08% UAS in English
Penn Treebank (WSJ) and better results than the state of the art Stack LSTM parser for
Portuguese (87.93% × 86.2% LAS) and Spanish (86.95% × 85.7% LAS) on the universal
dependencies corpus. / Um analisador sintático de dependência consiste em um modelo capaz de extrair a estrutura
de dependência de uma sentença em língua natural. No Processamento de Linguagem
Natural (PLN), os métodos multilíngues tem sido cada vez mais utilizados (BROWN et
al., 1995; COHEN; DAS; SMITH, 2011), inclusive na tarefa de análise de dependência.
Intuitivamente, um analisador sintático multilíngue pode ser visto como um vetor de analisadores
sintáticos treinados individualmente em cada língua. Contudo, a tarefa realizada
com base neste vetor torna-se inviável devido a sua alta demanda por recursos. Como
alternativa, diversos métodos de análise sintática foram propostos (MCDONALD; PETROV;
HALL, 2011; TACKSTROM; MCDONALD; USZKOREIT, 2012; TITOV; HENDERSON,
2007), mas todos dependentes de alinhamento entre palavras (TACKSTROM;
MCDONALD; USZKOREIT, 2012) ou de técnicas de agrupamento, o que também aumenta
a complexidade associada ao modelo (TSARFATY et al., 2013; BOHNET et al.,
2013a). Uma solução simples surgiu recentemente com a construção de recursos universais
(NIVRE et al., 2016a). Estes recursos universais têm o potencial de diminuir a complexidade
associada à construção de um modelo multilíngue, uma vez que não é necessário
um mapeamento entre as diferentes notações das línguas. Nesta linha, este trabalho apresenta
um modelo para análise sintática universal de dependência: o NNParser. O modelo
em questão é uma modificação da proposta de Chen e Manning (2014) com um modelo
mais guloso e preciso na captura de representações distribuídas (MIKOLOV et al., 2011).
Nos experimentos aqui apresentados o NNParser atingiu 93, 08% de UAS para o inglês
no córpus Penn Treebank e resultados melhores do que o estado da arte, o Stack LSTM,
para o português (87,93% × 86,2% LAS) e o espanhol (86,95% × 85,7% LAS) no córpus
UD 1.2.
|
322 |
[en] QUOTATION EXTRACTION FOR PORTUGUESE / [pt] EXTRAÇÃO DE CITAÇÕES PARA O PORTUGUÊSWILLIAM PAULO DUCCA FERNANDES 24 January 2017 (has links)
[pt] A Extração de Citações consiste na identificação de citações de um texto e na associação destas com seus autores. Neste trabalho, apresentamos um sistema de Extração de Citações para Português. A tarefa de Extração de Citações já foi abordada usando diversas técnicas e para diversas línguas.Nossa proposta é diferente dos trabalhos anteriores, pois usamos Aprendizado de Máquina para construir automaticamente regras especializadas ao invés de regras criadas por humanos. Modelos de Aprendizado de Máquina geralmente apresentam forte capacidade de generalização comparados a modelos feitos por humanos. Além disso, nós podemos facilmente adaptar nosso modelo para outras línguas, precisando apenas de uma lista de verbos de citação para uma dada língua. Os sistemas propostos anteriormente provavelmente precisariam de uma adaptação no conjunto de regras de forma a classificar corretamente as citações, o que consumiria tempo. Nós atacamos a tarefa de Extração de Citações usando um modelo para o algoritmo de Aprendizado de Transformações Guiado por Entropia e um modelo para o algoritmo do Perceptron Estruturado. Com o objetivo de treinar e avaliar o sistema, nós construímos o corpus GloboQuotes com notícias extraídas do portal globo.com. Adicionamos etiquetas morfossintáticas ao corpus, utilizando um anotador estado da arte. O Perceptron Estruturado baseado no agendamento de tarefas ponderado tem desempenho F sub Beta igual a 1 igual a 76,80 por cento. / [en] Quotation Extraction consists of identifying quotations from a text and associating them to their authors. In this work, we present a Quotation Extraction system for Portuguese. Quotation Extraction has been previously approached using different techniques and for several languages. Our proposal differs from previous work since we use Machine Learning to automatically build specialized rules instead of human-derived rules. Machine Learning models usually present stronger generalization power compared to human-derived models. In addition, we are able to easily adapt our model to other languages, needing only a list of verbs of speech for a given language. The previously proposed systems would probably need a rule set adaptation to correctly classify the quotations, which would be time consuming. We tackle the Quotation Extraction task using one model for the Entropy Guided Transformation Learning algorithm and another one for the Structured Perceptron algorithm. In order to train and evaluate the system, we have build the GloboQuotes corpus, with news extracted from the globo.com portal. We add part-of-speech tags to the corpus using a state-of-the-art tagger. The Structured Perceptron based on weighted interval scheduling obtains an F sub Beta equal 1 score of 76.80 per cent.
|
323 |
[en] COREFERENCE RESOLUTION FOR THE ENGLISH LANGUAGE / [pt] RESOLUÇÃO DE CO-REFERÊNCIA PARA A LÍNGUA INGLESAADRIEL GARCIA HERNANDEZ 28 July 2017 (has links)
[pt] Um dos problemas encontrados nos sistemas de processamento de linguagem natural é a dificuldade em identificar elementos textuais que se referem à mesma entidade. Este fenômeno é chamado de correferência. Resolver esse problema é parte integrante da compreensão do discurso, permitindo que os usuários da linguagem conectem as partes da informação de fala relativas à mesma entidade. Por conseguinte, a resolução de correferência é um importante foco de atenção no processamento da linguagem natural.Apesar da riqueza das pesquisas existentes, o desempenho atual dos sistemas de resolução de correferência ainda não atingiu um nível satisfatório. Neste trabalho, descrevemos um sistema de aprendizado estruturado para resolução de correferências em restrições que explora duas técnicas: árvores de correferência latente e indução automática de atributos guiadas por entropia. A modelagem de árvore latente torna o problema de aprendizagem computacionalmente viável porque incorpora uma estrutura escondida relevante. Além disso, utilizando um método automático de indução de recursos, podemos construir eficientemente modelos não-lineares, usando algoritmos de aprendizado de modelo linear como, por exemplo, o algoritmo de perceptron estruturado e esparso.Nós avaliamos o sistema para textos em inglês, utilizando o conjunto de dados da CoNLL-2012 Shared Task. Para a língua inglesa, nosso sistema obteve um valor de 62.24 por cento no score oficial dessa competição. Este resultado está abaixo do desempenho no estado da arte para esta tarefa que é de 65.73 por cento. No entanto, nossa solução reduz significativamente o tempo de obtenção dos clusters dos documentos, pois, nosso sistema leva 0.35 segundos por documento no conjunto de testes, enquanto no estado da arte, leva 5 segundos para cada um. / [en] One of the problems found in natural language processing systems, is the difficulty to identify textual elements referring to the same entity, this task is called coreference. Solving this problem is an integral part of discourse comprehension since it allows language users to connect the pieces of speech information concerning to the same entity. Consequently, coreference resolution is a key task in natural language processing.Despite the large efforts of existing research, the current performance of coreference resolution systems has not reached a satisfactory level yet. In this work, we describe a structure learning system for unrestricted coreferencere solution that explores two techniques: latent coreference trees and automatic entropy-guided feature induction. The latent tree modeling makes the learning problem computationally feasible,since it incorporates are levant hidden structure. Additionally,using an automatic feature induction method, we can efciently build enhanced non-linear models using linear model learning algorithms, namely, the structure dandsparse perceptron algorithm. We evaluate the system on the CoNLL-2012 Shared Task closed track data set, for the English portion. The proposed system obtains a 62.24 per cent value on the competition s official score. This result is be low the 65.73 per cent, the state-of-the-art performance for this task. Nevertheless, our solution significantly reduces the time to obtain the clusters of adocument, since, our system takes 0.35 seconds per document in the testing set, while in the state-of-the-art, it takes 5 seconds for each one.
|
324 |
[en] NAMED ENTITY RECOGNITION FOR PORTUGUESE / [pt] RECONHECIMENTO DE ENTIDADES MENCIONADAS PARA O PORTUGUÊSDANIEL SPECHT SILVA MENEZES 13 December 2018 (has links)
[pt] A produção e acesso a quantidades imensas dados é um elemento pervasivo da era da informação. O volume de informação disponível é sem precedentes na história da humanidade e está sobre constante processo de expansão. Uma oportunidade que emerge neste ambiente é o desenvolvimento de aplicações que sejam capazes de estruturar conhecimento contido nesses dados. Neste contexto se encaixa a área de Processamento de Linguagem Natural (PLN) - Natural Language Processing (NLP) - , ser capaz de extrair informações estruturadas de maneira eficiente de fontes textuais. Um passo fundamental para esse fim é a tarefa de Reconhecimento de Entidades Mencionadas (ou nomeadas) - Named Entity Recognition (NER) - que consistem em delimitar e categorizar menções a entidades num texto. A construção de sistemas para NLP deve ser acompanhada de datasets que expressem o entendimento humano sobre as estruturas gramaticais de interesse, para que seja possível realizar a comparação dos resultados com o real
discernimento humano. Esses datasets são recursos escassos, que requerem esforço humano para sua produção. Atualmente, a tarefa de NER vem sendo abordada com sucesso por meio de redes neurais artificiais, que requerem conjuntos de dados anotados tanto para avaliação quanto para treino. A proposta deste trabalho é desenvolver um dataset de grandes dimensões para a tarefa de NER em português de maneira automatizada, minimizando a necessidade de intervenção humana. Utilizamos recursos públicos como fonte de dados, nominalmente o DBpedia e Wikipédia. Desenvolvemos uma metodologia para a construção do corpus e realizamos experimentos sobre o mesmo utilizando arquiteturas de redes neurais de melhores performances reportadas atualmente. Exploramos diversas modelos de redes neurais, explorando diversos valores de hiperparâmetros e propondo arquiteturas com o foco específico de incorporar fontes de dados diferentes para treino. / [en] The production and access of huge amounts of data is a pervasive element of the Information Age. The volume of availiable data is without precedents in human history and it s in constant expansion. An oportunity that emerges in this context is the development and usage of applicationos that are capable structuring the knowledge of data. In this context fits the Natural Language Processing, being able to extract information efficiently from textual data. A fundamental step for this goal is the task of Named Entity Recognition (NER) which delimits and categorizes the mentions to entities. The development o systems for NLP tasks must be accompanied by datasets produced by humans in order to compare the system with the human discerniment for the NLP task at hand. These datasets are a scarse resource which the construction is costly in terms of human supervision. Recentlly, the NER task has been approached using artificial network models which needs datsets for both training and evaluation. In this work we propose the construction of a datasets for portuguese NER with an automatic approach using public data sources structured according to the principles of SemanticWeb, namely, DBpedia and Wikipédia. A metodology for the construction of this dataset was developed and experiments were performed using both the built dataset and the neural network architectures with the best reported results. Many setups for the experiments were evaluated, we obtained preliminary results for diverse hiperparameters
values, also proposing architectures with the specific focus of incorporating diverse data sources for training.
|
325 |
Terminologia e tradução na localização de software : insumos para o processamento da linguagem naturalSilveira, Fausto Magalhães da January 2013 (has links)
Este trabalho centra-se no processo de QA (na sigla em inglês para quality assurance – ou garantia da qualidade em português) que é feito no setor da localização, visando a melhorar o trabalho do tradutor. Localização consiste em um processo e um campo de atuação profissio-nal que visam a adaptar produtos (geralmente de software) segundo o idioma e as convenções culturais de determinada localidade com o objetivo facilitar a entrada de um produto ou servi-ço em um país ou mercado. Com relação ao QA, uma de suas etapas consiste na validação da terminologia de um projeto de tradução. O QA terminológico envolve o uso de um software que verifica se a terminologia aplicável é usada na tradução. As ocorrências que o software considera incorretas são salvas em uma lista de validação terminológica, que é conferida nor-malmente por um tradutor ou editor. Itens que o tradutor considerar incorretos são corrigidos na tradução; os demais são descartados. Por ignorar aspectos linguísticos, o software gera muito ruído, ou falsos positivos, resultando em listas extensas, que não compensam o tempo dedicado a sua revisão. A fim de prover insumos para solucionar o problema, este trabalho emprega uma abordagem comunicativa, cognitiva e funcional à terminologia e à tradução para analisar uma lista de validação terminológica, em um projeto de localização real, no par de idiomas inglês dos Estados Unidos e português do Brasil. Para tal fim, foi gerada uma lista de validação por meio de um software de QA usado na área da localização. Ocorrências dessa lista foram analisadas e classificadas segundo critérios de base fraseológica, variacional e tra-dutória, além de morfológica e discursiva. O objetivo é oferecer subsídios que norteiem o desenvolvimento de aplicações computacionais linguisticamente motivadas que reduzam a incidência de ruído nestas listas. Os resultados mostram que a maior parte do ruído decorre de fatores linguísticos gerais, como morfológicos e discursivos, indicando também que 1/3 des-tes coocorrem com fenômenos fraseológicos, variacionais e tradutórios. / This paper focuses on the process of Quality Assurance (QA) that is undertaken by the Local-ization industry, aiming at improving the work of translators. Location consists of a process and a professional field whose purpose is to adapt goods or services (usually software-related) according to the language and cultural conventions of a particular locale in order to facilitate market penetration in a given country or market. One of the QA stages consists of validating the terminology on a translation project. The QA for terminology makes use of software to check if the applicable terminology is used in translation. Occurrences that the software iden-tifies as incorrect are saved in a list for terminology validation. The list is usually reviewed by a translator or an editor. The items considered incorrect by the translator are corrected in the translation, and the remaining entries are discarded. Because the software does not take lan-guage aspects into account, a good deal of noise is generated, resulting in large lists that are not cost-effective or time-efficient to review. With the purpose of providing input to solve the problem, this work employs a communicative, cognitive and functional approach to terminol-ogy and translation for the analysis of a terminology validation list in U.S. English and Brazil-ian Portuguese, on a genuine localization project. To complete this task, a list for validation was generated via a well-known QA software product used in the Localization field. Occur-rences from the generated list were analyzed and categorized according to phraseological, variational and translational criteria in addition to morphological and discursive criteria. The objective is providing input to drive the development of linguistically motivated computer applications that may reduce the incidence of noise on the lists. Results show that most of the noise is due to general linguistic factors, such as morphological and discourse aspects, also suggesting that 1/3 of that noise occurs simultaneously with phraseological, variational and translational phenomena.
|
326 |
Anotação semântica baseada em ontologia: um estudo do português brasileiro em documentos históricos do final do século XIXPereira, Juliana Wolf 01 July 2014 (has links)
Made available in DSpace on 2016-06-02T19:06:12Z (GMT). No. of bitstreams: 1
5898.pdf: 11774674 bytes, checksum: 3cc87530008d9b42c105781f8a1068a3 (MD5)
Previous issue date: 2014-07-01 / Financiadora de Estudos e Projetos / This dissertation presents an approach to proceed with semantic annotation in historical documents from the 19th century that discuss the constitution of the mother tongue, the Portuguese Language in Brazil. The objective is to generate a group of semantically annotated documents in agreement with a domain ontology. To provide this domain ontology, the IntrumentoLinguistico Ontology was built, and it supported the process of automatic semantic annotation. The results obtained with the annotation were analyzed in comparison with the Gold Standard and they presented an elevated level of coincidence, between 0.86 and 1.00 for the Fl-score measure. Besides that, it was possible to locate new documents about the discussed domain in a sample of the Revistas Brazileiras. These results prove the efficacy of the approach of automatic semantic annotation. / Esta dissertação apresenta uma abordagem de anotação semântica automática em documentos históricos do século XIX que discutem a constituição da língua pátria, a Língua Portuguesa no Brasil. O objetivo e gerar um conjunto de documentos semanticamente anotados em acordo com uma ontologia de domínio. Para prover essa ontologia de domínio, foi construída a Ontologia Instrumento Linguístico que apoiou o processo para a realização da anotação semântica automática. Os resultados obtidos com a anotação foram analisados em comparação com o Gold Standard e apresentaram alto grau de coincidência, entre 0.86 e 1.00 para a medida F1-Score. Além disso, foi possível localizar novos documentos sobre o domínio discutido em uma amostra das Revistas Brazileiras. Esses resultados comprovam a eficácia da abordagem de anotação semântica automática.
|
327 |
Máquinas de classificação para detectar polaridade de mensagens de texto em redes sociais / Sentiment analysis on social networks using ensemblesVon Lochter, Johannes 18 November 2015 (has links)
Submitted by Milena Rubi (milenarubi@ufscar.br) on 2016-10-17T13:16:57Z
No. of bitstreams: 1
LOCHTER_Johannes_2015.pdf: 611113 bytes, checksum: 55a3009a4bb5c0fe9f30edf98fe0bc77 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2016-10-17T13:17:13Z (GMT) No. of bitstreams: 1
LOCHTER_Johannes_2015.pdf: 611113 bytes, checksum: 55a3009a4bb5c0fe9f30edf98fe0bc77 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2016-10-17T13:17:24Z (GMT) No. of bitstreams: 1
LOCHTER_Johannes_2015.pdf: 611113 bytes, checksum: 55a3009a4bb5c0fe9f30edf98fe0bc77 (MD5) / Made available in DSpace on 2016-10-17T13:17:36Z (GMT). No. of bitstreams: 1
LOCHTER_Johannes_2015.pdf: 611113 bytes, checksum: 55a3009a4bb5c0fe9f30edf98fe0bc77 (MD5)
Previous issue date: 2015-11-18 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / The popularity of social networks have attracted attention of companies. The growing amount of connected users and messages posted per day make these environments fruitful to detect needs, tendencies, opinions, and other interesting information that can feed marketing and sales departments. However, the most social networks impose size limit to messages, which lead users to compact them by using abbreviations, slangs, and symbols. Recent works in literature have reported advances in minimizing the impact created by noisy messages in text categorization tasks by means of semantic dictionaries and ontology models. They are used to normalize and expand short and messy text messages before using them with a machine learning approach. In this way, we have proposed an ensemble of machine learning methods and natural language processing techniques to find the best way to combine text processing approaches with classification methods to automatically detect opinion in short english text messages. Our experiments were diligently designed to ensure statistically sound results, which indicate that the proposed system has achieved a performance higher than the individual established classifiers. / A popularidade das redes sociais tem atraído a atenção das empresas. O crescimento do número de usuários e das mensagens enviadas por dia transforma esse ambiente em uma rica fonte de informações para descoberta de necessidades, tendências, opiniões e outras informações que podem auxiliar departamentos de vendas e marketing. Contudo,a maioria das redes sociais impõe limite no tamanho das mensagens, o que leva os usuários a usarem abreviações e gírias para compactarem o texto. Trabalhos na literatura demonstraram avanço na minimização do impacto de mensagens ruidosas nas tarefas de categorização textual através da utilização de dicionários semânticos e modelos ontológicos. Com a aplicação destes, as amostras são normalizadas e expandidas antes de serem apresentadas aos métodos preditivos. Assim, nesta dissertação é proposto um comitê de máquinas de classificação utilizando técnicas de processamento de linguagem natural para detectar opiniões automaticamente em mensagens curtas de texto em inglês. Os resulta-dos apresentados foram validados estatisticamente e indicaram que o sistema proposto obteve capacidade preditiva superior aos métodos preditivos isolados.
|
328 |
Normalização textual e indexação semântica aplicadas da filtragem de SMS spam / Texto normalization and semantic indexing to enhance SMS spam filteringSilva, Tiago Pasqualini da 01 July 2016 (has links)
Submitted by Milena Rubi (milenarubi@ufscar.br) on 2017-06-01T17:49:19Z
No. of bitstreams: 1
SILVA_Tiago_2016.pdf: 13631569 bytes, checksum: 7774c3913aa556cc48c0669f686cd3b5 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-06-01T17:49:26Z (GMT) No. of bitstreams: 1
SILVA_Tiago_2016.pdf: 13631569 bytes, checksum: 7774c3913aa556cc48c0669f686cd3b5 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-06-01T17:49:32Z (GMT) No. of bitstreams: 1
SILVA_Tiago_2016.pdf: 13631569 bytes, checksum: 7774c3913aa556cc48c0669f686cd3b5 (MD5) / Made available in DSpace on 2017-06-01T17:49:38Z (GMT). No. of bitstreams: 1
SILVA_Tiago_2016.pdf: 13631569 bytes, checksum: 7774c3913aa556cc48c0669f686cd3b5 (MD5)
Previous issue date: 2016-07-01 / Não recebi financiamento / The rapid popularization of smartphones has contributed to the growth of SMS usage as an alternative way of communication. The increasing number of users, along with the trust they inherently have in their devices, makes SMS messages a propitious environment for spammers. In fact, reports clearly indicate that volume of mobile phone spam is dramatically increasing year by year. SMS spam represents a challenging problem for traditional filtering methods nowadays, since such messages are usually fairly short and normally rife with slangs, idioms, symbols and acronyms that make even tokenization a difficult task. In this scenario, this thesis proposes and then evaluates a method to normalize and expand original short and messy SMS text messages in order to acquire better attributes and enhance the classification performance. The proposed text processing approach is based on lexicography and semantic dictionaries along with the state-of-the-art techniques for semantic analysis and context detection. This technique is used to normalize terms and create new attributes in order to change and expand original text samples aiming to alleviate factors that can degrade the algorithms performance, such as redundancies and inconsistencies. The approach was validated with a public, real and non-encoded dataset along with several established machine learning methods. The experiments were diligently designed to ensure statistically sound results which indicate that the proposed text processing techniques can in fact enhance SMS spam filtering. / A popularização dos smartphones contribuiu para o crescimento do uso de mensagens SMS como forma alternativa de comunicação. O crescente número de usuários, aliado à confiança que eles possuem nos seus dispositivos tornam as mensagem SMS um ambiente propício aos spammers. Relatórios recentes indicam que o volume de spam enviados via SMS está aumentando vertiginosamente nos últimos anos. SMS spam representa um problema desafiador para os métodos tradicionais de detecção de spam, uma vez que essas mensagens são curtas e geralmente repletas de gírias, símbolos, abreviações e emoticons, que torna até mesmo a tokenização uma tarefa difícil. Diante desse cenário, esta dissertação propõe e avalia um método para normalizar e expandir amostras curtas e ruidosas de mensagens SMS de forma a obter atributos mais representativos e, com isso, melhorar o desempenho geral na tarefa de classificação. O método proposto é baseado em dicionários lexicográficos e semânticos e utiliza técnicas modernas de análise semântica e detecção de contexto. Ele é empregado para normalizar os termos que compõem as mensagens e criar novos atributos para alterar e expandir as amostras originais de texto com o objetivo de mitigar fatores que podem degradar o desempenho dos métodos de classificação, tais como redundâncias e inconsistências. A proposta foi avaliada usando uma base de dados real, pública e não codificada, além de vários métodos consagrados de aprendizado de máquina. Os experimentos foram conduzidos para garantir resultados estatisticamente corretos e indicaram que o método proposto pode de fato melhorar a detecção de spam em SMS.
|
329 |
Atribuição automática de autoria de obras da literatura brasileira / Atribuição automática de autoria de obras da literatura brasileiraNobre Neto, Francisco Dantas 19 January 2010 (has links)
Made available in DSpace on 2015-05-14T12:36:48Z (GMT). No. of bitstreams: 1
arquivototal.pdf: 1280792 bytes, checksum: d335d67b212e054f48f0e8bca0798fe5 (MD5)
Previous issue date: 2010-01-19 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Authorship attribution consists in categorizing an unknown document among
some classes of authors previously selected. Knowledge about authorship of a
text can be useful when it is required to detect plagiarism in any literary
document or to properly give the credits to the author of a book. The most
intuitive form of human analysis of a text is by selecting some characteristics
that it has. The study of selecting attributes in any written document, such as
average word length and vocabulary richness, is known as stylometry. For
human analysis of an unknown text, the authorship discovery can take months,
also becoming tiring activity. Some computational tools have the functionality of
extracting such characteristics from the text, leaving the subjective analysis to
the researcher. However, there are computational methods that, in addition to
extract attributes, make the authorship attribution, based in the characteristics
gathered in the text. Techniques such as neural network, decision tree and
classification methods have been applied to this context and presented results
that make them relevant to this question. This work presents a data
compression method, Prediction by Partial Matching (PPM), as a solution of the
authorship attribution problem of Brazilian literary works. The writers and works
selected to compose the authors database were, mainly, by their representative
in national literature. Besides, the availability of the books has also been
considered. The PPM performs the authorship identification without any
subjective interference in the text analysis. This method, also, does not make
use of attributes presents in the text, differently of others methods. The correct
classification rate obtained with PPM, in this work, was approximately 93%,
while related works exposes a correct rate between 72% and 89%. In this work,
was done, also, authorship attribution with SVM approach. For that, were
selected attributes in the text divided in two groups, one word based and other in
function-words frequency, obtaining a correct rate of 36,6% and 88,4%,
respectively. / Atribuição de autoria consiste em categorizar um documento desconhecido
dentre algumas classes de autores previamente selecionadas. Saber a autoria
de um texto pode ser útil quando é necessário detectar plágio em alguma obra
literária ou dar os devidos créditos ao autor de um livro. A forma mais intuitiva
ao ser humano para se analisar um texto é selecionando algumas
características que ele possui. O estudo de selecionar atributos em um
documento escrito, como tamanho médio das palavras e riqueza vocabular, é
conhecido como estilometria. Para análise humana de um texto desconhecido,
descobrir a autoria pode demandar meses, além de se tornar uma tarefa
cansativa. Algumas ferramentas computacionais têm a funcionalidade de extrair
tais características do texto, deixando a análise subjetiva para o pesquisador.
No entanto, existem métodos computacionais que, além de extrair atributos,
atribuem a autoria baseado nas características colhidas ao longo do texto.
Técnicas como redes neurais, árvores de decisão e métodos de classificação já
foram aplicados neste contexto e apresentaram resultados que os tornam
relevantes para tal questão. Este trabalho apresenta um método de compressão
de dados, o Prediction by Partial Matching (PPM), para solução do problema de
atribuição de autoria de obras da literatura brasileira. Os escritores e obras
selecionados para compor o banco de autores se deram, principalmente, pela
representatividade que possuem na literatura nacional. Além disso, a
disponibilidade dos livros em formato eletrônico também foi considerada. O
PPM realiza a identificação de autoria sem ter qualquer interferência subjetiva
na análise do texto. Este método, também, não faz uso de atributos presentes
ao longo do texto, diferentemente de outros métodos. A taxa de classificação
correta alcançada com o PPM, neste trabalho, foi de aproximadamente 93%,
enquanto que trabalhos relacionados mostram uma taxa de acerto entre 72% e
89%. Neste trabalho, também foi realizado atribuição de autoria com a
abordagem SVM. Para isso, foram selecionados atributos no texto dividido em
dois tipos, sendo um baseado em palavras e o outro na contagem de palavrasfunção,
obtendo uma taxa de acerto de 36,6% e 88,4%, respectivamente.
|
330 |
Terminologia e tradução na localização de software : insumos para o processamento da linguagem naturalSilveira, Fausto Magalhães da January 2013 (has links)
Este trabalho centra-se no processo de QA (na sigla em inglês para quality assurance – ou garantia da qualidade em português) que é feito no setor da localização, visando a melhorar o trabalho do tradutor. Localização consiste em um processo e um campo de atuação profissio-nal que visam a adaptar produtos (geralmente de software) segundo o idioma e as convenções culturais de determinada localidade com o objetivo facilitar a entrada de um produto ou servi-ço em um país ou mercado. Com relação ao QA, uma de suas etapas consiste na validação da terminologia de um projeto de tradução. O QA terminológico envolve o uso de um software que verifica se a terminologia aplicável é usada na tradução. As ocorrências que o software considera incorretas são salvas em uma lista de validação terminológica, que é conferida nor-malmente por um tradutor ou editor. Itens que o tradutor considerar incorretos são corrigidos na tradução; os demais são descartados. Por ignorar aspectos linguísticos, o software gera muito ruído, ou falsos positivos, resultando em listas extensas, que não compensam o tempo dedicado a sua revisão. A fim de prover insumos para solucionar o problema, este trabalho emprega uma abordagem comunicativa, cognitiva e funcional à terminologia e à tradução para analisar uma lista de validação terminológica, em um projeto de localização real, no par de idiomas inglês dos Estados Unidos e português do Brasil. Para tal fim, foi gerada uma lista de validação por meio de um software de QA usado na área da localização. Ocorrências dessa lista foram analisadas e classificadas segundo critérios de base fraseológica, variacional e tra-dutória, além de morfológica e discursiva. O objetivo é oferecer subsídios que norteiem o desenvolvimento de aplicações computacionais linguisticamente motivadas que reduzam a incidência de ruído nestas listas. Os resultados mostram que a maior parte do ruído decorre de fatores linguísticos gerais, como morfológicos e discursivos, indicando também que 1/3 des-tes coocorrem com fenômenos fraseológicos, variacionais e tradutórios. / This paper focuses on the process of Quality Assurance (QA) that is undertaken by the Local-ization industry, aiming at improving the work of translators. Location consists of a process and a professional field whose purpose is to adapt goods or services (usually software-related) according to the language and cultural conventions of a particular locale in order to facilitate market penetration in a given country or market. One of the QA stages consists of validating the terminology on a translation project. The QA for terminology makes use of software to check if the applicable terminology is used in translation. Occurrences that the software iden-tifies as incorrect are saved in a list for terminology validation. The list is usually reviewed by a translator or an editor. The items considered incorrect by the translator are corrected in the translation, and the remaining entries are discarded. Because the software does not take lan-guage aspects into account, a good deal of noise is generated, resulting in large lists that are not cost-effective or time-efficient to review. With the purpose of providing input to solve the problem, this work employs a communicative, cognitive and functional approach to terminol-ogy and translation for the analysis of a terminology validation list in U.S. English and Brazil-ian Portuguese, on a genuine localization project. To complete this task, a list for validation was generated via a well-known QA software product used in the Localization field. Occur-rences from the generated list were analyzed and categorized according to phraseological, variational and translational criteria in addition to morphological and discursive criteria. The objective is providing input to drive the development of linguistically motivated computer applications that may reduce the incidence of noise on the lists. Results show that most of the noise is due to general linguistic factors, such as morphological and discourse aspects, also suggesting that 1/3 of that noise occurs simultaneously with phraseological, variational and translational phenomena.
|
Page generated in 0.0735 seconds