Spelling suggestions: "subject:"text aprocessing"" "subject:"text eprocessing""
81 |
Atribuição de perfis de autoria / Author profilingWeren, Edson Roberto Duarte January 2014 (has links)
A identificação de perfis de autoria visa classificar os textos com base nas escolhas estilísticas de seus autores. A ideia é descobrir as características dos autores dos textos. Esta tarefa tem uma importância crescente em análise forense, segurança e marketing. Neste trabalho, nos concentramos em descobrir a idade e o gênero dos autores de blogs. Com este objetivo em mente, analisamos um grande número de atributos - que variam de recuperação de informação até análise de sentimento. Esta dissertação relata a utilidade desses atributos. Uma avaliação experimental em um corpus com mais de 236K posts de blogs mostrou que um classificador usando os atributos explorados aqui supera o estado-da arte. Mais importante ainda, as experiências mostram que os atributos oriundos de recuperação de informação propostos neste trabalho são os mais discriminativos e produzem as melhores previsões. / Authorship analysis aims at classifying texts based on the stylistic choices of their authors. The idea is to discover characteristics of the authors of the texts. This task has a growing importance in forensics, security, and marketing. In this work, we focus on discovering age and gender from blog authors. With this goal in mind, we analyzed a large number of features – ranging from Information Retrieval to Sentiment Analysis. This paper reports on the usefulness of these features. Experiments on a corpus of over 236K blogs show that a classifier using the features explored here have outperformed the stateof- the art. More importantly, the experiments show that the Information Retrieval features proposed in our work are the most discriminative and yield the best class predictions.
|
82 |
Novel symbolic and machine-learning approaches for text-based and multimodal sentiment analysisPoria, Soujanya January 2017 (has links)
Emotions and sentiments play a crucial role in our everyday lives. They aid decision-making, learning, communication, and situation awareness in human-centric environments. Over the past two decades, researchers in artificial intelligence have been attempting to endow machines with cognitive capabilities to recognize, infer, interpret and express emotions and sentiments. All such efforts can be attributed to affective computing, an interdisciplinary field spanning computer science, psychology, social sciences and cognitive science. Sentiment analysis and emotion recognition has also become a new trend in social media, avidly helping users understand opinions being expressed on different platforms in the web. In this thesis, we focus on developing novel methods for text-based sentiment analysis. As an application of the developed methods, we employ them to improve multimodal polarity detection and emotion recognition. Specifically, we develop innovative text and visual-based sentiment-analysis engines and use them to improve the performance of multimodal sentiment analysis. We begin by discussing challenges involved in both text-based and multimodal sentiment analysis. Next, we present a number of novel techniques to address these challenges. In particular, in the context of concept-based sentiment analysis, a paradigm gaining increasing interest recently, it is important to identify concepts in text; accordingly, we design a syntaxbased concept-extraction engine. We then exploit the extracted concepts to develop conceptbased affective vector space which we term, EmoSenticSpace. We then use this for deep learning-based sentiment analysis, in combination with our novel linguistic pattern-based affective reasoning method termed sentiment flow. Finally, we integrate all our text-based techniques and combine them with a novel deep learning-based visual feature extractor for multimodal sentiment analysis and emotion recognition. Comparative experimental results using a range of benchmark datasets have demonstrated the effectiveness of the proposed approach.
|
83 |
Atribuição de perfis de autoria / Author profilingWeren, Edson Roberto Duarte January 2014 (has links)
A identificação de perfis de autoria visa classificar os textos com base nas escolhas estilísticas de seus autores. A ideia é descobrir as características dos autores dos textos. Esta tarefa tem uma importância crescente em análise forense, segurança e marketing. Neste trabalho, nos concentramos em descobrir a idade e o gênero dos autores de blogs. Com este objetivo em mente, analisamos um grande número de atributos - que variam de recuperação de informação até análise de sentimento. Esta dissertação relata a utilidade desses atributos. Uma avaliação experimental em um corpus com mais de 236K posts de blogs mostrou que um classificador usando os atributos explorados aqui supera o estado-da arte. Mais importante ainda, as experiências mostram que os atributos oriundos de recuperação de informação propostos neste trabalho são os mais discriminativos e produzem as melhores previsões. / Authorship analysis aims at classifying texts based on the stylistic choices of their authors. The idea is to discover characteristics of the authors of the texts. This task has a growing importance in forensics, security, and marketing. In this work, we focus on discovering age and gender from blog authors. With this goal in mind, we analyzed a large number of features – ranging from Information Retrieval to Sentiment Analysis. This paper reports on the usefulness of these features. Experiments on a corpus of over 236K blogs show that a classifier using the features explored here have outperformed the stateof- the art. More importantly, the experiments show that the Information Retrieval features proposed in our work are the most discriminative and yield the best class predictions.
|
84 |
Atribuição de perfis de autoria / Author profilingWeren, Edson Roberto Duarte January 2014 (has links)
A identificação de perfis de autoria visa classificar os textos com base nas escolhas estilísticas de seus autores. A ideia é descobrir as características dos autores dos textos. Esta tarefa tem uma importância crescente em análise forense, segurança e marketing. Neste trabalho, nos concentramos em descobrir a idade e o gênero dos autores de blogs. Com este objetivo em mente, analisamos um grande número de atributos - que variam de recuperação de informação até análise de sentimento. Esta dissertação relata a utilidade desses atributos. Uma avaliação experimental em um corpus com mais de 236K posts de blogs mostrou que um classificador usando os atributos explorados aqui supera o estado-da arte. Mais importante ainda, as experiências mostram que os atributos oriundos de recuperação de informação propostos neste trabalho são os mais discriminativos e produzem as melhores previsões. / Authorship analysis aims at classifying texts based on the stylistic choices of their authors. The idea is to discover characteristics of the authors of the texts. This task has a growing importance in forensics, security, and marketing. In this work, we focus on discovering age and gender from blog authors. With this goal in mind, we analyzed a large number of features – ranging from Information Retrieval to Sentiment Analysis. This paper reports on the usefulness of these features. Experiments on a corpus of over 236K blogs show that a classifier using the features explored here have outperformed the stateof- the art. More importantly, the experiments show that the Information Retrieval features proposed in our work are the most discriminative and yield the best class predictions.
|
85 |
O papel do processo inferencial na compreensão de textos escritos / The role of the inferential process in written texts comprehensionMachado, Marco Antônio Rosa 20 December 2005 (has links)
Orientador: Anna Christina Bentes da Silva / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem / Made available in DSpace on 2018-08-06T07:27:22Z (GMT). No. of bitstreams: 1
Machado_MarcoAntonioRosa_M.pdf: 713668 bytes, checksum: e4135fa185cb3aa8cada00ae49c2d208 (MD5)
Previous issue date: 2005 / Resumo: Esta dissertação investiga o processo de compreensão de textos escritos, focalizando mais especificamente o processo de geração de inferências realizado pelos leitores. Para isso investigamos as inferências que alunas do curso de Letras fazem (em comentários escritos) a partir de um texto literário narrativo. O corpus analisado neste trabalho é constituído por comentários escritos produzidos por alunas do segundo ano do curso de Letras de uma universidade pública do interior de Goiás, feitos a partir de três contatos (audição, leitura e comentário/leitura) com um texto literário narrativo: o conto ¿A gaivota¿, de Augusta Faro. Partimos do pressuposto de que a compreensão de textos depende tanto dos processos de decodificação como da realização de inferências, pois acreditamos ser muito difícil haver compreensão sem inferências. Inferência é tomada aqui como uma estratégia cognitiva pela qual o leitor gera uma informação semântica nova, a partir de uma informação semântica dada, em um determinado contexto. Tendo isto em mente, buscamos investigar (i) quais inferências são produzidas ao longo dos comentários escritos, considerando os diferentes contextos - audição/leitura - de recepção de um texto literário escrito; (ii) de que forma a exibição desta ¿competência inferencial¿ por parte destes sujeitos relaciona-se aos diferentes tipos de contexto. Além disso, buscamos relacionar o processo de compreensão dos elementos constitutivos da narrativa e as inferências realizadas nos comentários dos sujeitos. Percebemos que o processo inferencial está relacionado tanto aos esquemas mentais dos sujeitos como ao seu contexto pessoal, de modo que, utilizando-se destas duas fontes de informação extratextual, os sujeitos buscam estabelecer o sentido do texto com a realização de inferências lógicas, informativas e elaborativas. E, no caso específico do conto utilizado em nossa pesquisa, percebemos que as inferências giraram em torno dos elementos constitutivos desta narrativa, especialmente da personagem e da ação / Abstract: This dissertation examines the process of written texts comprehension, focusing specifically on the readers¿ production of inferences. We investigate the inferences that Languages undergraduate students make (in terms of written comments) from a literary narrative text. The analyzed corpus comprises written comments made by undergraduate students of the second year of the Language course at a State University from the countryside of Goiás. The comments were uttered from three types of contact (listening, reading and commenting/reading) with a literary narrative text: the short story ¿A gaivota¿, by Augusta Faro. We depart from the assumption that the comprehension of texts depends both on processes of decoding and inferring, regarding that there must not be comprehension if one draws no inferences. Inference is conceived here as a cognitive strategy by which the reader generates new semantic information, from a given piece of semantic information, in a given context. Thus, we intend to depict (i) which inferences are made (in terms of written comments) in different contexts (listening/reading), after reading a literary written text and (ii) in which terms the fact of such subjects display a ¿inferential competence¿ has to do to the different kinds of contexts. Besides, we intend to relate the process of comprehension of narrative text constitutive elements and the inferences made in the subjects¿ comments. We realized that the inferential process relates both to the subjects¿ mental schemes and to their personal context, so that the subjects, once based on these two sources of extra-textual information, engage on giving meaning to the text by making logical, informative and elaborative inferences. And, in the specific case of the short story applied to the research, we realized that the inferences encompass the constitutive elements of such narrative, specially the character and the action / Mestrado / Mestre em Linguística
|
86 |
Classificação de textos com redes complexas / Using complex networks to classify textsDiego Raphael Amancio 29 October 2013 (has links)
A classificação automática de textos em categorias pré-estabelecidas tem despertado grande interesse nos últimos anos devido à necessidade de organização do número crescente de documentos. A abordagem dominante para classificação é baseada na análise de conteúdo dos textos. Nesta tese, investigamos a aplicabilidade de atributos de estilo em tarefas tradicionais de classificação, usando a modelagem de textos como redes complexas, em que os vértices representam palavras e arestas representam relações de adjacência. Estudamos como métricas topológicas podem ser úteis no processamento de línguas naturais, sendo a tarefa de classificação apoiada por métodos de aprendizado de máquina, supervisionado e não supervisionado. Um estudo detalhado das métricas topológicas revelou que várias delas são informativas, por permitirem distinguir textos escritos em língua natural de textos com palavras distribuídas aleatoriamente. Mostramos também que a maioria das medidas de rede depende de fatores sintáticos, enquanto medidas de intermitência são mais sensíveis à semântica. Com relação à aplicabilidade da modelagem de textos como redes complexas, mostramos que existe uma dependência significativa entre estilo de autores e topologia da rede. Para a tarefa de reconhecimento de autoria de 40 romances escritos por 8 autores, uma taxa de acerto de 65% foi obtida com métricas de rede e intermitência de palavras. Ainda na análise de estilo, descobrimos que livros pertencentes ao mesmo estilo literário tendem a possuir estruturas topológicas similares. A modelagem de textos como redes também foi útil para discriminar sentidos de palavras ambíguas, a partir apenas de informação topológica dos vértices, evidenciando uma relação não trivial entre sintaxe e semântica. Para algumas palavras, a discriminação com redes complexas foi ainda melhor que a estratégia baseada em padrões de recorrência contextual de palavras polissêmicas. Os estudos desenvolvidos nesta tese confirmam que aspectos de estilo e semânticos influenciam na organização estrutural de conceitos em textos modelados como rede. Assim, a modelagem de textos como redes de adjacência de palavras pode ser útil não apenas para entender mecanismos fundamentais da linguagem, mas também para aperfeiçoar aplicações reais quando combinada com métodos tradicionais de processamento de texto. / The automatic classification of texts in pre-established categories is drawing increasing interest owing to the need to organize the ever growing number of electronic documents. The prevailing approach for classification is based on analysis of textual contents. In this thesis, we investigate the applicability of attributes based on textual style using the complex network (CN) representation, where nodes represent words and edges are adjacency relations. We studied the suitability of CN measurements for natural language processing tasks, with classification being assisted by supervised and unsupervised machine learning methods. A detailed study of topological measurements in texts revealed that several measurements are informative in the sense that they are able to distinguish meaningful from shuffled texts. Moreover, most measurements depend on syntactic factors, while intermittency measurements are more sensitive to semantic factors. As for the use of the CN model in practical scenarios, there is significant correlation between authors style and network topology. We achieved an accuracy rate of 65% in discriminating eight authors of novels with the use of network and intermittency measurements. During the stylistic analysis, we also found that books belonging to the same literary movement could be identified from their similar topological features. The network model also proved useful for disambiguating word senses. Upon employing only topological information to characterize nodes representing polysemous words, we found a strong relationship between syntax and semantics. For several words, the CN approach performed surprisingly better than the method based on recurrence patterns of neighboring words. The studies carried out in this thesis confirm that stylistic and semantic aspects play a crucial role in the structural organization of word adjacency networks. The word adjacency model investigated here might be useful not only to provide insight into the underlying mechanisms of the language, but also to enhance the performance of real applications implementing both CN and traditional approaches.
|
87 |
Detecção rápida de legendas em vídeos utilizando o ritmo visual / Fast video caption detection based on visual rhythmValio, Felipe Braunger, 1984- 19 August 2018 (has links)
Orientadores: Neucimar Jerônimo Leite, Hélio Pedrini / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-19T05:52:55Z (GMT). No. of bitstreams: 1
Valio_FelipeBraunger_M.pdf: 3505580 bytes, checksum: 3b20a046a5822011c617729904457d95 (MD5)
Previous issue date: 2011 / Resumo: Detecção de textos em imagens é um problema que vem sendo estudado a várias décadas. Existem muitos trabalhos que estendem os métodos existentes para uso em análise de vídeos, entretanto, poucos deles criam ou adaptam abordagens que consideram características inerentes dos vídeos, como as informações temporais. Um problema particular dos vídeos, que será o foco deste trabalho, é o de detecção de legendas. Uma abordagem rápida para localizar quadros de vídeos que contenham legendas é proposta baseada em uma estrutura de dados especial denominada ritmo visual. O método é robusto à detecção de legendas com respeito ao alfabeto utilizado, ao estilo de fontes, à intensidade de cores e à orientação das legendas. Vários conjuntos de testes foram utilizados em nosso experimentos para demonstrar a efetividade do método / Abstract: Detection of text in images is a problem that has been studied for several decades. There are many works that extend the existing methods for use in video analysis, however, few of them create or adapt approaches that consider the inherent characteristics of video, such as temporal information. A particular problem of the videos, which will be the focus of this work, is the detection of subtitles. A fast method for locating video frames containing captions is proposed based on a special data structure called visual rhythm. The method is robust to the detection of legends with respect to the used alphabet, font style, color intensity and subtitle orientation. Several datasets were used in our experiments to demonstrate the effectiveness of the method / Mestrado / Ciência da Computação / Mestre em Ciência da Computação
|
88 |
Text grammar and text processing: a cognitivist approachNyns, Roland January 1989 (has links)
Doctorat en philosophie et lettres / info:eu-repo/semantics/nonPublished
|
89 |
And the winner is... The presence of political slant in the movie production / And the winner is... The presence of political slant in the movie productionSelep, Ján January 2013 (has links)
I study movie studio profit maximization based on an optimization of a political language in the dialogues. I explore the flexibility with which a rational firm slants language of its movies in order to get closer either to a Democratic or a Republican customer. Using computational linguistics I construct vectors of phrase frequency distribution based on a text of almost a decade of U.S. Congress transcripts and 457 randomly chosen movie subtitles. In order to measure distance between the phrase vectors I use chi square statistics and its Monte Carlo approximation. I find no evidence of political slant in movies neither in a movie studio comparison nor for a time-varying comparison of movies in different years. In addition I construct a slant index covering level of political language in a movie. Using the index I find no evidence of impact of political language on movie revenues.
|
90 |
Multiple Entity ReconciliationSamoila, Lavinia Andreea January 2015 (has links)
Living in the age of "Big Data" is both a blessing and a curse. On he one hand, the raw data can be analysed and then used for weather redictions, user recommendations, targeted advertising and more. On he other hand, when data is aggregated from multiple sources, there is no guarantee that each source has stored the data in a standardized or even compatible format to what is required by the application. So there is a need to parse the available data and convert it to the desired form. Here is where the problems start to arise: often the correspondences are not quite so straightforward between data instances that belong to the same domain, but come from different sources. For example, in the film industry, information about movies (cast, characters, ratings etc.) can be found on numerous websites such as IMDb or Rotten Tomatoes. Finding and matching all the data referring to the same movie is a challenge. The aim of this project is to select the most efficient algorithm to correlate movie related information gathered from various websites automatically. We have implemented a flexible application that allows us to make the performance comparison of multiple algorithms based on machine learning techniques. According to our experimental results, a well chosen set of rules is on par with the results from a neural network, these two proving to be the most effective classifiers for records with movie information as content.
|
Page generated in 0.0681 seconds