Global ETD Search

1	Class-test: classificação automática de testes para auxíio à criação de suítes de teste de Souza Lima, Leonardo 31 January 2009 (has links) Made available in DSpace on 2014-06-12T15:53:09Z (GMT). No. of bitstreams: 2 arquivo1903_1.pdf: 918157 bytes, checksum: 0dfd55458968c90c309a4c7e189c25fe (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2009 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Este trabalho apresenta o Class-Test, uma ferramenta idealizada para auxiliar os profissionais de testes na criação de suítes de testes extensas. Em geral, as suítes de testes devem conter um determinado número de testes de cada tipo (e.g., testes negativos, testes de fronteira, testes de interação, etc), número este fixado pelo engenheiros/designers de testes da empresa. Um dos maiores problemas enfrentados pelos testadores para montar essas suítes é o tempo gasto na categorização manual dos testes pré-selecionados para compor suítes extensas (com 1.000 testes, por exemplo). O Class-Test é uma ferramenta para classificação automática de casos de testes, que visa diminuir o esforço e o tempo gasto no processo de categorização dos testes. A ferramenta foi construída com base em técnicas de Aprendizagem de Máquina, em particular, da área de Categorização de Texto. Três classificadores automáticos foram construídos utilizando-se um corpus composto por 879 casos de testes, com a distribuição de 191 casos de testes do tipo Fronteira (Test Boundary), 338 do tipo Negativo (Test Negative), e 350 do tipo interação (Test Interaction). Cada classificador é especializado em apenas um desses três tipos de teste. Foi necessário criar três classificadores porque alguns casos de teste podem ser associados a mais de uma classe de teste ao mesmo tempo. Foram realizados dois estudos de casos. O primeiro estudo teve como objetivo avaliar, dentre os quatro algoritmos de aprendizagem selecionados, qual apresentava melhor precisão para o corpus em questão. O algoritmo SVM Máquina de Vetores de Suporte apresentou melhor desempenho nesse estudo. O segundo estudo de caso visou comparar a precisão da categorização automática versus a categorização manual, este experimento será mostrado com mais detalhes no capítulo 5. Este trabalho é parte do projeto Test Research Project do CIn/BTC, que está sendo desenvolvido em uma parceria entre o CIn-UFPE e a Motorola. O propósito geral desse projeto é automatizar a geração, seleção e avaliação de casos de teste para aplicações de telefonia móvel Engenharia de Software Teste de software Aprendizagem de Máquina Categorização de texto
2	Modelos de tópicos na classificação automática de resenhas de usuários. / Topic models in user review automatic classification. Mauá, Denis Deratani 14 August 2009 (has links) Existe um grande número de resenhas de usuário na internet contendo valiosas informações sobre serviços, produtos, política e tendências. A compreensão automática dessas opiniões é não somente cientificamente interessante, mas potencialmente lucrativa. A tarefa de classificação de sentimentos visa a extração automática das opiniões expressas em documentos de texto. Diferentemente da tarefa mais tradicional de categorização de textos, na qual documentos são classificados em assuntos como esportes, economia e turismo, a classificação de sentimentos consiste em anotar documentos com os sentimentos expressos no texto. Se comparados aos classificadores tradicionais, os classificadores de sentimentos possuem um desempenho insatisfatório. Uma das possíveis causas do baixo desempenho é a ausência de representações adequadas que permitam a discriminação das opiniões expressas de uma forma concisa e própria para o processamento de máquina. Modelos de tópicos são modelos estatísticos que buscam extrair informações semânticas ocultas na grande quantidade de dados presente em coleções de texto. Eles representam um documento como uma mistura de tópicos, onde cada tópico é uma distribuição de probabilidades sobre palavras. Cada distribuição representa um conceito semântico implícito nos dados. Modelos de tópicos, as palavras são substituídas por tópicos que representam seu significado de forma sucinta. De fato, os modelos de tópicos realizam uma redução de dimensionalidade nos dados que pode levar a um aumento do desempenho das técnicas de categorização de texto e recuperação de informação. Na classificação de sentimentos, eles podem fornecer a representação necessária através da extração de tópicos que representem os sentimentos expressos no texto. Este trabalho dedica-se ao estudo da aplicação de modelos de tópicos na representação e classificação de sentimentos de resenhas de usuário. Em particular, o modelo Latent Dirichlet Allocation (LDA) e quatro extensões (duas delas desenvolvidas pelo autor) são avaliados na tarefa de classificação de sentimentos baseada em múltiplos aspectos. As extensões ao modelo LDA permitem uma investigação dos efeitos da incorporação de informações adicionais como contexto, avaliações de aspecto e avaliações de múltiplos aspectos no modelo original. / There is a large number of user reviews on the internet with valuable information on services, products, politics and trends. There is both scientific and economic interest in the automatic understanding of such data. Sentiment classification is concerned with automatic extraction of opinions expressed in user reviews. Unlike standard text categorization tasks that deal with the classification of documents into subjects such as sports, economics and tourism, sentiment classification attempts to tag documents with respect to the feelings they express. Compared to the accuracy of standard methods, sentiment classifiers have shown poor performance. One possible cause of such a poor performance is the lack of adequate representations that lead to opinion discrimination in a concise and machine-readable form. Topic Models are statistical models concerned with the extraction of semantic information hidden in the large number of data available in text collections. They represent a document as a mixture of topics, probability distributions over words that represent a semantic concept. According to Topic Model representation, words can be substituted by topics able to represent concisely its meaning. Indeed, Topic Models perform a data dimensionality reduction that can improve the performance of text classification and information retrieval techniques. In sentiment classification, they can provide the necessary representation by extracting topics that represent the general feelings expressed in text. This work presents a study of the use of Topic Models for representing and classifying user reviews with respect to their feelings. In particular, the Latent Dirichlet Allocation (LDA) model and four extensions (two of them developed by the author) are evaluated on the task of aspect-based sentiment classification. The extensions to the LDA model enables us to investigate the effects of the incorporation of additional information such as context, aspect rating and multiple aspect rating into the original model. Aprendizado computacional Aprendizado de máquina Artificial intelligence Categorização de texto Classificação de sentimento Computational learning Inteligência artificial Machine learning Processamento de texto Sentiment classification Text categorization Text processing
3	Modelos de tópicos na classificação automática de resenhas de usuários. / Topic models in user review automatic classification. Denis Deratani Mauá 14 August 2009 (has links) Existe um grande número de resenhas de usuário na internet contendo valiosas informações sobre serviços, produtos, política e tendências. A compreensão automática dessas opiniões é não somente cientificamente interessante, mas potencialmente lucrativa. A tarefa de classificação de sentimentos visa a extração automática das opiniões expressas em documentos de texto. Diferentemente da tarefa mais tradicional de categorização de textos, na qual documentos são classificados em assuntos como esportes, economia e turismo, a classificação de sentimentos consiste em anotar documentos com os sentimentos expressos no texto. Se comparados aos classificadores tradicionais, os classificadores de sentimentos possuem um desempenho insatisfatório. Uma das possíveis causas do baixo desempenho é a ausência de representações adequadas que permitam a discriminação das opiniões expressas de uma forma concisa e própria para o processamento de máquina. Modelos de tópicos são modelos estatísticos que buscam extrair informações semânticas ocultas na grande quantidade de dados presente em coleções de texto. Eles representam um documento como uma mistura de tópicos, onde cada tópico é uma distribuição de probabilidades sobre palavras. Cada distribuição representa um conceito semântico implícito nos dados. Modelos de tópicos, as palavras são substituídas por tópicos que representam seu significado de forma sucinta. De fato, os modelos de tópicos realizam uma redução de dimensionalidade nos dados que pode levar a um aumento do desempenho das técnicas de categorização de texto e recuperação de informação. Na classificação de sentimentos, eles podem fornecer a representação necessária através da extração de tópicos que representem os sentimentos expressos no texto. Este trabalho dedica-se ao estudo da aplicação de modelos de tópicos na representação e classificação de sentimentos de resenhas de usuário. Em particular, o modelo Latent Dirichlet Allocation (LDA) e quatro extensões (duas delas desenvolvidas pelo autor) são avaliados na tarefa de classificação de sentimentos baseada em múltiplos aspectos. As extensões ao modelo LDA permitem uma investigação dos efeitos da incorporação de informações adicionais como contexto, avaliações de aspecto e avaliações de múltiplos aspectos no modelo original. / There is a large number of user reviews on the internet with valuable information on services, products, politics and trends. There is both scientific and economic interest in the automatic understanding of such data. Sentiment classification is concerned with automatic extraction of opinions expressed in user reviews. Unlike standard text categorization tasks that deal with the classification of documents into subjects such as sports, economics and tourism, sentiment classification attempts to tag documents with respect to the feelings they express. Compared to the accuracy of standard methods, sentiment classifiers have shown poor performance. One possible cause of such a poor performance is the lack of adequate representations that lead to opinion discrimination in a concise and machine-readable form. Topic Models are statistical models concerned with the extraction of semantic information hidden in the large number of data available in text collections. They represent a document as a mixture of topics, probability distributions over words that represent a semantic concept. According to Topic Model representation, words can be substituted by topics able to represent concisely its meaning. Indeed, Topic Models perform a data dimensionality reduction that can improve the performance of text classification and information retrieval techniques. In sentiment classification, they can provide the necessary representation by extracting topics that represent the general feelings expressed in text. This work presents a study of the use of Topic Models for representing and classifying user reviews with respect to their feelings. In particular, the Latent Dirichlet Allocation (LDA) model and four extensions (two of them developed by the author) are evaluated on the task of aspect-based sentiment classification. The extensions to the LDA model enables us to investigate the effects of the incorporation of additional information such as context, aspect rating and multiple aspect rating into the original model. Aprendizado computacional Aprendizado de máquina Categorização de texto Classificação de sentimento Inteligência artificial Processamento de texto Artificial intelligence Computational learning Machine learning Sentiment classification Text categorization Text processing
4	Análise de abordagens automáticas de anotação semântica para textos ruidosos e seus impactos na similaridade entre vídeos Dias, Laura Lima 31 August 2017 (has links) Submitted by Geandra Rodrigues (geandrar@gmail.com) on 2018-01-29T16:52:29Z No. of bitstreams: 0 / Rejected by Adriana Oliveira (adriana.oliveira@ufjf.edu.br), reason: on 2018-01-30T14:50:12Z (GMT) / Submitted by Geandra Rodrigues (geandrar@gmail.com) on 2018-01-30T16:08:06Z No. of bitstreams: 0 / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2018-03-21T19:26:08Z (GMT) No. of bitstreams: 0 / Made available in DSpace on 2018-03-21T19:26:08Z (GMT). No. of bitstreams: 0 Previous issue date: 2017-08-31 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Com o acúmulo de informações digitais armazenadas ao longo do tempo, alguns esforços precisam ser aplicados para facilitar a busca e indexação de conteúdos. Recursos como vídeos e áudios, por sua vez, são mais difíceis de serem tratados por mecanismos de busca. A anotação de vídeos é uma forma considerável de resumo do vídeo, busca e classificação. A parcela de vídeos que possui anotações atribuídas pelo próprio autor na maioria das vezes é muito pequena e pouco significativa, e anotar vídeos manualmente é bastante trabalhoso quando trata-se de bases legadas. Por esse motivo, automatizar esse processo tem sido desejado no campo da Recuperação de Informação. Em repositórios de videoaulas, onde a maior parte da informação se concentra na fala do professor, esse processo pode ser realizado através de anotações automáticas de transcritos gerados por sistemas de Reconhecimento Automático de Fala. Contudo, essa técnica produz textos ruidosos, dificultando a tarefa de anotação semântica automática. Entre muitas técnicas de Processamento de Linguagem de Natural utilizadas para anotação, não é trivial a escolha da técnica mais adequada a um determinado cenário, principalmente quando trata-se de anotar textos com ruídos. Essa pesquisa propõe analisar um conjunto de diferentes técnicas utilizadas para anotação automática e verificar o seu impacto em um mesmo cenário, o cenário de similaridade entre vídeos. / With the accumulation of digital information stored over time, some efforts need to be applied to facilitate search and indexing of content. Resources such as videos and audios, in turn, are more difficult to handle with by search engines. Video annotation is a considerable form of video summary, search and classification. The share of videos that have annotations attributed by the author most often is very small and not very significant, and annotating videos manually is very laborious when dealing with legacy bases. For this reason, automating this process has been desired in the field of Information Retrieval. In video lecture repositories, where most of the information is focused on the teacher’s speech, this process can be performed through automatic annotations of transcripts gene-rated by Automatic Speech Recognition systems. However, this technique produces noisy texts, making the task of automatic semantic annotation difficult. Among many Natural Language Processing techniques used for annotation, it is not trivial to choose the most appropriate technique for a given scenario, especially when writing annotated texts. This research proposes to analyze a set of different techniques used for automatic annotation and verify their impact in the same scenario, the scenario of similarity between videos. Recuperação de informação Repositório de videos Categorização de texto ruidoso Processamento de linguagem natural Information retrieval Video repository Noisy text categorization Natural language processing
5	Máquinas de classificação para detectar polaridade de mensagens de texto em redes sociais / Sentiment analysis on social networks using ensembles Von Lochter, Johannes 18 November 2015 (has links) Submitted by Milena Rubi (milenarubi@ufscar.br) on 2016-10-17T13:16:57Z No. of bitstreams: 1 LOCHTER_Johannes_2015.pdf: 611113 bytes, checksum: 55a3009a4bb5c0fe9f30edf98fe0bc77 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2016-10-17T13:17:13Z (GMT) No. of bitstreams: 1 LOCHTER_Johannes_2015.pdf: 611113 bytes, checksum: 55a3009a4bb5c0fe9f30edf98fe0bc77 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2016-10-17T13:17:24Z (GMT) No. of bitstreams: 1 LOCHTER_Johannes_2015.pdf: 611113 bytes, checksum: 55a3009a4bb5c0fe9f30edf98fe0bc77 (MD5) / Made available in DSpace on 2016-10-17T13:17:36Z (GMT). No. of bitstreams: 1 LOCHTER_Johannes_2015.pdf: 611113 bytes, checksum: 55a3009a4bb5c0fe9f30edf98fe0bc77 (MD5) Previous issue date: 2015-11-18 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / The popularity of social networks have attracted attention of companies. The growing amount of connected users and messages posted per day make these environments fruitful to detect needs, tendencies, opinions, and other interesting information that can feed marketing and sales departments. However, the most social networks impose size limit to messages, which lead users to compact them by using abbreviations, slangs, and symbols. Recent works in literature have reported advances in minimizing the impact created by noisy messages in text categorization tasks by means of semantic dictionaries and ontology models. They are used to normalize and expand short and messy text messages before using them with a machine learning approach. In this way, we have proposed an ensemble of machine learning methods and natural language processing techniques to find the best way to combine text processing approaches with classification methods to automatically detect opinion in short english text messages. Our experiments were diligently designed to ensure statistically sound results, which indicate that the proposed system has achieved a performance higher than the individual established classifiers. / A popularidade das redes sociais tem atraído a atenção das empresas. O crescimento do número de usuários e das mensagens enviadas por dia transforma esse ambiente em uma rica fonte de informações para descoberta de necessidades, tendências, opiniões e outras informações que podem auxiliar departamentos de vendas e marketing. Contudo,a maioria das redes sociais impõe limite no tamanho das mensagens, o que leva os usuários a usarem abreviações e gírias para compactarem o texto. Trabalhos na literatura demonstraram avanço na minimização do impacto de mensagens ruidosas nas tarefas de categorização textual através da utilização de dicionários semânticos e modelos ontológicos. Com a aplicação destes, as amostras são normalizadas e expandidas antes de serem apresentadas aos métodos preditivos. Assim, nesta dissertação é proposto um comitê de máquinas de classificação utilizando técnicas de processamento de linguagem natural para detectar opiniões automaticamente em mensagens curtas de texto em inglês. Os resulta-dos apresentados foram validados estatisticamente e indicaram que o sistema proposto obteve capacidade preditiva superior aos métodos preditivos isolados. Análise de sentimento Detecção de opinião Categorização de texto Mineração de dados (Computação) Opinião pública - Pesquisa Redes sociais on-line Online social networks Public opinion polls Data mining
6	Normalização textual e indexação semântica aplicadas da filtragem de SMS spam / Texto normalization and semantic indexing to enhance SMS spam filtering Silva, Tiago Pasqualini da 01 July 2016 (has links) Submitted by Milena Rubi (milenarubi@ufscar.br) on 2017-06-01T17:49:19Z No. of bitstreams: 1 SILVA_Tiago_2016.pdf: 13631569 bytes, checksum: 7774c3913aa556cc48c0669f686cd3b5 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-06-01T17:49:26Z (GMT) No. of bitstreams: 1 SILVA_Tiago_2016.pdf: 13631569 bytes, checksum: 7774c3913aa556cc48c0669f686cd3b5 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-06-01T17:49:32Z (GMT) No. of bitstreams: 1 SILVA_Tiago_2016.pdf: 13631569 bytes, checksum: 7774c3913aa556cc48c0669f686cd3b5 (MD5) / Made available in DSpace on 2017-06-01T17:49:38Z (GMT). No. of bitstreams: 1 SILVA_Tiago_2016.pdf: 13631569 bytes, checksum: 7774c3913aa556cc48c0669f686cd3b5 (MD5) Previous issue date: 2016-07-01 / Não recebi financiamento / The rapid popularization of smartphones has contributed to the growth of SMS usage as an alternative way of communication. The increasing number of users, along with the trust they inherently have in their devices, makes SMS messages a propitious environment for spammers. In fact, reports clearly indicate that volume of mobile phone spam is dramatically increasing year by year. SMS spam represents a challenging problem for traditional filtering methods nowadays, since such messages are usually fairly short and normally rife with slangs, idioms, symbols and acronyms that make even tokenization a difficult task. In this scenario, this thesis proposes and then evaluates a method to normalize and expand original short and messy SMS text messages in order to acquire better attributes and enhance the classification performance. The proposed text processing approach is based on lexicography and semantic dictionaries along with the state-of-the-art techniques for semantic analysis and context detection. This technique is used to normalize terms and create new attributes in order to change and expand original text samples aiming to alleviate factors that can degrade the algorithms performance, such as redundancies and inconsistencies. The approach was validated with a public, real and non-encoded dataset along with several established machine learning methods. The experiments were diligently designed to ensure statistically sound results which indicate that the proposed text processing techniques can in fact enhance SMS spam filtering. / A popularização dos smartphones contribuiu para o crescimento do uso de mensagens SMS como forma alternativa de comunicação. O crescente número de usuários, aliado à confiança que eles possuem nos seus dispositivos tornam as mensagem SMS um ambiente propício aos spammers. Relatórios recentes indicam que o volume de spam enviados via SMS está aumentando vertiginosamente nos últimos anos. SMS spam representa um problema desafiador para os métodos tradicionais de detecção de spam, uma vez que essas mensagens são curtas e geralmente repletas de gírias, símbolos, abreviações e emoticons, que torna até mesmo a tokenização uma tarefa difícil. Diante desse cenário, esta dissertação propõe e avalia um método para normalizar e expandir amostras curtas e ruidosas de mensagens SMS de forma a obter atributos mais representativos e, com isso, melhorar o desempenho geral na tarefa de classificação. O método proposto é baseado em dicionários lexicográficos e semânticos e utiliza técnicas modernas de análise semântica e detecção de contexto. Ele é empregado para normalizar os termos que compõem as mensagens e criar novos atributos para alterar e expandir as amostras originais de texto com o objetivo de mitigar fatores que podem degradar o desempenho dos métodos de classificação, tais como redundâncias e inconsistências. A proposta foi avaliada usando uma base de dados real, pública e não codificada, além de vários métodos consagrados de aprendizado de máquina. Os experimentos foram conduzidos para garantir resultados estatisticamente corretos e indicaram que o método proposto pode de fato melhorar a detecção de spam em SMS. Smartphones Aplicativos móveis Filtragem de SMS spam Aprendizado de máquina Categorização de texto Mobile apps SMS spam filtering Text categorization Machine learning

1

Page generated in 0.0573 seconds