Global ETD Search

1	Normalização textual de conteúdo gerado por usuário / User-generated content text normalization Bertaglia, Thales Felipe Costa 18 August 2017 (has links) Conteúdo Gerado por Usuário (CGU) é a denominação dada ao conteúdo criado de forma espontânea por indivíduos comuns, sem vínculos com meios de comunicação. Esse tipo de conteúdo carrega informações valiosas e pode ser explorado por diversas áreas do conhecimento. Muito do CGU é disponibilizado em forma de textos avaliações de produtos, comentários em fóruns sobre filmes e discussões em redes sociais são exemplos. No entanto, a linguagem utilizada em textos de CGU diverge, de várias maneiras, da norma culta da língua, dificultando seu processamento por técnicas de PLN. A linguagem de CGU é fortemente ligada à língua utilizada no cotidiano, contendo, assim, uma grande quantidade de ruídos. Erros ortográficos, abreviações, gírias, ausência ou mau uso de pontuação e de capitalização são alguns ruídos que dificultam o processamento desses textos. Diversos trabalhos relatam perda considerável de desempenho ao testar ferramentas do estado-daarte de PLN em textos de CGU. A Normalização Textual é o processo de transformar palavras ruidosas em palavras consideradas corretas e pode ser utilizada para melhorar a qualidade de textos de CGU. Este trabalho relata o desenvolvimento de métodos e sistemas que visam a (a) identificar palavras ruidosas em textos de CGU, (b) encontrar palavras candidatas a sua substituição, e (c) ranquear os candidatos para realizar a normalização. Para a identificação de ruídos, foram propostos métodos baseados em léxicos e em aprendizado de máquina, com redes neurais profundas. A identificação automática apresentou resultados comparáveis ao uso de léxicos, comprovando que este processo pode ser feito com baixa dependência de recursos. Para a geração e ranqueamento de candidatos, foram investigadas técnicas baseadas em similaridade lexical e word embeddings. Concluiu-se que o uso de word embeddings é altamente adequado para normalização, tendo atingido os melhores resultados. Todos os métodos propostos foram avaliados com base em um córpus de CGU anotado no decorrer do projeto, contendo textos de diferentes origens: fóruns de discussão, reviews de produtos e publicações no Twitter. Um sistema, Enelvo, combinando todos os métodos foi implementado e comparado a um outro sistema normalizador existente, o UGCNormal. Os resultados obtidos pelo sistema Enelvo foram consideravelmente superiores, com taxa de correção entre 67% e 97% para diferentes tipos de ruído, com menos dependência de recursos e maior flexibilidade na normalização. / User Generated Content (UGC) is the name given to content created spontaneously by ordinary individuals, without connections to the media. This type of content carries valuable information and can be exploited by several areas of knowledge. Much of the UGC is provided in the form of texts product reviews, comments on forums about movies, and discussions on social networks are examples. However, the language used in UGC texts differs, in many ways, from the cultured norm of the language, making it difficult for NLP techniques to handle them. UGC language is strongly linked to the language used in daily life, containing a large amount of noise. Spelling mistakes, abbreviations, slang, absence or misuse of punctuation and capitalization are some noises that make it difficult to process these texts. Several works report considerable loss of performance when testing NLP state-of-the-art tools in UGC texts. Textual Normalization is the process of turning noisy words into words considered correct and can be used to improve the quality of UGC texts. This work reports the development of methods and systems that aim to (a) identify noisy words in UGC, (b) find candidate words for substitution, and (c) rank candidates for normalization. For the identification of noisy words, lexical-based methods and machine learning ones using deep neural networks were proposed. The automatic identification presented results comparable to the use of lexicons, proving that this process can be done with low dependence of resources. For the generation and ranking of candidates, techniques based on lexical similarity and word embeddings were investigated. It was concluded that the use of embeddings is highly suitable for normalization, having achieved the best results. All proposed methods were evaluated based on a UGC corpus annotated throughout the project, containing texts from different sources: discussion forums, product reviews and tweets. A system, Enelvo, combining all methods was implemented and compared to another existing normalizing system, UGCNormal. The results obtained by the Enelvo system were considerably higher, with a correction rate between 67 % and 97 % for different types of noise, with less dependence on resources and greater flexibility in normalization. Análise de textos ruidosos Conteúdo gerado por usuário Noisy text analysis Normalização textual Text normalization User-generated content
2	Normalização textual de conteúdo gerado por usuário / User-generated content text normalization Thales Felipe Costa Bertaglia 18 August 2017 (has links) Conteúdo Gerado por Usuário (CGU) é a denominação dada ao conteúdo criado de forma espontânea por indivíduos comuns, sem vínculos com meios de comunicação. Esse tipo de conteúdo carrega informações valiosas e pode ser explorado por diversas áreas do conhecimento. Muito do CGU é disponibilizado em forma de textos avaliações de produtos, comentários em fóruns sobre filmes e discussões em redes sociais são exemplos. No entanto, a linguagem utilizada em textos de CGU diverge, de várias maneiras, da norma culta da língua, dificultando seu processamento por técnicas de PLN. A linguagem de CGU é fortemente ligada à língua utilizada no cotidiano, contendo, assim, uma grande quantidade de ruídos. Erros ortográficos, abreviações, gírias, ausência ou mau uso de pontuação e de capitalização são alguns ruídos que dificultam o processamento desses textos. Diversos trabalhos relatam perda considerável de desempenho ao testar ferramentas do estado-daarte de PLN em textos de CGU. A Normalização Textual é o processo de transformar palavras ruidosas em palavras consideradas corretas e pode ser utilizada para melhorar a qualidade de textos de CGU. Este trabalho relata o desenvolvimento de métodos e sistemas que visam a (a) identificar palavras ruidosas em textos de CGU, (b) encontrar palavras candidatas a sua substituição, e (c) ranquear os candidatos para realizar a normalização. Para a identificação de ruídos, foram propostos métodos baseados em léxicos e em aprendizado de máquina, com redes neurais profundas. A identificação automática apresentou resultados comparáveis ao uso de léxicos, comprovando que este processo pode ser feito com baixa dependência de recursos. Para a geração e ranqueamento de candidatos, foram investigadas técnicas baseadas em similaridade lexical e word embeddings. Concluiu-se que o uso de word embeddings é altamente adequado para normalização, tendo atingido os melhores resultados. Todos os métodos propostos foram avaliados com base em um córpus de CGU anotado no decorrer do projeto, contendo textos de diferentes origens: fóruns de discussão, reviews de produtos e publicações no Twitter. Um sistema, Enelvo, combinando todos os métodos foi implementado e comparado a um outro sistema normalizador existente, o UGCNormal. Os resultados obtidos pelo sistema Enelvo foram consideravelmente superiores, com taxa de correção entre 67% e 97% para diferentes tipos de ruído, com menos dependência de recursos e maior flexibilidade na normalização. / User Generated Content (UGC) is the name given to content created spontaneously by ordinary individuals, without connections to the media. This type of content carries valuable information and can be exploited by several areas of knowledge. Much of the UGC is provided in the form of texts product reviews, comments on forums about movies, and discussions on social networks are examples. However, the language used in UGC texts differs, in many ways, from the cultured norm of the language, making it difficult for NLP techniques to handle them. UGC language is strongly linked to the language used in daily life, containing a large amount of noise. Spelling mistakes, abbreviations, slang, absence or misuse of punctuation and capitalization are some noises that make it difficult to process these texts. Several works report considerable loss of performance when testing NLP state-of-the-art tools in UGC texts. Textual Normalization is the process of turning noisy words into words considered correct and can be used to improve the quality of UGC texts. This work reports the development of methods and systems that aim to (a) identify noisy words in UGC, (b) find candidate words for substitution, and (c) rank candidates for normalization. For the identification of noisy words, lexical-based methods and machine learning ones using deep neural networks were proposed. The automatic identification presented results comparable to the use of lexicons, proving that this process can be done with low dependence of resources. For the generation and ranking of candidates, techniques based on lexical similarity and word embeddings were investigated. It was concluded that the use of embeddings is highly suitable for normalization, having achieved the best results. All proposed methods were evaluated based on a UGC corpus annotated throughout the project, containing texts from different sources: discussion forums, product reviews and tweets. A system, Enelvo, combining all methods was implemented and compared to another existing normalizing system, UGCNormal. The results obtained by the Enelvo system were considerably higher, with a correction rate between 67 % and 97 % for different types of noise, with less dependence on resources and greater flexibility in normalization. Análise de textos ruidosos Conteúdo gerado por usuário Normalização textual Noisy text analysis Text normalization User-generated content
3	Dimensões do conteúdo gerado por usuário em videogames: cultura participativa e a intervenção criativa através do Modding Capasso, Caio Assis 12 March 2014 (has links) Made available in DSpace on 2016-04-29T14:23:28Z (GMT). No. of bitstreams: 1 Caio Assis Capasso.pdf: 1551637 bytes, checksum: c0c126f85ced7a9208f93a493d6d39d8 (MD5) Previous issue date: 2014-03-12 / This research aims to verify how videogames allow the creation, sharing and collaboration of user-generated content, and the characteristics of fan communities that are created to such objective. For this work we minimally define videogames as digital games that are dependent of a computational support for its realization. Some useful videogames for the better understanding of the activities of creation and alteration of content by players and the manner they happen, particularly the creation of mods: the name commonly used to refer to the practice of alteration of a videogame s characteristics through the manipulation of files and/or processes that are constitute it, resulting in a different experience from the one originally planned by its developer. With this we try to offer clues and pointers towards a deeper understanding of the manners the roles of producer and consumer, author and user, player and fan are transforming with the ascension of new technologies and now (digital) media. With this intent we give special attention to the players turned modders amateur content creators for a specific videogame -, through the online communities engaged in the creation and distribution of this kind of content. Three author groupings are used as theoretical foundation for this research. The first é composed by authors that helps us to think questions regarding participatory culture and the promises of the internet, among them we can cite Howard Rheingold, Sherry Turkle, clary Shirky, Axel Bruns and particularly Mizuko Ito and Henry Jenkins. In the second grouping Katie Salen and Eric Zimmerman and Jesper Juul offer the concepts that allow us to take into account the expressive dimensions od videogames. The third grouping, with a special emphasis in the works of Olli Sotamaa, David Nieborg and Julian Kucklich that offers us empirical study cases for us to study the questions related to modding as a productive practice. We attempt to operationalize a theoretical perspective that deal with the expressive potential of videogames and how the interventions characterized as mods are one of the most intriguing ways to subvert the author/user and producer/consumer relationships. We also attempt to suggest similarities and differences between videogames and other media. Other objective is to enrich the debate regarding online participation and the artifacts it produces, trying to think participatory culture and the media convergence in the contemporary consumption and production practices through videogames / Nesse trabalho discutimos videogames, definidos como jogos digitais dependentes de um suporte computacional para sua realização, que nos ajudam a entender melhor as formas que as atividades de criação e alteração de conteúdo por jogadores se dão. Atenção especial é dada à criação de mods : termo comumente utilizado para denominar a alteração de características de um videogame através da manipulação de arquivos e/ou processos que o constituem e que resultam em uma experiência diferente da originalmente pretendida. A intenção dessa pesquisa é verificar como os videogames permitem a criação, troca e colaboração de conteúdo criado por usuários e as características das comunidades de entusiastas que são formadas para tais fins. Os videogames, e o modding em particular, são objeto de estudo valioso num período onde a crescente agência de consumidores sobre objetos midiáticos pode ser percebida tanto como estratégia de libertação quanto de exploração, pois se encontra na interseção entre atividade lúdica e trabalho, produção amadora e indústria. São fornecidos pistas e apontamentos na direção de um entendimento mais profundo das maneiras como os papéis de produtor e consumidor, autor e usuário, jogador e fã vêm se transformando com o desenvolvimento das novas tecnologias e das mídias digitais, a partir de um ponto de vista sociológico e historiográfico. Também damos atenção especial e aos modders jogadores que se tornam criadores amadores de conteúdo para videogames. Utilizamos três grupos de autores na fundamentação teórica. O primeiro é composto por autores que ajudam a pensar questões referentes à cultura participativa e as potencialidades da internet, especialmente Mizuko Ito e Henry Jenkins. No segundo Katie Salen e Eric Zimmerman e Jesper Juul oferecem os conceitos que permitem considerar as dimensões expressivas dos videogames. O terceiro grupo, com ênfase especial a Olli Sotamaa e Julian Kucklich, oferecem os casos práticos utilizados para estudar as questões relativas ao modding enquanto prática produtiva. Nossa intenção é operacionalizar uma perspectiva teórica que trabalhe o potencial expressivo de um videogame e como as intervenções que classificamos como mod são uma das maneiras mais intrigantes de subversão das relações autor/usuário e produtor/consumidor. Pretendemos também apontar semelhanças e diferenças entre videogames e outras mídias e enriquecer o debate a respeito da participação online e dos artefatos que ela produz, e pensar a cultura participativa e a convergência midiática nas práticas de consumo e produção da sociedade contemporânea através dos videogames Jogos digitais Videogames Conteúdo gerado por usuário Comunidade de interesse online Cultura participativa Fã Digital games User-generated content Online interestdriven communities Participatory culture Modding Fan Fandom CNPQ::OUTROS

1

Page generated in 0.3471 seconds