Spelling suggestions: "subject:"conteúdo gerados por usuários"" "subject:"conteúdos gerados por usuários""
1 |
Normalização textual de conteúdo gerado por usuário / User-generated content text normalizationBertaglia, Thales Felipe Costa 18 August 2017 (has links)
Conteúdo Gerado por Usuário (CGU) é a denominação dada ao conteúdo criado de forma espontânea por indivíduos comuns, sem vínculos com meios de comunicação. Esse tipo de conteúdo carrega informações valiosas e pode ser explorado por diversas áreas do conhecimento. Muito do CGU é disponibilizado em forma de textos avaliações de produtos, comentários em fóruns sobre filmes e discussões em redes sociais são exemplos. No entanto, a linguagem utilizada em textos de CGU diverge, de várias maneiras, da norma culta da língua, dificultando seu processamento por técnicas de PLN. A linguagem de CGU é fortemente ligada à língua utilizada no cotidiano, contendo, assim, uma grande quantidade de ruídos. Erros ortográficos, abreviações, gírias, ausência ou mau uso de pontuação e de capitalização são alguns ruídos que dificultam o processamento desses textos. Diversos trabalhos relatam perda considerável de desempenho ao testar ferramentas do estado-daarte de PLN em textos de CGU. A Normalização Textual é o processo de transformar palavras ruidosas em palavras consideradas corretas e pode ser utilizada para melhorar a qualidade de textos de CGU. Este trabalho relata o desenvolvimento de métodos e sistemas que visam a (a) identificar palavras ruidosas em textos de CGU, (b) encontrar palavras candidatas a sua substituição, e (c) ranquear os candidatos para realizar a normalização. Para a identificação de ruídos, foram propostos métodos baseados em léxicos e em aprendizado de máquina, com redes neurais profundas. A identificação automática apresentou resultados comparáveis ao uso de léxicos, comprovando que este processo pode ser feito com baixa dependência de recursos. Para a geração e ranqueamento de candidatos, foram investigadas técnicas baseadas em similaridade lexical e word embeddings. Concluiu-se que o uso de word embeddings é altamente adequado para normalização, tendo atingido os melhores resultados. Todos os métodos propostos foram avaliados com base em um córpus de CGU anotado no decorrer do projeto, contendo textos de diferentes origens: fóruns de discussão, reviews de produtos e publicações no Twitter. Um sistema, Enelvo, combinando todos os métodos foi implementado e comparado a um outro sistema normalizador existente, o UGCNormal. Os resultados obtidos pelo sistema Enelvo foram consideravelmente superiores, com taxa de correção entre 67% e 97% para diferentes tipos de ruído, com menos dependência de recursos e maior flexibilidade na normalização. / User Generated Content (UGC) is the name given to content created spontaneously by ordinary individuals, without connections to the media. This type of content carries valuable information and can be exploited by several areas of knowledge. Much of the UGC is provided in the form of texts product reviews, comments on forums about movies, and discussions on social networks are examples. However, the language used in UGC texts differs, in many ways, from the cultured norm of the language, making it difficult for NLP techniques to handle them. UGC language is strongly linked to the language used in daily life, containing a large amount of noise. Spelling mistakes, abbreviations, slang, absence or misuse of punctuation and capitalization are some noises that make it difficult to process these texts. Several works report considerable loss of performance when testing NLP state-of-the-art tools in UGC texts. Textual Normalization is the process of turning noisy words into words considered correct and can be used to improve the quality of UGC texts. This work reports the development of methods and systems that aim to (a) identify noisy words in UGC, (b) find candidate words for substitution, and (c) rank candidates for normalization. For the identification of noisy words, lexical-based methods and machine learning ones using deep neural networks were proposed. The automatic identification presented results comparable to the use of lexicons, proving that this process can be done with low dependence of resources. For the generation and ranking of candidates, techniques based on lexical similarity and word embeddings were investigated. It was concluded that the use of embeddings is highly suitable for normalization, having achieved the best results. All proposed methods were evaluated based on a UGC corpus annotated throughout the project, containing texts from different sources: discussion forums, product reviews and tweets. A system, Enelvo, combining all methods was implemented and compared to another existing normalizing system, UGCNormal. The results obtained by the Enelvo system were considerably higher, with a correction rate between 67 % and 97 % for different types of noise, with less dependence on resources and greater flexibility in normalization.
|
2 |
Normalização textual de conteúdo gerado por usuário / User-generated content text normalizationThales Felipe Costa Bertaglia 18 August 2017 (has links)
Conteúdo Gerado por Usuário (CGU) é a denominação dada ao conteúdo criado de forma espontânea por indivíduos comuns, sem vínculos com meios de comunicação. Esse tipo de conteúdo carrega informações valiosas e pode ser explorado por diversas áreas do conhecimento. Muito do CGU é disponibilizado em forma de textos avaliações de produtos, comentários em fóruns sobre filmes e discussões em redes sociais são exemplos. No entanto, a linguagem utilizada em textos de CGU diverge, de várias maneiras, da norma culta da língua, dificultando seu processamento por técnicas de PLN. A linguagem de CGU é fortemente ligada à língua utilizada no cotidiano, contendo, assim, uma grande quantidade de ruídos. Erros ortográficos, abreviações, gírias, ausência ou mau uso de pontuação e de capitalização são alguns ruídos que dificultam o processamento desses textos. Diversos trabalhos relatam perda considerável de desempenho ao testar ferramentas do estado-daarte de PLN em textos de CGU. A Normalização Textual é o processo de transformar palavras ruidosas em palavras consideradas corretas e pode ser utilizada para melhorar a qualidade de textos de CGU. Este trabalho relata o desenvolvimento de métodos e sistemas que visam a (a) identificar palavras ruidosas em textos de CGU, (b) encontrar palavras candidatas a sua substituição, e (c) ranquear os candidatos para realizar a normalização. Para a identificação de ruídos, foram propostos métodos baseados em léxicos e em aprendizado de máquina, com redes neurais profundas. A identificação automática apresentou resultados comparáveis ao uso de léxicos, comprovando que este processo pode ser feito com baixa dependência de recursos. Para a geração e ranqueamento de candidatos, foram investigadas técnicas baseadas em similaridade lexical e word embeddings. Concluiu-se que o uso de word embeddings é altamente adequado para normalização, tendo atingido os melhores resultados. Todos os métodos propostos foram avaliados com base em um córpus de CGU anotado no decorrer do projeto, contendo textos de diferentes origens: fóruns de discussão, reviews de produtos e publicações no Twitter. Um sistema, Enelvo, combinando todos os métodos foi implementado e comparado a um outro sistema normalizador existente, o UGCNormal. Os resultados obtidos pelo sistema Enelvo foram consideravelmente superiores, com taxa de correção entre 67% e 97% para diferentes tipos de ruído, com menos dependência de recursos e maior flexibilidade na normalização. / User Generated Content (UGC) is the name given to content created spontaneously by ordinary individuals, without connections to the media. This type of content carries valuable information and can be exploited by several areas of knowledge. Much of the UGC is provided in the form of texts product reviews, comments on forums about movies, and discussions on social networks are examples. However, the language used in UGC texts differs, in many ways, from the cultured norm of the language, making it difficult for NLP techniques to handle them. UGC language is strongly linked to the language used in daily life, containing a large amount of noise. Spelling mistakes, abbreviations, slang, absence or misuse of punctuation and capitalization are some noises that make it difficult to process these texts. Several works report considerable loss of performance when testing NLP state-of-the-art tools in UGC texts. Textual Normalization is the process of turning noisy words into words considered correct and can be used to improve the quality of UGC texts. This work reports the development of methods and systems that aim to (a) identify noisy words in UGC, (b) find candidate words for substitution, and (c) rank candidates for normalization. For the identification of noisy words, lexical-based methods and machine learning ones using deep neural networks were proposed. The automatic identification presented results comparable to the use of lexicons, proving that this process can be done with low dependence of resources. For the generation and ranking of candidates, techniques based on lexical similarity and word embeddings were investigated. It was concluded that the use of embeddings is highly suitable for normalization, having achieved the best results. All proposed methods were evaluated based on a UGC corpus annotated throughout the project, containing texts from different sources: discussion forums, product reviews and tweets. A system, Enelvo, combining all methods was implemented and compared to another existing normalizing system, UGCNormal. The results obtained by the Enelvo system were considerably higher, with a correction rate between 67 % and 97 % for different types of noise, with less dependence on resources and greater flexibility in normalization.
|
3 |
Dimensões do conteúdo gerado por usuário em videogames: cultura participativa e a intervenção criativa através do ModdingCapasso, Caio Assis 12 March 2014 (has links)
Made available in DSpace on 2016-04-29T14:23:28Z (GMT). No. of bitstreams: 1
Caio Assis Capasso.pdf: 1551637 bytes, checksum: c0c126f85ced7a9208f93a493d6d39d8 (MD5)
Previous issue date: 2014-03-12 / This research aims to verify how videogames allow the creation, sharing and
collaboration of user-generated content, and the characteristics of fan communities that are
created to such objective. For this work we minimally define videogames as digital games that
are dependent of a computational support for its realization. Some useful videogames for the
better understanding of the activities of creation and alteration of content by players and the
manner they happen, particularly the creation of mods: the name commonly used to refer to
the practice of alteration of a videogame s characteristics through the manipulation of files
and/or processes that are constitute it, resulting in a different experience from the one
originally planned by its developer. With this we try to offer clues and pointers towards a
deeper understanding of the manners the roles of producer and consumer, author and user,
player and fan are transforming with the ascension of new technologies and now (digital)
media. With this intent we give special attention to the players turned modders amateur
content creators for a specific videogame -, through the online communities engaged in the
creation and distribution of this kind of content. Three author groupings are used as
theoretical foundation for this research. The first é composed by authors that helps us to think
questions regarding participatory culture and the promises of the internet, among them we can
cite Howard Rheingold, Sherry Turkle, clary Shirky, Axel Bruns and particularly Mizuko Ito
and Henry Jenkins. In the second grouping Katie Salen and Eric Zimmerman and Jesper Juul
offer the concepts that allow us to take into account the expressive dimensions od
videogames. The third grouping, with a special emphasis in the works of Olli Sotamaa, David
Nieborg and Julian Kucklich that offers us empirical study cases for us to study the questions
related to modding as a productive practice. We attempt to operationalize a theoretical
perspective that deal with the expressive potential of videogames and how the interventions
characterized as mods are one of the most intriguing ways to subvert the author/user and
producer/consumer relationships. We also attempt to suggest similarities and differences
between videogames and other media. Other objective is to enrich the debate regarding online
participation and the artifacts it produces, trying to think participatory culture and the media
convergence in the contemporary consumption and production practices through videogames / Nesse trabalho discutimos videogames, definidos como jogos digitais dependentes de
um suporte computacional para sua realização, que nos ajudam a entender melhor as formas
que as atividades de criação e alteração de conteúdo por jogadores se dão. Atenção especial é
dada à criação de mods : termo comumente utilizado para denominar a alteração de
características de um videogame através da manipulação de arquivos e/ou processos que o
constituem e que resultam em uma experiência diferente da originalmente pretendida. A
intenção dessa pesquisa é verificar como os videogames permitem a criação, troca e
colaboração de conteúdo criado por usuários e as características das comunidades de
entusiastas que são formadas para tais fins. Os videogames, e o modding em particular, são
objeto de estudo valioso num período onde a crescente agência de consumidores sobre objetos
midiáticos pode ser percebida tanto como estratégia de libertação quanto de exploração, pois
se encontra na interseção entre atividade lúdica e trabalho, produção amadora e indústria. São
fornecidos pistas e apontamentos na direção de um entendimento mais profundo das maneiras
como os papéis de produtor e consumidor, autor e usuário, jogador e fã vêm se transformando
com o desenvolvimento das novas tecnologias e das mídias digitais, a partir de um ponto de
vista sociológico e historiográfico. Também damos atenção especial e aos modders
jogadores que se tornam criadores amadores de conteúdo para videogames. Utilizamos três
grupos de autores na fundamentação teórica. O primeiro é composto por autores que ajudam a
pensar questões referentes à cultura participativa e as potencialidades da internet,
especialmente Mizuko Ito e Henry Jenkins. No segundo Katie Salen e Eric Zimmerman e
Jesper Juul oferecem os conceitos que permitem considerar as dimensões expressivas dos
videogames. O terceiro grupo, com ênfase especial a Olli Sotamaa e Julian Kucklich,
oferecem os casos práticos utilizados para estudar as questões relativas ao modding enquanto
prática produtiva. Nossa intenção é operacionalizar uma perspectiva teórica que trabalhe o
potencial expressivo de um videogame e como as intervenções que classificamos como mod
são uma das maneiras mais intrigantes de subversão das relações autor/usuário e
produtor/consumidor. Pretendemos também apontar semelhanças e diferenças entre
videogames e outras mídias e enriquecer o debate a respeito da participação online e dos
artefatos que ela produz, e pensar a cultura participativa e a convergência midiática nas
práticas de consumo e produção da sociedade contemporânea através dos videogames
|
Page generated in 0.0798 seconds