1 |
User Modeling in Social Media: Gender and Age DetectionDaneshvar, Saman 21 August 2019 (has links)
Author profiling is a field within Natural Language Processing (NLP) that is concerned with identifying various characteristics and demographic factors of authors, such as gender, age, location, native language, political orientation, and personality by analyzing the style and content of their writings. There is a growing interest in author profiling, with applications in marketing and advertising, opinion mining, personalization, recommendation systems, forensics, security, and defense.
In this work, we build several classification models using NLP, Deep Learning, and classical Machine Learning techniques that can identify the gender and age of a Twitter user based on the textual contents of their correspondence (tweets) on the platform.
Our SVM gender classifier utilizes a combination of word and character n-grams as features, dimensionality reduction using Latent Semantic Analysis (LSA), and a Support Vector Machine (SVM) classifier with linear kernel. At the PAN 2018 author profiling shared task, this model achieved the highest performance with 82.21%, 82.00%, and 80.90% accuracy on the English, Spanish, and Arabic datasets, respectively. Our age classifier was trained on a dataset of 11,160 Twitter users, using the same approach, though the age classification experiments are preliminary.
Our Deep Learning gender classifiers are trained and tested on English datasets. Our feedforward neural network consisting of a word embedding layer, flattening, and two densely-connected layers achieves 79.57% accuracy, and our bidirectional Long Short-Term Memory (LSTM) neural network achieves 76.85% accuracy on the gender classification task.
|
2 |
Personality extraction through LinkedInPiedboeuf, Frédéric 05 1900 (has links)
No description available.
|
3 |
Transfer Learning for Automatic Author Profiling with BERT Transformers and GloVe EmbeddingsFrom, Viktor January 2022 (has links)
Historically author profiling has been used in forensic linguistics. However, it is not until the last decades that the analysis method has worked into computer science and machine learning. In comparison, determining author profiling characteristics in machine learning is nothing new. This paper investigates the possibility to improve upon previous results with modern frameworks using data sets that have seen limited usage. The purpose of this master thesis was to use pre-trained transformers or embeddings together with transfer learning. In addition, to examine if general author profiling characteristics of anonymous users on internet forums or conversations on social media could be determined. The data sets used to investigate the questions above were PAN15 and PANDORA, which contains various properties in text data based on authors paired with ground truth labels such as gender, age, and Big Five/OCEAN. In addition, transfer learning of BERT and GloVe was used as a starting point to decrease the learning time of a new task. PAN15, a Twitter data set, did not contain enough data when training a model and was augmented using PANDORA, a Reddit-based data set. Ultimately, BERT obtained the best performance using a stacked approach, achieving 86 − 91% accuracy for each label on unseen data.
|
4 |
Author Profiling en Social Media: Identificación de Edad, Sexo y Variedad del LenguajeRangel Pardo, Francisco Manuel 07 July 2016 (has links)
[EN] The possibility of knowing people traits on the basis of what they write is a field of growing interest named author profiling. To infer a user's gender, age, native language or personality traits, simply by analysing her texts, opens a wide range of possibilities from the point of view of forensics, security and marketing.
Furthermore, social media proliferation, which allows for new communication models and human relations, strengthens this wide range of possibilities to bounds never seen before. Idiosyncrasy inherent to social media makes them a special environment of communication, where freedom of expression, informality and spontaneous generation of topics and trends, enhances the knowledge of the daily reality of people in their use of language. However, the same idiosyncrasy makes difficult, or extremely costly, the application of linguistic techniques.
In this work we have proposed EmoGraph, a graph-based approach with the aim at modelling the way that users express their emotions, and the way they include them in their discourse, bearing in mind not only their frequency of occurrence, but also their position and relationship with other elements in the discourse. Our starting hypothesis is that users express themselves and their emotions differently depending on their age and gender, and besides, we think that this is independent on their language and social media where they write. We have collaborated in the creation of a common framework of evaluation at the PAN Lab of CLEF, generating resources that allowed us to verify our hypothesis achieving comparable and competitive results with the best ones obtained by other researchers on the field.
In addition, we have investigated whether the expression of emotions would help to differentiate among users of different varieties of the same language, for example, Spanish from Spain, Mexican and Argentinian, or Portuguese from Portugal and Brazil. Our hypothesis is that the variation among languages is based more on lexical aspects, and we have corroborated it after comparing EmoGraph with representations based on word patterns, distributed representations and a representation that uses the whole vocabulary, but reducing its dimensionality to only 6 features per class, what is suitable for its application to big data environments such as social media. / [ES] La posibilidad de conocer rasgos de una persona a partir únicamente de los textos que escribe se ha convertido en un área de gran interés denominada author profiling. Ser capaz de inferir de un usuario su sexo, edad, idioma nativo o los rasgos de su personalidad, simplemente analizando sus textos, abre todo un abanico de posibilidades desde el punto de vista forense, de la seguridad o del marketing.
Además, la proliferación de los medios sociales, que favorece nuevos modelos de comunicación y relación humana, potencia este abanico de posibilidades hasta cotas nunca antes vistas. La idiosincrasia inherente a estos medios sociales hace de ellos un entorno de comunicación especial, donde la libertad de expresión, la informalidad y la generación espontánea de temáticas y tendencias propician el acercamiento a la realidad diaria de las personas en su uso de la lengua. Sin embargo, esa misma idiosincrasia hace que en muchas ocasiones la aplicación de técnicas lingüísticas de análisis no sea posible, o sea extremadamente costoso.
En este trabajo hemos propuesto EmoGraph, una representación basada en grafos con el objetivo de modelar el modo en que los usuarios expresan sus emociones, y el modo en que las articulan en el marco de su discurso, teniendo en consideración no sólo su frecuencia, sino también su posición y relación con y respecto a los elementos del mismo. Nuestra hipótesis de partida es que los usuarios se expresan y expresan sus emociones de manera diferente dependiendo de su edad y sexo, y además, pensamos que esto es así independientemente de su idioma y del medio donde escriban. Hemos colaborado en la creación de un marco común de evaluación en el laboratorio PAN del CLEF, generando recursos que nos han permitido verificar nuestra hipótesis y conseguir resultados comparables y competitivos con los mejores resultados obtenidos por los investigadores del área.
Además, hemos querido investigar si la expresión de emociones permitiría diferenciar entre hablantes de diferentes variedades de una misma lengua, por ejemplo españoles, mexicanos o argentinos, o portugueses y brasileños. Nuestra hipótesis es que la variación entre lenguas se basa más en aspectos léxicos, y así lo hemos corroborado tras comparar EmoGraph con representaciones basadas en patrones, representaciones distribuidas y una representación que toma en consideración el vocabulario completo, pero reduciendo su dimensionalidad a únicamente 6 características por clase y que se erige idónea para su aplicación en entornos big data como los medios sociales. / [CA] La possibilitat de conèixer trets d'una persona únicament a partir dels textos que escriu s'ha convertit en una àrea de gran interès anomenada author profiling. Ser capaç d'inferir d'un usuari el sexe, l'edat, l'idioma nadiu o els trets de la seua personalitat tan sols analitzant els seus textos, obre tot un ventall de possibilitats des del punt de vista forense, de la seguretat o del màrketing.
A més, la proliferació dels mitjans socials, que afavoreix nous models de comunicació i de relació humana, potencia aquest ventall de possibilitats fins a cotes que no s'han vist fins ara. La idiosincràsia inherent a aquests mitjans socials en fa d'ells un entorn de comunicació especial, on la llibertat d'expressió, la informalitat i la generació espontània de temàtiques i tendències propicien l'aproximació a la realitat diària de les persones en l'ús que fan de la llengua. Tanmateix, aquesta idiosincràsia fa que en moltes ocasions no es puguin aplicar tècniques lingüístiques d'anàlisi, o que fer-ho resulti extremadament costós.
En aquest treball hem proposat EmoGraph, una representació basada en grafs que té l'objectiu de modelar la manera en què els usaris expressen les seves emocions, i la manera com les articulen en el marc de llur discurs, considerant-ne no només la freqüència sinó també la posició i la relació amb i respecte als elements del discurs. La nostra hipòtesi de partida és que els usuaris s'expressen i expressen llurs emocions de manera diferent depenent de l'edat i el sexe, i a més, pensem que això és així independentment de l'idioma i del mitjà en què escriguin. Hem col·laborat en la creació d'un marc comú d'avaluació al laboratori PAN del CLEF, generant recursos que ens han permès verificar la nostra hipòtesi i aconseguir resultats comparables i competitius amb els millors resultats obtinguts pels investigadors de l'àrea.
A més, hem volgut investigar si l'expressió d'emocions permetria establir diferències enre parlants de diferents varietats d'una mateixa llengua, per exemple espanyols, mexicans o argentins, o portuguesos i brasilers. La nostra hipòtesi és que la variació entre llengües es basa més en aspectes lèxics, i així ho hem corroborat després de comparar EmoGraph amb representacions basades en patrons, representacions distribuïdes i una representació que considera el vocabulari complet, però reduint-ne la dimensionalitat només a 6 característiques per classe i que s'erigeix de manera idònia per a aplicar-la en entorns big data com els mitjans socials. / Rangel Pardo, FM. (2016). Author Profiling en Social Media: Identificación de Edad, Sexo y Variedad del Lenguaje [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/67270
|
Page generated in 0.0829 seconds