Spelling suggestions: "subject:"ford embedding"" "subject:"word embedding""
21 |
Word Clustering in an Interactive Text Analysis Tool / Klustring av ord i ett interaktivt textanalysverktygGränsbo, Gustav January 2019 (has links)
A central operation of users of the text analysis tool Gavagai Explorer is to look through a list of words and arrange them in groups. This thesis explores the use of word clustering to automatically arrange the words in groups intended to help users. A new word clustering algorithm is introduced, which attempts to produce word clusters tailored to be small enough for a user to quickly grasp the common theme of the words. The proposed algorithm computes similarities among words using word embeddings, and clusters them using hierarchical graph clustering. Multiple variants of the algorithm are evaluated in an unsupervised manner by analysing the clusters they produce when applied to 110 data sets previously analysed by users of Gavagai Explorer. A supervised evaluation is performed to compare clusters to the groups of words previously created by users of Gavagai Explorer. Results show that it was possible to choose a set of hyperparameters deemed to perform well across most data sets in the unsupervised evaluation. These hyperparameters also performed among the best on the supervised evaluation. It was concluded that the choice of word embedding and graph clustering algorithm had little impact on the behaviour of the algorithm. Rather, limiting the maximum size of clusters and filtering out similarities between words had a much larger impact on behaviour.
|
22 |
Parallel Algorithms for Machine LearningMoon, Gordon Euhyun 02 October 2019 (has links)
No description available.
|
23 |
Multilabel text classification of public procurements using deep learning intent detection / Textklassificering av offentliga upphandlingar med djupa artificiella neuronnät och avsåtsdetekteringSuta, Adin January 2019 (has links)
Textual data is one of the most widespread forms of data and the amount of such data available in the world increases at a rapid rate. Text can be understood as either a sequence of characters or words, where the latter approach is the most common. With the breakthroughs within the area of applied artificial intelligence in recent years, more and more tasks are aided by automatic processing of text in various applications. The models introduced in the following sections rely on deep-learning sequence-processing in order to process and text to produce a regression algorithm for classification of what the text input refers to. We investigate and compare the performance of several model architectures along with different hyperparameters. The data set was provided by e-Avrop, a Swedish company which hosts a web platform for posting and bidding of public procurements. It consists of titles and descriptions of Swedish public procurements posted on the website of e-Avrop, along with the respective category/categories of each text. When the texts are described by several categories (multi label case) we suggest a deep learning sequence-processing regression algorithm, where a set of deep learning classifiers are used. Each model uses one of the several labels in the multi label case, along with the text input to produce a set of text - label observation pairs. The goal becomes to investigate whether these classifiers can carry out different levels of intent, an intent which should theoretically be imposed by the different training data sets used by each of the individual deep learning classifiers. / Data i form av text är en av de mest utbredda formerna av data och mängden tillgänglig textdata runt om i världen ökar i snabb takt. Text kan tolkas som en följd av bokstäver eller ord, där tolkning av text i form av ordföljder är absolut vanligast. Genombrott inom artificiell intelligens under de senaste åren har medfört att fler och fler arbetsuppgifter med koppling till text assisteras av automatisk textbearbetning. Modellerna som introduceras i denna uppsats är baserade på djupa artificiella neuronnät med sekventiell bearbetning av textdata, som med hjälp av regression förutspår tillhörande ämnesområde för den inmatade texten. Flera modeller och tillhörande hyperparametrar utreds och jämförs enligt prestanda. Datamängden som använts är tillhandahållet av e-Avrop, ett svenskt företag som erbjuder en webbtjänst för offentliggörande och budgivning av offentliga upphandlingar. Datamängden består av titlar, beskrivningar samt tillhörande ämneskategorier för offentliga upphandlingar inom Sverige, tagna från e-Avrops webtjänst. När texterna är märkta med ett flertal kategorier, föreslås en algoritm baserad på ett djupt artificiellt neuronnät med sekventiell bearbetning, där en mängd klassificeringsmodeller används. Varje sådan modell använder en av de märkta kategorierna tillsammans med den tillhörande texten, som skapar en mängd av text - kategori par. Målet är att utreda huruvida dessa klassificerare kan uppvisa olika former av uppsåt som teoretiskt sett borde vara medfört från de olika datamängderna modellerna mottagit.
|
24 |
Extraction et analyse de la néologie des technologies langagières dans deux revues traductologiquesMorel, Jean-Benoit 04 1900 (has links)
Dans la présente étude, nous avons pour objectifs d’extraire et d’analyser les néologismes des technologies langagières du point de vue de la traductologie et de ses domaines connexes, d’utiliser ces néologismes comme fenêtre sur l’évolution des connaissances relatives aux technologies langagières, et de mettre à l’épreuve la méthodologie élaborée dans le cadre de l’étude.
Les technologies langagières occupent une place centrale en traductologie. Pour l’extraction et l’analyse, nous utilisons alors un corpus diachronique composé d’articles publiés en français et en anglais, de 1966 à 2019, dans les revues traductologiques Meta : journal des traducteurs et TTR : traduction, terminologie et rédaction. Nous proposons une méthodologie innovatrice en terminologie pour l’extraction et l’analyse des néologismes, qui combine l’utilisation d’un corpus d’exclusion, d’un calcul des fréquences et des plongements lexicaux diachroniques. Enfin, nous validons et analysons les néologismes sur la base de leur concordance et selon la typologie de Rondeau (1984). Nous visons plus précisément les termes d’un lexique bilingue des technologies langagières que nous avons compilé à partir d’ouvrages spécialisés.
Les résultats nous permettent de faire état de la néologie, en anglais et en français, des technologies langagières utilisées en traductologie et dans ses domaines connexes. Les données recueillies évoquent une variété de domaines, d’événements et de thématiques que nous analysons et qui représentent de nouvelles avenues à explorer. De plus, elles signalent la similarité de la néologie du domaine dans les deux langues et nous permettent d’observer la popularité, la trajectoire et l’instabilité des néologismes au sein du corpus. Ainsi, nous offrons une perspective novatrice sur les technologies langagières et sa terminologie pour les spécialistes de la traductologie et de ses domaines connexes. / In this study, we aim to extract and analyze language technologies neologisms from the point of view of translation studies and its related fields, to use these neologisms as a window on the evolution of knowledge about language technologies, and to put the methodology developed as part of the study to the test.
Language technologies hold an important place in translation studies. For the extraction and analysis, we then use a diachronic corpus built from articles published in French and English, from 1966 to 2019, in two translation studies journals, Meta: translators’ journal and TTR: traduction, terminologie et rédaction. We develop an innovative methodology in terminology for the extraction and analysis of neologisms combining the use of an exclusion corpus, a frequency analysis and diachronic word embeddings. Finally, we validate and analyze neologisms based on their concordance and according to Rondeau’s typology (1984). We focus on terms that are part of a bilingual glossary of language technologies that we compiled for this study from specialized works.
The results enable us to describe the neology, in French and English, of language technologies used in translation studies and its related fields. Collected data relate to a variety of fields, events and themes that we analyze, and which provide leads for further analysis. Also, the data point to the similarity of the domain’s neology in both languages and enable us to observe the popularity, trajectory, and stability of neologisms within the corpus. In this way, we offer an innovative perspective on language technologies and its terminology to translation studies and related fields experts.
|
25 |
[en] PART-OF-SPEECH TAGGING FOR PORTUGUESE / [pt] PART-OF-SPEECH TAGGING PARA PORTUGUÊSROMULO CESAR COSTA DE SOUSA 07 April 2020 (has links)
[pt] Part-of-speech (POS) tagging é o processo de categorizar cada palavra
de uma sentença com sua devida classe morfossintática (verbo, substantivo,
adjetivo e etc). POS tagging é considerada uma atividade fundamental no
processo de construção de aplicações de processamento de linguagem natural
(PLN), muitas dessas aplicações, em algum ponto, demandam esse tipo de
informação. Nesse trabalho, construímos um POS tagger para o Português
Contemporâneo e o Português Histórico, baseado em uma arquitetura de
rede neural recorrente. Tradicionalmente a construção dessas ferramentas
requer muitas features específicas do domínio da linguagem e dados externos
ao conjunto de treino, mas nosso POS tagger não usa esses requisitos.
Treinamos uma rede Bidirectional Long short-term memory (BLSTM), que
se beneficia das representações de word embeddings e character embeddings
das palavras, para atividade de classificação morfossintática. Testamos nosso
POS tagger em três corpora diferentes: a versão original do corpus MacMorpho, a versão revisada do corpus Mac-Morpho e no corpus Tycho Brahe.
Nós obtemos um desempenho ligeiramente melhor que os sistemas estado
da arte nos três corpora: 97.83 por cento de acurácia para o Mac-Morpho original,
97.65 por cento de acurácia para o Mac-Morpho revisado e 97.35 por cento de acurácia para
Tycho Brahe. Conseguimos, também, uma melhora nos três corpora para
a medida de acurácia fora do vocabulário, uma acurácia especial calculada
somente sobre as palavras desconhecidas do conjunto de treino. Realizamos
ainda um estudo comparativo para verificar qual dentre os mais populares
algoritmos de criação de word embedding (Word2Vec, FastText, Wang2Vec
e Glove), é mais adequado para a atividade POS tagging em Português. O
modelo de Wang2Vec mostrou um desempenho superior. / [en] Part-of-speech (POS) tagging is a process of labeling each word
in a sentence with a morphosyntactic class (verb, noun, adjective and
etc). POS tagging is a fundamental part of the linguistic pipeline, most
natural language processing (NLP) applications demand, at some step,
part-of-speech information. In this work, we constructed a POS tagger
for Contemporary Portuguese and Historical Portuguese, using a recurrent
neural network architecture. Traditionally the development of these tools
requires many handcraft features and external data, our POS tagger does
not use these elements. We trained a Bidirectional Long short-term memory
(BLSTM) network that benefits from the word embeddings and character
embeddings representations of the words, for morphosyntactic classification.
We tested our POS tagger on three different corpora: the original version
of the Mac-Morpho corpus, the revised version of the Mac-Morpho corpus,
and the Tycho Brahe corpus. We produce state-of-the-art POS taggers for
the three corpora: 97.83 percent accuracy on the original Mac-Morpho corpus,
97.65 percent accuracy on the revised Mac-Morpho and 97.35 percent accuracy on the
Tycho Brahe corpus. We also achieved an improvement in the three corpora
in out-of-vocabulary accuracy, that is the accuracy on words not seen in
training sentences. We also performed a comparative study to test which
different types of word embeddings (Word2Vec, FastText, Wang2Vec, and
Glove) is more suitable for Portuguese POS tagging. The Wang2Vec model
showed higher performance.
|
26 |
Použití hlubokých kontextualizovaných slovních reprezentací založených na znacích pro neuronové sekvenční značkování / Deep contextualized word embeddings from character language models for neural sequence labelingLief, Eric January 2019 (has links)
A family of Natural Language Processing (NLP) tasks such as part-of- speech (PoS) tagging, Named Entity Recognition (NER), and Multiword Expression (MWE) identification all involve assigning labels to sequences of words in text (sequence labeling). Most modern machine learning approaches to sequence labeling utilize word embeddings, learned representations of text, in which words with similar meanings have similar representations. Quite recently, contextualized word embeddings have garnered much attention because, unlike pretrained context- insensitive embeddings such as word2vec, they are able to capture word meaning in context. In this thesis, I evaluate the performance of different embedding setups (context-sensitive, context-insensitive word, as well as task-specific word, character, lemma, and PoS) on the three abovementioned sequence labeling tasks using a deep learning model (BiLSTM) and Portuguese datasets. v
|
27 |
Accès à l'information dans les grandes collections textuelles en langue arabe / Information access in large Arabic textual collectionsEl Mahdaouy, Abdelkader 16 December 2017 (has links)
Face à la quantité d'information textuelle disponible sur le web en langue arabe, le développement des Systèmes de Recherche d'Information (SRI) efficaces est devenu incontournable pour retrouver l'information pertinente. La plupart des SRIs actuels de la langue arabe reposent sur la représentation par sac de mots et l'indexation des documents et des requêtes est effectuée souvent par des mots bruts ou des racines. Ce qui conduit à plusieurs problèmes tels que l'ambigüité et la disparité des termes, etc.Dans ce travail de thèse, nous nous sommes intéressés à apporter des solutions aux problèmes d'ambigüité et de disparité des termes pour l'amélioration de la représentation des documents et le processus de l'appariement des documents et des requêtes. Nous apportons quatre contributions au niveau de processus de représentation, d'indexation et de recherche d'information en langue arabe. La première contribution consiste à représenter les documents à la fois par des termes simples et des termes complexes. Cela est justifié par le fait que les termes simples seuls et isolés de leur contexte sont ambigus et moins précis pour représenter le contenu des documents. Ainsi, nous avons proposé une méthode hybride pour l’extraction de termes complexes en langue arabe, en combinant des propriétés linguistiques et des modèles statistiques. Le filtre linguistique repose à la fois sur l'étiquetage morphosyntaxique et la prise en compte des variations pour sélectionner les termes candidats. Pour sectionner les termes candidats pertinents, nous avons introduit une mesure d'association permettant de combiner l'information contextuelle avec les degrés de spécificité et d'unité. La deuxième contribution consiste à explorer et évaluer les systèmes de recherche d’informations permettant de tenir compte de l’ensemble des éléments d’indexation (termes simples et complexes). Par conséquent, nous étudions plusieurs extensions des modèles existants de RI pour l'intégration des termes complexes. En outre, nous explorons une panoplie de modèles de proximité. Pour la prise en compte des dépendances de termes dans les modèles de RI, nous introduisons une condition caractérisant de tels modèle et leur validation théorique. La troisième contribution permet de pallier le problème de disparité des termes en proposant une méthode pour intégrer la similarité entre les termes dans les modèles de RI en s'appuyant sur les représentations distribuées des mots (RDMs). L'idée sous-jacente consiste à permettre aux termes similaires à ceux de la requête de contribuer aux scores des documents. Les extensions des modèles de RI proposées dans le cadre de cette méthode sont validées en utilisant les contraintes heuristiques d'appariement sémantique. La dernière contribution concerne l'amélioration des modèles de rétro-pertinence (Pseudo Relevance Feedback PRF). Étant basée également sur les RDM, notre méthode permet d'intégrer la similarité entre les termes d'expansions et ceux de la requête dans les modèles standards PRF. La validation expérimentale de l'ensemble des contributions apportées dans le cadre de cette thèse est effectuée en utilisant la collection standard TREC 2002/2001 de la langue arabe. / Given the amount of Arabic textual information available on the web, developing effective Information Retrieval Systems (IRS) has become essential to retrieve relevant information. Most of the current Arabic SRIs are based on the bag-of-words representation, where documents are indexed using surface words, roots or stems. Two main drawbacks of the latter representation are the ambiguity of Single Word Terms (SWTs) and term mismatch.The aim of this work is to deal with SWTs ambiguity and term mismatch. Accordingly, we propose four contributions to improve Arabic content representation, indexing, and retrieval. The first contribution consists of representing Arabic documents using Multi-Word Terms (MWTs). The latter is motivated by the fact that MWTs are more precise representational units and less ambiguous than isolated SWTs. Hence, we propose a hybrid method to extract Arabic MWTs, which combines linguistic and statistical filtering of MWT candidates. The linguistic filter uses POS tagging to identify MWTs candidates that fit a set of syntactic patterns and handles the problem of MWTs variation. Then, the statistical filter rank MWT candidate using our proposed association measure that combines contextual information and both termhood and unithood measures. In the second contribution, we explore and evaluate several IR models for ranking documents using both SWTs and MWTs. Additionally, we investigate a wide range of proximity-based IR models for Arabic IR. Then, we introduce a formal condition that IR models should satisfy to deal adequately with term dependencies. The third contribution consists of a method based on Distributed Representation of Word vectors, namely Word Embedding (WE), for Arabic IR. It relies on incorporating WE semantic similarities into existing probabilistic IR models in order to deal with term mismatch. The aim is to allow distinct, but semantically similar terms to contribute to documents scores. The last contribution is a method to incorporate WE similarity into Pseud-Relevance Feedback PRF for Arabic Information Retrieval. The main idea is to select expansion terms using their distribution in the set of top pseudo-relevant documents along with their similarity to the original query terms. The experimental validation of all the proposed contributions is performed using standard Arabic TREC 2002/2001 collection.
|
28 |
Prediction of Alzheimer's disease and semantic dementia from scene description: toward better language and topic generalizationIvensky, Ilya 05 1900 (has links)
La segmentation des données par la langue et le thème des tests psycholinguistiques devient de plus en plus un obstacle important à la généralisation des modèles de prédiction. Cela limite notre capacité à comprendre le cœur du dysfonctionnement linguistique et cognitif, car les modèles sont surajustés pour les détails d'une langue ou d'un sujet particulier.
Dans ce travail, nous étudions les approches potentielles pour surmonter ces limitations. Nous discutons des propriétés de divers modèles de plonjement de mots FastText pour l'anglais et le français et proposons un ensemble des caractéristiques, dérivées de ces propriétés. Nous montrons que malgré les différences dans les langues et les algorithmes de plonjement, un ensemble universel de caractéristiques de vecteurs de mots indépendantes de la langage est capable de capturer le dysfonctionnement cognitif. Nous soutenons que dans le contexte de données rares, les caractéristiques de vecteur de mots fabriquées à la main sont une alternative raisonnable pour l'apprentissage des caractéristiques, ce qui nous permet de généraliser sur les limites de la langue et du sujet. / Data segmentation by the language and the topic of psycholinguistic tests increasingly becomes a significant obstacle for generalization of predicting models. It limits our ability to understand the core of linguistic and cognitive dysfunction because the models overfit the details of a particular language or topic.
In this work, we study potential approaches to overcome such limitations. We discuss the properties of various FastText word embedding models for English and French and propose a set of features derived from these properties. We show that despite the differences in the languages and the embedding algorithms, a universal language-agnostic set of word-vector features can capture cognitive dysfunction. We argue that in the context of scarce data, the hand-crafted word-vector features is a reasonable alternative for feature learning, which allows us to generalize over the language and topic boundaries.
|
29 |
A Framework to Understand Emoji Meaning: Similarity and Sense Disambiguation of Emoji using EmojiNetWijeratne, Sanjaya January 2018 (has links)
No description available.
|
30 |
Regroupement de textes avec des approches simples et efficaces exploitant la représentation vectorielle contextuelle SBERTPetricevic, Uros 12 1900 (has links)
Le regroupement est une tâche non supervisée consistant à rassembler les éléments semblables
sous un même groupe et les éléments différents dans des groupes distincts. Le regroupement
de textes est effectué en représentant les textes dans un espace vectoriel et en étudiant leur
similarité dans cet espace. Les meilleurs résultats sont obtenus à l’aide de modèles neuronaux
qui affinent une représentation vectorielle contextuelle de manière non supervisée. Or, cette
technique peuvent nécessiter un temps d’entraînement important et sa performance n’est
pas comparée à des techniques plus simples ne nécessitant pas l’entraînement de modèles
neuronaux.
Nous proposons, dans ce mémoire, une étude de l’état actuel du domaine. Tout d’abord,
nous étudions les meilleures métriques d’évaluation pour le regroupement de textes. Puis,
nous évaluons l’état de l’art et portons un regard critique sur leur protocole d’entraînement.
Nous proposons également une analyse de certains choix d’implémentation en regroupement
de textes, tels que le choix de l’algorithme de regroupement, de la mesure de similarité, de
la représentation vectorielle ou de l’affinage non supervisé de la représentation vectorielle.
Finalement, nous testons la combinaison de certaines techniques ne nécessitant pas d’entraînement avec la représentation vectorielle contextuelle telles que le prétraitement des données,
la réduction de dimensionnalité ou l’inclusion de Tf-idf.
Nos expériences démontrent certaines lacunes dans l’état de l’art quant aux choix des
métriques d’évaluation et au protocole d’entraînement. De plus, nous démontrons que l’utilisation de techniques simples permet d’obtenir des résultats meilleurs ou semblables à des
méthodes sophistiquées nécessitant l’entraînement de modèles neuronaux. Nos expériences
sont évaluées sur huit corpus issus de différents domaines. / Clustering is an unsupervised task of bringing similar elements in the same cluster and
different elements in distinct groups. Text clustering is performed by representing texts in a
vector space and studying their similarity in this space. The best results are obtained using
neural models that fine-tune contextual embeddings in an unsupervised manner. However,
these techniques require a significant amount of training time and their performance is not
compared to simpler techniques that do not require training of neural models.
In this master’s thesis, we propose a study of the current state of the art. First, we study
the best evaluation metrics for text clustering. Then, we evaluate the state of the art and take
a critical look at their training protocol. We also propose an analysis of some implementation
choices in text clustering, such as the choice of clustering algorithm, similarity measure,
contextual embeddings or unsupervised fine-tuning of the contextual embeddings. Finally,
we test the combination of contextual embeddings with some techniques that don’t require
training such as data preprocessing, dimensionality reduction or Tf-idf inclusion.
Our experiments demonstrate some shortcomings in the state of the art regarding the
choice of evaluation metrics and the training protocol. Furthermore, we demonstrate that the
use of simple techniques yields better or similar results to sophisticated methods requiring
the training of neural models. Our experiments are evaluated on eight benchmark datasets
from different domains.
|
Page generated in 0.0727 seconds