• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 166
  • 61
  • 13
  • 1
  • 1
  • Tagged with
  • 233
  • 60
  • 59
  • 41
  • 35
  • 32
  • 31
  • 29
  • 28
  • 19
  • 18
  • 17
  • 16
  • 15
  • 15
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
231

Von Mises-Fisher based (co-)clustering for high-dimensional sparse data : application to text and collaborative filtering data / Modèles de mélange de von Mises-Fisher pour la classification simple et croisée de données éparses de grande dimension

Salah, Aghiles 21 November 2016 (has links)
La classification automatique, qui consiste à regrouper des objets similaires au sein de groupes, également appelés classes ou clusters, est sans aucun doute l’une des méthodes d’apprentissage non-supervisé les plus utiles dans le contexte du Big Data. En effet, avec l’expansion des volumes de données disponibles, notamment sur le web, la classification ne cesse de gagner en importance dans le domaine de la science des données pour la réalisation de différentes tâches, telles que le résumé automatique, la réduction de dimension, la visualisation, la détection d’anomalies, l’accélération des moteurs de recherche, l’organisation d’énormes ensembles de données, etc. De nombreuses méthodes de classification ont été développées à ce jour, ces dernières sont cependant fortement mises en difficulté par les caractéristiques complexes des ensembles de données que l’on rencontre dans certains domaines d’actualité tel que le Filtrage Collaboratif (FC) et de la fouille de textes. Ces données, souvent représentées sous forme de matrices, sont de très grande dimension (des milliers de variables) et extrêmement creuses (ou sparses, avec plus de 95% de zéros). En plus d’être de grande dimension et sparse, les données rencontrées dans les domaines mentionnés ci-dessus sont également de nature directionnelles. En effet, plusieurs études antérieures ont démontré empiriquement que les mesures directionnelles, telle que la similarité cosinus, sont supérieurs à d’autres mesures, telle que la distance Euclidiennes, pour la classification des documents textuels ou pour mesurer les similitudes entre les utilisateurs/items dans le FC. Cela suggère que, dans un tel contexte, c’est la direction d’un vecteur de données (e.g., représentant un document texte) qui est pertinente, et non pas sa longueur. Il est intéressant de noter que la similarité cosinus est exactement le produit scalaire entre des vecteurs unitaires (de norme 1). Ainsi, d’un point de vue probabiliste l’utilisation de la similarité cosinus revient à supposer que les données sont directionnelles et réparties sur la surface d’une hypersphère unité. En dépit des nombreuses preuves empiriques suggérant que certains ensembles de données sparses et de grande dimension sont mieux modélisés sur une hypersphère unité, la plupart des modèles existants dans le contexte de la fouille de textes et du FC s’appuient sur des hypothèses populaires : distributions Gaussiennes ou Multinomiales, qui sont malheureusement inadéquates pour des données directionnelles. Dans cette thèse, nous nous focalisons sur deux challenges d’actualité, à savoir la classification des documents textuels et la recommandation d’items, qui ne cesse d’attirer l’attention dans les domaines de la fouille de textes et celui du filtrage collaborative, respectivement. Afin de répondre aux limitations ci-dessus, nous proposons une série de nouveaux modèles et algorithmes qui s’appuient sur la distribution de von Mises-Fisher (vMF) qui est plus appropriée aux données directionnelles distribuées sur une hypersphère unité. / Cluster analysis or clustering, which aims to group together similar objects, is undoubtedly a very powerful unsupervised learning technique. With the growing amount of available data, clustering is increasingly gaining in importance in various areas of data science for several reasons such as automatic summarization, dimensionality reduction, visualization, outlier detection, speed up research engines, organization of huge data sets, etc. Existing clustering approaches are, however, severely challenged by the high dimensionality and extreme sparsity of the data sets arising in some current areas of interest, such as Collaborative Filtering (CF) and text mining. Such data often consists of thousands of features and more than 95% of zero entries. In addition to being high dimensional and sparse, the data sets encountered in the aforementioned domains are also directional in nature. In fact, several previous studies have empirically demonstrated that directional measures—that measure the distance between objects relative to the angle between them—, such as the cosine similarity, are substantially superior to other measures such as Euclidean distortions, for clustering text documents or assessing the similarities between users/items in CF. This suggests that in such context only the direction of a data vector (e.g., text document) is relevant, not its magnitude. It is worth noting that the cosine similarity is exactly the scalar product between unit length data vectors, i.e., L 2 normalized vectors. Thus, from a probabilistic perspective using the cosine similarity is equivalent to assuming that the data are directional data distributed on the surface of a unit-hypersphere. Despite the substantial empirical evidence that certain high dimensional sparse data sets, such as those encountered in the above domains, are better modeled as directional data, most existing models in text mining and CF are based on popular assumptions such as Gaussian, Multinomial or Bernoulli which are inadequate for L 2 normalized data. In this thesis, we focus on the two challenging tasks of text document clustering and item recommendation, which are still attracting a lot of attention in the domains of text mining and CF, respectively. In order to address the above limitations, we propose a suite of new models and algorithms which rely on the von Mises-Fisher (vMF) assumption that arises naturally for directional data lying on a unit-hypersphere.
232

Influência da Poli (Ɛ-Caprolactona) e de copolímeros funcionalizados no desempenho de blendas com matriz de poli (ácido-lático). / Influence of poly (Ɛ-caprolactone) and functionalized copolymers on the performance of poly (lactic acid) matrix blends. / Influence du poly (Ɛ-caprolactone) et des copolymères fonctionnalisés sur la performance des mélanges de matrices poly (acide lactique). / Influencia de la Poli (Ɛ-Caprolactona) y de copolímeros funcionalizados en el desempeño de mezclas con matriz de poli (ácido-láctico).

SILVA, Taciana Regina de Gouveia. 06 April 2018 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-04-06T20:12:23Z No. of bitstreams: 1 TACIANA REGINA DE GOUVEIA - TESE PPG-CEMat 2014..pdf: 4953603 bytes, checksum: ea581c261908041111cd0d411a551545 (MD5) / Made available in DSpace on 2018-04-06T20:12:23Z (GMT). No. of bitstreams: 1 TACIANA REGINA DE GOUVEIA - TESE PPG-CEMat 2014..pdf: 4953603 bytes, checksum: ea581c261908041111cd0d411a551545 (MD5) Previous issue date: 2014-08-28 / Capes / Os polímeros derivados do petróleo têm provocado impactos ambientais devido ao descarte inadequado. Uma alternativa para esse problema é a utilização de polímeros biodegradáveis ou a produção de blendas a partir destes polímeros. Neste trabalho, foram preparadas blendas de poli (ácido lático) - PLA, poli (caprolactona) - PCL, com três copolímeros diferentes: EMA, E-GMA e o EMAGMA que são copolímeros de etileno-acrilato de metila, etileno-metacrilato de glicidila e o terpolímero etileno-acrilato de metila-metacrilato de glicidila, respectivamente. As composições utilizadas para as blendas foram as seguintes: PLA/PCL (90/10), PLA/PCL (80/20), PLA/Copolímeros (90/10) e PLA/PCL/Copolímeros (80/10/10). Estas foram preparadas por fusão em uma extrusora de rosca dupla corrotativa e, em seguida, moldadas por injeção sob a forma de corpos de prova de tração, impacto e HDT. Todas as composições foram caracterizadas por: ensaios mecânicos de tração e impacto, temperatura de distorção térmica - HDT, calorimetria exploratória diferencial - DSC, difração de raios X - DRX, análise térmica dinâmica-mecânica - DMTA, espectroscopia na região do infravermelho por transformada de Fourier - FTIR, microscopia eletrônica de varredura - MEV, reometria de torque, ensaio reológico e reometria capilar. As propriedades mecânicas apresentaram redução nos valores do módulo e da resistência à tração e um aumento no alongamento e na resistência ao impacto para todas as composições quando comparadas com o PLA puro, com destaque para as composições que continham o copolímero EMA-GMA. A HDT não apresentou mudanças significativas para as diferentes composições em comparação com o PLA puro. O comportamento térmico e termomecânico foi avaliado por DSC e por DMTA e foi possível observar a transição térmica das blendas. Por DRX foi possível observar as fases cristalinas das blendas de PLA. A morfologia da superfície de fratura observada por MEV ilustrou que ocorreram mudanças significativas em função da composição. Os resultados de reometria de torque não apresentaram mudanças significativas no comportamento do PLA, enquanto que os resultados obtidos no ensaio reológico ilustraram aumento no módulo de armazenamento em todas as composições. A partir do ensaio de reometria capilar foi visto que houve redução da viscosidade aparente e da tensão de cisalhamento sob altas taxas de cisalhamento para todas as composições. / The polymers derived from petroleum have caused environmental impacts due to improper disposal. An alternative to this problem is the use of biodegradable polymers or blends production from these polymers. In this work, blends of poly (lactic acid) - PLA, poly (-caprolactone) - PCL, were prepared with three different copolymers: EMA, E-GMA and EMA-GMA are copolymers the ethylene-methyl acrylate, ethylene-glycidyl methacrylate and terpolymer ethylene-methyl acrylate-glycidyl methacrylate respectively. The compositions used in the blends were as follows: PLA/PCL (90/10) PLA/PCL (80/20) PLA/ Copolymer (90/10) and PLA/PCL/Copolymer (80/10/10). These were prepared by melting in an extruder twin screw co-rotating and then injection molded in the form of specimens tensile, impact and HDT. All compositions were characterized by: mechanical tensile and impact , heat distortion temperature - HDT, differential scanning calorimetry - DSC, X-ray diffraction - XRD, dynamic mechanical thermal analysis – DMTA, spectroscopy in the infrared region by transform Fourier - FTIR, scanning electron microscopy - SEM, torque rheometer, rheological testing and capillary rheometer. The mechanical properties showed reduced values of modulus and tensile strength and an increase in elongation and impact resistance for all compositions when compared with pure PLA, especially for compositions containing copolymer EMA-GMA. The HDT showed no significant changes for the different compositions compared with pure PLA. The thermal and thermomechanical behavior was evaluated by DSC and DMTA and it was possible to observe the thermal transition of the blends. XRD was possible to observe the crystalline phases of the blends of PLA. The morphology of the fracture surface was observed by SEM illustrated that significant changes as a function of composition. The torque rheometer results showed no significant change in the behavior of PLA, while the rheological test results illustrate the increase in storage modulus in all compositions. From the test capillary rheometer was seen that there was a reduction in the apparent viscosity and shear stress at high shear rates for all compositions.
233

Exploring variabilities through factor analysis in automatic acoustic language recognition / Exploration par l'analyse factorielle des variabilités de la reconnaissance acoustique automatique de la langue / Erforschung durch Faktor-Analysis der Variabilitäten der automatischen akustischen Sprachen-Erkennung

Verdet, Florian 05 September 2011 (has links)
La problématique traitée par la Reconnaissance de la Langue (LR) porte sur la définition découverte de la langue contenue dans un segment de parole. Cette thèse se base sur des paramètres acoustiques de courte durée, utilisés dans une approche d’adaptation de mélanges de Gaussiennes (GMM-UBM). Le problème majeur de nombreuses applications du vaste domaine de la re- problème connaissance de formes consiste en la variabilité des données observées. Dans le contexte de la Reconnaissance de la Langue (LR), cette variabilité nuisible est due à des causes diverses, notamment les caractéristiques du locuteur, l’évolution de la parole et de la voix, ainsi que les canaux d’acquisition et de transmission. Dans le contexte de la reconnaissance du locuteur, l’impact de la variabilité solution peut sensiblement être réduit par la technique d’Analyse Factorielle (Joint Factor Analysis, JFA). Dans ce travail, nous introduisons ce paradigme à la Reconnaissance de la Langue. Le succès de la JFA repose sur plusieurs hypothèses. La première est que l’information observée est décomposable en une partie universelle, une partie dépendante de la langue et une partie de variabilité, qui elle est indépendante de la langue. La deuxième hypothèse, plus technique, est que la variabilité nuisible se situe dans un sous-espace de faible dimension, qui est défini de manière globale.Dans ce travail, nous analysons le comportement de la JFA dans le contexte d’un dispositif de LR du type GMM-UBM. Nous introduisons et analysons également sa combinaison avec des Machines à Vecteurs Support (SVM). Les premières publications sur la JFA regroupaient toute information qui est amélioration nuisible à la tâche (donc ladite variabilité) dans un seul composant. Celui-ci est supposé suivre une distribution Gaussienne. Cette approche permet de traiter les différentes sortes de variabilités d’une manière unique. En pratique, nous observons que cette hypothèse n’est pas toujours vérifiée. Nous avons, par exemple, le cas où les données peuvent être groupées de manière logique en deux sous-parties clairement distinctes, notamment en données de sources téléphoniques et d’émissions radio. Dans ce cas-ci, nos recherches détaillées montrent un certain avantage à traiter les deux types de données par deux systèmes spécifiques et d’élire comme score de sortie celui du système qui correspond à la catégorie source du segment testé. Afin de sélectionner le score de l’un des systèmes, nous avons besoin d’un analyses détecteur de canal source. Nous proposons ici différents nouveaux designs pour engendrées de tels détecteurs automatiques. Dans ce cadre, nous montrons que les facteurs de variabilité (du sous-espace) de la JFA peuvent être utilisés avec succès pour la détection de la source. Ceci ouvre la perspective intéressante de subdiviser les5données en catégories de canal source qui sont établies de manière automatique. En plus de pouvoir s’adapter à des nouvelles conditions de source, cette propriété permettrait de pouvoir travailler avec des données d’entraînement qui ne sont pas accompagnées d’étiquettes sur le canal de source. L’approche JFA permet une réduction de la mesure de coûts allant jusqu’à généraux 72% relatives, comparé au système GMM-UBM de base. En utilisant des systèmes spécifiques à la source, suivis d’un sélecteur de scores, nous obtenons une amélioration relative de 81%. / Language Recognition is the problem of discovering the language of a spoken definitionutterance. This thesis achieves this goal by using short term acoustic information within a GMM-UBM approach.The main problem of many pattern recognition applications is the variability of problemthe observed data. In the context of Language Recognition (LR), this troublesomevariability is due to the speaker characteristics, speech evolution, acquisition and transmission channels.In the context of Speaker Recognition, the variability problem is solved by solutionthe Joint Factor Analysis (JFA) technique. Here, we introduce this paradigm toLanguage Recognition. The success of JFA relies on several assumptions: The globalJFA assumption is that the observed information can be decomposed into a universalglobal part, a language-dependent part and the language-independent variabilitypart. The second, more technical assumption consists in the unwanted variability part to be thought to live in a low-dimensional, globally defined subspace. In this work, we analyze how JFA behaves in the context of a GMM-UBM LR framework. We also introduce and analyze its combination with Support Vector Machines(SVMs).The first JFA publications put all unwanted information (hence the variability) improvemen tinto one and the same component, which is thought to follow a Gaussian distribution.This handles diverse kinds of variability in a unique manner. But in practice,we observe that this hypothesis is not always verified. We have for example thecase, where the data can be divided into two clearly separate subsets, namely datafrom telephony and from broadcast sources. In this case, our detailed investigations show that there is some benefit of handling the two kinds of data with two separatesystems and then to elect the output score of the system, which corresponds to the source of the testing utterance.For selecting the score of one or the other system, we need a channel source related analyses detector. We propose here different novel designs for such automatic detectors.In this framework, we show that JFA’s variability factors (of the subspace) can beused with success for detecting the source. This opens the interesting perspectiveof partitioning the data into automatically determined channel source categories,avoiding the need of source-labeled training data, which is not always available.The JFA approach results in up to 72% relative cost reduction, compared to the overall resultsGMM-UBM baseline system. Using source specific systems followed by a scoreselector, we achieve 81% relative improvement.

Page generated in 0.0488 seconds