Global ETD Search

11	Stratégies de docking-scoring assistées par analyse de données. <br />Application au criblage virtuel des cibles thérapeutiques COX-2 et PPAR gamma Arrault, Alban 30 November 2007 (has links) (PDF) Le criblage virtuel est une technique permettant d'extraire, d'une chimiothèque donnée, des produits actifs ou affin pour une cible ou un profil pharmacologique donné. Nous avons développé une méthodologie impliquant les données tridimensionnelles des protéines COX2 et PPARγ. Tout d'abord, nous avons comparé les différentes structures entre elles mais également les fonctions de scoring utilisées pour prédire l'affinité de molécules pour ces cibles. Par ailleurs, nous avons étudié des méthodes de consensus et d'analyse de données multivariée pour interpréter les fonctions de scoring. De plus, l'incorporation de techniques originales au protocole de docking-scoring a été testée. Plus précisément, un modèle pharmacophore, agissant comme filtre de composés indésirables, a été évalué pour diminuer les temps de calcul mais également pour améliorer le choix de la première pose. Par ailleurs, le couplage de la dynamique moléculaire, en amont du docking, nous a permis de prendre en compte la flexibilité du site actif. Nous avons montré l'utilité d'une telle stratégie pour améliorer les prédictions. Enfin, nous avons appliqué les méthodes de consensus et d'analyse de données multivariées (normalement employées pour les fonctions de scoring) aux données provenant des conformères issus de la dynamique moléculaire. [CHIM:OTHE] Chemical Sciences/Other Arrimage fonctions de scoring fouille de données criblage virtuel
12	l'algorithmique: la fouille de données et l'arithmétique Lhote, Loïck 06 September 2006 (has links) (PDF) Cette thèse aborde deux domaines de l'algorithmique: la fouille de données et l'arithmétique. Le point de vue adopté est celui de l'analyse en moyenne et, plus précisément, celui de l'analyse dynamique, qui combine des méthodes d'analyse d'algorithmes et des systèmes dynamiques. Les algorithmes de type Euclide calculent le pgcd de deux nombres; ce sont donc des briques de base du calcul formel, mais leur comportement probabiliste fin reste encore mal connu. Tout récemment, les méthodes dynamiques ont permis des avancées significatives dans ce domaine. Nous étendons cette approche à l'analyse fine d'autres paramètres, comme la complexité binaire et la taille des restes. Ces paramètres s'avèrent essentiels pour l'analyse de l'algorithme de type diviser pour régner introduit par Knuth et Schönhage. Nous utilisons également l'analyse dynamique dans le calcul prouvé de grandeurs spectrales. L'approche dynamique s'adapte aussi à l'algorithme d'Euclide sur les polynômes, même si, dans ce cas, les méthodes de la combinatoire analytique classique s'appliquent déjà. Nous abordons également la fouille de données. Nous nous limitons à des bases de données binaires où la connaissance se représente sous forme de 'motifs fréquents'. Le nombre de ces motifs est un paramètre essentiel pour les algorithmes. D'après les expérimentations, il varie considérablement selon les paramètres de la base, et l'analyse dans le pire des cas n'est donc pas significative en pratique. Dans cette thèse, nous élucidons le comportement moyen du nombre de motifs fréquents dans un modèle très général, où les bases sont contruites à partir de sources possiblement corrélées. Analyse en moyenne d'algorithmes fouille de données algorithmes d'Euclide motifs fréquents systèmes dynamiques
13	Adressing scaling challenges in comparative genomics / Adresser les défis de passage à l'échelle en génomique comparée Golenetskaya, Natalia 09 September 2013 (has links) La génomique comparée est essentiellement une forme de fouille de données dans des grandes collections de relations n-aires. La croissance du nombre de génomes sequencés créé un stress sur la génomique comparée qui croit, au pire géométriquement, avec la croissance en données de séquence. Aujourd'hui même des laboratoires de taille modeste obtient, de façon routine, plusieurs génomes à la fois - et comme des grands consortia attend de pouvoir réaliser des analyses tout-contre-tout dans le cadre de ses stratégies multi-génomes. Afin d'adresser les besoins à tous niveaux il est nécessaire de repenser les cadres algorithmiques et les technologies de stockage de données utilisés pour la génomique comparée. Pour répondre à ces défis de mise à l'échelle, dans cette thèse nous développons des méthodes originales basées sur les technologies NoSQL et MapReduce. À partir d'une caractérisation des sorts de données utilisés en génomique comparée et d'une étude des utilisations typiques, nous définissons un formalisme pour le Big Data en génomique, l'implémentons dans la plateforme NoSQL Cassandra, et évaluons sa performance. Ensuite, à partir de deux analyses globales très différentes en génomique comparée, nous définissons deux stratégies pour adapter ces applications au paradigme MapReduce et dérivons de nouveaux algorithmes. Pour le premier, l'identification d'événements de fusion et de fission de gènes au sein d'une phylogénie, nous reformulons le problème sous forme d'un parcours en parallèle borné qui évite la latence d'algorithmes de graphe. Pour le second, le clustering consensus utilisé pour identifier des familles de protéines, nous définissons une procédure d'échantillonnage itérative qui converge rapidement vers le résultat global voulu. Pour chacun de ces deux algorithmes, nous l'implémentons dans la plateforme MapReduce Hadoop, et évaluons leurs performances. Cette performance est compétitive et passe à l'échelle beaucoup mieux que les algorithmes existants, mais exige un effort particulier (et futur) pour inventer les algorithmes spécifiques. / Comparative genomics is essentially a form of data mining in large collections of n-ary relations between genomic elements. Increases in the number of sequenced genomes create a stress on comparative genomics that grows, at worse geometrically, for every increase in sequence data. Even modestly-sized labs now routinely obtain several genomes at a time, and like large consortiums expect to be able to perform all-against-all analyses as part of these new multi-genome strategies. In order to address the needs at all levels it is necessary to rethink the algorithmic frameworks and data storage technologies used for comparative genomics.To meet these challenges of scale, in this thesis we develop novel methods based on NoSQL and MapReduce technologies. Using a characterization of the kinds of data used in comparative genomics, and a study of usage patterns for their analysis, we define a practical formalism for genomic Big Data, implement it using the Cassandra NoSQL platform, and evaluate its performance. Furthermore, using two quite different global analyses in comparative genomics, we define two strategies for adapting these applications to the MapReduce paradigm and derive new algorithms. For the first, identifying gene fusion and fission events in phylogenies, we reformulate the problem as a bounded parallel traversal that avoids high-latency graph-based algorithms. For the second, consensus clustering to identify protein families, we define an iterative sampling procedure that quickly converges to the desired global result. For both of these new algorithms, we implement each in the Hadoop MapReduce platform, and evaluate their performance. The performance is competitive and scales much better than existing solutions, but requires particular (and future) effort in devising specific algorithms. Bioinformatique Fouille de données Bases de données distribuées Calcul distribué Bioinformatics Data mining Distributed databases Distributed computation
14	Méthodes d'extraction de connaissances à partir de données modélisables par des graphes : Application à des problèmes de synthèse organique / Methods of knowledge extraction from data modelled by graphs. Application to organic synthesis problems Pennerath, Frédéric 02 July 2009 (has links) Des millions de réactions chimiques sont décrites dans des bases de données sous la forme de transformations de graphes moléculaires. Cette thèse propose différentes méthodes de fouille de donnés pour extraire des motifs pertinents contenus dans ces graphes et ainsi aider les chimistes à améliorer leurs connaissances des réactions chimiques et des molécules. Ainsi on commence par montrer comment le problème central de la recherche des schémas de réactions fréquents peut se résoudre à l'aide de méthodes existantes de recherche de sous-graphes fréquents. L'introduction du modèle général des motifs les plus informatifs permet ensuite de restreindre l'analyse de ces motifs fréquents à un nombre réduit de motifs peu redondants et représentatifs des données. Si l'application du modèle aux bases de réactions permet d'identifier de grandes familles de réactions, le modèle est inadapté pour extraire les schémas caractéristiques de méthodes de synthèse (schémas CMS) dont la fréquence est trop faible. Afin de surmonter cet obstacle, est ensuite introduite une méthode de recherche heuristique fondée sur une contrainte d’intervalle entre graphes et adaptée à l’extraction de motifs de très faible fréquence. Cette méthode permet ainsi de déterminer à partir d'exemples de réactions et sous certaines conditions le schéma CMS sous-jacent à une réaction donnée. La même approche est ensuite utilisée pour traiter le problème de la classification supervisée de sommets ou d'arêtes fondée sur leurs environnements puis exploitée pour évaluer la formabilité des liaisons d'une molécule. Les résultats produits ont pu être analysés par des experts de la synthèse organique et sont très encourageants. / Millions of chemical reactions are described in databases as transformations of molecular graphs. This thesis proposes different data-mining methods to extract relevant patterns included in those graphs and therefore to help chemists in improving knowledge about chemical reactions and molecules. One first shows how the central problem of searching frequent reaction patterns can be solved using existing graph-mining methods. Introducing the general model of most informative patterns then allows experts to reduce the analysis of these frequent patterns to a very small set of non-redundant patterns characteristic of data. If the application of this model to reaction database identifies large and characteristic families of reactions, the model doesn't allow in practice the extraction of reaction patterns characteristic of synthesis methods (abbr. CSM patterns) as their frequencies are far too low. In order to overcome this problem, is introduced a heuristic search algorithm based on a graph interval constraint and able to extract patterns with very low frequency. Thus this method determines from examples of chemical reactions and under some conditions the CSM pattern underlying a given input reaction. The same approach is then used to address the problem of supervised classification of vertices or edges based on their environment and then applied to evaluate formability of bonds in molecules. Experimental results have been analyzed by experts and are very encouraging. Fouille de données Fouille de graphes Recherche des motifs fréquents
15	New MP-SoC profiling tools based on data mining techniques / Nouveaux outils de profilage de MP-SoC basés sur des techniques de fouille de données Lagraa, Sofiane 13 June 2014 (has links) La miniaturisation des composants électroniques a conduit à l'introduction de systèmes électroniques complexes qui sont intégrés sur une seule puce avec multiprocesseurs, dits Multi-Processor System-on-Chip (MPSoC). La majorité des systèmes embarqués récents sont basées sur des architectures massivement parallèles MPSoC, d'où la nécessité de développer des applications parallèles embarquées. La conception et le développement d'une application parallèle embarquée devient de plus en plus difficile notamment pour les architectures multiprocesseurs hétérogènes ayant différents types de contraintes de communication et de conception tels que le coût du matériel, la puissance et la rapidité. Un défi à relever par de nombreux développeurs est le profilage des applications parallèles embarquées afin qu'ils puissent passer à l'échelle sur plusieurs cœurs possible. Cela est particulièrement important pour les systèmes embarqués de type MPSoC, où les applications doivent fonctionner correctement sur de nombreux cœurs. En outre, la performance d'une application ne s'améliore pas forcément lorsque l'application tourne sur un nombre de cœurs encore plus grand. La performance d'une application peut être limitée en raison de multiples goulot d'étranglement notamment la contention sur des ressources partagées telles que les caches et la mémoire. Cela devient contraignant etune perte de temps pour un développeur de faire un profilage de l'application parallèle embarquée et d'identifier des goulots d'étranglement dans le code source qui diminuent la performance de l'application. Pour surmonter ces problèmes, dans cette thèse, nous proposons trois méthodes automatiques qui détectent les instructions du code source qui ont conduit à une diminution de performance due à la contention et à l'évolutivité des processeurs sur une puce. Les méthodes sont basées sur des techniques de fouille de données exploitant des gigaoctets de traces d'exécution de bas niveau produites par les platesformes MPSoC. Nos approches de profilage permettent de quantifier et de localiser automatiquement les goulots d'étranglement dans le code source afin d'aider les développeurs à optimiserleurs applications parallèles embarquées. Nous avons effectué plusieurs expériences sur plusieurs applications parallèles embarquées. Nos expériences montrent la précision des techniques proposées, en quantifiant et localisant avec précision les hotspots dans le code source. / Miniaturization of electronic components has led to the introduction of complex electronic systems which are integrated onto a single chip with multiprocessors, so-called Multi-Processor System-on-Chip (MPSoC). The majority of recent embedded systems are based on massively parallel MPSoC architectures, hence the necessity of developing embedded parallel applications. Embedded parallel application design becomes more challenging: It becomes a parallel programming for non-trivial heterogeneous multiprocessors with diverse communication architectures and design constraints such as hardware cost, power, and timeliness. A challenge faced by many developers is the profiling of embedded parallel applications so that they can scale over more and more cores. This is especially critical for embedded systems powered by MPSoC, where ever demanding applications have to run smoothly on numerous cores, each with modest power budget. Moreover, application performance does not necessarily improve as more cores are added. Application performance can be limited due to multiple bottlenecks including contention for shared resources such as caches and memory. It becomes time consuming for a developer to pinpoint in the source code the bottlenecks decreasing the performance. To overcome these issues, in this thesis, we propose a fully three automatic methods which detect the instructions of the code which lead to a lack of performance due to contention and scalability of processors on a chip. The methods are based on data mining techniques exploiting gigabytes of low level execution traces produced by MPSoC platforms. Our profiling approaches allow to quantify and pinpoint, automatically the bottlenecks in source code in order to aid the developers to optimize its embedded parallel application. We performed several experiments on several parallel application benchmarks. Our experiments show the accuracy of the proposed techniques, by quantifying and pinpointing the hotspot in the source code. MPSoC Profilage Fouille de données Programe Parallèle MPSoC Profiling Data mining Parallel program 004
16	Recherche de facteurs associés à la maladie d’Alzheimer par réutilisation de base de données massives / Research of factors associated with Alzheimer's disease by reusing massive databases Rochoy, Michaël 09 January 2019 (has links) INTRODUCTION. Les troubles neurocognitifs sévères ou démences sont notamment définis par la CIM-10 et le DSM-5. Ils englobent un cadre nosographique large : démence d’Alzheimer, démence vasculaire, démence à corps de Lewy, dégénérescence lobaire fronto-temporale, etc. Chaque type de démence possède des critères diagnostiques propres et des facteurs de risque partiellement identifiés. Identifier les troubles cognitifs dans les grandes bases de données est une question complexe, qui doit tenir compte de l’évolution des connaissances. Notre premier objectif était de décrire l’évolution des codages de démences dans la base nationale du Programme de Médicalisation des Systèmes d’Information (PMSI) de court séjour, au fil de l’évolution des critères diagnostiques. Notre deuxième objectif était d’énumérer les principaux facteurs associés connus de maladie d’Alzheimer. Notre troisième objectif était de déterminer les facteurs associés à l’apparition d’une maladie d’Alzheimer dans la base nationale du PMSI de court séjour.METHODES. Pour le premier travail, nous avons utilisé les diagnostics principaux sur le site ScanSanté pour le PMSI de court séjour de 2007 à 2017. Pour le deuxième travail, nous avons effectué une synthèse des revues de littérature et méta-analyses en utilisant les moteurs de recherche PubMed et LiSSa. Pour le troisième travail, nous avons réalisé une étude analytique par fouille de données dans la base nationale du PMSI de court séjour chez les patients âgés de 55 ans ou plus en 2014 : nous avons sélectionné 137 variables explicatives potentielles en 2008 ; la variable à expliquer était la maladie ou démence d’Alzheimer en 2014.RESULTATS. Notre premier travail sur l’identification des démences met en évidence une diminution des séjours hospitaliers avec pour diagnostic principal une maladie ou démence d’Alzheimer, avec un glissement vers d’autres troubles mentaux organiques ; une stabilité des séjours hospitaliers avec pour diagnostic principal une démence vasculaire mais avec une modification des sous-diagnostics (diminution des diagnostics principaux d’infarctus multiples et augmentation de tous les autres sous-types) ; une augmentation importante des séjours hospitaliers avec pour diagnostic principal une démence ou autre trouble cognitif persistant ou tardif liés à la consommation d’alcool ; une évolution homogène sur l’ensemble du territoire français. Ces résultats sont en faveur d’un codage respectueux des évolutions de la littérature. Nos deux travaux suivants sur l’identification des populations à risque permettent d’identifier plusieurs facteurs associés à la maladie ou démence d’Alzheimer, notamment l’âge, le sexe féminin, le diabète de type 2, la dépression, la dénutrition, les troubles bipolaires, psychotiques et anxieux, le faible niveau de scolarité, l’excès d’alcool, l’épilepsie, les chutes après 75 ans et l’hypertension intracrânienne. Ces facteurs associés peuvent être des facteurs de risque, des symptômes précoces, révélateurs ou précipitants.CONCLUSION. Identifier les troubles cognitifs dans les grandes bases de données implique de bien comprendre l’évolution des codages de démence, qui semble respecter l’évolution des connaissances. L’identification des patients ayant des facteurs associés aux démences permet un repérage précoce plus ciblé, puis une bonne identification du diagnostic étiologique nécessaire à une prise en charge adaptée. / INTRODUCTION. Severe neurocognitive disorders or dementias are defined by ICD-10 and DSM-5. They encompass a broad nosographic framework: Alzheimer's dementia, vascular dementia, Lewy body dementia, frontal-temporal lobar degeneration, etc. Each type of dementia has its own diagnostic criteria and partially identified risk factors. Identifying cognitive disorders in large databases is a complex issue, which must take into account changes in knowledge. Our first objective was to describe the evolution of dementia coding in the national database of the Medicalization of Information Systems Program (PMSI) for short stays, as diagnostic criteria evolved. Our second objective was to summarize the main known associated factors of Alzheimer's disease. Our third objective was to determine the factors associated with the onset of Alzheimer's disease in the national database of the short stay PMSI.METHODS. For the first work, we used the main diagnoses on the ScanSanté site for the short stay PMSI from 2007 to 2017. For the second work, we synthesized the literature reviews and meta-analyses using the PubMed and LiSSa search engines. For the third work, we conducted an analytical study by data mining in the national database of the short stay PMSI for patients aged 55 years or older in 2014: we selected 137 potential explanatory variables in 2008; the dependant variable was Alzheimer's disease or dementia in 2014.RESULTS. Our first work on the identification of dementias shows a decrease in inpatient stays with a main diagnosis of Alzheimer's disease or dementia, with a shift towards other organic mental disorders; stability of inpatint stays with a main diagnosis of vascular dementia but with a modification of under-diagnosis (decrease in main diagnoses of multiple heart attacks and increase in all other subtypes); a significant increase in inpatient stays with a main diagnosis of dementia or other persistent or late cognitive disorders related to alcohol consumption; a homogeneous evolution throughout the French territory. These results support a coding that respects the evolution of the literature. Our next two studies on the identification of at-risk populations identify several factors associated with Alzheimer's disease or dementia, including age, gender, diabetes mellitus, depression, undernutrition, bipolar, psychotic and anxiety disorders, low education, excess alcohol, epilepsy, falls after age 75 and intracranial hypertension. These associated factors may be risk factors, early, revealing or precipitating symptoms.CONCLUSION. Identifying cognitive disorders in large databases requires a good understanding of the evolution of dementia coding, which seems to respect the evolution of knowledge. The identification of patients with factors associated with dementia allows a more focused early identification and then proper identification of the etiological diagnosis necessary for appropriate management. Maladie d’Alzheimer Facteurs de risques Fouille de données Alzheimer’s disease Risk factors Data mining
17	La programmation DC et DCA pour certaines classes de problèmes en apprentissage et fouille de donées [i.e. données] / DC programming and DCA for some classes of problems in machine learning and data mining Nguyen, Manh Cuong 19 May 2014 (has links) La classification (supervisée, non supervisée et semi-supervisée) est une thématique importante de la fouille de données. Dans cette thèse, nous nous concentrons sur le développement d'approches d'optimisation pour résoudre certains types des problèmes issus de la classification de données. Premièrement, nous avons examiné et développé des algorithmes pour résoudre deux problèmes classiques en apprentissage non supervisée : la maximisation du critère de modularité pour la détection de communautés dans des réseaux complexes et les cartes auto-organisatrices. Deuxièmement, pour l'apprentissage semi-supervisée, nous proposons des algorithmes efficaces pour le problème de sélection de variables en semi-supervisée Machines à vecteurs de support. Finalement, dans la dernière partie de la thèse, nous considérons le problème de sélection de variables en Machines à vecteurs de support multi-classes. Tous ces problèmes d'optimisation sont non convexe de très grande dimension en pratique. Les méthodes que nous proposons sont basées sur les programmations DC (Difference of Convex functions) et DCA (DC Algorithms) étant reconnues comme des outils puissants d'optimisation. Les problèmes évoqués ont été reformulés comme des problèmes DC, afin de les résoudre par DCA. En outre, compte tenu de la structure des problèmes considérés, nous proposons différentes décompositions DC ainsi que différentes stratégies d'initialisation pour résoudre un même problème. Tous les algorithmes proposés ont été testés sur des jeux de données réelles en biologie, réseaux sociaux et sécurité informatique / Classification (supervised, unsupervised and semi-supervised) is one of important research topics of data mining which has many applications in various fields. In this thesis, we focus on developing optimization approaches for solving some classes of optimization problems in data classification. Firstly, for unsupervised learning, we considered and developed the algorithms for two well-known problems: the modularity maximization for community detection in complex networks and the data visualization problem with Self-Organizing Maps. Secondly, for semi-supervised learning, we investigated the effective algorithms to solve the feature selection problem in semi-supervised Support Vector Machine. Finally, for supervised learning, we are interested in the feature selection problem in multi-class Support Vector Machine. All of these problems are large-scale non-convex optimization problems. Our methods are based on DC Programming and DCA which are well-known as powerful tools in optimization. The considered problems were reformulated as the DC programs and then the DCA was used to obtain the solution. Also, taking into account the structure of considered problems, we can provide appropriate DC decompositions and the relevant choice strategy of initial points for DCA in order to improve its efficiency. All these proposed algorithms have been tested on the real-world datasets including biology, social networks and computer security Classification de données Fouille de données Apprentissage Optimisation Programmations DC et DCA 025.04 519.7
18	Techniques d'optimisation non convexe basée sur la programmation DC et DCA et méthodes évolutives pour la classification non supervisée / Non convex optimization techniques based on DC programming and DCA and evolution methods for clustering Ta, Minh Thuy 04 July 2014 (has links) Nous nous intéressons particulièrement, dans cette thèse, à quatre problèmes en apprentissage et fouille de données : clustering pour les données évolutives, clustering pour les données massives, clustering avec pondération de variables et enfin le clustering sans connaissance a priori du nombre de clusters avec initialisation optimale des centres de clusters. Les méthodes que nous décrivons se basent sur des approches d’optimisation déterministe, à savoir la programmation DC (Difference of Convex functions) et DCA (Difference of Convex Algorithms), pour la résolution de problèmes de clustering cités précédemment, ainsi que des approches évolutionnaires élitistes. Nous adaptons l’algorithme de clustering DCA–MSSC pour le traitement de données évolutives par fenêtres, en appréhendant les données évolutives avec deux modèles : fenêtres fixes et fenêtres glissantes. Pour le problème du clustering de données massives, nous utilisons l’algorithme DCA en deux phases. Dans la première phase, les données massives sont divisées en plusieurs sous-ensembles, sur lesquelles nous appliquons l’algorithme DCA–MSSC pour effectuer un clustering. Dans la deuxième phase, nous proposons un algorithme DCA-Weight pour effectuer un clustering pondéré sur l’ensemble des centres obtenues à la première phase. Concernant le clustering avec pondération de variables, nous proposons également deux approches: clustering dur avec pondération de variables et clustering floue avec pondération de variables. Nous testons notre approche sur un problème de segmentation d’image. Le dernier problème abordé dans cette thèse est le clustering sans connaissance a priori du nombre des clusters. Nous proposons pour cela une approche évolutionnaire élitiste. Le principe consiste à utiliser plusieurs algorithmes évolutionnaires (EAs) en même temps, de les faire concourir afin d’obtenir la meilleure combinaison de centres initiaux pour le clustering et par la même occasion le nombre optimal de clusters. Les différents tests réalisés sur plusieurs ensembles de données de grande taille sont très prometteurs et montrent l’efficacité des approches proposées / This thesis focus on four problems in data mining and machine learning: clustering data streams, clustering massive data sets, weighted hard and fuzzy clustering and finally the clustering without a prior knowledge of the clusters number. Our methods are based on deterministic optimization approaches, namely the DC (Difference of Convex functions) programming and DCA (Difference of Convex Algorithm) for solving some classes of clustering problems cited before. Our methods are also, based on elitist evolutionary approaches. We adapt the clustering algorithm DCA–MSSC to deal with data streams using two windows models: sub–windows and sliding windows. For the problem of clustering massive data sets, we propose to use the DCA algorithm with two phases. In the first phase, massive data is divided into several subsets, on which the algorithm DCA–MSSC performs clustering. In the second phase, we propose a DCA–Weight algorithm to perform a weighted clustering on the obtained centers in the first phase. For the weighted clustering, we also propose two approaches: weighted hard clustering and weighted fuzzy clustering. We test our approach on image segmentation application. The final issue addressed in this thesis is the clustering without a prior knowledge of the clusters number. We propose an elitist evolutionary approach, where we apply several evolutionary algorithms (EAs) at the same time, to find the optimal combination of initial clusters seed and in the same time the optimal clusters number. The various tests performed on several sets of large data are very promising and demonstrate the effectiveness of the proposed approaches. Apprentissage Fouille de données Clustering Données évolutives Données massives Pondération de variables Optimisation 006.312
19	Factorisation de matrices et analyse de contraste pour la recommandation / Matrix Factorization and Contrast Analysis Techniques for Recommendation Aleksandrova, Marharyta 07 July 2017 (has links) Dans de nombreux domaines, les données peuvent être de grande dimension. Ça pose le problème de la réduction de dimension. Les techniques de réduction de dimension peuvent être classées en fonction de leur but : techniques pour la représentation optimale et techniques pour la classification, ainsi qu'en fonction de leur stratégie : la sélection et l'extraction des caractéristiques. L'ensemble des caractéristiques résultant des méthodes d'extraction est non interprétable. Ainsi, la première problématique scientifique de la thèse est comment extraire des caractéristiques latentes interprétables? La réduction de dimension pour la classification vise à améliorer la puissance de classification du sous-ensemble sélectionné. Nous voyons le développement de la tâche de classification comme la tâche d'identification des facteurs déclencheurs, c'est-à-dire des facteurs qui peuvent influencer le transfert d'éléments de données d'une classe à l'autre. La deuxième problématique scientifique de cette thèse est comment identifier automatiquement ces facteurs déclencheurs? Nous visons à résoudre les deux problématiques scientifiques dans le domaine d'application des systèmes de recommandation. Nous proposons d'interpréter les caractéristiques latentes de systèmes de recommandation basés sur la factorisation de matrices comme des utilisateurs réels. Nous concevons un algorithme d'identification automatique des facteurs déclencheurs basé sur les concepts d'analyse par contraste. Au travers d'expérimentations, nous montrons que les motifs définis peuvent être considérés comme des facteurs déclencheurs / In many application areas, data elements can be high-dimensional. This raises the problem of dimensionality reduction. The dimensionality reduction techniques can be classified based on their aim: dimensionality reduction for optimal data representation and dimensionality reduction for classification, as well as based on the adopted strategy: feature selection and feature extraction. The set of features resulting from feature extraction methods is usually uninterpretable. Thereby, the first scientific problematic of the thesis is how to extract interpretable latent features? The dimensionality reduction for classification aims to enhance the classification power of the selected subset of features. We see the development of the task of classification as the task of trigger factors identification that is identification of those factors that can influence the transfer of data elements from one class to another. The second scientific problematic of this thesis is how to automatically identify these trigger factors? We aim at solving both scientific problematics within the recommender systems application domain. We propose to interpret latent features for the matrix factorization-based recommender systems as real users. We design an algorithm for automatic identification of trigger factors based on the concepts of contrast analysis. Through experimental results, we show that the defined patterns indeed can be considered as trigger factors Fouille de données Factorisation de matrices Système de recommandation Data mining Matrix factorization Recommender systems 006.312
20	Ressources et parcours pour l'apprentissage du langage Python : aide à la navigation individualisée dans un hypermédia épistémique à partir de traces / Resources and paths to learn Python language : supporting individualized navigation into an epistemic hypermedia through traces Miled, Mahdi 26 November 2014 (has links) Les travaux de recherche de cette thèse concernent principalement l‘aide à la navigation individualisée dans un hypermédia épistémique. Nous disposons d‘un certain nombre de ressources qui peut se formaliser à l‘aide d‘un graphe acyclique orienté (DAG) : le graphe des épistèmes. Après avoir cerné les environnements de ressources et de parcours, les modalités de visualisation et de navigation, de traçage, d‘adaptation et de fouille de données, nous avons présenté une approche consistant à corréler les activités de conception ou d‘édition à celles dédiées à l‘utilisation et la navigation dans les ressources. Cette approche a pour objectif de fournir des mécanismes d‘individualisation de la navigation dans un environnement qui se veut évolutif. Nous avons alors construit des prototypes appropriés pour mettre à l‘épreuve le graphe des épistèmes. L‘un de ces prototypes a été intégré à une plateforme existante. Cet hypermédia épistémique baptisé HiPPY propose des ressources et des parcours portant sur l‘apprentissage du langage Python. Il s‘appuie sur un graphe des épistèmes, une navigation dynamique et un bilan de connaissances personnalisé. Ce prototype a fait l‘objet d‘une expérimentation qui nous a donné la possibilité d‘évaluer les principes introduits et d‘analyser certains usages. / This research work mainly concerns means of assistance in individualized navigation through an epistemic hypermedia. We have a number of resources that can be formalized by a directed acyclic graph (DAG) called the graph of epistemes. After identifying resources and pathways environments, methods of visualization and navigation, tracking, adaptation and data mining, we presented an approach correlating activities of design or editing with those dedicated to resources‘ use and navigation. This provides ways of navigation‘s individualization in an environment which aims to be evolutive. Then, we built prototypes to test the graph of epistemes. One of these prototypes was integrated into an existing platform. This epistemic hypermedia called HiPPY provides resources and pathways on Python language. It is based on a graph of epistemes, a dynamic navigation and a personalized knowledge diagnosis. This prototype, which was experimented, gave us the opportunity to evaluate the introduced principles and analyze certain uses. Hypermédia adaptatif Ressources Fouille de données en éducation Python Adaptive hypermedia Resources Educational data mining Python

Search results