Spelling suggestions: "subject:"fouille dde données"" "subject:"fouille dee données""
1 |
Exploration des techniques de fouille de données pour un monitoring efficace des systèmes intégrés sur puce / Exploration of Data Mining techniques for an efficient Monitoring of Systems on ChipNajem, Mohamad 08 December 2015 (has links)
La miniaturisation des technologies de semi-conducteurs a permis en quelques décennies de concevoir des systèmes toujours plus complexes, comprenant aujourd'hui plusieurs milliards de transistors sur un même substrat de silicium. Cette augmentation des densités d'intégration fait face à une contrainte physique représentée par la quantité de puissance consommée par unité de surface. À cela s'ajoutent également des problèmes de fiabilité, en raison notamment des hot-spots, qui peuvent accélérer la dégradation des transistors et réduire en conséquence la durée de vie du composant. L'efficacité énergétique des circuits devient un enjeu majeur, aussi bien dans le domaine de l'embarqué que pour des applications de calcul haute performance. La prise en compte de ces contraintes nécessite la mise en place de solutions nouvelles, s'appuyant notamment sur des techniques d'auto-adaptation. Celles-ci reposent généralement sur un processus bouclé en trois phases: (i) le monitoring qui consiste à observer l'état du système, (ii) le diagnostic qui analyse les informations relevées pour optimiser le fonctionnement du système, et (iii) l'action qui règle les paramètres en conséquence. L'efficacité d'une méthode d'adaptation dépend non seulement de l'algorithme d'optimisation mais aussi de la précision de l'information observée en ligne. Le monitoring est généralement effectué à l'aide d'un ensemble de capteurs intégrés (analogiques ou numériques). Les méthodes industrielles actuelles consistent à placer un nombre de capteurs par ressource (monitoring statique). Cependant, ces méthodes sont généralement très coûteuses et nécessitent l'insertion d'un grand nombre d'unités pour avoir une information précise sur le comportement du système à une résolution spatiale et temporelle fine. Cette thèse propose une approche innovante qui intervient en amont; un ensemble de techniques issues du domaine de la fouille de données est mis en œuvre pour l'analyse de données extraites des différents niveaux d'abstractions à partir du flot de conception, ce afin de définir une solution optimale en terme de coût et de précision. Notre méthode permet de dégager de manière systématique l'information pertinente requise pour la mise en œuvre d'un monitoring efficace et dans un contexte où la consommation et la fiabilité apparaissent comme de fortes contraintes, cette thèse s'intéresse plus particulièrement à celui de la puissance et de la température sur puce. / Over the last decades, the miniaturization of semiconductor technologies has allowed to design complex systems, including today's several billions of transistors on a single die. As a consequence, the integration density has increased and the power consumption has become significant. This is compounded by the reliability issues represented by the presence of thermal hotspots that can accelerate the degradation of the transistors, and consequently reduce the chip lifetime. In order to face these challenges, new solutions are required, based in particular on the self-adaptive systems. These systems are mainly composed of a control loop with three processes: (i) the monitoring which is responsible for observing the state of the system, (ii) the diagnosis, which analyzes the information collected and make decisions to optimize the behavior of the system, and (iii) the action that adjusts the system parameters accordingly. However, effective adaptations depend critically on the monitoring process that should provide an accurate estimation about the system state in a cost-effective way. The monitoring is typically done by using integrated sensors (analog or digital). The industrial methods consist of placing one sensor per resource (static monitoring). However, these methods are usually too expensive, and require a large number of units to produce a precise information at a fine-grained resolution. This thesis proposes an innovative and ‘upstream' approach; a set of data mining techniques is used to analyze data extracted from various levels of abstractions from the design flow, in order to define the optimum monitoring in terms of cost and accuracy. Our method systematically identifies relevant information required for the implementation of effective monitoring. This thesis mainly focuses on the monitoring of the power and the temperature of the chip.
|
2 |
Préparation non paramétrique des données pour la fouille de données multi-tablesLahbib, Dhafer 06 December 2012 (has links) (PDF)
Dans la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement associés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. Afin de prendre en compte les variables explicatives secondaires (appartenant aux tables secondaires), la plupart des approches existantes opèrent par mise à plat, obtenant ainsi une représentation attribut-valeur classique. Par conséquent, on perd la représentation initiale naturellement compacte mais également on risque d'introduire des biais statistiques. Dans cette thèse, nous nous intéressons à évaluer directement les variables secondaires vis-à-vis de la variable cible, dans un contexte de classification supervisée. Notre méthode consiste à proposer une famille de modèles non paramétriques pour l'estimation de la densité de probabilité conditionnelle des variables secondaires. Cette estimation permet de prendre en compte les variables secondaires dans un classifieur de type Bayésien Naïf. L'approche repose sur un prétraitement supervisé des variables secondaires, par discrétisation dans le cas numérique et par groupement de valeurs dans le cas catégoriel. Dans un premier temps, ce prétraitement est effectué de façon univariée, c'est-à-dire, en considérant une seule variable secondaire à la fois. Dans un second temps, nous proposons une approche de partitionnement multivarié basé sur des itemsets de variables secondaires, ce qui permet de prendre en compte les éventuelles corrélations qui peuvent exister entre variables secondaires. Des modèles en grilles de données sont utilisés pour obtenir des critères Bayésiens permettant d'évaluer les prétraitements considérés. Des algorithmes combinatoires sont proposés pour optimiser efficacement ces critères et obtenir les meilleurs modèles.Nous avons évalué notre approche sur des bases de données multi-tables synthétiques et réelles. Les résultats montrent que les critères d'évaluation ainsi que les algorithmes d'optimisation permettent de découvrir des variables secondaires pertinentes. De plus, le classifieur Bayésien Naïf exploitant les prétraitements effectués permet d'obtenir des taux de prédiction importants.
|
3 |
Préparation non paramétrique des données pour la fouille de données multi-tables / Non-parametric data preparation for multi-relational data miningLahbib, Dhafer 06 December 2012 (has links)
Dans la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement associés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. Afin de prendre en compte les variables explicatives secondaires (appartenant aux tables secondaires), la plupart des approches existantes opèrent par mise à plat, obtenant ainsi une représentation attribut-valeur classique. Par conséquent, on perd la représentation initiale naturellement compacte mais également on risque d'introduire des biais statistiques. Dans cette thèse, nous nous intéressons à évaluer directement les variables secondaires vis-à-vis de la variable cible, dans un contexte de classification supervisée. Notre méthode consiste à proposer une famille de modèles non paramétriques pour l'estimation de la densité de probabilité conditionnelle des variables secondaires. Cette estimation permet de prendre en compte les variables secondaires dans un classifieur de type Bayésien Naïf. L'approche repose sur un prétraitement supervisé des variables secondaires, par discrétisation dans le cas numérique et par groupement de valeurs dans le cas catégoriel. Dans un premier temps, ce prétraitement est effectué de façon univariée, c'est-à-dire, en considérant une seule variable secondaire à la fois. Dans un second temps, nous proposons une approche de partitionnement multivarié basé sur des itemsets de variables secondaires, ce qui permet de prendre en compte les éventuelles corrélations qui peuvent exister entre variables secondaires. Des modèles en grilles de données sont utilisés pour obtenir des critères Bayésiens permettant d'évaluer les prétraitements considérés. Des algorithmes combinatoires sont proposés pour optimiser efficacement ces critères et obtenir les meilleurs modèles.Nous avons évalué notre approche sur des bases de données multi-tables synthétiques et réelles. Les résultats montrent que les critères d'évaluation ainsi que les algorithmes d'optimisation permettent de découvrir des variables secondaires pertinentes. De plus, le classifieur Bayésien Naïf exploitant les prétraitements effectués permet d'obtenir des taux de prédiction importants. / In multi-relational data mining, data are represented in a relational form where the individuals of the target table are potentially related to several records in secondary tables in one-to-many relationship. In order take into account the secondary variables (those belonging to a non target table), most of the existing approaches operate by propositionalization, thereby losing the naturally compact initial representation and eventually introducing statistical bias. In this thesis, our purpose is to assess directly the relevance of secondary variables w.r.t. the target one, in the context of supervised classification.We propose a family of non parametric models to estimate the conditional density of secondary variables. This estimation provides an extension of the Naive Bayes classifier to take into account such variables. The approach relies on a supervised pre-processing of the secondary variables, through discretization in the numerical case and a value grouping in the categorical one. This pre-processing is achieved in two ways. In the first approach, the partitioning is univariate, i.e. by considering a single secondary variable at a time. In a second approach, we propose an itemset based multivariate partitioning of secondary variables in order to take into account any correlations that may occur between these variables. Data grid models are used to define Bayesian criteria, evaluating the considered pre-processing. Combinatorial algorithms are proposed to efficiently optimize these criteria and find good models.We evaluated our approach on synthetic and real world multi-relational databases. Experiments show that the evaluation criteria and the optimization algorithms are able to discover relevant secondary variables. In addition, the Naive Bayesian classifier exploiting the proposed pre-processing achieves significant prediction rates.
|
4 |
Co-développement d'un modèle d'aide à la décision pour la gestion intégrée de la flore adventice. Méta-modélisation et analyse de sensibilité d'un modèle mécaniste complexe (FLORSYS) des effets des systèmes de culture sur les services et disservices écosystémiques de la flore adventice / Co-design of a decision support system for integrated weed management. Meta-modelling and sensitivity analysis of a complex mechanistic model (FLORSYS) of cropping system effects on ecosystem services and disservices of weedsColas, Floriane 26 March 2018 (has links)
Les adventices sont la principale menace pour les cultures, pour les gérer le moyen le plus utilisé est l’application d’herbicides. Leur emploi doit être réduit en raison de problèmes de santé et d'environnement. Pour les remplacer, il faut mettre en place des combinaisons de pratiques culturales. Cette complexification de la gestion des adventices, la nécessité de la raisonner sur le long terme et la multiplicité des impacts du système de culture font que les outils de modélisation sont d'une grande aide pour concevoir des systèmes de culture innovants. L'objectif de la thèse est de développer un outil d'aide à la décision (OAD) pour des conseillers agricoles afin d'assister la reconception de systèmes de culture moins consommateurs en herbicides. Notre approche consiste à déterminer la structure de ce nouvel OAD en interaction avec les futurs utilisateurs et son contenu biophysique à partir du fonctionnement de l'agroécosystème d'un modèle de recherche. Ce modèle est FLORSYS, un modèle mécaniste de « parcelle virtuelle » qui simule la dynamique de la flore adventice et du couvert cultivé en fonction des systèmes de culture et du pédoclimat et qui en déduit des indicateurs d'impact de la flore adventice sur la production agricole et les services écosystémiques. La thèse comprend trois étapes : (1) accélération de FLORSYS en méta-modélisant, par polynômes du chaos, son module le plus lent, le module d'interception du rayonnement lumineux individu-centrée du couvert culture:adventices avec transfert et interception de la lumière simulée au niveau du voxel (pixel 3D); (2) identification des pratiques culturales ayant le plus d'effet sur les indicateurs d'impact de la flore adventice, par fouille de données sur un très grand nombre de systèmes de culture réels simulés avec FLORSYS. Pour élargir la gamme des combinaisons d'entrées explorées, des systèmes de culture aléatoires ont été ajoutés à l'analyse. Des forêts aléatoires ont permis d'établir des grilles des techniques culturales les plus influentes en fonction des objectifs visés ; les arbres de régression identifient les combinaisons de pratiques culturales permettant d'atteindre ces mêmes objectifs; (3) en parallèle, le co-développement de la structure de l'OAD avec les futurs utilisateurs s’est fait via enquêtes et ateliers de co-conception de systèmes de culture, en termes de questions traitées, choix et formats des entrées et sorties etc. Dans l'étape (1), la comparaison entre la version voxelisée et la version méta-modélisée au niveau de la plante entière a mis en lumière le compromis précision/rapidité du modèle. Le métamodèle est plus rapide pour tester des stratégies d'agriculture de précision nécessitant de connaître précisément la position et le volume des plantes. Dans les autres cas, diminuer la précision en utilisant la version voxelisée avec un grand voxel est plus rapide. L'étape (2) montre que pour réduire l'impact des adventices sur la production, le travail du sol, principalement en été, et l’utilisation d’herbicides sont les pratiques les plus influentes. L'étape (3) a identifié deux cas d'utilisation pour le futur OAD : la reconception de systèmes de culture nécessite un OAD synthétique basé sur des méta-règles de décision; le réajustement de système de culture nécessite un OAD plus détaillé en termes de description du système de culture et des effets de la flore. L'OAD synthétique est composé de grilles de conseil, d'arbres de décision et d’un simulateur rapide basé sur des forêts aléatoires; sa facilité et sa capacité à prédire à la fois des éléments connus mais aussi surprenants pour les conseillers, en font un intéressant support lors d'ateliers de conception de systèmes de culture pour proposer les grandes lignes de reconception des systèmes de culture multiperformants. L’OAD détaillé sera une version de FLORSYS pré-paramétrée pour différentes régions pour ajuster finement des systèmes de culture candidats à chaque type de situation d'agriculteur. / The main threat to agricultural crops are weeds with herbicides being the primary cropping management practice. Due to the negative impact of herbicides on health and environment, their use must be reduced. To replace herbicides, numerous cropping practices need to be implemented. This makes weed management more complicated and, together with necessity of scheduling operations at long-term and the multiplicity of cropping system impacts, explains why models are so useful for designing innovative cropping systems. The aim of this thesis was to develop a Decision Support System (DSS) intended for crop advisors to help design cropping systems that are less dependent on herbicides. Our approach consisted in identifying the structure of the DSS in interaction with future users while using an existing research model for the biophysical content of the tool. The research model, FLORSYS, is a mechanistic model of a “virtual field” simulating the weed flora dynamics from both cropping systems and pedoclimatic conditions. As output, it provides weed impact indicators, both for crop production and ecosystem services. This work was achieved via three steps: (1) increasing the speed of FLORSYS simulations by metamodelling, via polynomial chaos extension, the slowest submodel, i.e. the radiation interception. This submodel is based on a 3D representation of each plant of the crop:weed canopy where the transfer and interception of the radiation is computed at a voxel (3D pixel) scale. (2) The identification of the most influential cropping practices on weed impacts indicators via datamining on a wide range of simulated cropping systems with FLORSYS. To widen the range of cropping systems, random cropping systems were added to the study. Random forest allowed the construction of charts of the most important cropping practices contingent on different objectives; classification and regression trees gave the optimal combinations of practices leading to those objectives. (3) Simultaneously, the co-development of the structure of the DSS with future users was done via surveys and workshops to design cropping systems. These interactions aimed at defining which questions should be answered with the DSS, which inputs and outputs, and with which format, should be used. In step (1), the simulation time of the voxelised FLORSYS and the FLORSYS metamodelled at the scale of the plant highlighted the precision/speed trade-off of the model. The metamodel is faster for agricultural practices requiring precise knowledge of the position and volume of plants. In other cases, decreasing the precision by using the voxelized FLORSYS with an increased voxel size is much faster. Step (2) shows no general conflict between crop protection and ecosystem service indicators. The conservation of both crop protection and ecosystem services is thus possible, except for bee food offer. To reduce weed impacts on production, tillage, especially in summer, and herbicide use are the main cropping techniques. In step (3) two use cases were identified: (1st) the redesign of a cropping system requires a synthetic tool, based on meta-decision rules (e.g. rotating winter and spring crops, ploughing once every three years); (2nd) adjusting cropping practices requires a detailed tool, with detailed inputs on the cropping system. The synthetic DSS is composed of charts of the most important cropping system practices, of decision trees, and an emulator of FLORSYS based on random forests. Its capacity to predict known facts makes it an essential discussion medium for cropping system design workshops, particularly to suggest the outlines of multi-performant cropping systems. The detailed DSS consists of a pre-parameterized version of FLORSYS for different regions, to allow the fine tuning of cropping systems to constraints and objectives of farmers.
|
5 |
Inférence d'un dictionnaire des motifs des plissements corticaux / Inference of a dictionnary of cortical foldingSun, Zhongyi 07 June 2011 (has links)
Cette thèse vise à faire émerger de nouvelles descriptions de la variabilité des plissements du cortex humain en s’appuyant sur des techniques de fouilles de données. L’objectif principal est la conception d’algorithmes permettant de découvrir des motifs de plissement spécifiques à une sous-population d’individus. Le but final est de réaliser un dictionnaire de ces motifs et de les associer à des particularités cognitives ou architecturales, voire à des pathologies. Deux stratégies de « clustering » sont proposées pour mettre en évidence de tels motifs. La première repose sur des descripteurs de formes globaux correspondant aux invariants de moment 3D, la seconde repose sur l’estimation d’une matrice de distances entre chaque paire d’individus. Un algorithme de clustering dédié est conçu pour détecter les motifs les plus fréquents de manière robuste. Une technique de réduction de dimension est utilisée pour mettre en évidence les transitions entre motifs au sein de la population. Les méthodes algorithmiques proposées sont utilisées pour étudier la forme du cortex sensori-moteur d’une population de gauchers contrariés. Des résultats originaux sur le lien entre la forme du sillon central et la latéralité manuelle sont mis en évidence. Les méthodes développées sont ensuite utilisées pour construire le premier dictionnaire des motifs observés dans les plissements corticaux issu d’une approche algorithmique. / This thesis aims at proposing new descriptions of the variability of the folding of the human cortex using data mining. The main objective is the design of algorithms detecting folding patterns specific to a sub-population. The long term goal is the constitution of an exhaustive dictionary of all the folding patterns enriched with links to cognitive or architectural specificities, or to pathologies. Two clustering strategies are proposed to detect such patterns. The first one is based on global shape descriptors called the 3D moment invariants, the second one implies the computation of a pairwise distance matrix. A dedicated clustering algorithm is designed for robust detection of the most frequent patterns. A dimension reduction strategy is proposed to study the transition from one pattern to another across the population. The proposed framework is applied to the study of the shape of the sensori-motor cortex of a population of left-handers forced to write with the right hand. Original discoveries relating the shape of the central sulcus to handedness are achieved. The framework is finally used to build the first computerized dictionary of the cortical folding patterns.
|
6 |
Nouvelles approches bioinformatiques pour l'étude à grande échelle de l'évolution des activités enzymatiques / New bioinformatic approaches for the large-scale study of the evolution of the enzymatic activitiesPereira, Cécile 11 May 2015 (has links)
Cette thèse a pour objectif de proposer de nouvelles méthodes permettant l'étude de l'évolution du métabolisme. Pour cela, nous avons choisi de nous pencher sur le problème de comparaison du métabolisme de centaines de micro-organismes.Afin de comparer le métabolisme de différentes espèces, il faut dans un premier temps connaître le métabolisme de chacune de ces espèces.Les protéomes des micro-organismes avec lesquels nous souhaitons travailler proviennent de différentes bases de données et ont été séquencés et annotés par différentes équipes, via différentes méthodes. L'annotation fonctionnelle peut donc être de qualité hétérogène. C'est pourquoi il est nécessaire d'effectuer une ré-annotation fonctionnelle standardisée des protéomes des organismes que nous souhaitons comparer.L'annotation de séquences protéiques peut être réalisée par le transfert d'annotations entre séquences orthologues. Il existe plus de 39 bases de données répertoriant des orthologues prédits par différentes méthodes. Il est connu que ces méthodes mènent à des prédictions en partie différentes. Afin de tenir compte des prédictions actuelles tout en ajoutant de l'information pertinente, nous avons développé la méta-approche MARIO. Celle-ci combine les intersections des résultats de plusieurs méthodes de détections de groupes d'orthologues et les enrichit grâce à l'utilisation de profils HMM. Nous montrons que notre méta-approche permet de prédire un plus grand nombre d'orthologues tout en améliorant la similarité de fonction des paires d'orthologues prédites. Cela nous a permis de prédire le répertoire enzymatique de 178 protéomes de micro-organismes (dont 174 champignons).Dans un second temps, nous analysons ces répertoires enzymatiques afin d'en apprendre plus sur l'évolution du métabolisme. Dans ce but, nous cherchons des combinaisons de présence/absence d'activités enzymatiques permettant de caractériser un groupe taxonomique donné. Ainsi, il devient possible de déduire si la création d'un groupe taxonomique particulier peut s'expliquer par (ou a induit) l'apparition de certaines spécificités au niveau de son métabolisme.Pour cela, nous avons appliqué des méthodes d'apprentissage supervisé interprétables (règles et arbres de décision) sur les profils enzymatiques. Nous utilisons comme attributs les activités enzymatiques, comme classe les groupes taxonomiques et comme exemples les champignons. Les résultats obtenus, cohérents avec nos connaissances actuelles sur ces organismes, montrent que l'application de méthodes d'apprentissage supervisé est efficace pour extraire de l'information des profils phylogénétiques. Le métabolisme conserve donc des traces de l'évolution des espèces.De plus, cette approche, dans le cas de prédiction de classifieurs présentant un faible nombre d'erreurs, peut permettre de mettre en évidence l'existence de probables transferts horizontaux. C'est le cas par exemple du transfert du gène codant pour l'EC:3.1.6.6 d'un ancêtre des pezizomycotina vers un ancêtre d'Ustilago maydis. / This thesis has for objective to propose new methods allowing the study of the evolution of the metabolism. For that purpose, we chose to deal with the problem of comparison of the metabolism of hundred microorganisms.To compare the metabolism of various species, it is necessary to know at first the metabolism of each of these species.We work with proteomes of the microorganisms coming from various databases and sequenced and annotated by various teams, via various methods. The functional annotation can thus be of heterogeneous quality. That is why it is necessary to make a standardized functional annotation of this proteomes.The annotation of protein sequences can be realized by the transfer of annotations between orthologs sequences. There are more than 39 databases listing orthologues predicted by various methods. It is known that these methods lead to partially different predictions. To take into account current predictions and also adding relevant information, we developed the meta approach MARIO. This one combines the intersections of the results of several methods of detection of groups of orthologs and add sequences to this groups by using HMM profiles. We show that our meta approach allows to predict a largest number of orthologs while improving the similarity of function of the pairs of predicted orthologs. It allowed us to predict the enzymatic directory of 178 proteomes of microorganisms (among which 174 fungi).Secondly, we analyze these enzymatic directories in order to analyse the evolution of the metabolism. In this purpose, we look for combinations of presence / absence of enzymatic activities allowing to characterize a taxonomic group. So, it becomes possible to deduct if the creation of a particular taxonomic group can give some explanation by (or led to) the appearance of specificities at the level of its metabolism.For that purpose, we applied interpretable machine learning methods (rulers and decision trees) to the enzymatic profiles. We use as attributes the enzymatic activities, as classes the taxonomic groups and as examples the fungi. The results, coherent with our current knowledge on these species, show that the application of methods of machine learning is effective to extract informations of the phylogenetic profiles. The metabolism thus keeps tracks of the evolution of the species.Furthermore, this approach, in the case of prediction of classifiers presenting a low number of errors, can allow to highlight the existence of likely horizontal transfers. It is the case for example of the transfer of the gene coding for the EC:3.1.6.6 of an ancestor of pezizomycotina towards an ancestor of Ustilago maydis.
|
7 |
Inférence d'un dictionnaire des motifs des plissements corticauxSun, Zhongyi 07 June 2011 (has links) (PDF)
Cette thèse vise à faire émerger de nouvelles descriptions de la variabilité des plissements du cortex humain en s'appuyant sur des techniques de fouilles de données. L'objectif principal est la conception d'algorithmes permettant de découvrir des motifs de plissement spécifiques à une sous-population d'individus. Le but final est de réaliser un dictionnaire de ces motifs et de les associer à des particularités cognitives ou architecturales, voire à des pathologies. Deux stratégies de " clustering " sont proposées pour mettre en évidence de tels motifs. La première repose sur des descripteurs de formes globaux correspondant aux invariants de moment 3D, la seconde repose sur l'estimation d'une matrice de distances entre chaque paire d'individus. Un algorithme de clustering dédié est conçu pour détecter les motifs les plus fréquents de manière robuste. Une technique de réduction de dimension est utilisée pour mettre en évidence les transitions entre motifs au sein de la population. Les méthodes algorithmiques proposées sont utilisées pour étudier la forme du cortex sensori-moteur d'une population de gauchers contrariés. Des résultats originaux sur le lien entre la forme du sillon central et la latéralité manuelle sont mis en évidence. Les méthodes développées sont ensuite utilisées pour construire le premier dictionnaire des motifs observés dans les plissements corticaux issu d'une approche algorithmique.
|
Page generated in 0.0723 seconds