201 |
Analýza neúspěšného studia na vysokých školách ČR / Analysis of failed studies at universities in the Czech RepublicPtáčková, Veronika January 2017 (has links)
The master thesis deals with failed studies at universities in the Czech Republic. The first part is focused on literary research, on explanation of theoretical terms and on statistical methods, which are subsequently applied in the analytical part. These are decision trees and logistic regression that helped to determine the influence of factors on studies without graduation. The aim of this master thesis is to find significant factors, to compile a profile of failed students and to suggest the measures which could reduce their elimination from tertiary education.
|
202 |
A memetic genetic program for knowledge discoveryNel, Gert M 09 June 2005 (has links)
Local search algorithms have been proved to be effective in refining solutions that have been found by other algorithms. Evolutionary algorithms, in particular global search algorithms, have shown to be successful in producing approximate solutions for optimisation and classification problems in acceptable computation times. A relatively new method, memetic algorithms, uses local search to refine the approximate solutions produced by global search algorithms. This thesis develops such a memetic algorithm. The global search algorithm used as part of the new memetic algorithm is a genetic program that implements the building block hypothesis by building simplistic decision trees representing valid solutions, and gradually increases the complexity of the trees. The specific building block hypothesis implementation is known as the building block approach to genetic programming, BGP. The effectiveness and efficiency of the new memetic algorithm, which combines the BGP algorithm with a local search algorithm, is demonstrated. / Dissertation (MSc)--University of Pretoria, 2006. / Computer Science / unrestricted
|
203 |
Développement de modèles QSPR pour la prédiction et la compréhension des propriétés amphiphiles des tensioactifs dérivés de sucre / Development of QSPR models for the prediction and better understanding of amphiphilic properties of sugar-based surfactantsGaudin, Théophile 30 November 2016 (has links)
Les tensioactifs dérivés de sucres représentent la principale famille de tensioactifs bio-sourcés et constituent de bons candidats pour substituer les tensioactifs dérivés du pétrole puisqu'ils sont issus de ressources renouvelables et peuvent être autant, voire plus performants dans diverses applications, comme la formulation (détergents, cosmétiques,…), la récupération assistée du pétrole ou des minéraux, etc. Différentes propriétés amphiphiles permettent de caractériser la performance des tensioactifs dans de telles applications, comme la concentration micellaire critique, la tension de surface à la concentration micellaire critique, l'efficience et le point de Krafft. Prédire ces propriétés serait bénéfique pour identifier plus rapidement les tensioactifs possédant les propriétés désirées. Les modèles QSPR sont des outils permettant de prédire de telles propriétés, mais aucun modèle QSPR fiable dédié à ces propriétés n'a été identifié pour les tensioactifs bio-sourcés, et en particulier les tensioactifs dérivés de sucres. Au cours de cette thèse, de tels modèles QSPR ont été développés. Une base de données fiables est nécessaire pour développer tout modèle QSPR. Concernant les tensioactifs dérivés de sucres, aucune base de données existante n'a été identifiée pour les propriétés ciblées. Cela a donné suite à la construction de la première base de données de propriétés amphiphiles de tensioactifs dérivés de sucres, qui est en cours de valorisation. L'analyse de cette base de données a mis en évidence différentes relations empiriques entre la structure de ces molécules et leurs propriétés amphiphiles, et permis d'isoler des jeux de données les plus fiables et au protocole le plus homogène possibles en vue du développement de modèles QSPR. Après établissement d'une stratégie robuste pour calculer les descripteurs moléculaires constituant les modèles QSPR, qui s'appuie notamment sur des analyses conformationnelles des tensioactifs dérivés de sucres et des descripteurs des têtes polaires et chaînes alkyles, différents modèles QSPR ont été développés, validés, et leur domaine d'applicabilité spécifié, pour la concentration micellaire critique, la tension de surface à la concentration micellaire critique, l'efficience et le point de Krafft. Pour les trois premières propriétés, des modèles quantitatifs performants ont pu être obtenus. Si les descripteurs quantiques ont apporté un gain prédictif important pour la tension de surface à la concentration micellaire critique, et un léger gain pour la concentration micellaire critique, aucun gain n'a été observé pour l'efficience. Pour ces trois propriétés, des modèles simples basés sur des descripteurs constitutionnels des parties hydrophile et hydrophobe de la molécule (comme des décomptes d'atomes) ont aussi été obtenus. Pour le point de Krafft, deux arbres de décision qualitatifs, classant la molécule comme soluble ou insoluble dans l'eau à température ambiante, ont été proposés. Les descripteurs quantiques ont ici aussi apporté un gain en prédictivité, même si un modèle relativement fiable basé sur des descripteurs constitutionnels des parties hydrophile et hydrophobe de la molécule a aussi été obtenu. Enfin, nous avons montré comment ces modèles QSPR peuvent être utilisés, pour prédire les propriétés de nouvelles molécules avant toute synthèse dans un contexte de screening, ou les propriétés manquantes de molécules existantes, et pour le design in silico de nouvelles molécules par combinaison de fragments. / Sugar-based surfactants are the main family of bio-based surfactants and are good candidates as substitutes for petroleum-based surfactants, since they originate from renewable resources and can show as good as, or even better, performances in various applications, such as detergent and cosmetic formulation, enhanced oil or mineral recovery, etc. Different amphiphilic properties can characterize surfactant performance in such applications, like critical micelle concentration, surface tension at critical micelle concentration, efficiency and Kraft point. Predicting such properties would be beneficial to quickly identify surfactants that exhibit desired properties. QSPR models are tools to predict such properties, but no reliable QSPR model was identified for bio-based surfactants, and in particular sugar-based surfactants. During this thesis, such QSPR models were developed. A reliable database is required to develop any QSPR model. Regarding sugar-based surfactants, no database was identified for the targeted properties. This motivated the elaboration of the first database of amphiphilic properties of sugar-based surfactants. The analysis of this database highlighted various empirical relationships between the chemical structure of these molecules and their amphiphilic properties, and enabled to isolate the most reliable datasets with the most homogeneous possible protocol, to be used for the development of the QSPR models. After the development of a robust strategy to calculate molecular descriptors that constitute QSPR models, notably relying upon conformational analysis of sugar-based surfactants and descriptors calculated only for the polar heads and for the alkyl chains, different QSPR models were developed, validated, and their applicability domain defined, for the critical micelle concentration, the surface tension at critical micelle concentration, the efficiency and the Kraft point. For the three first properties, good quantitative models were obtained. If the quantum chemical descriptors brought a significant additional predictive power for the surface tension at critical micelle concentration, and a slight improvement for the critical micelle concentration, no gain was observed for efficiency. For these three properties, simple models based on constitutional descriptors of polar heads and alkyl chains of the molecule (like atomic counts) were also obtained. For the Krafft point, two qualitative decision trees, classifying the molecule as water soluble or insoluble at room temperature, were proposed. The use of quantum chemical descriptors brought an increase in predictive power for these decision trees, even if a quite reliable model only based on constitutional descriptors of polar heads and alkyl chains was also obtained. At last, we showed how these QSPR models can be used, to predict properties of new surfactants before synthesis in a context of computational screening, or missing properties of existing surfactants, and for the in silico design of new surfactants by combining different polar heads with different alkyl chain
|
204 |
Le marché du travail en Algérie : réseaux sociaux, choix occupationnel et salaires / The labour market in Algeria : social networks, occupational choice and wagesLassassi, Moundir 02 December 2014 (has links)
Les récents mouvements sociaux qui ont secoué certains pays arabes notamment l'Algérie ont montré la fragilité de la situation sur le marché du travail dans ces pays en particulier pour les jeunes. Le premier chapitre porte sur l'analyse de la situation du marché du travail en Algérie sur une longue période. Ces dix dernières années la situation de l'emploi s'est dégradée en termes de sécurité de l'emploi en particulier pour les jeunes. La situation reste difficile, d'autant plus que la situation démographique actuelle envisage de fortes pressions sur le marché du travail dans le futur. Dans le deuxième chapitre, nous analysons les stratégies de recherche d'emploi notamment par le biais des méthodes informelles. Nos résultats montrent de fortes spécificités liées au genre dans les stratégies de recherche. Dans l'ensemble, les réseaux sociaux apparaissent comme étant une méthode efficace pour trouver un emploi en Algérie mais pas pour des emplois qualifiés. Le troisième chapitre vise à étudier l'architecture des systèmes d'emploi en Algérie. Il ressort que le modèle qui explique le mieux le comportement des hommes et des femmes est un modèle séquentiel à deux niveaux : participation vs non participation et ensuite le choix d'un segment sur le marché du travail. Dans le quatrième chapitre, nous analysons les déterminants du choix du secteur et les salaires pour les hommes et les femmes dans différents secteurs d'activités en Algérie. Nos résultats montrent que les femmes sont moins bien rémunérées par rapport aux hommes dans les différents segments. Le secteur public est celui qui protège le plus les femmes de la discrimination salariale. / Recent social movements that swept some Arab countries including Algeria showed the fragility of the situation on the labor market in these countries in particular for young people. The first chapter deals with the analysis of the situation of the labor market in Algeria over a long period. Over the past decade the employment situation has deteriorated in terms of job security in particular for young people. The situation remains difficult, especially as the current demographic situation considering pressures on the labor market in the future. In the second chapter, we analyze the strategies for job search including through informal methods. Our results show strong gender specificities in search strategies. Overall, social networks appear to be an effective method to find a job in Algeria but not for skilled jobs. The third chapter aims to study the architecture of employment systems in Algeria. It appears that the model that best explains the behavior of men and women is a sequential two-level model: participation vs. non participation and then choosing a segment on the labor market. In the fourth chapter, we analyze the determinants of the choice of sector and wages for men and women in different sectors in Algeria. Our results show that women are paid less compared to men in the various segments. The public sector is the one that best protects women from wage discrimination.
|
205 |
Etude de la production de paires de quarks TOP avec ATLAS au LHC, mesure de la masse du quark TOP / Study of the production of top quark pairs with the ATLAS detector at the LHC, measurement of the top quark massCinca, Diane 22 September 2011 (has links)
Découvert en 1995 à Fermilab, le quark top est le dernier quark découvert. La mesure de ses propriétés permet de tester les prédictions du Modèle Standard et de contraindre la masse du boson de Higgs. De par ses propriétés, le quark top est aussi un partenaire privilégié dans la recherche de particules de Nouvelle Physique attendues à l'échelle du TeV. Ce travail de thèse, effectué auprès du détecteur ATLAS au LHC, présente les méthodes mises en oeuvre afin de mesurer la masse du quark top dans sa désintégration semileptonique. Différentes méthodes de reconstruction des évènements top sont présentées ainsi qu'une analyse dédiée basée sur les arbres de décision boostés. Ses performances sont quantifiées. La mesure précise de la masse du quark top nécessite une compréhension approfondie de l'échelle en énergie des jets. Deux stratégies sont présentées afin de calibrer les jets légers et les jets issus de quark b à l'échelle partonique. Les performances d'un ajustement cinématique appliqué à la mesure de la masse du quark top sont présentées. Une mesure de la masse du quark top est extraite en utilisant une définition de la masse calibrée à l'échelle partonique. / Discovered in 1995 at Fermilab, top quark is the last quark discovered. The measurement of its properties allows to test Standard Model predictions and to constraint Higgs boson mass. Due to its properties, the top quark is a privileged partner in the search for New Physics particles expected around TeV scale. This thesis, performed using the ATLAS detector at LHC, describes the different methods developed in order to measure precisely the top quark mass in its semileptonic decay. Two reconstruction methods are presented as well as a dedicated one based on Boosted Decision Trees. Its performances are quantified The precise measurement of the top quark mass needs a deep understanding of the jet energy scale. This thesis presents two strategies to calibrate light and b jets to the partonic scale. The performance of a kinematical fit applied to top mass measurement are presented. A precise measurement of the top quark mass is done using a calibrated scale to the partonic level.
|
206 |
Datamining a využití rozhodovacích stromů při tvorbě Scorecards / Data Mining and use of decision trees by creation of ScorecardsStraková, Kristýna January 2014 (has links)
The thesis presents a comparison of several selected modeling methods used by financial institutions for (not exclusively) decision-making processes. First theoretical part describes well known modeling methods such as logistic regression, decision trees, neural networks, alternating decision trees and relatively new method called "Random forest". The practical part of thesis outlines some processes within financial institutions, in which selected modeling methods are used. On real data of two financial institutions logistic regression, decision trees and decision forest are compared which each other. Method of neural network is not included due to its complex interpretability. In conclusion, based on resulting models, thesis is trying to answers, whether logistic regression (method most widely used by financial institutions) remains most suitable.
|
207 |
Apprentissage à partir de données et de connaissances incertaines : application à la prédiction de la qualité du caoutchouc / Learning from uncertain data and knowledge : application to the natural rubber quality predictionSutton-Charani, Nicolas 28 May 2014 (has links)
Pour l’apprentissage de modèles prédictifs, la qualité des données disponibles joue un rôle important quant à la fiabilité des prédictions obtenues. Ces données d’apprentissage ont, en pratique, l’inconvénient d’être très souvent imparfaites ou incertaines (imprécises, bruitées, etc). Ce travail de doctorat s’inscrit dans ce cadre où la théorie des fonctions de croyance est utilisée de manière à adapter des outils statistiques classiques aux données incertaines.Le modèle prédictif choisi est l’arbre de décision qui est un classifieur basique de l’intelligence artificielle mais qui est habituellement construit à partir de données précises. Le but de la méthodologie principale développée dans cette thèse est de généraliser les arbres de décision aux données incertaines (floues, probabilistes,manquantes, etc) en entrée et en sortie. L’outil central d’extension des arbres de décision aux données incertaines est une vraisemblance adaptée aux fonctions de croyance récemment proposée dans la littérature dont certaines propriétés sont ici étudiées de manière approfondie. De manière à estimer les différents paramètres d’un arbre de décision, cette vraisemblance est maximisée via l’algorithme E2M qui étend l’algorithme EM aux fonctions de croyance. La nouvelle méthodologie ainsi présentée, les arbres de décision E2M, est ensuite appliquée à un cas réel : la prédiction de la qualité du caoutchouc naturel. Les données d’apprentissage, essentiellement culturales et climatiques, présentent de nombreuses incertitudes qui sont modélisées par des fonctions de croyance adaptées à ces imperfections. Après une étude statistique standard de ces données, des arbres de décision E2M sont construits et évalués en comparaison d’arbres de décision classiques. Cette prise en compte des incertitudes des données permet ainsi d’améliorer très légèrement la qualité de prédiction mais apporte surtout des informations concernant certaines variables peu prises en compte jusqu’ici par les experts du caoutchouc. / During the learning of predictive models, the quality of available data is essential for the reliability of obtained predictions. These learning data are, in practice very often imperfect or uncertain (imprecise, noised, etc). This PhD thesis is focused on this context where the theory of belief functions is used in order to adapt standard statistical tools to uncertain data.The chosen predictive model is decision trees which are basic classifiers in Artificial Intelligence initially conceived to be built from precise data. The aim of the main methodology developed in this thesis is to generalise decision trees to uncertain data (fuzzy, probabilistic, missing, etc) in input and in output. To realise this extension to uncertain data, the main tool is a likelihood adapted to belief functions,recently presented in the literature, whose behaviour is here studied. The maximisation of this likelihood provide estimators of the trees’ parameters. This maximisation is obtained via the E2M algorithm which is an extension of the EM algorithm to belief functions.The presented methodology, the E2M decision trees, is applied to a real case : the natural rubber quality prediction. The learning data, mainly cultural and climatic,contains many uncertainties which are modelled by belief functions adapted to those imperfections. After a simple descriptiv statistic study of the data, E2M decision trees are built, evaluated and compared to standard decision trees. The taken into account of the data uncertainty slightly improves the predictive accuracy but moreover, the importance of some variables, sparsely studied until now, is highlighted.
|
208 |
Combining Partial Least Squares and the Gradient-Boosting Method for Soil Property Retrieval Using Visible Near-Infrared Shortwave Infrared SpectraLiu, Lanfa, Ji, Min, Buchroithner, Manfred F. 06 June 2018 (has links)
Soil spectroscopy has experienced a tremendous increase in soil property characterisation, and can be used not only in the laboratory but also from the space (imaging spectroscopy). Partial least squares (PLS) regression is one of the most common approaches for the calibration of soil properties using soil spectra. Besides functioning as a calibration method, PLS can also be used as a dimension reduction tool, which has scarcely been studied in soil spectroscopy. PLS components retained from high-dimensional spectral data can further be explored with the gradient-boosted decision tree (GBDT) method. Three soil sample categories were extracted from the Land Use/Land Cover Area Frame Survey (LUCAS) soil library according to the type of land cover (woodland, grassland, and cropland). First, PLS regression and GBDT were separately applied to build the spectroscopic models for soil organic carbon (OC), total nitrogen content (N), and clay for each soil category. Then, PLS-derived components were used as input variables for the GBDT model. The results demonstrate that the combined PLS-GBDT approach has better performance than PLS or GBDT alone. The relative important variables for soil property estimation revealed by the proposed method demonstrated that the PLS method is a useful dimension reduction tool for soil spectra to retain target-related information.
|
209 |
Využití technik Data Mining v různých odvětvích / Using Data Mining in Various IndustriesFabian, Jaroslav January 2014 (has links)
This master’s thesis concerns about the use of data mining techniques in banking, insurance and shopping centres industries. The thesis theoretically describes algorithms and methodology CRISP-DM dedicated to data mining processes. With usage of theoretical knowledge and methods, the thesis suggests possible solution for various industries within business intelligence processes.
|
210 |
Méthode de sélection de caractéristiques pronostiques et prédictives basée sur les forêts aléatoires pour le suivi thérapeutique des lésions tumorales par imagerie fonctionnelle TEP / Prognostic and predictive characteristics selection method based on random forests for therapeutic monitoring of tumor lesions using PET functional imagingDesbordes, Paul 29 June 2017 (has links)
La radiomique propose de combiner des caractéristiques images avec celles issues de la clinique, de la génomique, de la protéomique, etc . . .afin de mettre en place une médecine personnalisée dans la prise en charge du cancer. L’objectif est d’anticiper, à partir d’un examen initial, les chances de survie du patient ou la probabilité de la maladie de répondre à un traitement. En médecine, des méthodes statistiques classiques sont généralement utilisées comme l’analyse de Mann-Whitney pour les études prédictives et l’analyse des courbes de survie de Kaplan-Meier pour les études pronostiques. Cependant, l’augmentation du nombre de caractéristiques étudiées pose des problèmes pour l’utilisation de ces statistiques. C’est pour cela que nous nous sommes orientés vers l’utilisation des algorithmes d’apprentissage automatique et des méthodes de sélectionde caractéristiques. Ces méthodes sont résistantes aux grandes dimensions, ainsi qu’aux relations non-linéaires entre caractéristiques. Nous avons proposé 2 méthodes de sélection des caractéristiques basées sur la méthode d’apprentissage automatique des forêts aléatoires. Nos méthodes ont permis la sélection de sous-ensembles de caractéristiques prédictives et pronostiques sur 2 bases de données (cancer de l’oesophage et du poumon). Nos algorithmes ont montré les meilleures performances de classification comparées aux méthodes statistiques classiques et aux autres méthodes de sélection des caractéristiques étudiées. / Radiomics proposes to combine image features with those extracted from other modalities (clinical, genomic, proteomic) to set up a personalized medicine in the management of cancer. From an initial exam, the objective is to anticipate the survival rate of the patient or the treatment response probability. In medicine, classical statistical methods are generally used, such as theMann-Whitney analysis for predictive studies and analysis of Kaplan-Meier survival curves for prognostic studies. Thus, the increasing number of studied features limits the use of these statistics. We have focused our works on machine learning algorithms and features selection methods. These methods are resistant to large dimensions as well as non-linear relations between features. We proposed two features selection strategy based on random forests. Our methods allowed the selection of subsets of predictive and prognostic features on 2 databases (oesophagus and lung cancers). Our algorithms showed the best classification performances compared to classical statistical methods and other features selection strategies studied.
|
Page generated in 0.092 seconds