Global ETD Search

301	Trajectory-aided GNSS land navigation : application to train positioning / La navigation terrestre GNSS assistée par la trajectoire : application au positionnement du train Zhu, Guoliang 27 February 2014 (has links) Au cours des dernières années, la technologie GNSS a attiré beaucoup d’attention autour du monde et elle a été largement appliquée dans de nombreux domaines. D'autre part, le système d'exploitation ferroviaire avancé a été largement utilisé pour assurer la sécurité, la sûreté et l'efficacité du réseau ferroviaire. L'efficacité de ce système se fonde sur la disponibilité du positionnement fiable du train. L’application de cette technologie au positionnement du train est un domaine de recherche très prometteur. Dans cette thèse, plusieurs algorithmes sont proposés pour le positionnement du train en utilisant des signaux GNSS et un modèle géométrique de voie stocké dans la base de données à bord du train. Premièrement, la distance, vitesse du train sont estimées en utilisant des signaux GNSS et un modèle géométrique ‘idéal’ qui est composé de lignes droites, de courbes de transition et d'arcs de cercle. L’impact du rayon de courbure de la voie sur ces estimations est étudié. Deuxièmement, la distance, vitesse du train sont estimées en utilisant des signaux GNSS et un modèle géométrique ‘non-idéal’ qui est approché par une ligne polygonale avec un certain niveau d'incertitude. L’impact de l’incertitude de la voie sur ces estimations est étudié. Finalement, la distance, vitesse du train sont estimées à l’aide d’intégration des mesures GNSS et une base de données bruitée. L’impact des erreurs de GNSS et de la base de données sur ces estimations est étudié / Over these years, GNSS technology has attracted many attentions around world and it has been widely applied in navigation for airplanes, ground vehicles and boats. On the other hand, advanced railway operating systems have been widely used to guarantee the safety and efficiency of the railway network. The efficiency of these systems is based on the availability of reliable train positioning. Hence, applying GNSS technology to the train positioning is a very promising research area, since it has such important benefits as lower initial costs and lower maintenance. In this thesis, several algorithms are proposed for train positioning by using GNSS signals and the railway centerline stored in the onboard computer database. At first, the train travelled distance, speed are estimated by using GNSS signals and an ''ideal'' railway centerline which is composed of straight line segments, transition curves and arcs of circles. The impact of the railroad curvature on these estimations is studied. Secondly, the train travelled distance, speed are estimated by using GNSS signals and a ''non-ideal'' railway centerline which is defined by a polygonal line with some level of uncertainty. The impact of the track geometric model imprecision on these estimations is studied. Finally, the train travelled distance, speed are estimated by integrating the GNSS measurements with a track database. The impact of the GNSS measurements and the track database errors on these estimations is studied Transports ferroviaires GPS Estimation, théorie de l' Analyse de régression Moindres carrés Railroads GPS Estimation theory Regression analysis Least square 519 621 385
302	Des tests non paramétriques en régression / Of nonparametric testing in regression Maistre, Samuel 12 September 2014 (has links) Dans cette thèse, nous étudions des tests du type : (H0) : E [U \| X] = 0 p.s. contre (H1) : P {E [U \| X] = 0} < 1 où U est le résidu de la modélisation d'une variable Y en fonction de X. Dans ce cadre et pour plusieurs cas particuliers – signiﬁcativité de variables, régression quantile, données fonctionnelles, modèle single-index –, nous proposons une statistique de test permettant d'obtenir des valeurs critiques issues d'une loi asymptotique pivotale. Dans chaque cas, nous donnons également une méthode de bootstrap appropriée pour les échantillons de petite taille. Nous montrons la consistance envers des alternatives locales – ou à la Pitman – des tests proposés, lorsque ce type d'alternative ne tend pas trop vite vers l'hypothèse nulle. À chaque fois, nous vériﬁons à partir de simulations sous l'hypothèse nulle et sous une séquence d'hypothèses alternatives que les résultats théoriques sont en accord avec la pratique. / In this thesis, we study test statistics of the form : (H0) : E [U \| X] = 0 p.s. contre (H1) : P {E [U \| X] = 0} < 1 where U is the residual of some Y modeling with respect to covariates X. In this setup and for several particular cases – signiﬁcance, quantile regression, functional data, single-index model –, we introduce test statistics that have pivotal asymptotic critical values. For each case, we also give a suitable bootstrap procedure for small samples. We prove the consistency against local – or Pitman – alternatives for the proposed test statistics, when such an alternative does not get close to the null hypothesis too fast. Simulation studies are used to check the eﬀectiveness of the theoretical results in applications. Tests non paramétriques Tests omnibus Significativité de variables Régression quantile Données fonctionnelles Bootstrap sauvage Nonparametric testing Omnibus tests Significance Quantile regression Functional data Wild bootstrap
303	L'internationalisation des multinationales issues de pays emergents : comportements des firmes et determinants du developpement international dans un contexte de croissance par acquisition / The internationalization of emerging multinationals : firms' behaviours and determinants of the international development in a context of growth by acquisition Vieu, Marion 05 December 2014 (has links) L'objectif de la recherche est de questionner le comportement des firmes multinationales issues de pays émergent (FMNE) lors de leur première acquisition majoritaire à l'international. En effet, devenue un phénomène d'ampleur mondial, l'internationalisation de ces firmes du Sud représente une nouveauté, une menace, mais également une opportunité dans le paysage économique mondial. Notre étude teste empiriquement les théories classiques du management international pensées pour les firmes du Nord (FMN) selon des méthodes quantitatives appliquées à un échantillon unique de 504 FMNE issues de la base de données SDC Platinum. Les résultats montrent qu'il existe trois catégories de FMNE influencées par les attributs du pays cibles, leur expérience d'acquisition internationale et leur réseau d'affaires étendu. En revanche, ces mêmes entreprises ne sont influencées ni par les attributs de leur pays domestique ni par leur expérience d'acquisition domestique ni par leur réseau d'affaires proche. Ces résultats éclairent ainsi les connaissances du champ des FMNE en confirmant certaines études dans la littérature tout en en contredisant d'autres. Ce travail de recherche précise donc un ensemble de connaissances scientifiques relatives au phénomène des FMNE et cristallise les réponses aux questionnements du champ à travers l'étude empirique des acquisitions majoritaires à l'international. / The research aims to investigate the emerging multinationals' (EMNE) behaviour through their first international acquisition. Indeed, because of the scope and scale of this international phenomenon, the internationalization of these firms portrayed a novelty, a threat, and an opportunity in the worldwide landscape as well. Our study tests empirically the international management theories basically thought for firms from industrialized economies (MNE) according to quantitative methodologies applied on a unique sample of 504 EMNE from SDC platinum database. The results find three EMNE groups influenced by target-country characteristics, international acquisition experience and extensive network. However, these same firms are not influenced by domestic-country characteristics, their domestic acquisition experience and their close network. These results highlight the field both in corroborate some studies and refute others. This research finally clarifies a set of scientific knowledge related to the EMNE phenomenon through an empirical study of the international acquisitions. Bricsam Acquisition Stratégie Régression logistique multinomiale Emerging Multinationals (EMNEs) Bricsam Internationalization theories Acquisition Strategy Multinomial logistic regression
304	Comment déterminer par une approche innovante et rapide des indicateurs prédictifs de la valeur nutritionnelle de la viande bovine ? / How to determine by an innovative and fast approach predictive indicators of the beef nutritional quality? Mourot, Benoît-Pierre 06 March 2015 (has links) Dans un contexte où la consommation de viande bovine est en constante diminution, en partie à cause de sa composition lipidique, il apparaît important pour l'ensemble de la filière de pouvoir communiquer sur l’intérêt nutritionnel de cette viande et plus particulièrement sur sa composition en acides gras (AG). Pour que cette communication soit « efficiente » à tous les niveaux de la filière, il faut disposer de moyens analytiques fiables mais aussi faciles de mise en œuvre et de surcroît peu coûteux. La méthode analytique que nous avons choisi de tester est la spectrométrie proche infrarouge (SPIR) qui présente l’avantage d’être peu coûteuse, peu invasive et qui pourrait ainsi être utilisée à grande échelle et en routine en abattoir. Nous avons montré que la SPIR est performante pour déterminer les teneurs en AG saturés (AGS) et monoinsaturés (AGMI) (R2>0,9). Dans les meilleures conditions pour la prédiction des AGPI (échantillons comportant des teneurs élevées en AGPI et/ou une grande variabilité), les performances de prédiction restent encore insuffisantes (R2 <0,75). Pour pallier cette faiblesse de la SPIR, des équations de prédiction indirectes des AGPI ont été mises en place à partir des teneurs en AGS et AGMI, teneurs correctement déterminées par SPIR, et les informations disponibles en abattoir. Ces équations élaborées par régression linéaire multiple ont permis de prédire correctement les AGPI totaux et les AGPI n-6 (R2 >0,8). Elles restent perfectibles pour la détermination des AGPI n-3 totaux (R2=0,64) mais surtout pour le 18:3 n-3, le 20:5 n-3 et le 22:6 n-3 (R2 <0,55). L’objectif final de ce travail étant d'utiliser les équations en complément des mesures réalisées par SPIR à des fins industrielles afin de déterminer rapidement la composition en AG de la viande bovine, des études complémentaires seront nécessaires pour tester l'ensemble de notre démarche associant SPIR et équations de prédiction. / In a context where the consumption of beef is declining in part because of its lipid composition, an opportunity to revive the beef industry is to communicate with consumers on nutritional quality of beef, especially its fatty acids (FA) composition. To ensure this communication is “efficient” at all levels of the industry, we must have reliable analytical resources but also easy to implement and also inexpensive. The analytical method proposed for determining the beef FA composition is the near-infrared spectroscopy (NIRS) which is inexpensive, minimally invasive and could thus be widely used in routine in slaughterhouse. We showed that NIRS was effective to determine the concentrations of saturated (SFA) and monounsaturated (MUFA) FA (R2> 0.9). Under the best conditions for the prediction of PUFA (samples containing high levels of PUFA and / or with a high variability), PUFA predictions were still not enough (R2 <0.75). So, to overcome this weakness of NIRS, indirect prediction equations of PUFA were performed from the SFA and MUFA contents correctly determined by NIRS and information available in slaughterhouses. These equations, developed by multiple linear regression, were used to correctly predict total and n-6 PUFA (R2> 0.8). These equations are still to be improved for the determination of the total n-3 PUFA (R2 = 0.64) and of the 18:3 n-3, the 20:5 n-3 and the 22:6 n-3 (R2 <0.55). Given that the ultimate aim of this research is to use the equations as a complementary tool in tandem with NIRS measurements to serve industry as a way to rapidly determine the FA content of beef, further studies will be needed to trial and test our novel coupled NIRS–prediction equations approach. Bovin Acide gras Viande Spectroscopie dans le proche infrarouge Régression linéaire multiple Cattle Fatty acid Meat Spectroscopy in the near infrared Multiple linear regression
305	Essays on the institutional impacts of aid in recipient countries / Etude de l'impact de l'aide sur les institutions dans les pays en développement Kangoye, Thierry Somlawende 12 December 2011 (has links) Cette thèse s’intéresse à l’impact des instabilités macroéconomiques sur les institutions dans les pays endéveloppement et au rôle joué par l’aide. Le rôle de l’histoire dans l’explication de ces impacts est aussiexaminé. La thèse se structure en quatre essais qui analysent l’impact des instabilités macroéconomiques, del’aide et de l’histoire sur les institutions essentiellement mesurées par des indices de démocratie et de corruption.Le premier chapitre résume la littérature sur les impacts de l’aide sur la qualité des institutions etanalyse les résultats controversés qui en ressortent. Le deuxième chapitre étudie l’impact de l’instabilitédes termes de l’échange sur la démocratie et le rôle que l’aide peut jouer dans ce contexte. Nous confirmonsl’hypothèse que l’aide peut bien avoir un impact positif sur la démocratie dans le long terme en atténuant leseffets néfastes de l’instabilité des termes de l’échange sur l’instabilité sur la croissance et ce, en rendant cettedernière plus stable. Le troisième chapitre s’intéresse à l’instabilité même de l’aide et aborde la questionde savoir si l’imprévisibilité des flux d’aide peuvent susciter ou aggraver la corruption et ainsi affaiblir lesinstitutions. Les résultats empiriques confirment cette hypothèse et montrent en plus que cet impact est plusimportant pour les pays ayant une faible qualité initiale des institutions. Le quatrième chapitre revienssur l’importance de ces conditions institutionnelles pré-Existantes pour expliquer les impacts institutionnelsde l’aide en introduisant le rôle de l’histoire et plus particulièrement le rôle des transferts institutionnels.Le chapitre conclut que la crise institutionnelle provoquée par l’échec de ces transferts explique en grandepartie les effets pervers perçus de l’aide sur la qualité des institutions. / This thesis examines the impact of macroeconomic instabilities on institutions in developing countries andthe role played by aid. The thesis further invetigates the role of history in explaining those impacts. Thethesis consists of four essays analyzing the impacts of macroinstabilities, aid and history on institutions. Thefirst chapter provides a comprehensive literature survey on the institutional impacts of aid and sheds lighton the controversial findings evidenced. The second chapter focuses on the impact of trade instability oninstitutions and the role that aid can play in this context. We provide evidence that aid can have a positiverole in democracy building in the long term by dampening the adverse effects of terms-Of-Trade instabilityon growth and thereby by making it more stable. The third chapter examines the instability of aid flowand addresses the question of whether unpredictable aid flows can create or aggravate corruption among theelites, and thereby weaken institutions. The findings from the empirical analysis provide evidence that higheraid unpredictability is associated with more rent-Seeking and corruption, this impact being more severe forthe countries having weak initial institutions. The fourth chapter investigates the extent to which thosepre-Existing institutional conditions matters for explaining the impacts of aid on institutions, by introducingthe role of history and more particularly the role of institutional transplantations. The chapter provides supportivefindings to the hypothesis that the institutional crisis caused by the unreceptive transplants largelyaccounts for aid’s impacts on the quality of institutions. Aide Institutions Démocratie Corruption Instabilités Imprévisibilités Transferts institutionnels Variables instrumentales Analyse de méta-régression Aid Institutions Democracy Corruption Instabilities Umpredictability Institutional transplants Instrumental variables Meta-regression analysis 338.9
306	Régression bayésienne sous contraintes de régularité et de forme. / Bayesian regression under shape and smoothness restriction. Khadraoui, Khader 08 December 2011 (has links) Nous étudions la régression bayésienne sous contraintes de régularité et de forme. Pour cela,on considère une base de B-spline pour obtenir une courbe lisse et nous démontrons que la forme d'une spline engendrée par une base de B-spline est contrôlée par un ensemble de points de contrôle qui ne sont pas situés sur la courbe de la spline. On propose différents types de contraintes de forme (monotonie, unimodalité, convexité, etc). Ces contraintes sont prises en compte grâce à la loi a priori. L'inférence bayésienne a permis de dériver la distribution posteriori sous forme explicite à une constante près. En utilisant un algorithme hybride de type Metropolis-Hastings avec une étape de Gibbs, on propose des simulations suivant la distribution a posteriori tronquée. Nous estimons la fonction de régression par le mode a posteriori. Un algorithme de type recuit simulé a permis de calculer le mode a posteriori. La convergence des algorithmes de simulations et du calcul de l'estimateur est prouvée. En particulier, quand les noeuds des B-splines sont variables, l'analyse bayésienne de la régression sous contrainte devient complexe. On propose des schémas de simulations originaux permettant de générer suivant la loi a posteriori lorsque la densité tronquée des coefficients de régression prend des dimensions variables. / We investigate the Bayesian regression under shape and smoothness constraints. We first elicita Bayesian method for regression under shape restrictions and smoothness conditions. Theregression function is built from B-spline basis that controls its regularity. Then we show thatits shape can be controlled simply from its coefficients in the B-spline basis. This is achievedthrough the control polygon whose definition and some properties are given in this article.The regression function is estimated by the posterior mode. This mode is calculated by asimulated annealing algorithm which allows to take into account the constraints of form inthe proposal distribution. A credible interval is obtained from simulations using Metropolis-Hastings algorithm with the same proposal distribution as the simulated annealing algorithm.The convergence of algorithms for simulations and calculation of the estimator is proved. Inparticular, in the case of Bayesian regression under constraints and with free knots, Bayesiananalysis becomes complex. we propose original simulation schemes which allows to simulatefrom the truncated posterior distribution with free dimension. Régression bayésienne B-spline Polygone de contrôle Contraintes de forme et de régularité Recuit simulé Metropolis-Hastings Bayesian regression B-spline Control polygon Shape and smoothness constraints Simulated annealing Metropolis-Hastings
307	Quelques contributions à la sélection de variables et aux tests non-paramétriques / A few contributions to variable selection and nonparametric tests Comminges, Laëtitia 12 December 2012 (has links) Les données du monde réel sont souvent de très grande dimension, faisant intervenir un grand nombre de variables non pertinentes ou redondantes. La sélection de variables est donc utile dans ce cadre. D'abord, on considère la sélection de variables dans le modèle de régression quand le nombre de variables est très grand. En particulier on traite le cas où le nombre de variables pertinentes est bien plus petit que la dimension ambiante. Sans supposer aucune forme paramétrique pour la fonction de régression, on obtient des conditions minimales permettant de retrouver l'ensemble des variables pertinentes. Ces conditions relient la dimension intrinsèque à la dimension ambiante et la taille de l'échantillon. Ensuite, on considère le problème du test d'une hypothèse nulle composite sous un modèle de régression non paramétrique multi varié. Pour une fonctionnelle quadratique donnée $Q$, l'hypothèse nulle correspond au fait que la fonction $f$ satisfait la contrainte $Q[f] = 0$, tandis que l'alternative correspond aux fonctions pour lesquelles $ \|Q[f]\|$ est minorée par une constante strictement positive. On fournit des taux minimax de test et les constantes de séparation exactes ainsi qu'une procédure optimale exacte, pour des fonctionnelles quadratiques diagonales et positives. On peut utiliser ces résultats pour tester la pertinence d'une ou plusieurs variables explicatives. L'étude des taux minimax pour les fonctionnelles quadratiques diagonales qui ne sont ni positives ni négatives, fait apparaître deux régimes différents : un régime « régulier » et un régime « irrégulier ». On applique ceci au test de l'égalité des normes de deux fonctions observées dans des environnements bruités / Real-world data are often extremely high-dimensional, severely under constrained and interspersed with a large number of irrelevant or redundant features. Relevant variable selection is a compelling approach for addressing statistical issues in the scenario of high-dimensional and noisy data with small sample size. First, we address the issue of variable selection in the regression model when the number of variables is very large. The main focus is on the situation where the number of relevant variables is much smaller than the ambient dimension. Without assuming any parametric form of the underlying regression function, we get tight conditions making it possible to consistently estimate the set of relevant variables. Secondly, we consider the problem of testing a particular type of composite null hypothesis under a nonparametric multivariate regression model. For a given quadratic functional $Q$, the null hypothesis states that the regression function $f$ satisfies the constraint $Q[f] = 0$, while the alternative corresponds to the functions for which $Q[f]$ is bounded away from zero. We provide minimax rates of testing and the exact separation constants, along with a sharp-optimal testing procedure, for diagonal and nonnegative quadratic functionals. We can apply this to testing the relevance of a variable. Studying minimax rates for quadratic functionals which are neither positive nor negative, makes appear two different regimes: “regular” and “irregular”. We apply this to the issue of testing the equality of norms of two functions observed in noisy environments Sélection de variables Régression non paramétrique Tests d'hypothèses non paramétriques Asymptotiques exactes Taux de séparation Approche minimax Sparsity pattern Nonparametric hypotheses testing Sharp asymptotics Separation rates Minimax approach High-dimensional regression
308	Quelques contributions à l'estimation de grandes matrices de précision / Some contributions to large precision matrix estimation Balmand, Samuel 27 June 2016 (has links) Sous l'hypothèse gaussienne, la relation entre indépendance conditionnelle et parcimonie permet de justifier la construction d'estimateurs de l'inverse de la matrice de covariance -- également appelée matrice de précision -- à partir d'approches régularisées. Cette thèse, motivée à l'origine par la problématique de classification d'images, vise à développer une méthode d'estimation de la matrice de précision en grande dimension, lorsque le nombre $n$ d'observations est petit devant la dimension $p$ du modèle. Notre approche repose essentiellement sur les liens qu'entretiennent la matrice de précision et le modèle de régression linéaire. Elle consiste à estimer la matrice de précision en deux temps. Les éléments non diagonaux sont tout d'abord estimés en considérant $p$ problèmes de minimisation du type racine carrée des moindres carrés pénalisés par la norme $ell_1$.Les éléments diagonaux sont ensuite obtenus à partir du résultat de l'étape précédente, par analyse résiduelle ou maximum de vraisemblance. Nous comparons ces différents estimateurs des termes diagonaux en fonction de leur risque d'estimation. De plus, nous proposons un nouvel estimateur, conçu de sorte à tenir compte de la possible contamination des données par des {em outliers}, grâce à l'ajout d'un terme de régularisation en norme mixte $ell_2/ell_1$. L'analyse non-asymptotique de la convergence de notre estimateur souligne la pertinence de notre méthode / Under the Gaussian assumption, the relationship between conditional independence and sparsity allows to justify the construction of estimators of the inverse of the covariance matrix -- also called precision matrix -- from regularized approaches. This thesis, originally motivated by the problem of image classification, aims at developing a method to estimate the precision matrix in high dimension, that is when the sample size $n$ is small compared to the dimension $p$ of the model. Our approach relies basically on the connection of the precision matrix to the linear regression model. It consists of estimating the precision matrix in two steps. The off-diagonal elements are first estimated by solving $p$ minimization problems of the type $ell_1$-penalized square-root of least-squares. The diagonal entries are then obtained from the result of the previous step, by residual analysis of likelihood maximization. This various estimators of the diagonal entries are compared in terms of estimation risk. Moreover, we propose a new estimator, designed to consider the possible contamination of data by outliers, thanks to the addition of a $ell_2/ell_1$ mixed norm regularization term. The nonasymptotic analysis of the consistency of our estimator points out the relevance of our method Estimation de la matrice de précision Régression parcimonieuse Modèles graphiques gaussiens Estimation robuste Analyse non-Asymptotique Minimisation convexe Precision matrix estimation Sparse regression Gaussian graphical models Robust estimation Nonasymptotic analysis Convex minimization
309	Segmentation de Processus de Comptage et modèles Dynamiques / Segmentation of counting processes and dynamical models Alaya, Elmokhtar Ezzahdi 27 June 2016 (has links) Dans la première partie de cette thèse, nous cherchons à estimer l'intensité d'un processus de comptage par des techniques d'apprentissage statistique en grande dimension. Nous introduisons une procédure d'estimation basée sur la pénalisation par variation totale avec poids. Un premier ensemble de résultats vise à étudier l'intensité sous une hypothèse a priori de segmentation sparse. Dans une seconde partie, nous étudions la technique de binarisation de variables explicatives continues, pour laquelle nous construisons une régularisation spécifique à ce problème. Cette régularisation est intitulée ``binarsity'', elle pénalise les valeurs différentes d'un vecteur de paramètres. Dans la troisième partie, nous nous intéressons à la régression dynamique pour les modèles d'Aalen et de Cox avec coefficients et covariables en grande dimension, et pouvant dépendre du temps. Pour chacune des procédures d'estimation proposées, nous démontrons des inégalités oracles non-asymptotiques en prédiction. Nous utilisons enfin des algorithmes proximaux pour résoudre les problèmes convexes sous-jacents, et nous illustrons nos méthodes sur des données simulées et réelles. / In the first part of this thesis, we deal with the problem of learning the inhomogeneous intensity of a counting process, under a sparse segmentation assumption. We introduce a weighted total-variation penalization, using data-driven weights that correctly scale the penalization along the observation interval. In the second part, we study the binarization technique of continuous features, for which we construct a specific regularization. This regularization is called “binarsity”, it computes the different values of a parameter. In the third part, we are interested in the dynamic regression models of Aalen and Cox with time-varying covariates and coefficients in high-dimensional settings. For each proposed estimation procedure, we give theoretical guaranties by proving non-asymptotic oracle inequalities in prediction. We finally present proximal algorithms to solve the underlying studied convex problems, and we illustrate our methods with simulated and real datasets. Processus de comptage Points de rupture Binarisation de variables Régression dynamique Variation-Totale Inégalités oracles Algorithmes proximaux Counting processes Change-points Features binarization 519.5
310	Méthodes des matrices aléatoires pour l’apprentissage en grandes dimensions / Methods of random matrices for large dimensional statistical learning Mai, Xiaoyi 16 October 2019 (has links) Le défi du BigData entraîne un besoin pour les algorithmes d'apprentissage automatisé de s'adapter aux données de grande dimension et de devenir plus efficace. Récemment, une nouvelle direction de recherche est apparue qui consiste à analyser les méthodes d’apprentissage dans le régime moderne où le nombre n et la dimension p des données sont grands et du même ordre. Par rapport au régime conventionnel où n>>p, le régime avec n,p sont grands et comparables est particulièrement intéressant, car les performances d’apprentissage dans ce régime restent sensibles à l’ajustement des hyperparamètres, ouvrant ainsi une voie à la compréhension et à l’amélioration des techniques d’apprentissage pour ces données de grande dimension.L'approche technique de cette thèse s'appuie sur des outils avancés de statistiques de grande dimension, nous permettant de mener des analyses allant au-delà de l'état de l’art. La première partie de la thèse est consacrée à l'étude de l'apprentissage semi-supervisé sur des grandes données. Motivés par nos résultats théoriques, nous proposons une alternative supérieure à la méthode semi-supervisée de régularisation laplacienne. Les méthodes avec solutions implicites, comme les SVMs et la régression logistique, sont ensuite étudiées sous des modèles de mélanges réalistes, fournissant des détails exhaustifs sur le mécanisme d'apprentissage. Plusieurs conséquences importantes sont ainsi révélées, dont certaines sont même en contradiction avec la croyance commune. / The BigData challenge induces a need for machine learning algorithms to evolve towards large dimensional and more efficient learning engines. Recently, a new direction of research has emerged that consists in analyzing learning methods in the modern regime where the number n and the dimension p of data samples are commensurately large. Compared to the conventional regime where n>>p, the regime with large and comparable n,p is particularly interesting as the learning performance in this regime remains sensitive to the tuning of hyperparameters, thus opening a path into the understanding and improvement of learning techniques for large dimensional datasets.The technical approach employed in this thesis draws on several advanced tools of high dimensional statistics, allowing us to conduct more elaborate analyses beyond the state of the art. The first part of this dissertation is devoted to the study of semi-supervised learning on high dimensional data. Motivated by our theoretical findings, we propose a superior alternative to the standard semi-supervised method of Laplacian regularization. The methods involving implicit optimizations, such as SVMs and logistic regression, are next investigated under realistic mixture models, providing exhaustive details on the learning mechanism. Several important consequences are thus revealed, some of which are even in contradiction with common belief. Apprentissage en grandes dimensions Théorie des matrices aléatoires Apprentissage semi-Supervisé Machines à vecteurs de support Régression logistique Large dimensional learning Random matrix theory Semi-Supervised learning Support vector machines Logistic regression

Search results