Global ETD Search

11	Recensement et description des mots composés - méthodes et applications Savary, Agata 14 December 2000 (has links) (PDF) Ce mémoire décrit les recherches en informatique linguistique menées par l'auteur dans le domaine des mots composés, et plus spécialement de la composition nominale en anglais général et spécialisé. Le point de départ pour toutes les recherches présentées a été le système de traitement automatique de grands corpus, INTEX. Nous nous sommes penchée sur le problème du recensement des mots composés à grande échelle. Nous avons essayé de répondre aux questions suivantes : Comment ce recensement peut être effectué ? Est-il utile de le réaliser ? La réponse à la première question est donnée dans le contexte de la création de dictionnaires électroniques, sous formats disponibles dans le système INTEX. Nous analysons la morphologie flexionnelle des noms composés en trois langues : le français, l'anglais et le polonais. Nous proposons une méthode formelle de description du comportement flexionnel des composés, ainsi qu'un algorithme qui génère automatiquement leurs formes fléchies. Nous décrivons la construction de deux dictionnaires électroniques : l'un pour les mots composés de l'anglais général, l'autre pour les termes simples et composés anglais du domaine de l'informatique. Nous présentons une bibliothèque d'automates et de transducteurs finis pour la reconnaissance des déterminants numéraux cardinaux et ordinaux de l'anglais. L'intérêt de la création de bases lexicales pour les mots composés est vérifié dans deux types d'applications du TALN. Premièrement, nous présentons une méthode d'acquisition de terminologie, basée sur l'emploi de ressources terminologiques initiales. Deuxièmement, nous proposons un algorithme de correction orthographique des mots simples et composés, basé sur la consultation d'un dictionnaire sous format d'automate fini. [INFO:INFO_OH] Computer Science/Other mots composés composition nominale
12	Kernel-based learning on hierarchical image representations : applications to remote sensing data classification / Apprentissage à base de noyaux sur représentations d’images arborescentes : applications à la classification des images de télédétection Cui, Yanwei 04 July 2017 (has links) La représentation d’image sous une forme hiérarchique a été largement utilisée dans un contexte de classification. Une telle représentation est capable de modéliser le contenu d’une image à travers une structure arborescente. Dans cette thèse, nous étudions les méthodes à noyaux qui permettent de prendre en entrée des données sous une forme structurée et de tenir compte des informations topologiques présentes dans chaque structure en concevant des noyaux structurés. Nous présentons un noyau structuré dédié aux structures telles que des arbres non ordonnés et des chemins (séquences de noeuds) équipés de caractéristiques numériques. Le noyau proposé, appelé Bag of Subpaths Kernel (BoSK), est formé en sommant les noyaux calculés sur les sous-chemins (un sac de tous les chemins et des noeuds simples) entre deux sacs. Le calcul direct de BoSK amène à une complexité quadratique par rapport à la taille de la structure (nombre de noeuds) et la quantité de données (taille de l’ensemble d’apprentissage). Nous proposons également une version rapide de notre algorithme, appelé Scalable BoSK (SBoSK), qui s’appuie sur la technique des Random Fourier Features pour projeter les données structurées dans un espace euclidien, où le produit scalaire du vecteur transformé est une approximation de BoSK. Cet algorithme bénéficie d’une complexité non plus linéaire mais quadratique par rapport aux tailles de la structure et de l’ensemble d’apprentissage, rendant ainsi le noyau adapté aux situations d’apprentissage à grande échelle. Grâce à (S)BoSK, nous sommes en mesure d’effectuer un apprentissage à partir d’informations présentes à plusieurs échelles dans les représentations hiérarchiques d’image. (S)BoSK fonctionne sur des chemins, permettant ainsi de tenir compte du contexte d’un pixel (feuille de la représentation hiérarchique) par l’intermédiaire de ses régions ancêtres à plusieurs échelles. Un tel modèle est utilisé dans la classification des images au niveau pixel. (S)BoSK fonctionne également sur les arbres, ce qui le rend capable de modéliser la composition d’un objet (racine de la représentation hiérarchique) et les relations topologiques entre ses sous-parties. Cette stratégie permet la classification des tuiles ou parties d’image. En poussant plus loin l’utilisation de (S)BoSK, nous introduisons une nouvelle approche de classification multi-source qui effectue la classification directement à partir d’une représentation hiérarchique construite à partir de deux images de la même scène prises à différentes résolutions, éventuellement selon différentes modalités. Les évaluations sur plusieurs jeux de données de télédétection disponibles dans la communauté illustrent la supériorité de (S)BoSK par rapport à l’état de l’art en termes de précision de classification, et les expériences menées sur une tâche de classification urbaine montrent la pertinence de l’approche de classification multi-source proposée. / Hierarchical image representations have been widely used in the image classification context. Such representations are capable of modeling the content of an image through a tree structure. In this thesis, we investigate kernel-based strategies that make possible taking input data in a structured form and capturing the topological patterns inside each structure through designing structured kernels. We develop a structured kernel dedicated to unordered tree and path (sequence of nodes) structures equipped with numerical features, called Bag of Subpaths Kernel (BoSK). It is formed by summing up kernels computed on subpaths (a bag of all paths and single nodes) between two bags. The direct computation of BoSK yields a quadratic complexity w.r.t. both structure size (number of nodes) and amount of data (training size). We also propose a scalable version of BoSK (SBoSK for short), using Random Fourier Features technique to map the structured data in a randomized finite-dimensional Euclidean space, where inner product of the transformed feature vector approximates BoSK. It brings down the complexity from quadratic to linear w.r.t. structure size and amount of data, making the kernel compliant with the large-scale machine-learning context. Thanks to (S)BoSK, we are able to learn from cross-scale patterns in hierarchical image representations. (S)BoSK operates on paths, thus allowing modeling the context of a pixel (leaf of the hierarchical representation) through its ancestor regions at multiple scales. Such a model is used within pixel-based image classification. (S)BoSK also works on trees, making the kernel able to capture the composition of an object (top of the hierarchical representation) and the topological relationships among its subparts. This strategy allows tile/sub-image classification. Further relying on (S)BoSK, we introduce a novel multi-source classification approach that performs classification directly from a hierarchical image representation built from two images of the same scene taken at different resolutions, possibly with different modalities. Evaluations on several publicly available remote sensing datasets illustrate the superiority of (S)BoSK compared to state-of-the-art methods in terms of classification accuracy, and experiments on an urban classification task show the effectiveness of proposed multi-source classification approach. Noyau structuré Représentations hiérarchiques Apprentissage à grande échelle Bag of Subpaths Kernel Random Fourier Features 006.4
13	Etude des profils d'expression des petits ARN nucléolaires (snoARN) dans la leucémie lymphoïde chronique / Study of small nucleolar RNAs (SnoRNAs) expression profiles in chronic lymphocytic leukemia Berquet, Laure 27 March 2015 (has links) Les petits ARN nucléolaires (snoARN) sont d'abondants petits ARN non codants impliqués dans la modification post-transcriptionnelle des ARN ribosomiques. Plus récemment, ils ont été associés à de nouvelles fonctions et des dérégulations dans les cancers. La leucémie lymphoïde chronique (LLC) est l'hémopathie maligne la plus courante dans les pays occidentaux. Cette pathologie, bien qu'indolente, est toujours incurable et est très hétérogène en termes d'évolution et de réponse au traitement. Il est ainsi nécessaire de découvrir de nouveaux marqueurs permettant de stratifier le risque d'évolution de la LLC afin d'améliorer la prise en charge thérapeutique des patients. Le but de mon projet a été d'étudier les profils d'expression des snoARN dans la LLC et de les corréler aux données cliniques et biologiques. Par des expériences de PCR quantitative à grande échelle (Fluidigm), j'ai mis en évidence la dérégulation des snoARN dans la LLC. De plus, j'ai pu montrer qu'une signature spécifique était capable de définir un nouveau sous-groupe de mauvais pronostic au sein des patients IGHV-mutés, initialement classés dans un groupe de bon pronostic. La surexpression de la signature est corrélée à un temps de survie sans traitement plus court et semble être principalement activée par les signaux de prolifération. Ainsi, cette étude démontre l'intérêt d'étudier la valeur pronostique des snoARN dans la LLC et plus largement dans les hémopathies malignes. / Small nucleolar RNAs (snoRNAs) are an abundant class of small non-coding RNAs responsible for the post-transcriptional modifications of ribosomal RNAs. They have been recently associated with new functions and described as deregulated in many cancers. Chronic lymphocytic leukemia (CLL) is the most frequent leukemia in the western world. This disease has a slow progression rate but is still incurable and is also very heterogeneous in terms of clinical course and response to therapy. Thus, it is essential to find new molecular markers allowing improvement of patient therapeutic care. This study aimed at establishing the expression profiles of snoRNAs in a CLL cohort and to correlate them to the clinico-biological parameters. By means of high-throughput quantitative PCR, I showed that snoRNAs were deregulated in CLL. Moreover, a specific signature was able to define a new adverse prognostic subgroup among IGHV-mutated patients, initially classified as good prognosis cases. The overexpression of the signature is correlated to a shorter treatment-free survival and seems to be mainly activated by proliferation signals. All in all, this study demonstrates the prognostic value of snoRNAs in CLL and prompts us to further explore their deregulation in hematological malignancies. Leucémie lymphoïde chronique PCR quantitative à grande échelle Statut mutationel IGHV Petits ARN nucléolaires Marqueur pronostique Fluidigm
14	Analyse statistique de la distribution des amas de galaxies à partir des grands relevés de la nouvelle génération / Statistical analysis of the galaxy cluster distribution from next generation cluster surveys Sridhar, Srivatsan 16 December 2016 (has links) L'objectif de cette thèse est d'étudier la possibilité de construire la fonction de corrélation à 2 points des amas de galaxies détectés dans les grands relevés optiques de galaxies. En particulier j’étudie l’impact de décalages vers le rouge dégradés car dérivés de données photométriques seules comme cela sera le cas pour les grands relevés à venir. J’ai utilisé des sous-échantillons d’amas sélectionnés dans les catalogues simulés. Les décalages vers le rouge des amas sont modélisés à partir des décalages exacts auxquels sont rajoutés un brui gaussien d’écart type σ (z=0) = 0.005 à 0.050. La fonction de corrélation dans l’espace direct est calculées par une méthode de déprojection. L’étude a été menée sur 4 intervalles de masse et 6 de redshift couvrant le domaine 0<z<2, en s’appuyant dans un premier temps sur les redshifts cosmologiques, puis sur les redshifts bruités. Un accroissement clair de l’amplitude de corrélation avec le redshift et la masse a été trouvé. L’évolution du paramètre de biais b(M,z) est en bon accord avec les prédictions théoriques. La relation d’échelle r0-d est aussi confirmée pour tous les échantillons jusqu’aux plus hauts redshifts et masses. Pour les échantillons bruités il est montré que la fonction de corrélation peut être reconstruite avec une précision de 10% pour σ (z=0) = 0.030. Les paramètres des ajustements ainsi que les biais reconstruits pour tous les bruits envisagés sont compatibles avec le cas non bruité dans un intervalle de 1σ. L’impact de la sélection des échantillons en richesse plutôt qu’en masse est aussi envisagé. Il est montré que Σ(>N200) est similaire à Σ(>masse), ainsi que la fonction de biais qui peut être reproduite à 1σ près. / I aim to study to which accuracy it is actually possible to recover the real-space to-point correlation function from cluster catalogues based on photometric redshifts. I make use of cluster sub-samples selected from a light-cone simulated catalogue. Photometric redshifts are assigned to each cluster by randomly extracting from a Gaussian distribution having a dispersion varied in the range σ (z=0) = 0.005 à 0.050. The correlation function in real-space is computed through deprojection method. Four masse ranges and six redshifts slices covering the redshift range 0<z<2 are investigated, using cosmological redshifts (Zc) and then using photometric redshifts. A clear increase of the corretation amplitude with redshift and mass is found. The evolution of the bias parameter b(M,z) is in fair agreement with the theoretical expectations. The existence of the r0-d relation up to the highest mass, highest redshift sample is tested and is confirmed. It is found that the real-space correlation function can be recovered within and accuracy of 10% for σ (z=0) = 0.030. The best-fit parameters as well as the bias for all σz, are within the 1σ uncertainty of the Zc sample. Amas de galaxies Structures à grande échelle Analyse de données Galaxy clusters Large-scale structure Data analysis
15	Diffusion et transcodage à grande échelle de flux vidéo en direct / Delivery and transcoding for large scale live streaming systems Pires, Karine 31 March 2015 (has links) Aujourd'hui, de nombreux appareils sont capables de capturer des vidéos en Full HD et d'utiliser une connexion réseau pour accéder à Internet. La popularisation des dispositifs et les efforts continus pour améliorer la qualité du réseau ont apporté un environnement propice à l'essor de la diffusion en direct. De par la grande quantité de contenu généré par les utilisateurs, la diffusion de flux en direct présente de nouveaux défis. Dans cette thèse, nous nous intéressons à la distribution et au transcodage des systèmes de diffusion en direct. Pour étudier les différent aspects des systèmes de diffusion en direct nous avons besoin de les caractériser et d'évaluer les solutions proposées avec des traces pertinentes. Par conséquent, notre première contribution est un ensemble de données et son analyse, contenant trois mois de traces de deux services de streaming en direct. Ensuite, nous avons exploré et développé des solutions pour la distribution du contenu produit par ces platesformes. L'un des défis est l'hétérogénéité de popularité des flux. Ceci implique généralement un surdimensionnement des services et par conséquent un gaspillage de ressources. Enfin, nous nous sommes focalisés sur les difficultés posées par le transcodage des flux en direct. Les opérations de transcodage sont coûteuses en ressources CPU et sont des étapes clés pour le Streaming à Débit Adaptatif (SDA). Nous montrons que le SDA est capable de réduire le coût en bande passante pour la distribution et d'augmenter la qualité d'expérience des téléspectateurs en échange d'un coût en ressources CPU. Pour comprendre le compromis entre les avantages et les coûts, nous formulons deux problèmes de gestion. / Today many devices are capable to capture full HD videos and to use its network connection to access Internet. The popularization of devices and continuous efforts to increase network quality has brought a proper environment for the rise of live streaming. Associated to the large scale of Users Generated Content (UGC), live streaming presents new challenges. In this thesis we target the delivery and transcoding of live streaming systems.First, to study the aspects we target of live streaming systems we need to characterize them and evaluate the proposed solutions with relevant traces. Therefore our first contribution is a data set, and its analysis, containing three months traces of two UGC live streaming services.Second, we explored and developed solutions for the delivery of the content produced by these platforms. One of the challenges is the heterogeneity among streams popularity, which generally implies over-provisioning and consequently resource waste. We show that there is a trade-off between the number of servers involved to broadcast the streams and the bandwidth usage among the servers. We also stress the importance to predict streams popularity in order to efficiently place them on the servers.Lastly, we target the difficulties concerning transcoding of live streams. The transcoding operations over streams are computing consuming and are key operations on adaptive bit rate streaming. We show that adaptive streaming is able to reduce the delivery bandwidth cost and to increase viewer quality of experience at the cost of computing resources. We formulate two management problems to address the trade-off between benefits and costs. Vidéo en direct Diffusion Transcodage Grande échelle Youtube live Twitch Live streaming Transcoding 004
16	Géométrie asymptotique sous-linéaire : hyperbolicité, autosimilarité, invariants / Large-scale sublinear geometry : hyperbolicity, self-similarity, invariants Pallier, Gabriel 02 September 2019 (has links) Les équivalences sous-linéairement bilipschitziennes ont été introduites par Yves Cornulier afin de décrire les cônes asymptotiques des groupes de Lie. Elles généralisent les quasiisométries. Cette thèse construit des invariants pour l'équivalence sous-linéairement bilipschitzienne entre groupes et espaces hyperboliques au sens de Gromov, en utilisant l'analyse au bord de Gromov. Une classe d'application généralisant les homéomorphismes quasisymétriques, et une dimension conforme associée, sont introduites. Les espaces riemannien de type non-compact et de rang un, ainsi que certains espaces homogènes de courbure strictement négative, sont classifiés à équivalence sous-linéairement bilipschitzienne près. / Sublinearly biLipschitz equivalences have been introduced by Yves Cornulier as a means of describing the asymptotic cones of Lie groups; they include and generalize quasiisometries. This thesis provides invariants for sublinearly biLipschitz equivalence between Gromov-hyperbolic groups and spaces using analysis on the Gromov boundary. A class of applications generalizing quasisymmetric mappings, and a corresponding conformal dimension, are introduced as tools. Riemannian symmetric spaces of noncompact type as well as a subclass of homogeneous negatively curved Riemannian manifolds are classified up to sublinearly biLipschitz equivalence. Géométrie à grande échelle Groupes hyperboliques Homéomorphismes quasisymétriques Large-scale geometry Hyperbolic groups Quasisymmetric mappings
17	Matrix completion : statistical and computational aspects / Complétion de matrice : aspects statistiques et computationnels Lafond, Jean 19 December 2016 (has links) Dans cette thèse nous nous intéressons aux méthodes de complétion de matrices de faible rang et étudions certains problèmes reliés. Un premier ensemble de résultats visent à étendre les garanties statistiques existantes pour les modèles de complétion avec bruit additif sous-gaussiens à des distributions plus générales. Nous considérons en particulier les distributions multinationales et les distributions appartenant à la famille exponentielle. Pour ces dernières, nous prouvons l'optimalité (au sens minimax) à un facteur logarithmique près des estimateurs à pénalité norme trace. Un second ensemble de résultats concernent l'algorithme du gradient conditionnel qui est notamment utilisé pour calculer les estimateurs précédents. Nous considérons en particulier deux algorithmes de type gradient conditionnel dans le cadre de l'optimisation stochastique. Nous donnons les conditions sous lesquelles ces algorithmes atteignent les performance des algorithmes de type gradient projeté. / This thesis deals with the low rank matrix completion methods and focuses on some related problems, of both statistical and algorithmic nature. The first part of this work extends the existing statistical guarantees obained for sub-Gaussian additive noise models, to more general distributions. In particular,we provide upper bounds on the prediction error of trace norm penalized estimatorwith high probability for multinomial distributions and for distributions belonging to the exponential family. For the latter, we prove that the trace norm penalized estimators are minimax optimal up to a logarithmic factor by giving a lower bound.The second part of this work focuses on the conditionnal gradient algorithm, which is used in particular to compute previous estimators. We consider the stochastic optimization framework and gives the convergence rate of twovariants of the conditional gradient algorithm. We gives the conditions under which these algorithms match the performance of projected gradient algorithms. Statistique en grande dimension Complétion de matrice Apprentissage à grande échelle High dimension statistics Matrix completion Large scale optimization
18	Environnements d'exécution pour applications parallèles communiquant par passage de messages pour les systèmes à grande échelle et les grilles de calcul Coti, Camille 10 November 2009 (has links) (PDF) L'environnement d'exécution est un composant clé de l'environnement de programmation et d'exécution d'applications parallèles. Il fournit des services aux processus de l'application parallèle. Parmi ces services, les plus fondamentaux sont la mise en relation des processus entre eux et la transmission des signaux et des entrées-sorties. Cette thèse porte sur l'étude des environnements d'exécution à grande échelle et les services rendus à l'application sur des systèmes de grande taille. La première partie étudie les performances de l'environnement d'exécution à grande échelle et propose une approche centrée sur les topologies pour supporter l'application de manière efficace. La seconde partie étudie un rôle supplémentaire rempli par l'environnement d'exécution dans des systèmes constitué d'un grand nombre de composants avec le support de la tolérance aux défaillances. La troisième et la quatrième partie concernent un type particulier de systèmes à grande échelle avec les grilles de calcul. Ces systèmes présentent des particularités spécifiques à l'utilisation de ressources géographiquement distantes et à l'hétérogénéité de ces ressources. Les problématiques de connectivité sur les grilles de calcul et une extension de l'environnement d'exécution conçue pour y faire face sont présentées dans la troisième partie de cette thèse. La quatrième partie présente une méthode de conception d'applications destinées aux grilles de calcul et des exemples d'applications typiques présentant de bonnes performances. calcul parallèle systèmes distribués environnement d'exécution grille de calcul grande échelle
19	Etude de l' asymétrie cyclone-anticyclone dans les sillages de grande échelle Perret, Gaële 01 December 2005 (has links) (PDF) - [SDU] Sciences of the Universe [SPI] Engineering Sciences Asymétrie cyclone-anticyclone Ecoulements de grande échelle Stabilité de jets et cisaillements Modèle shallow-water Sillage
20	Analysis of Large-Scale Biological Networks with Constraint-Based Approaches over Static Models Guziolowski, Carito 08 January 2010 (has links) (PDF) Il existe plusieurs approches qui modélisent des réseaux de régulation génétiques a [INFO:INFO_OH] Computer Science/Other bioinformatique biologie des systèmes programmation par contraintes modèles grande-échelle

Search results