• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 255
  • 252
  • 50
  • 3
  • 2
  • 1
  • 1
  • Tagged with
  • 576
  • 576
  • 377
  • 364
  • 118
  • 117
  • 115
  • 105
  • 98
  • 94
  • 90
  • 89
  • 89
  • 72
  • 70
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
151

Estimation de la diversité acoustique animale en forêt néotropicale / Assessment of animal acoustic diversity in neotropical forest

Ulloa chacón, Juan 11 June 2018 (has links)
La communication par émission sonore est un trait comportemental répandu chez les animaux terrestres. Les riches textures sonores de la forêt neotropicale nous suggèrent que la faune est non seulement abondante, mais aussi diverse et dynamique. Cette facette de la biodiversité peut révéler des informations précieuses sur les communautés animales qui habitent les milieux tropicaux, mais reste largement méconnue. Comment mesurer la diversité acoustique tropicale pour aborder des questions écologiques ? Dans le cadre de l'écoacoustique, nous avons cherché à révéler des structures dissimulées dans le paysage sonore de la forêt neotropicale, et tenter d’expliquer leurs présences à travers les processus écologiques sous-jacents. Tout d’abord, nous avons suivi la dynamique spatio-temporelle d’une empreinte sonore amazonienne, le chant de l’oiseau tropical Lipaugus vociferans, montrant une activité liée à des caractéristiques spécifiques d’habitat. Puis, nous nous sommes intéressés aux communautés d’amphibiens. L’analyse de variables acoustiques et météorologiques nous a permis de mieux comprendre les causes, patrons et conséquences du comportement reproductif explosif. Enfin, nous avons adapté de nouveaux outils de calcul, issus des disciplines de l'apprentissage automatique et de la reconnaissance de formes, pour proposer une analyse efficace, objective et facilement reproductible de grands jeux de données acoustiques. L’écoacoustique, renforcée par des algorithmes informatiques, émerge comme une approche clé pour les programmes de suivis de biodiversité à large échelle, permettant de mieux comprendre et valoriser la diversité de formes de vies unique abritée par la forêt tropicale. / Acoustic signalling is a common behavioural trait among terrestrial animals. The rich sound textures of neotropical forest echo that wildlife is not only abundant, but also diverse and dynamic. This facet of biodiversity can reveal valuable insights of animal communities inhabiting tropical environments, yet remains poorly understood. How to best measure tropical acoustic diversity to address ecological questions? Based on the ecoacoustic framework, we explored the soundscape of neotropical forest, revealing patterns and investigating the ecological underlying processes. First, we tracked the spatiotemporal dynamics of an amazonian soundmark, the song of the bird Lipaugus vociferans, showing activity patterns related to specific habitat features. Then, we investigated amphibian communities with very brief reproduction periods. Coupling acoustic and environmental variables, we shed light on the causes, patterns and consequences of explosive breeding events. Finally, we adapted novel computational tools from the machine learning and pattern recognition disciplines to provide an efficient, objective and replicable analysis of large acoustic datasets. Ecoacoustics, powered with computer algorithms, emerge as a suitable approach to scale-up biodiversity monitoring programs, allowing to better understand and cherish the unique diversity of life sustained by tropical forest.
152

Hiérarchisation des facteurs d'érosion des falaises côtières du site au globe / Ranking sea cliff eroding factors from site to global scale

Prémaillon, Mélody 06 December 2018 (has links)
Cette thèse a pour but de comprendre quels processus contrôlent l'érosion des falaises côtières à deux échelles spatiales. Nous avons d'abord réalisé une étude locale de la falaise de flysch de Socoa (Pays Basque), dont la spécificité est un fort contrôle structural. Elle a été suivie annuellement par photogrammétrie pendant 6 ans. Cette falaise résistante recule lentement, à 3,4 mm/an. Son erosion est le fait de départ de blocs, majoritairement au niveau des arêtes libres. Ensuite, afin d'aborder l'échelle globale, une base de données (GlobR2C2, Global Recession Rates of Coastal Cliffs) a été créée. Elle est la première à recenser les taux d'érosion publiés et à les comparer à des forçages météo-marins issus de grilles mondiales. Nous l'avons traitée par analyse statistique exploratoire et par random forest. La résistance de la roche parait être le premier facteur contrôlant le taux d'érosion. Au second ordre, apparaissent le nombre de jours de gel par an et le marnage. / The aim of this PhD is to understand factors controlling sea cliff erosion at both local scale, based on Socoa cliff (Basque country) and at global scale. The specificity of Socoa's flysch cliff is its strong structural control. A 6 year photogrammetric study from annual records was conducted. This resistant cliff erodes slowly at 3.4 mm/yr and rockfalls occur mostly at cliff edge. A database called GlobR2C2 (Global Recession Rates of Coastal Cliffs) was set up. It is the first one to compile erosion rate data extracted from literature and to compare it to marine and continental forcing, extracted from worldwide grids and reanalyses. It was statistically analysed through exploratory analysis and random forest. At global scale, rock resistance appears to be the primary factor controlling cliff erosion. Second orders factors are the number of frost day per year and the average tidal range.
153

Going beyond the sentence : Contextual Machine Translation of Dialogue / Au-delà de la phrase : traduction automatique de dialogue en contexte

Bawden, Rachel 29 November 2018 (has links)
Les systèmes de traduction automatique (TA) ont fait des progrès considérables ces dernières années. La majorité d'entre eux reposent pourtant sur l'hypothèse que les phrases peuvent être traduites indépendamment les unes des autres. Ces modèles de traduction ne s'appuient que sur les informations contenues dans la phrase à traduire. Ils n'ont accès ni aux informations présentes dans les phrases environnantes ni aux informations que pourrait fournir le contexte dans lequel ces phrases ont été produites. La TA contextuelle a pour objectif de dépasser cette limitation en explorant différentes méthodes d'intégration du contexte extra-phrastique dans le processus de traduction. Les phrases environnantes (contexte linguistique) et le contexte de production des énoncés (contexte extra-linguistique) peuvent fournir des informations cruciales pour la traduction, notamment pour la prise en compte des phénomènes discursifs et des mécanismes référentiels. La prise en compte du contexte est toutefois un défi pour la traduction automatique. Évaluer la capacité de telles stratégies à prendre réellement en compte le contexte et à améliorer ainsi la qualité de la traduction est également un problème délicat, les métriques d'évaluation usuelles étant pour cela inadaptées voire trompeuses. Dans cette thèse, nous proposons plusieurs stratégies pour intégrer le contexte, tant linguistique qu'extra-linguistique, dans le processus de traduction. Nos expériences s'appuient sur des méthodes d'évaluation et des jeux de données que nous avons développés spécifiquement à cette fin. Nous explorons différents types de stratégies: les stratégies par pré-traitement, où l'on utilise le contexte pour désambiguïser les données fournies en entrée aux modèles ; les stratégies par post-traitement, où l'on utilise le contexte pour modifier la sortie d'un modèle non-contextuel, et les stratégies où l'on exploite le contexte pendant la traduction proprement dite. Nous nous penchons sur de multiples phénomènes contextuels, et notamment sur la traduction des pronoms anaphoriques, la désambiguïsation lexicale, la cohésion lexicale et l'adaptation à des informations extra-linguistiques telles que l'âge ou le genre du locuteur. Nos expériences, qui relèvent pour certaines de la TA statistique et pour d'autres de la TA neuronale, concernent principalement la traduction de l'anglais vers le français, avec un intérêt particulier pour la traduction de dialogues spontanés. / While huge progress has been made in machine translation (MT) in recent years, the majority of MT systems still rely on the assumption that sentences can be translated in isolation. The result is that these MT models only have access to context within the current sentence; context from other sentences in the same text and information relevant to the scenario in which they are produced remain out of reach. The aim of contextual MT is to overcome this limitation by providing ways of integrating extra-sentential context into the translation process. Context, concerning the other sentences in the text (linguistic context) and the scenario in which the text is produced (extra-linguistic context), is important for a variety of cases, such as discourse-level and other referential phenomena. Successfully taking context into account in translation is challenging. Evaluating such strategies on their capacity to exploit context is also a challenge, standard evaluation metrics being inadequate and even misleading when it comes to assessing such improvement in contextual MT. In this thesis, we propose a range of strategies to integrate both extra-linguistic and linguistic context into the translation process. We accompany our experiments with specifically designed evaluation methods, including new test sets and corpora. Our contextual strategies include pre-processing strategies designed to disambiguate the data on which MT models are trained, post-processing strategies to integrate context by post-editing MT outputs and strategies in which context is exploited during translation proper. We cover a range of different context-dependent phenomena, including anaphoric pronoun translation, lexical disambiguation, lexical cohesion and adaptation to properties of the scenario such as speaker gender and age. Our experiments for both phrase-based statistical MT and neural MT are applied in particular to the translation of English to French and focus specifically on the translation of informal written dialogues.
154

Cycles économiques et gestion de portefeuille / Asset Allocation, Economic Cycles and Machine Learning

Raffinot, Thomas 28 September 2017 (has links)
Cette thèse cherche à lier les cycles économiques et la gestion de portefeuille. Le premier chapitre construit un cadre théorique entre les cycles économiques et les primes de risques. Il met en évidence l’importance des points de retournement du cycle de croissance, plus connu sous le nom d’écart de production. Les deux chapitres suivants ont pour objectif de détecter en temps réel ces points de retournement. La première approche se concentre sur une méthode non paramétrique d’apprentissage automatique simple et facilement compréhensible appelée quantification vectorielle adaptative. La seconde approche utilise des méthodes plus complexes d’apprentissage automatique, dites ensemblistes : les forêts aléatoires et le boosting. Les deux démarches permettent de créer des stratégies d’investissement performantes en temps réel. Enfin, le dernier chapitre élabore une méthode d’allocation d’actifs à partir de différents algorithmes de regroupement hiérarchique. Les résultats empiriques démontrent l’intérêt de cette tentative : les portefeuilles créés sont robustes, diversifiés et lucratifs. / A well-worked theory of macro-based investment decision is introduced. The theoretical influence of economic cycles on time-varying risk premiums is explained and exhibited. The importance of the turning points of the growth cycle, better known as the output gap, is outlined. To quickly and accurately detect economic turning points, probabilistic indicators are first created from a simple and transparent machine-learning algorithm known as Learning Vector Quantization. Those indicators are robust, interpretable and preserve economic consistency. A more complex approach is then evaluated: ensemble machine learning algorithms, referred to as random forest and as boosting, are applied. The two key features of those algorithms are their abilities to entertain a large number of predictors and to perform estimation and variable selection simultaneously. With both approaches investment strategies based on the models achieve impressive risk-adjusted returns: timing the market is thus possible. At last, exploring a new way of capital allocation, a hierarchical clustering based asset allocation method is introduced. The empirical results indicate that hierarchical clustering based portfolios are robust, truly diversified and achieve statistically better risk-adjusted performances than commonly used portfolio optimization techniques.
155

Rôle des interactions entre les systèmes immunitaire et nerveux : études préclinique et clinique / Role of immune and nervous system interaction : pre-clinical and clinical studies

Daoudlarian, Douglas 14 May 2018 (has links)
Alors que le rôle dans la protection contre des pathogènes par le système immunitaire est bien compris, son rôle dans la progression tumoral est bien plus complexe avec certains mécanismes protecteurs tandis que d’autres sont néfastes. Le principal rôle physiologique du cerveau est lui de percevoir et intégrer les stimuli physiques et sociaux, d’intégrer ces signaux et de moduler l’activité des processus physiologiques de l’organisme pour s’adapter à ces conditions. Bien que les systèmes nerveux et immunitaires aient longtemps été considérés comme fonctionnant indépendamment, de multiples études cliniques et précliniques ont formellement démontré que ces deux systèmes pouvaient se réguler réciproquement. Bien que de nombreuses études visent à mieux comprendre les interactions entre les systèmes nerveux et immunitaire, de nombreuses questions restent sans réponses. Alors que les études cliniques ont prouvé un rôle positif dans la progression tumorale du bien-être, les mécanismes moléculaires ne sont pas encore compris. De plus, de nombreuses études ont essayé de trouver si les cytokines pouvaient être utilisées comme biomarqueurs diagnostic ou prédictif de la réponse au traitement dans les maladies psychiatriques, aucune cytokine étudiée à cette date n’a été démontrée comme suffisamment sensible ou spécifique pour être utilisée comme test diagnostique. Au cours de mes travaux de thèses, j’ai travaillé sur deux projets distincts étudiant les relations entre systèmes nerveux et immunitaires. Le but de mon premier projet a été d’identifier des mécanismes par lesquels un environnement enrichi (EE) associé à une meilleure activité sensorielle, cognitive et motrice pouvait impacter la progression métastatique chez la souris. Nous avons découvert que l’EE avait un effet protecteur dans la prise métastatique pulmonaire. Cette protection est associée à une diminution du niveau de corticostérone sérique, une augmentation de l’inflammation pulmonaire après extravasation de cellules tumorales circulantes. Cette protection est abolie en absence de signalisation sur récepteur aux glucocorticoïdes dans les monocytes inflammatoires. Alors que les monocytes inflammatoires sont généralement décrits comme favorisant la progression tumorale, ils peuvent aussi avoir une action antitumorale, suggérant que leur rôle est bien plus complexe qu’actuellement décrit. Nos résultats ont mis en avant un mécanisme antitumoral de reprogrammation dépendant des glucocorticoïdes des monocytes inflammatoires inhibant la progression métastatique. Mon second projet avait pour but d’identifier des biomarqueurs de la réponse aux traitements de patients ayant un premier épisode psychotique (FEP). Nous avons eu la possibilité d’accéder une cohorte de sérums et données cliniques de 325 patients FEP, tous les patients ont été traités avec le même antipsychotique. Nous avons d’abord utilisé une approche de clustering hiérarchique non supervisé pour stratifier les 325 patients dans 4 sous-groupes en utilisant uniquement leur symptomatologie. Un sous-groupe (C1A) après comparaison avec le reste de la cohorte, montre une symptomatologie plus sévère ainsi qu’un taux de réponse le plus faible après 4 semaines de traitement. Le groupe C1A montre aussi une augmentation du niveau de plusieurs biomarqueurs sériques pro-inflammatoire permettant une validation externe de cette stratification. L’utilisation de 6 variables biologiques (IL-15, protéine c-réactive, CXCL-12, niveaux d’IgG anti CMV et anti Toxoplasma gondii) et de 2 variables cliniques (Âge et utilisation de drogues récréationnelle) a permis de prédire la réponse après traitement. La précision de prédiction après validation croisée est très bonne avec une aire sous courbe moyenne de 81.0% (± 0.05). Une confirmation de ces résultats dans d’autres essais cliniques pourrait amener le développement d’une nouvelle approche basée sur le dosage de biomarqueurs sériques dans le choix du traitement chez les patients psychotiques. / While the immune system is well known for its protective role against infectious pathogens, its role in cancer progression is more complex with some immune mechanisms being protective while others are detrimental. The primary physiological role of the brain is to perceive external physical and social conditions, assess their implications for organismal well-being and modulate the activity of internal physiological processes to optimally adapt to those external conditions. Immune and the nervous systems have long been considered to operate independently from each other, many preclinical and clinical studies have clearly demonstrated that these two systems interact and regulate each other. Despite more and more studies aim at investigating the interactions between the nervous and the immune systems, important issues remain to be elucidated. For example, while human studies have demonstrated a positive impact of well-being on cancer progression, the underlying molecular mechanisms have not been elucidated. On another topic, and while many investigators have investigated whether cytokines could be used as diagnosis or prognosis biomarkers is psychiatric diseases, none of the cytokine studied to date have proven to possess the sensitivity and specificity expected for an accepted diagnostic test value. During my PhD, I have worked on two different projects both related to the interactions between the nervous and the immune system. The goal of my first project was to elucidate the mechanisms by which enriched environment conductive to enhanced sensory, cognitive and motor stimulation impact metastatic progression in mice. We have found that mice housed in enriched environment were protected from lung metastasis. Protection was associated with lower serum corticosterone levels, increased lung inflammation following extravasation of circulating tumour cells, and rapid killing of early infiltrating tumour cells. Protection was abolished when inflammatory monocytes were deficient in glucocorticoid receptor signalling. Thus, while inflammatory monocytes have been shown to promote cancer progression, our results disclosed a novel anti-tumour mechanism whereby glucocorticoid receptor-dependent reprogramming of inflammatory monocytes can inhibit cancer metastasis. The goal of my second project was to identify immune-related biomarkers of remission in first-episode psychotic (FEP) patients. To this aim, we have taken advantage of our privileged access to clinical data and serum samples from 325 FEP patients who have all been treated with an atypical antipsychotic. We have first used a hierarchical unsupervised clustering approach to stratify 325 FEP patients into four subtypes based on their clinical symptoms. Compared to the rest of the cohort, one subtype (C1A) exhibited more severe positive and negative symptoms and were the most at risk of being non-remitters following treatment for 4 weeks. C1A patients also exhibited higher levels of several pro-inflammatory biomarkers therefore providing an external validation to our clustering approach. Most importantly, six biological variables (serum levels of IL-15, C reactive protein, CXCL-12, anti- cytomegalovirus and anti-Toxoplasma immunoglobulins) and two clinical variables (age, recreational drug use), predicted early remission following treatment with Amisulpride in C1A patients. Prediction accuracy assessed by cross-validation calculated by 10,000 iterations of 4-fold cross-validation was very good with a mean area under the curve (AUC) of 81.0% ± 0.05. Further validation of our results in future clinical trials would pave the way for the development of a blood-based assisted clinical decision support system for the choice of treatment in psychotic patients.
156

Machine à vecteurs de support hyperbolique et ingénierie du noyau / Hyperbolic Support Vector Machine and Kernel design

El Dakdouki, Aya 11 September 2019 (has links)
La théorie statistique de l’apprentissage est un domaine de la statistique inférentielle dont les fondements ont été posés par Vapnik à la fin des années 60. Il est considéré comme un sous-domaine de l’intelligence artificielle. Dans l’apprentissage automatique, les machines à vecteurs de support (SVM) sont un ensemble de techniques d’apprentissage supervisé destinées à résoudre des problèmes de discrimination et de régression. Dans cette thèse, notre objectif est de proposer deux nouveaux problèmes d’aprentissagestatistique: Un portant sur la conception et l’évaluation d’une extension des SVM multiclasses et un autre sur la conception d’un nouveau noyau pour les machines à vecteurs de support. Dans un premier temps, nous avons introduit une nouvelle machine à noyau pour la reconnaissance de modèle multi-classe: la machine à vecteur de support hyperbolique. Géometriquement, il est caractérisé par le fait que ses surfaces de décision dans l’espace de redescription sont définies par des fonctions hyperboliques. Nous avons ensuite établi ses principales propriétés statistiques. Parmi ces propriétés nous avons montré que les classes de fonctions composantes sont des classes de Glivenko-Cantelli uniforme, ceci en établissant un majorant de la complexité de Rademacher. Enfin, nous établissons un risque garanti pour notre classifieur.Dans un second temps, nous avons créer un nouveau noyau s’appuyant sur la transformation de Fourier d’un modèle de mélange gaussien. Nous procédons de la manière suivante: d’abord, chaque classe est fragmentée en un nombre de sous-classes pertinentes, ensuite on considère les directions données par les vecteurs obtenus en prenant toutes les paires de centres de sous-classes d’une même classe. Parmi celles-ci, sont exclues celles permettant de connecter deux sous-classes de deux classes différentes. On peut aussi voir cela comme la recherche d’invariance par translation dans chaque classe. Nous l’avons appliqué avec succès sur plusieurs jeux de données dans le contexte d’un apprentissage automatique utilisant des machines à vecteurs support multi-classes. / Statistical learning theory is a field of inferential statistics whose foundations were laid by Vapnik at the end of the 1960s. It is considered a subdomain of artificial intelligence. In machine learning, support vector machines (SVM) are supervised learning models with associated learning algorithms that analyze data used for classification and regression analysis. In this thesis, our aim is to propose two new statistical learning problems : one on the conception and evaluation of a multi-class SVM extension and another on the design of a new kernel for support vectors machines. First, we introduced a new kernel machine for multi-class pattern recognition : the hyperbolic support vector machine. Geometrically, it is characterized by the fact that its decision boundaries in the feature space are defined by hyperbolic functions. We then established its main statistical properties. Among these properties we showed that the classes of component functions are uniform Glivenko-Cantelli, this by establishing an upper bound of the Rademacher complexity. Finally, we establish a guaranteed risk for our classifier. Second, we constructed a new kernel based on the Fourier transform of a Gaussian mixture model. We proceed in the following way: first, each class is fragmented into a number of relevant subclasses, then we consider the directions given by the vectors obtained by taking all pairs of subclass centers of the same class. Among these are excluded those allowing to connect two subclasses of two different classes. We can also see this as the search for translation invariance in each class. It successfully on several datasets in the context of machine learning using multiclass support vector machines.
157

Functional encryption applied to privacy-preserving classification : practical use, performances and security / Chiffrement fonctionnel appliqué à la classification respectant la confidentialité des données : utilisation pratique, performances et sécurité

Ligier, Damien 15 October 2018 (has links)
L'apprentissage automatique (en anglais machine learning) ou apprentissage statistique, a prouvé être un ensemble de techniques très puissantes. La classification automatique en particulier, permettant d'identifier efficacement des informations contenues dans des gros ensembles de données. Cependant, cela lève le souci de la confidentialité des données. C'est pour cela que le besoin de créer des algorithmes d'apprentissage automatique capable de garantir la confidentialité a été mis en avant. Cette thèse propose une façon de combiner certains systèmes cryptographiques avec des algorithmes de classification afin d'obtenir un classifieur que veille à la confidentialité. Les systèmes cryptographiques en question sont la famille des chiffrements fonctionnels. Il s'agit d'une généralisation de la cryptographie à clef publique traditionnelle dans laquelle les clefs de déchiffrement sont associées à des fonctions. Nous avons mené des expérimentations sur cette construction avec un scénario réaliste se servant de la base de données du MNIST composée d'images de digits écrits à la main. Notre système est capable dans ce cas d'utilisation de savoir quel digit est écrit sur une image en ayant seulement un chiffre de l'image. Nous avons aussi étudié la sécurité de cette construction dans un contexte réaliste. Ceci a révélé des risques quant à l'utilisation des chiffrements fonctionnels en général et pas seulement dans notre cas d'utilisation. Nous avons ensuite proposé une méthode pour négocier (dans notre construction) entre les performances de classification et les risques encourus. / Machine Learning (ML) algorithms have proven themselves very powerful. Especially classification, enabling to efficiently identify information in large datasets. However, it raises concerns about the privacy of this data. Therefore, it brought to the forefront the challenge of designing machine learning algorithms able to preserve confidentiality.This thesis proposes a way to combine some cryptographic systems with classification algorithms to achieve privacy preserving classifier. The cryptographic system family in question is the functional encryption one. It is a generalization of the traditional public key encryption in which decryption keys are associated with a function. We did some experimentations on that combination on realistic scenario using the MNIST dataset of handwritten digit images. Our system is able in this use case to know which digit is written in an encrypted digit image. We also study its security in this real life scenario. It raises concerns about uses of functional encryption schemes in general and not just in our use case. We then introduce a way to balance in our construction efficiency of the classification and the risks.
158

Localisation en intérieur basée sur l'apprentissage automatique : exploitation des informations sur l'état des canaux Wi-Fi

Bencharif, Lotfi January 2020 (has links) (PDF)
No description available.
159

Time series representation for classification : a motif-based approach / Représentation de séries temporelles pour la classification : une approche basée sur la découverte automatique de motifs

Renard, Xavier 15 September 2017 (has links)
Nos travaux décrits dans cette thèse portent sur l’apprentissage d’une représentation pour la classification automatique basée sur la découverte de motifs à partir de séries temporelles. L’information pertinente contenue dans une série temporelle peut être encodée temporellement sous forme de tendances, de formes ou de sous-séquences contenant habituellement des distorsions. Des approches ont été développées pour résoudre ces problèmes souvent au prix d’une importante complexité calculatoire. Parmi ces techniques nous pouvons citer les mesures de distance et les représentations de l’information contenue dans les séries temporelles. Nous nous concentrons sur la représentation de l’information contenue dans les séries temporelles. Nous proposons un cadre (framework) pour générer une nouvelle représentation de séries temporelles basée sur la découverte automatique d’ensembles discriminants de sous-séquences. Cette représentation est adaptée à l’utilisation d’algorithmes de classification classiques basés sur des attributs. Le framework proposé transforme un ensemble de séries temporelles en un espace d’attributs (feature space) à partir de sous-séquences énumérées des séries temporelles, de mesures de distance et de fonctions d’agrégation. Un cas particulier de ce framework est la méthode notoire des « shapelets ». L’inconvénient potentiel d’une telle approache est le nombre très important de sous-séquences à énumérer en ce qu’il induit un très grand feature space, accompagné d’une très grande complexité calculatoire. Nous montrons que la plupart des sous-séquences présentes dans un jeu de données composé de séries temporelles sont redondantes. De ce fait, un sous-échantillonnage aléatoire peut être utilisé pour générer un petit sous-ensemble de sous-séquences parmi l’ensemble exhaustif, en préservant l’information nécessaire pour la classification et tout en produisant un feature space de taille compatible avec l’utilisation d’algorithmes d’apprentissage automatique de l’état de l’art avec des temps de calculs raisonnable. On démontre également que le nombre de sous-séquences à tirer n’est pas lié avec le nombre de séries temporelles présent dans l’ensemble d’apprentissage, ce qui garantit le passage à l’échelle de notre approche. La combinaison de cette découverte dans le contexte de notre framework nous permet de profiter de techniques avancées (telles que des méthodes de sélection d’attributs multivariées) pour découvrir une représentation de séries temporelles plus riche, en prenant par exemple en considération les relations entre sous-séquences. Ces résultats théoriques ont été largement testés expérimentalement sur une centaine de jeux de données classiques de la littérature, composés de séries temporelles univariées et multivariées. De plus, nos recherches s’inscrivant dans le cadre d’une convention de recherche industrielle (CIFRE) avec Arcelormittal, nos travaux ont été appliqués à la détection de produits d’acier défectueux à partir des mesures effectuées par les capteurs sur des lignes de production. / Our research described in this thesis is about the learning of a motif-based representation from time series to perform automatic classification. Meaningful information in time series can be encoded across time through trends, shapes or subsequences usually with distortions. Approaches have been developed to overcome these issues often paying the price of high computational complexity. Among these techniques, it is worth pointing out distance measures and time series representations. We focus on the representation of the information contained in the time series. We propose a framework to generate a new time series representation to perform classical feature-based classification based on the discovery of discriminant sets of time series subsequences (motifs). This framework proposes to transform a set of time series into a feature space, using subsequences enumerated from the time series, distance measures and aggregation functions. One particular instance of this framework is the well-known shapelet approach. The potential drawback of such an approach is the large number of subsequences to enumerate, inducing a very large feature space and a very high computational complexity. We show that most subsequences in a time series dataset are redundant. Therefore, a random sampling can be used to generate a very small fraction of the exhaustive set of subsequences, preserving the necessary information for classification and thus generating a much smaller feature space compatible with common machine learning algorithms with tractable computations. We also demonstrate that the number of subsequences to draw is not linked to the number of instances in the training set, which guarantees the scalability of the approach. The combination of the latter in the context of our framework enables us to take advantage of advanced techniques (such as multivariate feature selection techniques) to discover richer motif-based time series representations for classification, for example by taking into account the relationships between the subsequences. These theoretical results have been extensively tested on more than one hundred classical benchmarks of the literature with univariate and multivariate time series. Moreover, since this research has been conducted in the context of an industrial research agreement (CIFRE) with Arcelormittal, our work has been applied to the detection of defective steel products based on production line's sensor measurements.
160

Développements en radiomique pour une meilleure caractérisation du gliome infiltrant du tronc cérébral à partir d'imagerie par résonance magnétique / Developments in radiomics for improving diffuse intrinsic pontine glioma characterization using magnetic resonance imaging

Goya Outi, Jessica 25 September 2019 (has links)
La radiomique suppose que des informations pertinentes non repérables visuellement peuvent être trouvées en calculant une grande quantité d’indices quantitatifs à partir des images médicales. En cancérologie, ces informations pourraient caractériser le phénotype de la tumeur et définir le pronostic du patient. Le GITC est une tumeur pédiatrique rare diagnostiquée d'après des signes cliniques et son apparence en IRM. Cette thèse présente les premières études radiomiques pour des patients atteints de GITC. Comme les intensités en IRM clinique sont exprimées en unités arbitraires, la première étape de l’étude a été la standardisation des images. Une méthode de normalisation basée sur l'estimation de l'intensité dans la matière blanche d'apparence normale s’est avérée efficace sur plus de 1500 volumes d'images. Des études méthodologiques sur le calcul des indices de texture ont abouti aux recommandations suivantes : (a) discrétiser les niveaux de gris avec une largeur constante pour tous les patients, (b) utiliser un volume d'intérêt constant ou faire attention au biais introduit par des volumes de taille et forme différentes. En s’appuyant sur ces recommandations, les indices radiomiques issus de 4 modalités d'IRM ont été systématiquement analysés en vue de prédire les principales mutations génétiques associées aux GITC et la survie globale des patients au moment du diagnostic. Un pipeline de sélection d’indices a été proposé et différentes méthodes d’apprentissage automatique avec validation croisée ont été mises en oeuvre pour les deux tâches de prédiction. La combinaison des indices cliniques avec les indices d’imagerie est plus efficace que les indices cliniques ou d’imagerie seuls pour la prédiction des deux principales mutations de l’histone H3 (H3.1 versus H3.3) associées au GITC. Comme certaines modalités d'imagerie étaient manquantes, une méthodologie adaptée à l’analyse des bases de données d’imagerie multi-modales avec données manquantes a été proposée pour pallier les limites de recueil des données d'imagerie. Cette approche permet d'intégrer de nouveaux patients. Les résultats du test externe de prédiction des deux principales mutations de l’histone H3 sont encourageants. Concernant la survie, certains indices radiomiques semblent informatifs. Toutefois, le faible nombre de patients n'a pas permis d'établir les performances des prédicteurs proposés. Enfin, ces premières études radiomiques suggèrent la pertinence des indices radiomiques pour la prise en charge des patients atteints de GITC en absence de biopsie mais l’augmentation de la base de données est nécessaire pour confirmer ces résultats. La méthodologie proposée dans cette thèse peut être appliquée à d'autres études cliniques. / Radiomics is based on the assumption that relevant, non-visually identifiable information can be found by calculating a large amount of quantitative indices from medical images. In oncology, this information could characterize the phenotype of the tumor and define the prognosis of the patient. DIPG is a rare pediatric tumor diagnosed by clinical signs and MRI appearance. This work presents the first radiomic studies for patients with DIPG. Since clinical MRI intensities are expressed in arbitrary units, the first step in the study was image standardization. A normalization method based on intensity estimation of the normal-appearing white matter has been shown to be effective on more than 1500 image volumes. Methodological studies on the calculation of texture indices have then defined the following recommendations: (a) discretize gray levels with a constant width for all patients, (b) use a constant volume of interest or pay attention to the bias introduced by volumes of different size and shape. Based on these recommendations, radiomic indices from four MRI modalities were systematically analyzed to predict the main genetic mutations associated with DIPG and the overall survival of patients at the time of diagnosis. An index selection pipeline was proposed and different cross-validated machine learning methods were implemented for both prediction tasks. The combination of clinical indices with imaging indices is more effective than the clinical or imaging indices alone for the prediction of the two main mutations in histone H3 (H3.1 versus H3.3) associated with DIPG. As some imaging modalities were missing, a methodology adapted to the analysis of multi-modal imaging databases with missing data was proposed to overcome the limitations of the collection of imaging data. This approach made it possible to integrate new patients. The results of the external prediction test for the two main mutations of H3 histone are encouraging. Regarding survival, some radiomic indices seem to be informative. However, the small number of patients did not make it possible to establish the performance of the proposed predictors. Finally, these first radiomic studies suggest the relevance of the radiomic indices for the management of patients with DIPG in the absence of biopsy but the database need to be increased in order to confirm these results. The proposed methodology can be applied to other studies.

Page generated in 0.1 seconds