Global ETD Search

21	Perspectives de méta-analyse pour un environnement d'aide à la simulation et prédiction / Meta-analysis perspectives toward assistance in prediction and simulation Raynaut, William 12 January 2018 (has links) L'émergence du phénomène Big Data a créé un besoin grandissant en analyse de données, mais, bien souvent, cette analyse est conduite par des experts de différents domaines ayant peu d'expérience en science des données. On s'intéresse donc à ce besoin d'assistance à l'analyse de données, qui commence tout juste à recevoir une certaine attention des communautés scientifiques, donnant naissance au domaine de la méta-analyse. Les premières approches du sujet se révélant souvent similaires et peu abouties, on tente en particulier de permettre de nouvelles approches de méta-analyse pour adresser ce problème d'assistance à l'analyse de données. Pour ce faire, une première étape cruciale est de déterminer ce qu'est une méta-analyse performante, aucun standard n'ayant encore été établi dans ce domaine relativement neuf. On propose ainsi un cadre générique d'évaluation de méta-analyse, permettant de comparer et caractériser finement diverses techniques de méta- analyse. Ensuite, afin d'ouvrir de nouvelles voies, on s'intéresse à un verrou majeur de la méta-analyse : la caractérisation de jeu de données. On propose et évalue alors une caractérisation par dissimilarité faisant usage de toute l'information disponible pour autoriser de nouvelles approches de méta-analyse. L'utilisation de cette caractérisation par dissimilarité permettant de recommander facilement des processus d'analyse de données complets, on décrit enfin les nouvelles approches de méta-analyses rendues possibles, ainsi que les processus afférents d'assistance à l'analyse de données. / The emergence of the big data phenomenon has led to increasing demands in data analysis, which most often are conducted by other domains experts with little experience in data science. We then consider this important demand in intelligent assistance to data analysis, which receives an increasing attention from the scientific community. The first takes on the subject often possessing similar shortcomings, we propose to address it through new processes of meta-analysis. No evaluation standard having yet been set in this relatively new domain, we first propose a meta-analysis evaluation framework that will allow us to test and compare the developed methods. In order to open new approaches of meta-analysis, we then consider one of its recurring issue: dataset characterization. We then propose and evaluate such a characterization, consisting in a dissimilarity between datasets making use of a precise topological description to compare them. This dissimilarity allows a new meta-analysis approach producing recommendations of complete data analysis processes, which we then evaluate on a proof of concept. We thus detail the proposed methods of meta-analysis, and the associated process of assistance to data analysis. Analyse de données Méta-analyse Apprentissage automatique Méta-apprentissage Data analysis Meta-analysis Machine learning Meta-learning
22	M3S – Développement de la spectroscopie Raman en cytopathologie : Application au diagnostic de la leucémie lymphoïde chronique / M3S - Development of Raman spectroscopy in cytopathology : Application to the diagnosis of chronic lymphocytic leukaemia Féré, Michael 18 December 2018 (has links) Actuellement, il existe peu de nouvelles technologies "Label free" afin de faciliter et d’améliorer le diagnostic précoce. Ces technologies pourraient être des outils puissants pour mieux diagnostiquer les patients. De nombreuses études ont montré le potentiel de la spectroscopie Raman pour aider les cliniciens. Le travail réalisé au cours de cette thèse avait pour but de mettre au point un outil autonome pour le diagnostic de la LLC, grâce à des données Raman acquises dans différentes conditions expérimentales et instrumentales lors de campagnes de mesures multicentriques. Cependant, ces changements influent beaucoup sur les données Raman, ce qui pose des problèmes de transférabilité. L’apparition de cette technologie au chevet du patient est donc entravée, il est nécessaire de corriger ce manque de transférabilité. Dans ce mémoire, différents axes de recherche ont été menés. Il a été proposé, dans un premier temps, d'évaluer une solution consistant en l'application d'un prétraitement spécifiquement développé afin d’éliminer la variabilité spectrale induite par les différents changements de conditions. Le prétraitement basé sur l’EMSC a montré de fortes performances pour homogénéiser ces données multicentriques. Le second axe de recherche a été d’évaluer différentes stratégies, afin de créer et d’optimiser des modèles pour le diagnostic de la LLC. 100 modèles de classification ont donc été créé grâce à la double validation croisée répétée. La combinaison des prédictions de ces modèles a permis, grâce à un vote majoritaire, de prédire avec une grande précision si un patient était sain ou atteint de la LLC. / Currently, there are few new "Label free" technologies to facilitate and improve early diagnosis. These technologies could be powerful tools to better diagnose patients. Many studies have shown the potential of Raman spectroscopy to help clinicians. The work carried out during this thesis aimed to develop an autonomous tool for the diagnosis of CLL, using Raman data acquired under different experimental and instrumental conditions during multicentric measurement campaigns. However, these changes have a significant impact on Raman data, which poses transferability issues. The appearance of this technology at the bedside is therefore hindered, it is necessary to correct this lack of transferability. In this thesis, various lines of research were conducted. As a first step, it was proposed to evaluate a solution consisting in the application of a specifically developed pre-treatment to eliminate the spectral variability induced by the different changes in conditions. Pre-treatment based on EMSC has shown strong performance in homogenizing this multicentric data. The second research axis was to evaluate different strategies, in order to create and optimize models for the diagnosis of CLL. 100 classification models were therefore created through repeated double crossvalidation. The combination of the predictions of these models allowed, through a majority vote, to predict with great accuracy whether a patient was healthy or sick. Analyse de données Spectroscopie vibrationnelle Raman Machine learning Raman Data analysis Vibrationnal spectroscopy Machine learning 610
23	Signatures : detecting and characterizing complex recurrent behavior in sequential data / Détection et caractérisation de comportements complexes récurrents dans des données séquentielles Gautrais, Clément 16 October 2018 (has links) Cette thèse introduit un nouveau type de motif appelé signature. La signature segmente une séquence d'itemsets, afin de maximiser la taille de l'ensemble d'items qui apparaît dans tous les segments. La signature a été initialement introduite pour identifier les produits favoris d'un consommateur de supermarché à partir de son historique d'achat. L'originalité de la signature vient du fait qu'elle identifie les items récurrents qui 1) peuvent apparaître à différentes échelles temporelles, 2) peuvent avoir des occurrences irrégulières et 3) peuvent être rapidement compris par des analystes. Étant donné que les approches existantes en fouille de motifs n'ont pas ces 3 propriétés, nous avons introduit la signature. En comparant la signature avec les méthodes de l'état de l'art, nous avons montré que la signature est capable d'identifier de nouvelles régularités dans les données, tout en identifiant les régularités détectées par les méthodes existantes. Bien qu'initialement liée au domaine de la fouille de motifs, nous avons également lié le problème de la fouille de signatures au domaine de la segmentation de séquences. Nous avons ensuite défini différents algorithmes, utilisant des méthodes liées à la fouille de motifs et à la segmentation de séquences. Les signatures ont été utilisées pour analyser un large jeu de données issu d'un supermarché français. Une analyse qualitative des signatures calculées sur ces consommateurs réels a montré que les signatures sont capables d'identifier les produits favoris d'un consommateur. Les signatures ont également été capables de détecter et de caractériser l'attrition de consommateurs. Cette thèse définit également 2 extensions de la signature. La première extension est appelée la sky-signature. La sky-signature permet de présenter les items récurrents d'une séquence à différentes échelles de temps. La sky-signature peut être vue comme une manière efficace de résumer les signatures calculées à toutes les échelles de temps possibles. Les sky-signatures ont été utilisées pour analyser les discours de campagne des candidats à la présidentielle américaine de 2016. Les sky-signatures ont identifié les principaux thèmes de campagne de chaque candidat, ainsi que leur rythme de campagne. Cette analyse a également montré que les signatures peuvent être utilisées sur d'autres types de jeux de données. Cette thèse introduit également une deuxième extension de la signature, qui permet de calculer la signature qui correspond le plus aux données. Cette extension utilise une technique de sélection de modèle basée sur le principe de longueur de description minimale, communément utilisée en fouille de motifs. Cette extension a également été utilisée pour analyser des consommateurs de supermarché. / Cette thèse introduit un nouveau type de motif appelé signature. La signature segmente une séquence d'itemsets, afin de maximiser la taille de l'ensemble d'items qui apparaît dans tous les segments. La signature a été initialement introduite pour identifier les produits favoris d'un consommateur de supermarché à partir de son historique d'achat. L'originalité de la signature vient du fait qu'elle identifie les items récurrents qui 1) peuvent apparaître à différentes échelles temporelles, 2) peuvent avoir des occurrences irrégulières et 3) peuvent être rapidement compris par des analystes. Étant donné que les approches existantes en fouille de motifs n'ont pas ces 3 propriétés, nous avons introduit la signature. En comparant la signature avec les méthodes de l'état de l'art, nous avons montré que la signature est capable d'identifier de nouvelles régularités dans les données, tout en identifiant les régularités détectées par les méthodes existantes. Bien qu'initialement liée au domaine de la fouille de motifs, nous avons également lié le problème de la fouille de signatures au domaine de la segmentation de séquences. Nous avons ensuite défini différents algorithmes, utilisant des méthodes liées à la fouille de motifs et à la segmentation de séquences. Les signatures ont été utilisées pour analyser un large jeu de données issu d'un supermarché français. Une analyse qualitative des signatures calculées sur ces consommateurs réels a montré que les signatures sont capables d'identifier les produits favoris d'un consommateur. Les signatures ont également été capables de détecter et de caractériser l'attrition de consommateurs. Cette thèse définit également 2 extensions de la signature. La première extension est appelée la sky-signature. La sky-signature permet de présenter les items récurrents d'une séquence à différentes échelles de temps. La sky-signature peut être vue comme une manière efficace de résumer les signatures calculées à toutes les échelles de temps possibles. Les sky-signatures ont été utilisées pour analyser les discours de campagne des candidats à la présidentielle américaine de 2016. Les sky-signatures ont identifié les principaux thèmes de campagne de chaque candidat, ainsi que leur rythme de campagne. Cette analyse a également montré que les signatures peuvent être utilisées sur d'autres types de jeux de données. Cette thèse introduit également une deuxième extension de la signature, qui permet de calculer la signature qui correspond le plus aux données. Cette extension utilise une technique de sélection de modèle basée sur le principe de longueur de description minimale, communément utilisée en fouille de motifs. Cette extension a également été utilisée pour analyser des consommateurs de supermarché. Exploration de données Analyse des données symboliques Bases de données temporelles Data Mining Pattern Mining Sequential Data
24	Anomaly detection and root cause diagnosis in cellular networks / Détection d’anomalies et analyse des causes racines dans les réseaux cellulaires Mdini, Maha 20 September 2019 (has links) Grâce à l'évolution des outils d'automatisation et d'intelligence artificielle, les réseauxmobiles sont devenus de plus en plus dépendants de la machine. De nos jours, une grandepartie des tâches de gestion de réseaux est exécutée d'une façon autonome, sans interventionhumaine. Dans cette thèse, nous avons focalisé sur l'utilisation des techniques d'analyse dedonnées dans le but d'automatiser et de consolider le processus de résolution de défaillancesdans les réseaux. Pour ce faire, nous avons défini deux objectifs principaux : la détectiond'anomalies et le diagnostic des causes racines de ces anomalies. Le premier objectif consiste àdétecter automatiquement les anomalies dans les réseaux sans faire appel aux connaissancesdes experts. Pour atteindre cet objectif, nous avons proposé un algorithme, Watchmen AnomalyDetection (WAD), basé sur le concept de la reconnaissance de formes (pattern recognition). Cetalgorithme apprend le modèle du trafic réseau à partir de séries temporelles périodiques etdétecte des distorsions par rapport à ce modèle dans le flux de nouvelles données. Le secondobjectif a pour objet la détermination des causes racines des problèmes réseau sans aucuneconnaissance préalable sur l'architecture du réseau et des différents services. Pour ceci, nousavons conçu un algorithme, Automatic Root Cause Diagnosis (ARCD), qui permet de localiser lessources d'inefficacité dans le réseau. ARCD est composé de deux processus indépendants :l'identification des contributeurs majeurs à l'inefficacité globale du réseau et la détection desincompatibilités. WAD et ARCD ont fait preuve d'efficacité. Cependant, il est possible d'améliorerces algorithmes sur plusieurs aspects. / With the evolution of automation and artificial intelligence tools, mobile networks havebecome more and more machine reliant. Today, a large part of their management tasks runs inan autonomous way, without human intervention. In this thesis, we have focused on takingadvantage of the data analysis tools to automate the troubleshooting task and carry it to a deeperlevel. To do so, we have defined two main objectives: anomaly detection and root causediagnosis. The first objective is about detecting issues in the network automatically withoutincluding expert knowledge. To meet this objective, we have proposed an algorithm, WatchmenAnomaly Detection (WAD), based on pattern recognition. It learns patterns from periodic timeseries and detect distortions in the flow of new data. The second objective aims at identifying theroot cause of issues without any prior knowledge about the network topology and services. Toaddress this question, we have designed an algorithm, Automatic Root Cause Diagnosis (ARCD)that identifies the roots of network issues. ARCD is composed of two independent threads: MajorContributor identification and Incompatibility detection. WAD and ARCD have been proven to beeffective. However, many improvements of these algorithms are possible. Réseaux cellulaires Analyse de données Supervision des réseaux Cellular networks Data analysis Network monitoring 004
25	Analyse des données évolutives : application aux données d'usage du Web Gomes Da Silva, Alzennyr 24 September 2009 (has links) (PDF) Le nombre d'accès aux pages Web ne cesse de croître. Le Web est devenu l'une des plates-formes les plus répandues pour la diffusion et la recherche d'information. Par conséquence, beaucoup d'opérateurs de sites Web sont incités à analyser l'usage de leurs sites afin d'améliorer leur réponse vis-à-vis des attentes des internautes. Or, la manière dont un site Web est visité peut changer en fonction de divers facteurs. Les modèles d'usage doivent ainsi être mis à jour continuellement afin de refléter fidèlement le comportement des visiteurs. Ceci reste difficile quand la dimension temporelle est négligée ou simplement introduite comme un attribut numérique additionnel dans la description des données. C'est précisément sur cet aspect que se focalise la présente thèse. Pour pallier le problème d'acquisition des données réelles d'usage, nous proposons une méthodologie pour la génération automatique des données artificielles permettant la simulation des changements. Guidés par les pistes nées des analyses exploratoires, nous proposons une nouvelle approche basée sur des fenêtres non recouvrantes pour la détection et le suivi des changements sur des données évolutives. Cette approche caractérise le type de changement subi par les groupes de comportement (apparition, disparition, fusion, scission) et applique deux indices de validation basés sur l'extension de la classification pour mesurer le niveau des changements repérés à chaque pas de temps. Notre approche est totalement indépendante de la méthode de classification et peut être appliquée sur différents types de données autres que les données d'usage. Des expérimentations sur des données artificielles ainsi que sur des données réelles issues de différents domaines (académique, tourisme et marketing) ont été réalisées pour l'évaluer l'efficacité de l'approche proposée. [INFO] Computer Science Analyse de données classification non supervisée données évolutives fouille d'usage du Web
26	Placement automatique de circuits intégrés Chotin, Eric 20 November 1992 (has links) (PDF) Cette thèse présente l'étude et l'implantation de deux méthodes pour le placement automatique de circuits intégrés. Un circuit intégré peut être considéré comme un ensemble de blocs et une liste d'interconnexions entre ces blocs. Le probleme du placement consiste a disposer les blocs sur la surface hôte en respectant diverses contraintes et en optimisant des critères comme la surface occupée et la longueur totale de connexions. Les méthodes présentées ici sont toutes les deux guidées par l'optimisation de la connectique. La première fait appel a une technique d'analyse de données, l'analyse d'un tableau de proximités. Dans un premier temps, des proximités sont definies entre les blocs de façon a refléter un agencement ideal en fonction de la connectique. L'utilisation de l'atp permet alors d'obtenir une disposition planaire des blocs respectant au mieux les proximités qui ont été définies. L'analyse effectuée fait le point sur les diverses façons de définir les proximités entre les blocs, ainsi que sur les traitements ultérieurs destines a l'obtention d'un placement réalisable. Les qualités et les limitations de cette approche sont ensuite discutées. La seconde methode est connue sous le nom de placement par bipartitionnements successifs. L'ensemble des blocs du circuit et la surface hôte sont ainsi bipartitionnes récursivement jusqu'à ce que l'emplacement de chaque bloc soit déterminé. A partir des algorithmes existants, des heuristiques ont été mises au point afin de permettre la prise en compte de contraintes supplémentaires comme le traitement des plots d'entrées-sorties ou des blocs pré-fixes. L'expérimentation a permis de valider ces heuristiques et de comparer les résultats du placement a ceux fournis par la première methode placement de circuit analyse de données bipartitionnement de graphe
27	Caractérisation, Analyse et Modélisation statistiques de fragments osseux crâniens pour la prédiction de paramètres mécaniques lésionnels. Rambaud, Fabienne 14 December 2007 (has links) (PDF) Les accidents de la circulation, fléau de la société, représentent un sérieux problème de santé. En France, 105980 usagers de la route ont été blessés au cours de l'année 2006, et 4942 tués. La tête représente un des segments corporels les plus vulnérables. <br />Cette thèse est une contribution à l'amélioration de la connaissance du comportement mécanique des os crâniens, en particulier dans le contexte accidentologique. <br />Les mécanismes de fractures du crâne ont été étudiés par un grand nombre de chercheurs. De multiples techniques et approches ont été élaborées pour la modélisation du comportement mécanique des os crâniens ; ces modèles ne permettent cependant pas de pallier aux problèmes de dispersions inter et intra individuelles propres aux sujets humains.<br />Dans un premier temps, selon un protocole expérimental, 289 éprouvettes prélevées sur différentes zones osseuses de 17 calottes crâniennes humaines sont testées en essais de flexion trois points quasi-statiques. La force de rupture obtenue à partir des courbes effort/déplacement représente le paramètre mécanique à prédire dans nos modèles statistiques. A partir de mesures morphométriques obtenues par analyse d'images et tests expérimentaux, 15 paramètres morphométriques et densitométriques sont définis pour chaque éprouvette.<br /> Ensuite, une analyse de données exploratoire multidimensionnelle est réalisée sur le tableau de données préalablement fuzzifiées. Cette analyse a permis de nous orienter sur les liaisons linéaires et non linéaires existant entre les paramètres. Des régressions multiples linéaires et curvilinéaires sont réalisées par ajustement des paramètres jugés pertinents. Les modèles sont choisis par la méthode de validation croisée, et par une étude complète de diagnostic des résidus.<br />L'élaboration de modèles statistiques a permis, selon un sexe et une classe d'âge, de prédire le comportement mécanique de fragments osseux crâniens soumis à des sollicitations de flexion quasi-statique de manière personnalisée. [SPI:OTHER] Engineering Sciences/Other Analyse de données multidimensionnelle données floues Modélisation statistique Régressions polynomiales Biomécanique Crâne Accidentologie
28	Analyse des anisotropies du fond diffus cosmologique dans le cadre de l'expérience ARCHEOPS Amblard, Alexandre 24 May 2002 (has links) (PDF) Ma thèse porte sur l'étude des anisotropies du fond diffus cosmologique dans le cadre de l'expérience Archeops. Archeops est une expérience dédiée à la mesure de ces anisotropies sur une large région d'échelle angulaire et embarquée sous un ballon stratosphérique. Cette expérience est préliminaire à la mission satellite Planck. Après avoir décrit le mode de formation des anistropies du fond diffus cosmologique et les connaissances sur notre Univers que l'on peut extraire de leurs propriétés, je décris l'expérience Archeops : ses instruments, ses capacités, ses objectifs scientifiques. Mon travail au sein de la collaboration Archeops est centré sur la soustraction des effets synchrones avec la rotation de la nacelle pour obtenir un étalonnage des détecteurs sur le dipôle cosmologique et sur la reconstruction du spectre de puissance. Tout d'abord je passe en revue les différentes sources de signaux synchrones avec la rotation de la nacelle en me concentrant sur l'émission atmosphérique, puis décris les méthodes que j'ai développées pour soustraire ces contributions. Deux de ces méthodes sont ensuite appliquées sur les données et permettent d'obtenir un étalonnage des détecteurs. La seconde partie de ma thèse montre comment on peut reconstruire le spectre de puissance des anisotropies. La validité du calcul du spectre de puissance est ensuite testée sur les données. Pour extraire le spectre de puissance des anisotropies à partir du signal je présente une métode que j'ai développée pour évaluer la contribution du bruit au spectre, et une autre pour supprimer la contamination galactique. En conclusion la chaîne de calcul est testée complètement sur des simulations qui reproduisent les propriétés des données de manière très précise. Cosmologie Rayonnement micro-onde Analyse de données
29	Recherche d'oscillation de neutrinos dans l'expérience MINOS par l'utilisation des interactions quasi-élastiques Piteira, Rodolphe 29 September 2005 (has links) (PDF) L'enthousiasme de la communauté scientifique pour l'étude des oscillations<br />de neutrinos n'a d'égal que les masses de leurs détecteurs. L'expérience<br />MINOS détermine et compare les spectres proches et lointains des neutrinos<br />muoniques du faisceau NuMI, afin de mesurer deux paramètres d'oscillation:<br />$\Delta m_{23}^2$ et $sin^2(2\theta_{23})$. Les spectres sont obtenus par<br />l'analyse des interactions par courant chargés dont la difficulté réside<br />dans l'identification des produits des interactions (e.g. muons). Une<br />méthode alternative permettant d'identifier les traces de muons courbées par<br />le champ magnétique des détecteurs, ainsi que de déterminer leurs énergies<br />est présentée dans ce manuscrit. La sensibilité des détecteurs est optimale<br />pour les interactions quasi-élastiques dont une méthode de sélection est<br />proposée, afin d'étudier leur oscillation. Bien que réduisant la<br />statistique, une telle étude introduit moins d'erreur systématique,<br />constituant la méthode idéale à long terme. physique du neutrino oscillation du neutrino analyse de données diffusions quasi-élastiques détecteur
30	Jalons pour une théorie du questionnaire dans les sciences de l'homme Grémy, Jean-Paul 07 July 1980 (has links) (PDF) Cette recherche vise à construire un cadre théorique correspondant aux différentes formes de tests et de questionnaires dont on a acquis l'expérience (en psychologie appliquée, puis par la pratique des enquêtes sociologiques). Dans une première partie, on présente la polymorphie syntaxique de l'interrogation en français (en l'illustrant d'exemples tirés de tests ou de questionnaires), pour chercher ensuite à réduire les multiples formes de questions à une forme canonique, dont toutes les autres formes sont dérivables par transformations paraphrastiques (on s'inspire principalement des travaux de Chomsky, Tesnière, et Harris). Dans la seconde partie, on décrit les relations sémantiques qui lient questions, réponses, et présuppositions ; on expose ensuite les principaux systèmes de logique érotétique (Belnap, Åqvist, Kubinski), pour aboutir à la description de la syntaxe et de la sémantique formelles des questions et des réponses. La troisième partie porte sur la structure du questionnaire et sa réduction à une forme canonique utilisable pour l'analyse des données recueillies. La conclusion indique les applications possibles, et signale les recherches nécessaires pour qu'il soit possible d'élaborer une théorie générale du questionnaire. questionnaires tests psychologiques syntaxe de l'interrogation logique des questions analyse des données d'enquêtes

Search results