Spelling suggestions: "subject:"analyse dess données"" "subject:"analyse deus données""
11 |
Ajout de données textuelles au modèle de Cox dans un contexte longitudinalLépine, Simon-Olivier 13 December 2023 (has links)
Afin d'éviter le départ de ses clients, une compagnie d'assurance souhaite prédire la probabilité d'annulation de polices d'assurance automobile dans un intervalle de temps à partir de données sur les voitures et les clients. Les clients étant suivis dans le temps, le modèle doit incorporer des variables explicatives qui dépendent du temps. Nous utilisons le modèle de survie de Cox pour prédire les probabilités d'événement dans un intervalle de temps variable. Des notes prises par des agents lors de conversations téléphoniques avec les clients et des courriels sont également disponibles. Il est pertinent d'inclure ces textes dans le modèle statistique, car ils contiennent de l'information utile pour prédire l'annulation du contrat. Plusieurs méthodes de traitement automatique du langage naturel sont utilisées pour représenter les textes en vecteurs qui peuvent être utilisés par le modèle de Cox. Puis, une sélection de variables est effectuée. Le modèle est ensuite utilisé pour prédire les probabilités d'événements. Les notes d'agents contiennent des fautes d'orthographe, des abréviations, etc. Ainsi, nous étudions dans un premier temps l'effet d'utiliser des textes dont la qualité est graduellement détériorée sur les performances prédictives du modèle de Cox. Nous trouvons que toutes les méthodes d'encodage du texte utilisées, sans faire de raffinement sur les textes, ont un certain niveau de robustesse face aux textes de moins bonne qualité. Ensuite, nous étudions l'effet de différentes approches d'inclusion des textes dans le modèle de Cox dans un contexte longitudinal. Les effets de la sélection de variables, des méthodes d'encodage du texte et de la concaténation temporelle des textes sont analysés. L'approche proposée pour inclure les textes a permis d'améliorer les performances comparativement à un modèle qui n'inclut aucun texte. Toutefois, les performances sont similaires d'une méthode d'encodage du texte à l'autre. / In order to avoid customer attrition, an insurance company wants to predict the probability of cancellation of car insurance policies in a time interval based on car and customer covariates. Since customers are tracked over time, the model must incorporate time-dependent covariates. We use a Cox survival model to predict event probabilities in a variable time interval. Notes taken by agents during telephone conversations with customers and emails are also available. It is relevant to include these texts in the statistical model, as they contain information useful for predicting policy cancellation. Several natural language processing methods are used to represent the documents with vectors that can be used by the Cox model. Then, variable selection is performed. The model is then used to predict event probabilities. Notes taken by the agents contain spelling mistakes, abbreviations, etc. Thus, we first study the effect of using texts of gradually worse quality on the predictive performance of the Cox model. We find that all the text encoding methods used, without fine-tuning the embedding models, have a certain level of robustness against texts of lower quality. Next, we investigate the effect of different approaches to including texts in the Cox model in a longitudinal context. The effects of variable selection, text encoding methods and temporal concatenation of texts are analyzed. The proposed approach to include text resulted in improved performance compared to a model that does not include any text. However, the performance is similar across text encoding methods.
|
12 |
Analyse en composantes principales et analyse discriminante fonctionnelles appliquées à des données de prises alimentaires animalesDécarie, Yann January 2011 (has links)
L'analyse de données fonctionnelles est une branche des statistiques modernes en pleine expansion. Cela est imputable aux avancées technologiques qui permettent et facilitent la collecte de large base de données ainsi que leurs représentations sous la forme de courbes ou de surfaces. Ce mémoire se divise en trois parties. La première partie, consiste en la présentation des méthodes utilisées, soit l'analyse en composantes principales et l'analyse discriminante, dans le cadre de l'analyse des données classique. La seconde partie, a comme objectif de définir le cadre théorique permettant l'application de ces deux méthodes à des données fonctionnelles et également de présenter les résultats les plus pertinents à la compréhension des modèles. Enfin, la dernière partie porte sur les résultats de l'application de l'analyse en composantes principales et de l'analyse discriminante fonctionnelles aux données de prises l'alimentaires porcines. Le but de l'application de ces méthodes consiste à déterminer s'il est possible de différencier, seulement à l'aide des données disponibles, les porcs qui ont été malades des autres. Pour ce faire, une série de modèles, qui se distinguent par le choix du critère d'affectation à une classe donnée, ont été utilisés. On présentera les résultats des modèles jugés les plus pertinents permettant d'avoir une proportion de bien classés, supérieure à 85%.
|
13 |
Extraction de données symboliques et cartes topologiques: application aux données ayant une structure complexeEl Golli, Aïcha 01 June 2004 (has links) (PDF)
Un des objectifs de lanalyse de données symboliques est de permettre une meilleure modélisation des variations et des imprécisions des données réelles. Ces données expriment en effet, un niveau de connaissance plus élevé, la modélisation doit donc offrir un formalisme plus riche que dans le cadre de lanalyse de données classiques. Un ensemble dopérateurs de généralisation symbolique existent et permettent une synthèse et représentation des données par le formalisme des assertions, formalisme défini en analyse de données symboliques. Cette généralisation étant supervisée, est souvent sensible aux observations aberrantes. Lorsque les données que lon souhaite généraliser sont hétérogènes, certaines assertions incluent des observations virtuelles. Face à ce nouveau formalisme et donc cette extension dordre sémantique que lanalyse de données symbolique a apporté, une nouvelle approche de traitement et dinterprétation simpose. Notre objectif au cours de ce travail est daméliorer tout dabord cette généralisation et de proposer ensuite une méthode de traitement de ces données. Les contributions originales de cette thèse portent sur de nouvelles approches de représentation et de classification des données à structure complexe. Nous proposons donc une décomposition permettant daméliorer la généralisation tout en offrant le formalisme symbolique. Cette décomposition est basée sur un algorithme divisif de classification. Nous avons aussi proposé une méthode de généralisation symbolique non supervisée basée sur l'algorithme des cartes topologiques de Kohonen. L'avantage de cette méthode est de réduire les données d'une manière non supervisée et de modéliser les groupes homogènes obtenus par des données symboliques. Notre seconde contribution porte sur lélaboration dune méthode de classification traitant les données à structure complexe. Cette méthode est une adaptation de la version batch de lalgorithme des cartes topologiques de Kohonen aux tableaux de dissimilarités. En effet, seule la définition dune mesure de dissimilarité adéquate, est nécessaire pour le bon déroulement de la méthode.
|
14 |
Low-dimensional data analysis and clustering by means of Delaunay triangulation / Analyse et clustering de données en basse dimension par triangulation de DelaunayRazafindramanana, Octavio 05 December 2014 (has links)
Les travaux présentés et discutés dans cette thèse ont pour objectif de proposer plusieurs solutions au problème de l’analyse et du clustering de nuages de points en basse dimension. Ces solutions s’appuyent sur l’analyse de triangulations de Delaunay. Deux types d’approches sont présentés et discutés. Le premier type suit une approche en trois-passes classique: 1) la construction d’un graphe de proximité contenant une information topologique, 2) la construction d’une information statistique à partir de ce graphe et 3) la suppression d’éléments inutiles au regard de cette information statistique. L’impact de différentes measures sur le clustering ainsi que sur la reconnaissance de caractères est discuté. Ces mesures s’appuyent sur l’exploitation du complexe simplicial et non pas uniquement sur celle du graphe. Le second type d’approches est composé d’approches en une passe extrayant des clusters en même temps qu’une triangulation de Delaunay est construite. / This thesis aims at proposing and discussing several solutions to the problem of low-dimensional point cloudanalysis and clustering. These solutions are based on the analysis of the Delaunay triangulation.Two types of approaches are presented and discussed. The first one follows a classical three steps approach:1) the construction of a proximity graph that embeds topological information, 2) the construction of statisticalinformation out of this graph and 3) the removal of pointless elements regarding this information. The impactof different simplicial complex-based measures, i.e. not only based on a graph, is discussed. Evaluation is madeas regards point cloud clustering quality along with handwritten character recognition rates. The second type ofapproaches consists of one-step approaches that derive clustering along with the construction of the triangulation.
|
15 |
Cosmologie observationnelle avec le satellite PLANCK : modélisation des émissions galactiques polariséesFauvet, Lauranne 24 September 2010 (has links) (PDF)
Cette thése est dédiée à la mesure des anisotropies du Fond Diffus Cosmologique (CMB) ainsi qu'à la caractérisation des émissions d'avant-plan galactiques. Les travaux que nous avons réalisés s'inscrivent dans le cadre de la préparation à l'analyse des données du satellite PLANCK. Cette thèse débute pas une description du modèle de Big Bang chaud et de la physique du CMB. Ensuite un état des lieux des expériences dédiées à la mesure du CMB est dressé, donnant lieu à la présentation des expériences Archeops, WMAP et PLANCK. Une deuxième partie est dédiée à la présentation des émissions galactiques diffuses puis à l'étude de ces émissions dans le plan galactique, permettant d'établir des cartes partielles des variations spatiales de la température des grains de poussière et des indices spectraux des émissions synchrotron et de poussière. Une troisième partie est dédiée à l'étude des deux principales émissions galactiques polarisées diffuses : les émissions synchrotron et de la poussière. Nous avons étudié des modèles effectifs de ces émissions basés sur l'utilisation de cartes-patron. Ensuite nous avons construit des modèles basés sur la physique de ces émissions et les avons comparés aux données Archeops et WMAP afin de contraindre les paramètres de ces modèles. Ceci nous permet de proposer pour la première fois un modèle cohérent de ces deux émissions. Ensuite nous fournissons une méthode pour améliorer ces contraintes à l'aide des données PLANCK. Dans une dernière partie nous étudions les spectres de puissance angulaires de ces émissions galactiques et estimons la contamination du signal CMB par ces émissions d'avant-plan. Enfin nous proposons une méthode pour minimiser la contamination du signal CMB de PLANCK par l'émission de la poussière.
|
16 |
Recherche d'indicateurs de la santé des solsJanvier, Céline 12 June 2007 (has links) (PDF)
Le sol est une ressource vivante, finie et dynamique. La santé d'un sol résulte d'interactions multiples entre des composantes physico-chimiques et biologiques, notamment les communautés microbiennes, primordiales pour le fonctionnement du sol. Les pratiques culturales ont une influence forte sur la santé des sols, au travers de modifications des caractéristiques physico-chimiques et de leur influence sur les communautés microbiennes des sols. Elles sont donc de plus en plus utilisées en protection des cultures. Afin de mesurer la santé des sols et de proposer des pratiques améliorantes, il est nécessaire de définir des indicateurs de la santé des sols. L'objectif de ce travail est la recherche d'indicateurs de la santé des sols, mis en évidence par l'appréciation de l'impact de deux pratiques culturales (apport de fumier composté et biodésinfection) sur des caractéristiques physico-chimiques et biologiques du sol, en relation avec l'aspect phytosanitaire d'une culture de carotte. Des analyses multivariées, associées à des analyses de co-inertie, ont révélé que certaines variables constituent des indicateurs potentiels de la santé du sol. En particulier, des modifications de ces descripteurs sont associées à la biodésinfection, qui a amélioré la résistance du sol aux maladies dues à Rhizoctonia solani. Une population d'Aspergillus fumigatus, préférentiellement associée au sol biodésinfecté, a aussi été mise en évidence. Au terme de ce travail, il est possible de proposer des descripteurs qui pourraient faire partie d'un bouquet d'indicateurs de la santé des sols. Cette étude devrait se poursuivre par la confirmation de l'intérêt des descripteurs proposés, la construction des indicateurs, et leur validation.
|
17 |
Modélisation et optimisation d'un centre d'appels téléphoniques : étude du processus d'arrivéeChannouf, Nabil January 2008 (has links)
Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal.
|
18 |
Stratégies de recherche d'Informations émergentes pour la compréhension de grands volumes documentaires numérisées : application à la sécurité des systèmes d'information / Strategies for information retrieval in documentary's data base applied information system's securityDelefosse, Thierry 19 June 2008 (has links)
Résumé confidentiel / Résumé confidentiel
|
19 |
Développement d'une librairie de code et d'outils bio-informatiques faciliant l'analyse de grandes quantités de données génomiquesNordell-Markovits, Alexei January 2016 (has links)
Thèse décrivant l'écriture d'outils spécialisés facilitant l'analyse de grandes quantités de données provenant de technologie de séquencage haut débit.
|
20 |
Remodelage de réseaux d'échangeurs de chaleur : collecte de données avancée, diagnostic énergétique et flexibilité.Payet, Lucille 30 November 2018 (has links) (PDF)
Dans un contexte de transition énergétique et numérique, L’Usine du Futur se définit commeéconome en énergie, mais aussi agile grâce à des moyens de production flexibles etreconfigurables. Conférer ces propriétés aux procédés existants est un challenge complexe quiinduit souvent une réorganisation des unités. Dans ce cadre, la méthodologie RREFlex a pourobjectif de proposer des solutions alternatives d’intégration énergétique à la fois viables, robusteset adaptables via le remodelage des réseaux d’échangeurs de chaleur déjà installés.Contrairement à la conception initiale consistant à réaliser de manière conjointe la conception duprocédé et du réseau d’échangeur de chaleur associé, l’exercice de remodelage d’unitésexistantes peut s’avérer sensiblement plus complexe. En effet, il s’inscrit souvent dans unedémarche d’amélioration continue sur des installations ayant déjà connu au cours de leur vie destransformations pour faire face aux évolutions de la demande ou à de nouvelles contraintesenvironnementales. Aujourd’hui, nombre d’analyses de récupération énergétique sont réaliséessur les sites industriels mais celles-ci ne donnent pas nécessairement lieu à des réalisationsconcrètes. Les raisons le plus souvent invoquées sont d’ordre financières mais aussi, pratiques.En effet, les solutions proposées ne sont pas toujours réalistes d’un point de vue opérationnellecar elles tiennent rarement compte de la variabilité du procédé, soit due à des perturbations nonmaitrisées sur les températures et les débits, soit due à la présence de multiples points defonctionnement (changement de campagne, évolution de la charge, etc.). De plus, ces solutionstiennent peu compte des contraintes spécifiques du site étudié (topologie des unités, compatibilitédes courants, sécurité, etc.), la formulation a priori de ces dernières ne pouvant être exhaustive.L’outil RREFlex - outil Robuste pour la synthèse de Réseaux d’Echangeurs Flexibles - a étédéveloppée pour pallier autant que possible ces limites. S’appuyant sur une analyse statistiquedes historiques de mesures remontés en salle de contrôle, un premier module - EDiFy : EnhancedData collection for Flexibility analysis - permet de localiser et de caractériser les différents cas demarche des unités. Notamment, la valeur moyenne et la variance des données caractéristiques duprocédé (températures, flux calorifiques) sont estimées pour chaque cas de marche. Ce jeu dedonnées étant souvent incomplet, il est nécessaire d’avoir recours à un modèle de simulation duprocédé pour le compléter et valider la cohérence des données mesurées pour chaque cas demarche potentiellement identifié. Sur cette base, une seconde étape dédiée au diagnosticénergétique permet d’évaluer la pertinence des échangeurs de récupération déjà installés. Cetteanalyse permet d’identifier et de prioriser un ensemble de scenarii de remodelage considéréscomme prometteurs. Chacun d’eux est défini par la liste des échangeurs à reconsidérer et uncertain nombre de paramètres de configuration. Chaque scenario retenu est alors exploité pour lasynthèse du réseau d’échangeurs associé. Cette étape s’appuie sur un modèle de programmationlinéaire mixte multi-période (PLM) pour déterminer la nouvelle topologie du réseau d’échangeurs.Dans ce cadre, le modèle a évidemment la possibilité d’introduire de nouveaux échangeurs maisaussi de déplacer les échangeurs existants et conservés dans un scénario donné, tant qu’ilscouplent la même paire de courant qu’initialement. Les réseaux obtenus sont donc adaptables auxdifférents cas de marche identifiés à la première étape et reconfigurable grâce à l’implantation deby-pass. Le panel de réseaux proposés est enfin évalué et classé au moyen d’indicateurs deperformance, dont notamment la robustesse vis-à-vis de la variabilité du procédé. L’approche aété validée sur deux sites de dimension industrielle: un procédé de fabrication de MVC et un trainde préchauffe de pétrole brut.
|
Page generated in 0.0739 seconds