Spelling suggestions: "subject:"données longitudinale"" "subject:"données longitudinal""
1 |
Principe d'invariance pour processus de sommation multiparamétrique et applicationsZemlys, Vaidotas 26 September 2008 (has links)
A thèse a pour objet de prouver le principe d'invariance dans des espaces de Hölder pour le processus de sommation multiparamétrique et d'utiliser ce résultat en détection de rupture dans des données de panel. On caractérise d'abord la convergence en loi dans un espace de Hölder, du processus de sommation multiparamétrique dans le cas d'un champ aléatoire i.i.d. d'éléments aléatoires centrés et de carré intégrable d'un espace de Hilbert séparable, par la finitude d'un certain moment faible dont l'ordre croît avec l'exposant de Hölder, depuis deux lorsque l'exposant est nul, jusqu'à l'infini lorsque l'exposant est un demi. Ensuite on considère les tableaux triangulaires centrés à valeurs réelles. On propose une construction adaptative du processus de sommation qui coïncide avec la construction classique pour le cas d'un seul paramètre. On prouve le théorème limite central fonctionnel hölderien pour ce processus. Le processus limite est gaussien sous certaines conditions de régularité pour les variances du tableau triangulaire, le drap de Wiener n'étant qu'un cas particulier. Enfin on fournit des applications de ces résultats théoriques en construisant des statistiques de détection de rupture épidémique dans un ensemble de données multi-indexées. On construit un test de détection d'un changement d'espérance dans un rectangle épidémique, trouve sa loi limite et donne des conditions pour sa consistance. On adapte notre statistique pour la détection de rupture du coefficient dans les modèles classiques de régression pourpanel. / The thesis is devoted to proving invariance principle in Hëlder spaces for the multi-parameter summation process and then using this resull to construct the tests for detecting' structural breaks in panel data. First we characterize the weak convergence in Hëlder space of multi-parameter summation process in the case of Li.d. random field of square integrable centered random elements in the separable Hilbert space by the finiteness of the certain weak moment, whose order increases with the Hblder exponent, turning to two, when exponent is zero and ta infinity when exponent is one hait. Next we consider real valued centered triangular arrays. We propose adaptive construction of the summation process which coincides with classical construction for the one parameter case. We prove the functional central Iimit theorem for this process in Hëlder space. The limiting process is Gaussian under certain regularity condition for variances of the triangular array, Wlener sheet being the special case. Finally we provide sorne application of the theoretical results by constructing statistics for detecting the epidemic change in a given data with multi-dimensional indexes. We construct a test for detecting the change of the mean in a epidemic rectangle, find its asymptotic distribution and give the conditions for the consistency. We adapt our proposed statistic for detecting the change of the coefficient in the classical panel regression models.
|
2 |
Immigration, origines nationales et marché du travail: la présence en emploi des immigrants de la catégorie des travailleurs sélectionnésMartin, Laetitia 08 1900 (has links)
Basé sur l’approche des parcours de vie, le présent mémoire se veut une étude du processus par lequel les inégalités fondées sur l’ethnicité se déploient dans le marché du travail au Québec. Faites à partir des données de l’Enquête sur les travailleurs sélectionnés (n=1541), des régressions logistiques à effets aléatoires évaluent l’influence de la région de naissance des nouveaux immigrants sur la présence en emploi tout au long des quatre premières années et demie de séjour au Québec.
Les résultats obtenus démontrent que la présence en emploi est influencée par la région de naissance. Quatre profils principaux ressortent. Les travailleurs sélectionnés provenant d’Europe de l’Ouest et des États-Unis, catégorie de référence, bénéficient d’une situation relativement favorable. Les répondants originaires du Maghreb, désavantagés au cours de la première année, verront leur situation relative s’améliorer au fil du temps, sans pour autant atteindre une présence en emploi équivalente à celle de la catégorie de référence. Les travailleurs sélectionnés provenant d’Europe de l’Est et ex-URSS, d’Asie de l’Est et Océanie et d’Asie de l’Ouest et Moyen-Orient sont désavantagés durant la première année. Cette situation demeura au même niveau tout au long de la période d’observation. Les travailleurs sélectionnés originaires d’Afrique sub-saharienne et Amérique (sauf États-Unis) débuteront leur séjour dans une position défavorable et verront leur situation relative se détériorer au fil du temps. / Based on the life course approach, this study focuses on the ethnically-based employment differentials in Québec’s labour market. Using longitudinal data from the Enquête sur les travailleurs sélectionnés (n=1541), random effects regressions have been performed to measure the influence of the region of birth on the employment of immigrants from the skilled worker class during the first four and a half years following their establishment in Québec.
The results show that employment is determined, in part, by the skilled worker’s region of birth. Four major profiles are displayed. First, skilled workers coming from Western Europe and United States, the reference category, have a relatively good situation during the entire observation period. Second, skilled workers coming from the Maghreb, disadvantaged during their first year, will improve their situation as time goes by, but will never reach the same level of employment as the reference category. Third, skilled workers coming from Eastern Europe and the ex-USSR, Eastern Asia and Oceania as well as those coming from Western Asia and the Middle East are disadvantaged during their first year in Québec. This situation will stay at a similar level during the entire observation period. Fourth, skilled workers coming from sub-Saharan Africa and the Americas (except the United States) will be disadvantaged during their first year in Québec. This situation will get worse as time goes by.
|
3 |
Modélisation dynamique de l'interaction hôte-pathogène appliquée à la primo-infection à VIHDrylewicz, Julia 30 October 2009 (has links) (PDF)
La phase de primo-infection à VIH qui correspond aux premières semaines de l'infection est une phase cruciale qui détermine en partie l'évolution clinique de la maladie. La dynamique du virus et des lymphocytes T CD4+ (principale cible) durant cette phase est complexe. D'une part cette phase est asymptomatique dans plus de la moitié des cas et est semblable à un syndrome grippal; elle passe par conséquent très souvent inaperçue et peu de données sont disponibles. D'autre part la date d'infection est généralement inconnue ce qui complique l'étude de l'évolution au cours du temps des marqueurs viro-immunologiques. Les modèles dynamiques basés sur des systèmes d'équations différentielles permettent de prendre en compte l'interaction complexe et non-linéaire existant entre le VIH et le système immunitaire. De plus, leur aspect mécanistique peut être très utile pour la compréhension de la physiopathologie ou l'effet d'intervention. Cependant l'estimation de ces modèles est complexe et plusieurs méthodes sont disponibles à ce jour. Nous proposons dans cette thèse une méthode d'estimation pour des modèles dynamiques prenant en compte l'incertitude sur la date d'infection. Nous appliquons cette méthode à un jeu de données réelles de 761 séroconverteurs de la Collaboration CASCADE durant leur première année de suivi. Ces modèles possèdent un grand nombre de paramètres pouvant inclure des effets aléatoires et des variables explicatives. La sélection du meilleur modèle peut nécessiter l'estimation d'un grand nombre de modèles et peut s'avérer très longue. Nous proposons des tests du score pour sélectionner les effets aléatoires et les variables explicatives plus rapidement dans le cadre général des modèles non-linéaires à effets mixtes avec une illustration sur des modèles dynamiques. Enfin, nous proposons de comparer plusieurs modèles biologiques possibles de la primo-infection à VIH pour prédire la dynamique de la charge virale plasmatique et des CD4.
|
4 |
Les revenus des médecins généralistes - trois études microéconométriquesSamson, Anne-Laure 03 December 2008 (has links) (PDF)
L'objet de cette thèse est l'analyse de la rémunération des médecins généralistes français. Trois études microéconométriques sont menées à partir de données longitudinales. <br /><br />Un premier chapitre étudie l'impact de la régulation de la démographie médicale sur les carrières des médecins généralistes. Nous montrons que les inégalités intergénérationnelles sont considérables et que la régulation démographique influence fortement les honoraires des médecins. Les médecins installés dans les années 1980 subissent les impacts conjoints du baby-boom et d'un numerus clausus élevé : il perçoivent les honoraires les plus faibles. En revanche, la diminution progressive du numerus clausus a amélioré la situation financière des cohortes installées à partir du milieu des années 1990. <br /><br />Un deuxième chapitre s'intéresse à un phénomène remarquable dans la population des médecins généralistes : l'existence d'une importante minorité de médecins à faibles revenus. On observe que 5 à 7% des médecins généralistes ont des revenus mensuels inférieurs à 1,5 SMIC net. Nous montrons que ces faibles revenus résultent de la plus grande préférence de ces médecins pour le loisir. Cette très faible activité n'est pas le signe d'une dégradation du statut de médecin. Elle reflète plutôt un avantage de la profession de médecin libéral : les médecins peuvent choisir de travailler peu<br /><br /><br />Un troisième chapitre évalue le positionnement des médecins généralistes en comparant leurs revenus à ceux de salariés situés dans le haut de la hiérarchie salariale : les cadres supérieurs. La comparaison de la valeur des carrières des médecins et des cadres permet de mesurer l'avantage relatif à être médecin. L'analyse montre qu'il existe un très net avantage financier à être médecin généraliste et que cet avantage s'est accru au cours du temps. L'existence d'une rente pour les médecins résulte du concours à l'entrée des études de médecine. Cette rente a évolué positivement avec les restrictions sur le numerus clausus.
|
5 |
Pronostic dynamique de l'évolution de l'état de santé de patients atteints d'une maladie chronique / Dynamic prognostic of clinical evolution for chronic disease patientsFournier, Marie-Cecile 10 October 2016 (has links)
Pour de nombreuses pathologies chroniques,l’amélioration de la prise en charge des patients passe par une meilleure compréhension de la progression de la pathologie et par la capacité à pronostiquer précocement la survenue d’événements délétères.L’évolution de l’état de santé des patients peut être appréciée à travers des mesures répétées d’un marqueur longitudinal, comme la créatinine sérique en transplantation rénale.Ce travail de thèse en Epidémiologie et Biostatistique appliqué à la transplantation rénale s’intéresse aux modèles conjoints pour données longitudinales et de temps d’évènement. Ces derniers présentent de nombreux avantages mais ils restent encore peu utilisés en pratique. Dans une première partie du travail, nous proposons d’utiliser cette méthodologie afin d’étudier le rôle spécifique des déterminants de santé sur l’évolution du sérum de créatinine et/ou sur le risque d’échec de greffe. Cette modélisation apporte une vision épidémiologique très riche et met en évidence certains facteurs qui pourraient être intéressants à intégrer dans la prise en charge des patients puisqu’ils semblent associés au risque d’échec de greffe sans reflet préalable sur le marqueur de suivi, la créatinine sérique.Dans une seconde partie, nous nous sommes intéressés aux prédictions dynamiques. Calculables à partir d’un modèle conjoint, les prédictions sont dites dynamiques car elles se mettent à jour tout au long du suivi en fonction de l’information longitudinale récoltée jusqu’au temps de prédiction. L’utilité clinique de ce type de score dynamique doit être évaluée et repose en partie sur des performances adéquates en termes de calibration et de discrimination. Des outils d’évaluation,tels que le Brier Score ou la courbe ROC, ont déjà été développés. En complément de ces indicateurs, nous proposons le développement d’un indicateur de type R² afin de pallier certaines de leurs limites / For many chronic diseases, the monitoring of patients can be improved by a better understanding of disease growth and the ability to predict the occurrence of major events. Health status evolution can be measured by repeated measurements of a longitudinal marker, as serumcreatinine in renal transplantation.This thesis work in epidemiology and biostatistics applied to renal transplantation focuses on jointmodels for longitudinal and time-to-event data.These models have various benefits but their use is still uncommon in practice. In a first part, we use this methodology to identify the specific role of risk factors on serum creatinine evolution and/or graftfailure risk. We give a rich epidemiological overview and highlights some features which deserve additional attention as they seemassociated with graft failure risk without previousmodification of the longitudinal marker, the serumcreatinine. In a second part, we focus on dynamic predictions, which can be estimated from a jointmodel. They are called dynamic because of an update performed at each new measurement of the longitudinal marker. The clinical usefulness of this type of predictions has to be evaluated and should be based on good accuracy in terms of discrimination and calibration. To assess the prognostic capacities, the Brier Score or the ROCcurve have already been developed. To complete them, we propose an R² type indicator in order to complement some limitations of previous tools.
|
6 |
Modélisation dynamique de l'interaction hôte-pathogène appliquée à la primo-infection à VIH / Dynamical modelling of host-pathogen interaction applied to primary HIV infectionDrylewicz, Julia 30 October 2009 (has links)
La phase de primo-infection à VIH qui correspond aux premières semaines de l'infection est une phase cruciale qui détermine en partie l'évolution clinique de la maladie. La dynamique du virus et des lymphocytes T CD4+ (principale cible) durant cette phase est complexe. D'une part cette phase est asymptomatique dans plus de la moitié des cas et est semblable à un syndrome grippal; elle passe par conséquent très souvent inaperçue et peu de données sont disponibles. D'autre part la date d'infection est généralement inconnue ce qui complique l'étude de l'évolution au cours du temps des marqueurs viro-immunologiques. Les modèles dynamiques basés sur des systèmes d'équations différentielles permettent de prendre en compte l'interaction complexe et non-linéaire existant entre le VIH et le système immunitaire. De plus, leur aspect mécanistique peut être très utile pour la compréhension de la physiopathologie ou l'effet d'intervention. Cependant l'estimation de ces modèles est complexe et plusieurs méthodes sont disponibles à ce jour. Nous proposons dans cette thèse une méthode d'estimation pour des modèles dynamiques prenant en compte l'incertitude sur la date d'infection. Nous appliquons cette méthode à un jeu de données réelles de 761 séroconverteurs de la Collaboration CASCADE durant leur première année de suivi. Ces modèles possèdent un grand nombre de paramètres pouvant inclure des effets aléatoires et des variables explicatives. La sélection du meilleur modèle peut nécessiter l'estimation d'un grand nombre de modèles et peut s'avérer très longue. Nous proposons des tests du score pour sélectionner les effets aléatoires et les variables explicatives plus rapidement dans le cadre général des modèles non-linéaires à effets mixtes avec une illustration sur des modèles dynamiques. Enfin, nous proposons de comparer plusieurs modèles biologiques possibles de la primo-infection à VIH pour prédire la dynamique de la charge virale plasmatique et des CD4. / Primary HIV infection, which corresponds to the first weeks of infection, is a crucial phase which determines partly the clinical progression. The dynamics of HIV viral load and CD4 count during this phase is complex. First, as it is asymptotic in most of the cases, the primary HIV infection is not observed. Moreover, the date of infection is generally unknown and the evolution of markers with respect to the time of infection is difficult. Dynamical models based on systems of ordinary differential equations (ODE) allow to take into account complex non-linear between HIV and the immune system. Moreover, their mechanistic characteristic can be useful through the understanding of physiopathology or the effect of an intervention. However, the estimation of this kind of models is complex and several methods are currently available. We propose here a method of estimation for ODE models taking into account the uncertainty of the date of infection. This method is applied to real dataset of 761 seroconverters from the CASCADE Collaboration during their first year of follow-up. Dynamical models have many parameters on which we can include random effects and explanatory variables. The selection of the best model can be time-consuming if we consider the computation's time issues met during estimation. We develop score tests for exploring complex models with an application to HIV dynamics models. Finally, we compare different biological models of primary HIV infection to predict the dynamics of plasma viral load and CD4 count.
|
7 |
Intégration des facteurs prédictifs de l'effet d'un traitement dans la conception et l'analyse des essais cliniques de petite taille : application à la maladie de Huntington. / Integration of predictive factors of treatment effect in design and analyse of clinical trials with small sample size : application on Huntington's diseaseSchramm, Catherine 06 July 2016 (has links)
La maladie de Huntington est neurodégénérative, génétique, rare, multifacette et de durée d'évolution longue, induisant une grande. Les biothérapies en cours d'essai sont réalisées sur des petits effectifs, avec un effet mesurable à long terme et hétérogène. Identifier des marqueurs d'évolution de la maladie et de réponse au traitement permettrait de mieux comprendre et d'améliorer les résultats des futurs essais cliniques. Nous avons développé une méthode de clustering pour l'efficacité d'un traitement dans le cadre de données longitudinales afin de définir des répondeurs et non répondeurs au traitement. Notre méthode, robuste pour les petits effectifs, combine un modèle linéaire mixte à deux pentes et un algorithme de clustering. Le modèle mixte génère des effets aléatoires, associés à la réponse au traitement, propres à chaque patient. L'algorithme de clustering permet de définir des sous-groupes selon la valeur des effets aléatoires. Trouver des sous-groupes de patients répondeurs permet de définir des marqueurs prédictifs de la réponse au traitement qui seront utilisés pour donner le traitement le mieux adapté à chaque patient. Nous avons discuté de l'intégration (i) des marqueurs prédictifs dans les plans expérimentaux des essais cliniques, en évaluant leur impact sur la puissance de l'étude; et (ii) des marqueurs pronostiques, en étudiant l¿impact du polymorphisme COMT sur le déclin cognitif des patients. Enfin, nous avons évalué l'effet d'apprentissage des tests neuropsychologiques, et montré comment une double évaluation à l'inclusion dans un essai clinique permettait de s'en affranchir quand le critère de jugement principal est le déclin cognitif. / Huntington's disease is neurodegenerative, genetic, rare, multifaceted and has a long evolution, inducing heterogeneity of conditions and progression of the disease. Current biotherapy trials are performed on small samples of patients, with a treatment effect measurable in the long-term that is heterogeneous. Identifying markers of the disease progression and of the treatment response may help to better understand and improve results of biotherapy studies in Huntington's disease. We have developed a clustering method for the treatment efficacy in the case of longitudinal data in order to identify treatment responders and nonresponders. Our method combines a linear mixed model with two slopes and a classical clustering algorithm. The mixed model generates random effects associated with treatment response, specific to each patient. The clustering algorithm is used to define subgroups according to the value of the random effects. Our method is robust in case of small samples. Finding subgroups of responders may help to define predictive markers of treatment response which will be used to give the most appropriate treatment for each patient. We discussed integration of (i) the predictive markers in study design of future clinical trials, assessing their impact on the power of the study; and (ii) the prognostic markers of disease progression by studying the COMT polymorphism as a prognostic marker of cognitive decline in Huntington's disease. Finally, we evaluated the learning effect of neuropsychological tasks measuring cognitive abilities, and showed how a double baseline in a clinical trial could take it into account when the primary outcome is the cognitive decline.
|
8 |
Imbricated dynamics in times of fragile growth : individuals, families and household businesses in Madagascar, 1995-2005 / Des dynamiques imbriquées en période de croissance fragile : individus, familles et entreprises familiales à Madagascar, 1995-2005Vaillant, Julia 14 December 2012 (has links)
Dans les pays en développement, l'imbrication des activités économiques au sein du ménage rend la mesure de la dynamique des revenus complexe, en particulier lorsque les périodes étudiées sont longues. Le contexte choisi est celui de la décennie 1995-2005 à Madagascar, une période particulièrement intéressante puisqu'il s'agit du premier épisode de croissance soutenue et quasi-ininterrompue depuis l'indépendance du pays en 1960. En utilisant des données collectées auprès de ménages ruraux et urbains et d'entreprises du secteur informel, en coupe et en panel, les trois chapitres étudient chacun un aspect particulier du problème de mesure la dynamique de la pauvreté sur longue période dans un contexte d'imbrication forte des unités productives et des ménages. Le premier chapitre examine la dynamique du secteur informel à Antananarivo en tenant compte de sa nature très hétérogène. Le deuxième mesure l'écart de performance entre les unités de production dirigées par des femmes et celles dirigées par des hommes. Il teste l’existence d’effets différenciés selon le genre des normes de partage et d’allocation des tâches au sein du ménage sur l’efficience technique des entreprises. Le troisième chapitre discute l’opportunité de suivre des migrants dans les enquêtes longitudinales. L’étude des micro-entreprises doit tenir compte de leur environnement familial et social, pour prendre la pleine mesure des contraintes qui pèsent sur elles. Des recherches sur le comportement et la rationalité économique des ménages urbains apparaissent nécessaire. En l'absence de données longitudinales, la principale limite du travail réside dans l'impossibilité de décrire la démographie des entreprises informelles dans le temps. Il semble indispensable d’imaginer des dispositifs de collectes de données innovants permettant de suivre ces unités de production dans le temps / In developing countries, the complex interdependence of households, individuals and businesses makes the measurement of welfare dynamics challenging, especially over a long period, because economic activities are predominantly embedded in households. The context we have chosen, Madagascar between 1995 and 2005, is particularly interesting because it corresponds to an unprecedented period of growth interrupted only by a recession in 2002 due to a political crisis. Using urban, rural, cross-sectional and panel data, the three essays presented attempt to shed light on various aspects of welfare dynamics over a long period in Madagascar, with a special focus on the imbrication of productive activities, households and individuals. The first essay studies informal sector dynamics in Antananarivo with a special attention on its heterogeneous nature. The second measures the extent of the gender performance gap among informal entrepreneurs and explores the existence of gender-differentiated effects of sharing norms and the allocation of tasks within the household on the technical efficiency of enterprises. Finally, the third essay is a methodological contribution on the relevance of tracking movers in panel data collection in rural areas. Studying microenterprises within their family and social environment is necessary to fully grasp the constraints on productive activities. More research is necessary on the behavior and economic rationality of urban households. The lack of panel data on informal businesses limits what can be said on their demography, especially over a long period. There is a pressing need for innovative data collection devices which follow these production units over time
|
9 |
Etude et conception d'un modèle mixte semiparamétrique stochastique pour l'analyse des données longitudinales environnementales.Moumouni, Kairou 12 December 2005 (has links) (PDF)
Cette thèse porte sur la recherche d'un modèle statistique adapté à l'analyse de données longitudinales rencontrées dans le domaine environnemental. L'approche générale est basée sur le modèle linéaire mixte stochastique. Nous proposons une extension de ce modèle par l'utilisation des techniques sémiparamétriques, en particulier les splines cubiques pénalisées. Des méthodes d'estimation adaptées au modèle mixte sémiparamétrique stochastique sont proposées. Des simulations sont ensuite effectuées pour l'évaluation des performances des estimateurs construits.<br />Dans une deuxième partie, une extension de la méthode d'influence locale de Cook au modèle mixte modifié est proposée, elle fournit une analyse de sensibilité permettant de détecter les effets de certaines perturbations sur les composantes structurelles du modèle. Quelques propriétés asymptotiques de la matrice d'influence locale sont exhibées.<br />Enfin, le modèle proposé est appliqué à deux jeux de données réelles : une analyse des données de concentrations de nitrates issues de différentes stations de mesures d'un bassin versant, puis une analyse de la pollution bactériologiques d'eaux de baignades.
|
10 |
Fouille de données billettiques pour l'analyse de la mobilité dans les transports en commun / Analysis of Mobility in Public Transport Systems Through Machine Learning Applied to Ticketing Log DataBriand, Anne-Sarah 05 December 2017 (has links)
Les données billettiques sont de plus en plus utilisées pour l'analyse de la mobilité dans les transports en commun. Leur richesse spatiale et temporelle ainsi que leur volume, en font un bon matériel pour une meilleure compréhension des habitudes des usagers, pour prédire les flux de passagers ou bien encore pour extraire des informations sur les événements atypiques (ou anomalies), correspondant par exemple à un accroissement ou à une baisse inhabituelle du nombre de validations enregistrées sur le réseau.Après une présentation des travaux ayant été menés sur les données billettiques, cette thèse s'est attachée à développer de nouveaux outils de traitement de ces données. Nous nous sommes particulièrement intéressés à deux challenges nous semblant non encore totalement résolus dans la littérature : l'aide à la mise en qualité des données et la modélisation et le suivi des habitudes temporelles des usagers.Un des principaux challenges de la mise en qualité des données consiste en la construction d'une méthodologie robuste qui soit capable de détecter des plages de données potentiellement problématique correspondant à des situations atypiques et ce quel que soit le contexte (jour de la semaine, vacances, jours fériés, ...). Pour cela une méthodologie en deux étapes a été déployée, à savoir le clustering pour la détermination du contexte et la détection d'anomalies. L'évaluation de la méthodologie proposée a été entreprise sur un jeu de données réelles collectées sur le réseau de transport en commun rennais. En croisant les résultats obtenus avec les événements sociaux et culturels de la ville, l'approche a permis d'évaluer l'impact de ces événements sur la demande en transport, en termes de sévérité et d'influence spatiale sur les stations voisines.Le deuxième volet de la thèse concerne la modélisation et le suivi de l'activité temporelle des usagers. Un modèle de mélange de gaussiennes a été développé pour partitionner les usagers dans les clusters en fonction des heures auxquelles ils utilisent les transports en commun. L'originalité de la méthodologie proposée réside dans l'obtention de profils temporels continus pour décrire finement les routines temporelles de chaque groupe d'usager. Les appartenance aux clusters ont également été croisées avec les données disponibles sur les usagers (type de carte) en vue d'obtenir une description plus précise de chaque cluster. L'évolution de l'appartenance aux clusters au cours des années a également été analysée afin d'évaluer la stabilité de l'utilisation des transports d'une année sur l'autre. / Ticketing logs are being increasingly used to analyse mobility in public transport. The spatial and temporal richness as well as the volume of these data make them useful for understanding passenger habits and predicting origin-destination flows. Information on the operations carried out on the transportation network can also be extracted in order to detect atypical events (or anomalies), such as an unusual increase or decrease in the number of validations.This thesis focuses on developing new tools to process ticketing log data. We are particularly interested in two challenges that seem to be not yet fully resolved in the literature: help with data quality as well as the modeling and monitoring of passengers' temporal habits.One of the main challenges in data quality is the construction of a robust methodology capable of detecting atypical situations in any context (day of the week, holidays, public holidays, etc.). To this end, two steps were deployed, namely clustering for context estimation and detection of anomalies. The evaluation of the proposed methodology is conducted on a real dataset collected on the Rennes public transport network. By cross-comparing the obtained results with the social and cultural events of the city, it is possible to assess the impact of these events on transport demand, in terms, of severity and spatial influence on neighboring stations.The second part of the thesis focuses on the modeling and the tracking of the temporal activity of passengers. A Gaussian mixture model is proposed to partition passengers into clusters according to the hours they use public transport. The originality of the methodology compared to existing approaches lies in obtaining continuous time profiles in order to finely describe the time routines of each passenger cluster. Cluster memberships are also cross-referenced with passenger data (card type) to obtain a more accurate description of each cluster. The cluster membership over the years has also been analyzed in order to study how the use of transport evolves
|
Page generated in 0.0962 seconds