Spelling suggestions: "subject:"modèles dde diffusion"" "subject:"modèles dee diffusion""
1 |
Influence de la motivation liée à autrui sur la décision : corrélats computationnels et magnétoencéphalographiques chez l’Homme / Others-related motivation in decision making : computational and magnetoencephalographic correlates in humansBottemanne, Laure 22 November 2019 (has links)
L’homme est un animal social. La majorité des décisions que nous prenons se font dans un contexte social et dépendent d’autrui, ce qui implique des calculs cérébraux complexes qui incluent tous les facteurs contextuels et environnementaux. La majorité des études ultérieures de la prise en compte d’autrui dans la décision ont utilisé des tâches de partage de récompenses entre soi et autrui. Les choix possibles amènent le décideur à considérer autrui, mais dans le but de gagner soi-même une récompense ; donc dans un contexte où les récompenses liées à soi et les récompenses liées à autrui sont confondues. Le travail présenté dans cette thèse avait pour but une meilleure compréhension des mécanismes cérébraux soutenant l’intégration d’autrui dans la prise de décision, sans que la récompense pour autrui n’interfère directement avec soi. Nous nous sommes appuyés sur le cadre théorique de la décision perceptuelle et des modèles de diffusion pour l'étude i) des modifications du processus décisionnel induites par une récompense monétaire allant à autrui et ii) de l’impact de l’effet d’audience (le fait de se sentir observé) sur la décision. Nos résultats computationnels montrent qu'une récompense pour autrui, par rapport à une récompense pour soi, et une audience, par rapport au secret, modifient le taux de dérive de la variable de décision. En magnétoencéphalographie, nos résultats indiquent que les décisions pour soi et pour autrui diffèrent pendant, mais aussi après, la prise de décision dans des zones cérébrales associées avec la transformation sensori-motrice, l'ajustement du compromis entre rapidité et justesse et avec la cognition sociale. Ainsi, le cortex temporal montre des différences de -1170 millisecondes (ms) à -1023 ms, de -993 ms à -915 ms et de -343 ms à -188 ms en amont de la réponse. Ce qui suppose une influence sur l’intégration des preuves sensorielles. Après la décision, les régions frontales ont également montré des différences entre soi et autrui, de 153 ms à 303 ms post-réponse, suggérant une différence entre soi et autrui dans l’ajustement du compris entre justesse et rapidité. Le bénéficiaire de la récompense associée à la décision modifie les paramètres décisionnels et les corrélats cérébraux de la décision perceptuelle, démontrant l’importance du contexte social dans l’implémentation de la prise de décision chez l’Homme. Ce travail appuie également l’utilité des modèles mathématiques tels que les modèles de diffusion dans la compréhension des processus décisionnels, même de ceux découlant de la cognition sociale / Humans are inherently social: most of human’s decisions are within a social context and depend on others. For more than a century, researchers explore aspects of social cognition. Aiming to understand human behavior in social contexts, neuro-economic researches showed that taking others into account involve complex brain computations that include all environmental and contextual factors. However, most of the work was made using money allocation tasks; mixing self-affecting and other-affecting rewards into the decision making process. The present work intended the understanding of the brain mechanisms underpinning the integration of others into the decision making process for decisions that include others and do not interfere with self-rewards.Taking advantage of mathematical models from the drift diffusion models framework, we conducted experiments investigating how others influence the mechanistic of perceptual decisions and their correlates in the human brain. We showed that taking rewards for others into account and being observed by others influence the drift rate of the decision variable. The drift rate is higher in audience than in secret and higher for self-rewards than for other-rewards. These results indicate that others are integrated into the accumulation process together with the evidence available for making a decision. At the brain level, we found difference between self and other decisions over the anterior temporal and centro-frontal cortices during decision making. This suggests that the beneficiary of a decision modifies sensory-motor transformation processes. In addition, self- and other-affecting difference showed difference over the medial frontal sensors after the decision making process, indicating a variation in the speed-accuracy tradeoff adjustment process
|
2 |
Generative models, theory and applicationsAskari Hemmat, Reyhane 04 1900 (has links)
Les modèles génératifs ont révolutionné le domaine de l'intelligence artificielle (IA). En particulier, des travaux récents sur les réseaux antagonistes génératifs (GAN) et les modèles de diffusion latente (LDM) ont montré des capacités de géneration d'image photoréaliste. Au moment de la rédaction de cette thèse, ces modèles sont sur le point de générer des données qui sont presque impossibles à distinguer de la réalité perçue par les humains. L'objectif de cette thèse est double : nous aimerions d'abord comprendre la dynamique d'apprentissage et d'inférence sous-jacente de ces modèles, puis utiliser ces connaissances pour améliorer et stabiliser leur entraînement, ainsi que pour améliorer l'utilité des données générées dans les applications en aval. Ce faisant, cette thèse propose trois articles visant à proposer une entraînement plus stable et une génération de données efficace. Dans le premier article, nous nous concentrons sur l’instabilité inhérente à la dynamique d’entraînement des GAN et d’autres classes de jeux min-max. Nous introduisons une technique efficace pour stabiliser l'entraînement en incorporant un coefficient négatif pour la méthode du moment, qui est une technique plutôt non conventionnelle de l'optimisation classique à objectif unique. Nous étudions et validons théoriquement et empiriquement l’effet du momentum négatif sur les jeux simples et les GAN saturants. Dans le deuxième article, notre recherche adopte une nouvelle perspective en modélisant les jeux min-max et les GAN, en tant que systèmes physiques. Ce changement conceptuel nous permet de mieux comprendre les dynamiques d'entrainement dans ces jeux et de modifier leur dynamique. En utilisant le principe de moindre action en physique, nous introduisons l'optimiseur LEAD spécialement conçu pour les jeux min-max. Nous explorons LEAD à la fois théoriquement et empiriquement, démontrant ses performances non seulement dans des jeux simplifiés mais également dans le contexte des GAN. Cette approche offre une nouvelle perspective physique sur l’optimisation des jeux, grâce à laquelle nous pouvons améliorer la dynamique d'entraînement des réseaux antagonistes génératifs. Le troisième article adopte une approche différente en se concentrant sur l'application pratique des modèles génératifs, en particulier des modèles de diffusion, pour applications en aval. Dans ce travail, nous exploitons le processus d’échantillonnage itératif unique des modèles de diffusion. Notre approche consiste a introduire une boucle de rétroaction qui utilise un classifieur pour changer le process génératif. Ce processus d'échantillonnage guidé par rétroaction permet la génération d'échantillons de données utiles et rares spécifiquement adaptés au classificateur concerné. Nos expériences démontrent que cette approche s'avère utile pour résoudre des tâches de classification déséquilibrées, en obtenant de nouveaux résultats de pointe tout en étant deux fois plus efficaces en termes de synthèse de données par rapport aux travaux précédents. Dans l'ensemble, ces trois articles visent à comprendre la dynamique d'entraînement et d'inférence des modèles génératifs et à utiliser leurs données synthétiques pour des applications pratiques. / Generative models have revolutionized the field of artificial intelligence (AI). Particularly, work on generative adversarial networks (GANs) and latent diffusion models (LDMs) have demonstrated extraordinary capacity in terms of sample quality. At the time of writing this thesis, these models are on the brink of generating data which are nearly indistinguishable from human-perceived reality. The objective of this thesis is twofold: first, to understand the underlying learning and inference dynamics of these models; and second, to use this knowledge to improve and stabilize their training, as well as to enhance the utility of the generated data in downstream applications. To that end, this thesis provides three articles aimed at more stable training and effective data generation. In the first article, our focus is on addressing the inherent instability in the training dynamics of GANs and other types of min-max games. We introduce an effective technique to alleviate the instability of these games by incorporating a negative coefficient for momentum—a rather unconventional recipe from classical single-objective optimization. We theoretically and empirically study and validate the effect of negative momentum on simple games and GANs with saturating loss. In the second article, our research takes a novel perspective by modeling min-max games and GANs, as physical systems. This conceptual shift allows for a deeper understanding of the dynamics at play and offers new ways to modify these dynamics. Using the principle of least action in physics, we introduce the LEAD optimizer, specifically designed for min-max games. We explore LEAD both theoretically and empirically, showcasing its effectiveness in both simplified games and within the context of GANs. This approach offers a novel and general physical perspective on game optimization. The third article shifts focus towards the practical application of generative models, particularly diffusion models, for downstream applications. We leverage the unique iterative sampling process inherent to diffusion models, guiding it with feedback from a pretrained classifier during the inference phase. This feedback-guided sampling process enables the generation of useful and rare data samples that are specifically tailored to the needs of the classifier at hand. Our experiments demonstrate that this approach proves useful in addressing imbalanced classification tasks, achieving new state-of-the-art results while being twice as efficient in terms of the amount of synthesized data required compared to previous work. All in all, these three articles take steps towards understanding the training and inference dynamics of generative models and utilizing their synthetic data for practical applications.
|
3 |
Réseaux dynamiques de terrain : caractérisation et propriétés de diffusion en milieu hospitalier / Real Dynamic Networks : Characterisation and Diffusion Properties in Hospital ContextsMartinet, Lucie 18 September 2015 (has links)
Durant cette thèse, nous nous sommes intéressés aux outils permettant d'extraire les propriétés structurelles et temporelles de réseaux dynamiques ainsi que les caractéristiques de certains scénarios de diffusion pouvant s'opérer sur ces réseaux. Nous avons travaillé sur un jeu de données spécifiques, issu du projet MOSAR, qui comporte entre autre le réseau de proximité des personnes au cours du temps durant 6 mois à l'hôpital de Berk-sur-mer. Ce réseau est particulier dans le sens où il est constitué de trois dimensions: temporelle, structurelle par la répartition des personnes en services et fonctionnelle car chaque personne appartient à une catégorie socio-professionnelle. Pour chacune des dimensions, nous avons utilisé des outils existants en physique statistique ainsi qu'en théorie des graphes pour extraire des informations permettant de décrire certaines propriétés du réseau. Cela nous a permis de souligner le caractère très structuré de la répartition des contacts qui suit la répartition en services et mis en évidence les accointances entre certaines catégories professionnelles. Concernant la partie temporelle, nous avons mis en avant l'évolution périodique circadienne et hebdomadaire ainsi que les différences fondamentales entre l'évolution des interactions des patients et celle des personnels. Nous avons aussi présenté des outils permettant de comparer l'activité entre deux périodes données et de quantifier la similarité de ces périodes. Nous avons ensuite utilisé la technique de simulation pour extraire des propriétés de diffusion de ce réseau afin de donner quelques indices pour établir une politique de prévention. / In this thesis, we focus on tools whose aim is to extract structural and temporal properties of dynamic networks as well as diffusion characteristics which can occur on these networks. We work on specific data, from the European MOSAR project, including the network of individuals proximity from time to time during 6 months at the Brek-sur-Mer Hospital. The studied network is notable because of its three dimensions constitution : the structural one induced by the distribution of individuals into distinct services, the functional dimension due to the partition of individual into groups of socio-professional categories and the temporal dimension.For each dimension, we used tools well known from the areas of statistical physics as well as graphs theory in order to extract information which enable to describe the network properties. These methods underline the specific structure of the contacts distribution which follows the individuals distribution into services. We also highlight strong links within specific socio-professional categories. Regarding the temporal part, we extract circadian and weekly patterns and quantify the similarities of these activities. We also notice distinct behaviour within patients and staff evolution. In addition, we present tools to compare the network activity within two given periods. To finish, we use simulations techniques to extract diffusion properties of the network to find some clues in order to establish a prevention policy.
|
4 |
Conditional generative modeling for images, 3D animations, and videoVoleti, Vikram 07 1900 (has links)
Generative modeling for computer vision has shown immense progress in the last few years, revolutionizing the way we perceive, understand, and manipulate visual data. This rapidly evolving field has witnessed advancements in image generation, 3D animation, and video prediction that unlock diverse applications across multiple fields including entertainment, design, healthcare, and education. As the demand for sophisticated computer vision systems continues to grow, this dissertation attempts to drive innovation in the field by exploring novel formulations of conditional generative models, and innovative applications in images, 3D animations, and video.
Our research focuses on architectures that offer reversible transformations of noise and visual data, and the application of encoder-decoder architectures for generative tasks and 3D content manipulation. In all instances, we incorporate conditional information to enhance the synthesis of visual data, improving the efficiency of the generation process as well as the generated content.
Prior successful generative techniques which are reversible between noise and data include normalizing flows and denoising diffusion models. The continuous variant of normalizing flows is powered by Neural Ordinary Differential Equations (Neural ODEs), and have shown some success in modeling the real image distribution. However, they often involve huge number of parameters, and high training time. Denoising diffusion models have recently gained huge popularity for their generalization capabilities especially in text-to-image applications.
In this dissertation, we introduce the use of Neural ODEs to model video dynamics using an encoder-decoder architecture, demonstrating their ability to predict future video frames despite being trained solely to reconstruct current frames. In our next contribution, we propose a conditional variant of continuous normalizing flows that enables higher-resolution image generation based on lower-resolution input. This allows us to achieve comparable image quality to regular normalizing flows, while significantly reducing the number of parameters and training time.
Our next contribution focuses on a flexible encoder-decoder architecture for accurate estimation and editing of full 3D human pose. We present a comprehensive pipeline that takes human images as input, automatically aligns a user-specified 3D human/non-human character with the pose of the human, and facilitates pose editing based on partial input information.
We then proceed to use denoising diffusion models for image and video generation. Regular diffusion models involve the use of a Gaussian process to add noise to clean images. In our next contribution, we derive the relevant mathematical details for denoising diffusion models that use non-isotropic Gaussian processes, present non-isotropic noise, and show that the quality of generated images is comparable with the original formulation. In our final contribution, devise a novel framework building on denoising diffusion models that is capable of solving all three video tasks of prediction, generation, and interpolation. We perform ablation studies using this framework, and show state-of-the-art results on multiple datasets.
Our contributions are published articles at peer-reviewed venues. Overall, our research aims to make a meaningful contribution to the pursuit of more efficient and flexible generative models, with the potential to shape the future of computer vision. / La modélisation générative pour la vision par ordinateur a connu d’immenses progrès ces
dernières années, révolutionnant notre façon de percevoir, comprendre et manipuler les
données visuelles. Ce domaine en constante évolution a connu des avancées dans la génération
d’images, l’animation 3D et la prédiction vidéo, débloquant ainsi diverses applications dans
plusieurs domaines tels que le divertissement, le design, la santé et l’éducation. Alors que la
demande de systèmes de vision par ordinateur sophistiqués ne cesse de croître, cette thèse
s’efforce de stimuler l’innovation dans le domaine en explorant de nouvelles formulations de
modèles génératifs conditionnels et des applications innovantes dans les images, les animations
3D et la vidéo.
Notre recherche se concentre sur des architectures offrant des transformations réversibles
du bruit et des données visuelles, ainsi que sur l’application d’architectures encodeur-décodeur
pour les tâches génératives et la manipulation de contenu 3D. Dans tous les cas, nous
incorporons des informations conditionnelles pour améliorer la synthèse des données visuelles,
améliorant ainsi l’efficacité du processus de génération ainsi que le contenu généré.
Les techniques génératives antérieures qui sont réversibles entre le bruit et les données
et qui ont connu un certain succès comprennent les flux de normalisation et les modèles de
diffusion de débruitage. La variante continue des flux de normalisation est alimentée par
les équations différentielles ordinaires neuronales (Neural ODEs) et a montré une certaine
réussite dans la modélisation de la distribution d’images réelles. Cependant, elles impliquent
souvent un grand nombre de paramètres et un temps d’entraînement élevé. Les modèles de
diffusion de débruitage ont récemment gagné énormément en popularité en raison de leurs
capacités de généralisation, notamment dans les applications de texte vers image.
Dans cette thèse, nous introduisons l’utilisation des Neural ODEs pour modéliser la
dynamique vidéo à l’aide d’une architecture encodeur-décodeur, démontrant leur capacité à
prédire les images vidéo futures malgré le fait d’être entraînées uniquement à reconstruire
les images actuelles. Dans notre prochaine contribution, nous proposons une variante
conditionnelle des flux de normalisation continus qui permet une génération d’images à
résolution supérieure à partir d’une entrée à résolution inférieure. Cela nous permet d’obtenir une qualité d’image comparable à celle des flux de normalisation réguliers, tout en réduisant
considérablement le nombre de paramètres et le temps d’entraînement.
Notre prochaine contribution se concentre sur une architecture encodeur-décodeur flexible
pour l’estimation et l’édition précises de la pose humaine en 3D. Nous présentons un pipeline
complet qui prend des images de personnes en entrée, aligne automatiquement un personnage
3D humain/non humain spécifié par l’utilisateur sur la pose de la personne, et facilite l’édition
de la pose en fonction d’informations partielles.
Nous utilisons ensuite des modèles de diffusion de débruitage pour la génération d’images
et de vidéos. Les modèles de diffusion réguliers impliquent l’utilisation d’un processus gaussien
pour ajouter du bruit aux images propres. Dans notre prochaine contribution, nous dérivons
les détails mathématiques pertinents pour les modèles de diffusion de débruitage qui utilisent
des processus gaussiens non isotropes, présentons du bruit non isotrope, et montrons que la
qualité des images générées est comparable à la formulation d’origine. Dans notre dernière
contribution, nous concevons un nouveau cadre basé sur les modèles de diffusion de débruitage,
capable de résoudre les trois tâches vidéo de prédiction, de génération et d’interpolation.
Nous réalisons des études d’ablation en utilisant ce cadre et montrons des résultats de pointe
sur plusieurs ensembles de données.
Nos contributions sont des articles publiés dans des revues à comité de lecture. Dans
l’ensemble, notre recherche vise à apporter une contribution significative à la poursuite de
modèles génératifs plus efficaces et flexibles, avec le potentiel de façonner l’avenir de la vision
par ordinateur.
|
Page generated in 0.3867 seconds