261 |
Inférence d'interactions d'ordre supérieur et de complexes simpliciaux à partir de données de présence/absenceRoy-Pomerleau, Xavier 27 January 2024 (has links)
Malgré l’efficacité des réseaux pour représenter les systèmes complexes, de récents travaux ont montré que leur structure limite parfois le pouvoir explicatif des modèles théoriques, puisqu’elle n’encode que des relations par paire. Si une interaction plus complexe existe dans le système représenté, elle est automatiquement réduite à un groupe d’interactions par paire, c’est-à-dire d’ordre un. Il faut alors utiliser des structures qui prennent en compte les interactions d’ordre supérieur. Cependant, qu’elles soient ou non d’ordre supérieur, les interactions entre les éléments d’un système sont rarement explicites dans les jeux de données. C’est notamment le cas des données de présence/absence qui indiquent quelles espèces (animales, végétales ou autres) se retrouvent (ou non) sur un site d’observation sans indiquer les relations entre elles. L’objectif de ce mémoire est alors de développer une technique d’inférence pour dénicher les interactions d’ordre supérieur au sein de données de présence/absence. Ici, deux cadres théoriques sont explorés. Le premier est basé sur la comparaison entre la topologie des données, obtenue grâce à une hypothèse souple, et celle d’un ensemble aléatoire. Le second utilise plutôt les modèles log-linéaire et les tests d’hypothèses pour inférer les interactions une à une jusqu’à l’ordre désiré. Ce cadre a permis d’élaborer plusieurs méthodes d’inférence qui génèrent des complexes simpliciaux (ou des hypergraphes) qui peut être analysés grâce aux outils standards de la science des réseaux en plus de l’homologie. Afin de valider ces méthodes, nous avons développé un modèle génératif de données de présence/absence dans lesquelles les véritables interactions sont connues. Des résultats concrets ont également été obtenus pour des jeux de données réelles. Notamment, à partir de données de présence/absence d’oiseaux nicheurs du Québec, nous avons réussi à inférer des cooccurrences d’ordre deux. / Despite the effectiveness of networks to represent complex systems, recent work has shownthat their structure sometimes limits the explanatory power of the theoretical models, sinceit only encodes dyadic interactions. If a more complex interaction exists in the system, it isautomatically reduced to a group of pairwise interactions that are of the first order. We thusneed to use structures that can take higher-order interactions into account. However, whetherrelationships are of higher order or not is rarely explicit in real data sets. This is the case ofpresence/absence data, that only indicate which species (of animals, plants or others) can befound (or not) on a site without showing the interactions between them.The goal of this project is to develop an inference method to find higher-order interactionswithin presence/absence data. Here, two frameworks are examined. The first one is based onthe comparison of the topology of the data, obtained with a non-restrictive hypothesis, andthe topology of a random ensemble. The second one uses log-linear models and hypothesistesting to infer interactions one by one until the desired order. From this framework, we havedevelopped several inference methods to generate simplicial complexes (or hypergraphs) thatcan be studied with regular tools of network science as well as homology. In order to validatethese methods, we have developed a generative model of presence/absence data in which thetrue interactions are known. Results have also been obtained on real data sets. For instance,from presence/absence data of nesting birds in Québec, we were able to infer co-occurrencesof order two
|
262 |
Modélisation d'une variable aléatoire à l'aide d'un réseauJarras, Heikel 20 November 2023 (has links)
Titre de l'écran-titre (visionné le 25 septembre 2023) / Le domaine de l'assurance regorge de toutes sortes de données. Avec des milliers, voire des millions de clients, les compagnies d'assurance ont su emmagasiner un nombre impressionnant d'informations. À partir de celles-ci, elles sont en mesure de développer plusieurs modèles qui leur permettent d'anticiper le comportement de leur clientèle. Elles ont maintenant à leur disposition des modèles qui permettent d'estimer le temps restant avant qu'un client n'abandonne une police d'assurance de dommages. Une compagnie d'assurance souhaite cependant approfondir ses connaissances et améliorer ses prévisions en étudiant l'influence des relations entre les clients sur l'abandon d'une police d'assurance. Certaines données descriptives des clients sont disponibles ainsi que cinq fichiers qui lient les individus à des identifiants de groupe. Ces derniers sont utilisés pour créer des réseaux représentant les relations qui existent entre les clients de la compagnie. L'objectif de ce mémoire est donc d'explorer les données réseaux et de comprendre l'impact que les relations peuvent avoir sur certaines variables, plus particulièrement sur l'abandon d'une police d'assurance de dommages. Des statistiques descriptives en lien avec les réseaux, comme le nombre de liens entre deux individus qui abandonnent ou l'assortativité, permettent rapidement de savoir s'il est pertinent de continuer l'exploration ou non. Par la suite, un test de permutation permet de mieux comprendre l'influence des relations sur le fait qu'un client abandonne ou non. Puis, pour terminer, un modèle statistique qui permet d'estimer une matrice de covariance à partir des relations d'un réseau est présenté. / The insurance sector is full of all kinds of data. With thousands, if not millions, of customers, insurance companies have accumulated a substantial amount of information. From this information, they can develop several models that allow them to anticipate their customer's behavior. They now have models that allow them to estimate the remaining time before a customer cancels their insurance policy. However, an insurance company wishes to deepen their understanding, and improve predictions by studying the influence of relationships between clients on the cancellation of damage insurance policies. Some descriptive data on the customers is available, as well as five files linking individuals to groups. This is how the networks are created. The objective of this thesis is therefore to explore network data and understand the influence that relationships can have on certain descriptive variables, and more specifically on the cancellation of a damage insurance policy. Descriptive statistics related to networks, such as the number of links between two individuals who cancel or assortativity, quickly allow us to know if it is relevant to continue the exploration or not. Then, the permutation test allows us to better understand the influence of relationships on the cancellation of the insurance policy. Finally, a statistical model that allows us to estimate a covariance matrix from a network is presented.
|
263 |
Effet des murs antibruit sur les valeurs résidentielles dans la région de MontréalYao, Yves-Bryand 27 January 2024 (has links)
Les nuisances sonores associées à la circulation routière sont des externalités (Navrud 2002) connues et avérées. L’outil le plus utilisé pour atténuer ces externalités est l’implantation d’écrans antibruit. Bien que ces structures engendrent d’importants coûts économiques, leurs bénéfices économiques ont fait l’objet de très peu d’analyses. Dans une perspective d’évaluation d’impact, cette étude s’intéresse aux impacts locaux de la présence d’écrans antibruit sur la valeur des immeubles environnants. L’étude utilise une base de données de 17 191 de transactions immobilières réalisées entre 2000 et 2017 dans la Région métropolitaine de Montréal qui abrite plusieurs écrans antibruit. La méthode d’estimation utilisée est celle de l’appariement développé par Rosenbaum et Rubin (1983) combinée à l’approche des doubles différences (DD) afin de l’adapter aux besoins de l’analyse. Des tests de permutation et de falsification permettent de vérifier la robustesse des résultats. La littérature immobilière offre très peu d’exemples d’une approche hybride combinant les méthodes d’appariement et DD, d’où l’originalité de ce cette recherche. Les résultats suggèrent que les impacts des écrans antibruit sur les valeurs immobilières sont majoritairement positifs et varient selon les caractéristiques des écrans, la nature des marchés immobiliers et des secteurs affectés, de même que les paramètres d’appariement. / The noise pollution associated with road traffic has long proved an externality (Navrud 2002). The most widely used tool to mitigate such externalities is the installation of noise barriers. While these structures generate enormous economic costs, few studies have yet been found in the literature on their economic benefits. This dissertation examines the local impacts of noise barriers on nearby real estate values. It rests on a database of 17,191 residential properties transacted between 2000 and 2017 in the Montreal metropolitan area, Canada, where several noise barriers can be found. The estimation method used here combines the matching estimation method developed by Rosenbaum and Rubin (1983) with the difference-in-differences (DiD) approach. Permutation and falsification tests are performed to test the robustness of the results. The real estate literature offers very few examples of the hybrid analytical approach used in this study, hence its originality. Overall, the results suggest that the impacts of noise barriers on property values are predominantly positive and vary according to the characteristics of the screens, the nature of affected real estate markets and matching parameters.
|
264 |
A stochastic point-based algorithm for Partially Observable Markov Decision ProcessesTobin, Ludovic 13 April 2018 (has links)
La prise de décision dans un environnement partiellement observable est un sujet d'actualité en intelligence artificielle. Une façon d'aborder ce type de problème est d'utiliser un modèle mathématique. Notamment, les POMDPs (Partially Observable Markov Decision Process) ont fait l'objet de plusieurs recherches au cours des dernières années. Par contre, résoudre un POMDP est un problème très complexe et pour cette raison, le modèle n'a pas été utilisé abondamment. Notre objectif était de continuer les progrès ayant été réalisé lors des dernières années, avec l'espoir que nos travaux de recherches seront un pas de plus vers l'application des POMDPs dans des applications d'envergures. Dans un premier temps, nous avons développé un nouvel algorithme hors-ligne qui, sur des problèmes tests, est plus performant que les meilleurs algorithmes existants. La principale innovation vient du fait qu'il s'agit d'un algorithme stochastique alors que les algorithmes traditionnels sont déterministes. Dans un deuxième temps, nous pouvons également appliquer cet algorithme dans des environnements en-lignes. Lorsque ceux-ci revêtent une certaine particularité, notre algorithme est beaucoup plus performant que la compétition. Finalement, nous avons appliqué une version simplifiée de notre algorithme dans le cadre du projet Combat Identification du RDDC-Valcartier. / Decision making under uncertainty is a popular topic in the field of artificial intelligence. One popular way to attack such problems is by using a sound mathematical model. Notably, Partially Observable Markov Processes (POMDPs) have been the subject of extended researches over the last ten years or so. However, solving a POMDP is a very time-consuming task and for this reason, the model has not been used extensively. Our objective was to continue the tremendous progress that has been made over the last couple of years, with the hope that our work will be a step toward applying POMDPs in large-scale problems. To do so, we combined different ideas in order to produce a new algorithm called SSVI (Stochastic Search Value Iteration). Three major accomplishments were achieved throughout this research work. Firstly, we developed a new offline POMDP algorithm which, on benchmark problems, proved to be more efficient than state of the arts algorithm. The originality of our method comes from the fact that it is a stochastic algorithm, in comparison with the usual determinist algorithms. Secondly, the algorithm we developed can also be applied in a particular type of online environments, in which this algorithm outperforms by a significant margin the competition. Finally, we also applied a basic version of our algorithm in a complex military simulation in the context of the Combat Identification project from DRDC-Valcartier.
|
265 |
Analyse spectrale d'étoiles magnétiques sous l'utilisation d'une technique d'autocorrélationDeschatelets, David 23 April 2018 (has links)
Nombreuses sont les données contenues dans les relevés spectroscopiques. Seulement, la résolution spectrale qui les caractérise est souvent très faible, ce qui est contraignant par rapport à leur analyse. Effectivement, l’efficacité des techniques conventionnelles relativement à la détection du module moyen d’un champ magnétique stellaire est limitée par la résolution des spectres. Dans ce projet, nous présentons une nouvelle technique d’analyse spectrale appliquée sur les étoiles magnétiques en faisant usage de la fonction d’autocorrélation. Ce procédé inédit en astronomie nous offre la possibilité de détecter dans des spectres non polarisés (paramètre Stokes I ) un champ magnétique dont le module moyen est aussi faible que 2.4 kG pour une résolution spectrale sous 10 000. Il s’agit d’une bonne performance considérant le fait que l’usage d’une technique conventionnelle nécessite une résolution spectrale de près de 60 000 afin de détecter la séparation des raies causée par un champ magnétique d’une force similaire. Aussi, notre étude nous a permis de déceler la forme des courbes de variation du champ magnétique en fonction de la période de rotation de quatre étoiles connues pour des résolutions de l’ordre de 5000. Par ailleurs, notre analyse exhibe le rendement impressionnant de la technique à l’égard du bruit de photons polluant le signal des spectres d’étoiles. / Many data are contained within spectroscopic surveys. However, these are characterized by low spectral resolution which can be constraining regarding their analysis. Indeed, the effectiveness of conventional techniques in detecting stellar mean magnetic field moduli is limited by the resolution of the spectra. In this project, we present a new spectral analysis technique applied to magnetic stars using the autocorrelation function. This process, never used before in astronomy, allows us to detect in unpolarized spectra (Stokes I parameter) mean magnetic field moduli as low as 2.4 kG for a spectral resolution below 10 000. This is a great performance considering the fact that using conventional techniques requires a spectral resolution near 60 000 to be able to detect line splitting caused by a magnetic field of a similar strength. Also, our study allowed us to detect the shape of the magnetic field variation curves versus the rotation period of four known stars for resolutions of the order of 5000. In addition, our analysis demonstrates the impressive performance of the technique against noise polluting the signal in stellar spectra.
|
266 |
La pratique religieuse des étudiants universitairesGélinas, Jean-Paul 07 May 2019 (has links)
Québec Université Laval, Bibliothèque 2019
|
267 |
Ingénierie de la représentation des variables pour la classification binaire à partir des données déséquilibréesAjakan, Nora 13 December 2023 (has links)
De nombreuses applications de classification binaire, telles que la prédiction de fraude et la prédiction de rétention, impliquent des ensembles de données déséquilibrées. Bien que les méthodes d'ensemble soient les mieux adaptées à ces contraintes, les règles de décision produites sont difficiles à interpréter en tant que groupe en raison de leur nombre et de leurs redondances sous-jacentes. Il est donc intéressant de simplifier les méthodes d'ensemble apprises en un petit ensemble équivalent de conditions sans sacrifier la performance à la simplicité. En interprétant simplement un arbre de décision comme un empilement de fonctions indicatrices binaires et un modèle linéaire, nous proposons une méthode qui apprend le sous-ensemble efficace d'indicateurs qui relie les données à un espace de représentation de faible dimension où elles deviennent linéairement séparables. Ces fonctions binaires permettent à un large éventail d'algorithmes d'apprentissage automatique simples d'être efficaces et sont également plus faciles à analyser, à étudier ou à valider par les experts du domaine que les branches initiales de l'arbre dans l'ensemble appris. / Many binary classification applications, such as churn prediction and fraud detection, involve unbalanced large datasets. While ensemble trees are the most suited algorithms given these constraints, the decision rules produced are hard to interpret as a group due to their number and their underlying redundancies. It is then of interest to simplify the learned ensemble trees into a small equivalent set of conditions without trading performance for simplicity. By simply interpreting a decision tree as a stack of binary indicator functions and a linear model, we propose a method that learns the effective subset of indicators that map the data to a low dimension feature space where it becomes linearly separable. These binary functions enable a wide range of simple machine learning algorithms to be efficient and are also easier to analyze, investigate or validate by domain experts than the initial tree branches in the learned ensemble.
|
268 |
Méthode d'inférence utilisant la vraisemblance empirique basée sur l'entropie pour les modèles de diffusion avec sautsLaporte, Francis 05 March 2019 (has links)
Avec la venue de modèles de plus en plus élaborés pour modéliser les rendements boursiers, la méthode classique du maximum de vraisemblance pour inférer les paramètres n’est généralement plus applicable puisque, par exemple, la fonction de densité n’est pas disponible ou très difficile à calculer numériquement. Dans la littérature, l’inférence par la méthode des moments (MM) est donc généralement suggérée. Dans ce mémoire, une méthode d’inférence plus efficace, soit celle du maximum de vraisemblance empirique basé sur l’entropie (MEEL), est proposée pour deux cas particuliers du processus de Lévy, soit les modèles de Merton et de Tsay. Premièrement, un retour sur certains modèles développés par le passé est fait. Les lacunes du mouvement brownien géométrique sont présentées afin de justifier l’utilisation de modèles plus élaborés. Ensuite, les deux modèles, Merton et Tsay, et leurs propriétés sont présentés plus en détail. Par la suite, il y a une analyse comparative entre l’efficacité du MEEL et celle du MM ; un exemple sur des données réelles est aussi présenté. Pour terminer, deux approches de tarification de produits dérivés sont présentées. / With the advent of increasingly sophisticated models for modeling stock market returns, the classical maximum likelihood method for inferring parameters is generally no longer applicable since, for example, the density function has no closed form or very difficult to calculate numerically. In the literature, inference by the method of moments (MM) is therefore generally suggested. In this master’s thesis, a more efficient inference method, the maximum empirical entropy likelihood (MEEL), is proposed for two particular cases of the Lévy process, namely the Merton and Tsay models. First, a review of some models developed in the past is done. The flaws of the geometric Brownian motion are presented to justify the use of more sophisticated models. Then, the two models, Merton and Tsay, and their properties are presented in more detail. Subsequently, there is a comparative analysis between the effectiveness of the MEEL and the MM; an example with real data is also presented. Finally, two approaches to pricing derivatives are presented.
|
269 |
La normalisation d'un test par échantillonnage combiné des items et des sujets : effets sur l'estimation des quatre premiers moments et sur la performance à certains itemsBédard, Roger 25 April 2018 (has links)
Québec Université Laval, Bibliothèque 2014
|
270 |
Est-ce que l'apprentissage automatique permet de prédire un comportement en nutrition?Côté, Melina 13 December 2023 (has links)
L'apprentissage automatique (AA) a permis des progrès inégalés en nutrition, notamment dans les domaines de l'évaluation alimentaire, du traitement de données massives associées aux sciences « omiques », de l'analyse des médias sociaux et de la prédiction du risque de maladie. Toutefois, l'AA n'est pas encore exploité dans le domaine de la prédiction de comportements associés à la saine alimentation. Les interventions et politiques de santé publique en nutrition mises sur pied jusqu'à ce jour ne semblent pas porter fruit puisque les choix et comportements alimentaires au niveau populationnel restent sous-optimaux. Afin de contrer l'épidémie de maladies chroniques qui découle d'une alimentation sous-optimale au Québec, il est essentiel d'identifier les facteurs individuels, sociaux et environnementaux qui déterminent les choix alimentaires de la population. Plusieurs études soutiennent l'idée que les algorithmes d'AA ont une meilleure capacité de prédiction que des modèles statistiques traditionnels, et pourraient donc permettre de mieux documenter les facteurs qui influencent les choix alimentaires de la population. Cependant, d'autres études n'ont rapporté aucune valeur ajoutée de l'utilisation d'algorithmes d'AA pour la prédiction du risque de maladies par rapport à des approches prédictives plus traditionnelles. L'objectif de ce projet de maîtrise était donc de comparer la performance de neuf algorithmes d'AA à celle de deux modèles statistiques traditionnels pour prédire un comportement en nutrition, soit une consommation adéquate de légumes et fruits, à partir de 525 variables individuelles, sociales et environnementales reliées aux habitudes alimentaires. Les résultats de ce mémoire démontrent que les algorithmes d'AA ne prédisent pas mieux la consommation adéquate de légumes et fruits que les modèles statistiques traditionnels. Cependant, étant une des premières études à comparer les algorithmes d'AA à des modèles statistiques traditionnels pour prédire un comportement en nutrition, davantage d'études comparant les deux approches doivent être menées afin d'identifier celles qui nous permettront de mieux documenter les déterminants de la saine alimentation. / Machine learning (ML) has offered unparalleled opportunities of progress in nutrition, including in the fields of dietary assessment, omics data analysis, social media data analysis and diet-related health outcome prediction. However, ML has not yet been explored for the prediction of dietary behaviours. Despite several public health interventions and policies in nutrition, adhering to heathy eating remains a challenge. In order to address the epidemic of chronic disease caused by unhealthy eating habits, it is necessary to better identify the individual, social and environmental determinants of healthy eating in the Quebec population. Many studies demonstrate that ML algorithms predict health outcomes with higher accuracy than traditional statistical models, and thus, could allow better identifying the factors that influence food choices in the Quebec population. However, other studies have reported no added value of using ML algorithms for disease risk prediction compared to traditional approaches. The aim of this master's project was to compare the accuracy of nine ML algorithms and two traditional statistical models to predict adequate vegetable and fruit consumption using a large array of individual, social and environmental variables. The results of this study demonstrate that ML algorithms do not predict adequate vegetable and fruit consumption with higher accuracy than traditional statistical models. However, being one of the first studies to compare ML algorithms and traditional statistical models to predict dietary behaviours, more studies comparing both approaches are needed to determine which models will allow better identifying the determinants of healthy eating.
|
Page generated in 0.0346 seconds