Spelling suggestions: "subject:"3analyse dde données textuelle"" "subject:"3analyse dee données textuelle""
1 |
Ajout de données textuelles au modèle de Cox dans un contexte longitudinalLépine, Simon-Olivier 13 December 2023 (has links)
Afin d'éviter le départ de ses clients, une compagnie d'assurance souhaite prédire la probabilité d'annulation de polices d'assurance automobile dans un intervalle de temps à partir de données sur les voitures et les clients. Les clients étant suivis dans le temps, le modèle doit incorporer des variables explicatives qui dépendent du temps. Nous utilisons le modèle de survie de Cox pour prédire les probabilités d'événement dans un intervalle de temps variable. Des notes prises par des agents lors de conversations téléphoniques avec les clients et des courriels sont également disponibles. Il est pertinent d'inclure ces textes dans le modèle statistique, car ils contiennent de l'information utile pour prédire l'annulation du contrat. Plusieurs méthodes de traitement automatique du langage naturel sont utilisées pour représenter les textes en vecteurs qui peuvent être utilisés par le modèle de Cox. Puis, une sélection de variables est effectuée. Le modèle est ensuite utilisé pour prédire les probabilités d'événements. Les notes d'agents contiennent des fautes d'orthographe, des abréviations, etc. Ainsi, nous étudions dans un premier temps l'effet d'utiliser des textes dont la qualité est graduellement détériorée sur les performances prédictives du modèle de Cox. Nous trouvons que toutes les méthodes d'encodage du texte utilisées, sans faire de raffinement sur les textes, ont un certain niveau de robustesse face aux textes de moins bonne qualité. Ensuite, nous étudions l'effet de différentes approches d'inclusion des textes dans le modèle de Cox dans un contexte longitudinal. Les effets de la sélection de variables, des méthodes d'encodage du texte et de la concaténation temporelle des textes sont analysés. L'approche proposée pour inclure les textes a permis d'améliorer les performances comparativement à un modèle qui n'inclut aucun texte. Toutefois, les performances sont similaires d'une méthode d'encodage du texte à l'autre. / In order to avoid customer attrition, an insurance company wants to predict the probability of cancellation of car insurance policies in a time interval based on car and customer covariates. Since customers are tracked over time, the model must incorporate time-dependent covariates. We use a Cox survival model to predict event probabilities in a variable time interval. Notes taken by agents during telephone conversations with customers and emails are also available. It is relevant to include these texts in the statistical model, as they contain information useful for predicting policy cancellation. Several natural language processing methods are used to represent the documents with vectors that can be used by the Cox model. Then, variable selection is performed. The model is then used to predict event probabilities. Notes taken by the agents contain spelling mistakes, abbreviations, etc. Thus, we first study the effect of using texts of gradually worse quality on the predictive performance of the Cox model. We find that all the text encoding methods used, without fine-tuning the embedding models, have a certain level of robustness against texts of lower quality. Next, we investigate the effect of different approaches to including texts in the Cox model in a longitudinal context. The effects of variable selection, text encoding methods and temporal concatenation of texts are analyzed. The proposed approach to include text resulted in improved performance compared to a model that does not include any text. However, the performance is similar across text encoding methods.
|
2 |
Association rules mining in massive datasets : an application to polypharmacy detectionBerteloot, Théophile 13 December 2023 (has links)
Titre de l'écran-titre (visionné le 30 mai 2023) / Ce travail s'inscrit dans un projet de plus grande envergure, concernant la détection de polypharmacie potentiellement inappropriée, c'est-à-dire les combinaisons de 5 médicaments ou plus pris par un individu dans un court laps de temps entrainant des effets de santé indésirables. L'objectif de ce travail est de trouver une méthode efficace et rapide pour extraire un nombre raisonnable de lois d'association de qualité. Ici nos lois d'association mettent en relation des combinaisons de médicaments et des états médicaux. Nous nous sommes intéressés aux mesures permettant de juger la qualité d'une loi d'association ainsi que leur pertinence dans le projet. Ensuite, nous avons mis au point plusieurs méthodes permettant de miner des lois d'association. La première est une métaheuristique basée sur la période géologique appelée l'explosion cambrienne. Les métaheuristiques sont des algorithmes d'optimisation utilisant des processus stochastiques pour faire converger une population (un ensemble de solutions) vers l'optimum d'une fonction. Nous avons ensuite envisagé l'utilisation de réseaux de neurones profonds, plus précisément des auto-encodeurs. Nous avons alors créé l'algorithme ARM-AE qui utilise les auto-encodeurs et obtient de bonnes performances et surpasse les méthodes classiques sur plusieurs mesures de performance. Finalement, nous avons appliqué ARM-AE sur le jeu de données massives en santés de l'INSPQ (Institut national de santé publique du Québec) et nous fournissons une analyse des lois trouvées d'un point de vue statistique et médical. / This work is part of a larger project regarding the detection of potentially inappropriate polypharmacy leading to negative health effects in Quebec seniors. Polypharmacy is most often defined as a combinations of five or more medications taken at the same time by an individual. The objective of this work is to find an efficient and fast method to find a reasonable number of quality association rules. An association rule is an implication of the form A ⇒ C, which can be read as ”If A then C”, with A and C two sets of items, here the items are drugs and medical outcomes. We are interested in measures that allow to judge the quality of an association rule, as well as their relevance in the project. Then we develop several methods to mine association rules. The first one is a metaheuristic based on the geological period called the Cambrian explosion. Metaheuristics are optimisation algorithms using stochastic processes to converge a population (a set of solutions) to the optimum of a function. We then consider using deep neural networks, more precisely auto-encoders. We create the ARM-AE algorithm which uses auto-encoders and presents good performances and has several advantages over classical methods. Finally we apply ARM-AE on the massive healthcare dataset of the INSPQ (Institutnational de santé publique du Québec), and we provide an analysis of the rules found from a statistical and a medical point of view.
|
3 |
Délit de langue et paternité textuelle : une approche informatiséeHoule, Annie 19 April 2018 (has links)
Cette étude vise à évaluer l’utilité d’une assistance informatique lors de l’identification de l’auteur d’un texte en français dans un cadre judiciaire. L’objectif est de proposer un environnement informatique au linguiste oeuvrant en contexte judiciaire et plus spécifiquement en analyse de paternité textuelle et de valider la légitimité de cette assistance automatisée à travers une étude de cas impliquant des textes courts et très courts rédigés en français. L’analyse se scinde en deux parties : une partie quantitative presqu’essentiellement automatisée et une partie qualitative semi-automatisée. Les résultats provenant de cette étude suggèrent qu’un environnement automatisé est un gain pour le linguiste, non seulement quant au temps et à la neutralité d’exécution de l’analyse, mais également quant aux résultats encourageants obtenus grâce aux outils créés.
|
4 |
La gouvernance d'entreprise managériale : positionnement et rôle des gérants de fonds socialement responsablesMorvan, Jérémy 29 November 2005 (has links) (PDF)
Cette thèse développe une modélisation de la gouvernance de la firme fondée sur la légitimité du pouvoir. <br /><br />Dans la première partie, nous développons une approche théorique de la gouvernance. Dans le premier chapitre, nous présentons la théorie de l'agence et la théorie des parties prenantes pour identifier les acteurs du processus productif. Dans un deuxième chapitre, nous cherchons à faire évoluer le paradigme en présentant un modèle de légitimité du pouvoir dans la firme.<br /><br />Dans la seconde partie, nous produisons une approche empirique de la gouvernance. L'objectif est de comprendre l'imbrication des légitimités pragmatique, cognitive et morale de la firme dans sa recherche d'une adhésion des partenaires. Dans le troisième chapitre, une analyse de données textuelles permet d'identifer les attentes financières, partenariales et citoyennes de ces fonds socialement responsables (SR) en direction de l'entreprise. Dans le quatrième chapitre, nous comparons les performances de fonds et indices SR et traditionnels.
|
5 |
Diversité culturelle et religieuse dans le Devisement du monde de Marco Polo / Cultural and religious diversity in Marco Polo’s TravelsLapierre, Dominique 23 October 2018 (has links)
L’objectif de cette thèse est de proposer une nouvelle lecture du Devisement du Monde – connu également sous le titre du Livre des Merveilles, La Description du Monde ou Il Milione – axée sur le regard que porte Marco Polo sur ses contemporains de l’autre bout du monde et la réception qui lui est réservée. Parti dans le contexte des croisades qui réduit l’opposition Orient/Occident à la dualité sarrasin/chrétien, le jeune Marco Polo se retrouve, au travers de ses voyages et à la cour de Kubilai Khan, dans une problématique beaucoup plus vaste, où pratiques et croyances multiples s’inscrivent dans des courants philosophiques jusqu’alors peu connus en Occident. « L’observateur des religions », comme le nomme Philippe Ménard, semble être véritablement fasciné par cette diversité culturelle et religieuse qu’il relève durant son séjour dans l’empire mongol. Tant de nouveautés sont difficiles à assimiler et surtout à rapporter. Nous nous intéressons à la forme que prennent ces descriptions à l’intérieur d’un récit aux versions et traductions multiples, dans un contexte historique et littéraire marqué par les guerres de religion et de pouvoir. Dans la poursuite des travaux de C. Dutschke et de C. Gadrat sur la réception, ce travail de recherche s’appuie sur l’étude diachronique de dix manuscrits et de six éditions du Devisement du monde datant de la première moitié du XIVe siècle jusqu’à la fin du XIXe siècle. Nous envisageons cette réception du texte, non pas sous l’angle de l’usage du récit polien par d’autres auteurs ou au regard de sa diffusion, mais à partir du texte lui-même, du paratexte ainsi que des enluminures et des illustrations. Ces éléments renseignent sur la manière dont le texte est reçu au cours des siècles, et sont porteurs des attentes du public potentiel qui évoluent elles-mêmes avec le temps. La numérisation systématique des versions/traductions retenues, ainsi que l’usage d’outils d’analyse de données textuelles permettent de concilier une lecture attentive du texte et une analyse quantitative au-delà de l’approche linéaire traditionnelle. / The main goal of this dissertation is to propose a new reading and approach of Marco Polo’s Travels, also known as the Devisement du monde, the Description of the World or Il Milione. This study is based both on Marco Polo’s description of people living on the other side of the world and on the critical reception of his book. When Marco Polo left Venice, the prevailing opposition between West and East was mainly grounded in the duality opposing Christians and Saracens. However, through his travels and during his stay at Kubilai Khan’s Mongol court, the young man embraced more complex issues relating to religious beliefs and practices related to philosophical movements barely known in the Western world.“The observer of religions”, as historian P. Ménard calls him, seems to be fascinated by the cultural and religious diversity he encounters during his stay in the Mongol empire. So, many differences with his own culture were difficult to absorb and to report. In this study, we particularly focus on the many versions and translations of these descriptions, written in a context of political and religious turmoil. Following the works of C. Dutschke and C. Gadrat on the reception theory applied to the Travels, this diachronic research is founded on ten manuscripts and six editions dating from the early 14th century until the late 19th century. The impact of Marco Polo’s account is not studied here through the circulation of his Travels or according to the number of authors mentioning it in their own writings, but is rather established in relation to the text itself, along with the paratext, miniatures and illustrations. All these elements provide valuable information concerning its reception through ages, and about the expectations of the potential audience, which also evolved over time. All the versions and translations of our corpus have been digitized, and thanks to text analysis tools, we were able to reconcile close reading and data processing while analyzing the text.
|
6 |
(Se) représenter les barrages : (a)ménagement, concessions et controverses / Representations of dams : infrastructures, concessions and controversiesFlaminio, Silvia 30 November 2018 (has links)
Cette thèse a pour objectif d’étudier les représentations et les récits liés aux aménagements controversés que peuvent être les barrages hydrauliques. Si la fonction symbolique des barrages a souvent été soulignée par la littérature scientifique, peu de travaux sont réellement consacrés à leurs représentations et à leurs trajectoires spatiales et temporelles. En s’inspirant d'études issues de la géographie sociale et culturelle sur les représentations et de la political ecology sur les discours, la thèse confronte différentes sources (presse, entretiens et archives), terrains (France et Australie) et approches méthodologiques (quantitatives et qualitatives) pour retracer l’évolution discursive des infrastructures hydrauliques. Les points de vue de différents acteurs sont aussi considérés: les habitants, les ingénieurs et les institutions hydrauliques, les opposants aux barrages, les administrations en charge de la protection de la nature ou encore les scientifiques qui produisent des connaissances sur l’environnement. D'un point de vue méthodologique, la thèse révèle les biais de certains matériaux et souligne l'intérêt de poursuivre leur croisement. Les résultats montrent l’évolution de waterscapes, d’espaces et de cycles hydrosociaux, par exemple les concessions progressives faites aux environnementalistes aux dépens des hydrocraties ; ils mettent aussi en avant, plus généralement, la production et la circulation de discours, notamment à l’occasion de conflits et de controverses, qui conduisent au délitement du discours prométhéen sur la nature et à la diffusion de représentations concurrentes de l'environnement. / The aim of this PhD thesis is to study representations and narratives on dams, which are often controversial infrastructures. If the symbolic role of dams has been underlined in the literature, few studies actually focus on the perception of dams and their spatial and temporal trajectories. Building on the literature of social and cultural geography on representation, and the writings of political ecology on discourse, this thesis confronts different sources (newspapers, interviews and archives), study areas (in France and Australia) and methodological approaches (quantitative and qualitative) in order to follow the discursive evolution of hydraulic infrastructure. The points of view of various stakeholders are also considered: inhabitants, engineers and hydraulic institutions, opponents to dams, administrations in charge of nature protection and scientists who produce environmental knowledge. From a methodologicial perspective, the dissertation highlights the limits of certain material and illustrates the necessity to consider different sources in parallel. The results show the evolution of waterscapes, hydrosocial spaces and cycles---the gradual concessions made to environmentalists at the expense of hydraulic bureaucracies---but they also illustrate, on a broader perspective, the production and the flow of discourses on the environment---the disaggregation of a Promethean discourse on nature and the multiplication of different and sometimes opposing representations of the environment---particularly during conflicts and controversies.
|
7 |
Caractérisation différentielle de forums de discussion sur le VIH en vietnamien et en français : Éléments pour la fouille comportementale du web social / Differential characterization of discussion forums on HIV in Vietnamese and French : Elements for behaviour mining on the social webHô Dinh, Océane 22 December 2017 (has links)
Les discours normés que produisent les institutions sont concurrencés par les discours informels ou faiblement formalisés issus du web social. La démocratisation de la prise de parole redistribue l’autorité en matière de connaissance et modifie les processus de construction des savoirs. Ces discours spontanés sont accessibles par tous et dans des volumes exponentiels, ce qui offre aux sciences humaines et sociales de nouvelles possibilités d’exploration. Pourtant elles manquent encore de méthodologies pour appréhender ces données complexes et encore peu décrites. L’objectif de la thèse est de montrer dans quelle mesure les discours du web social peuvent compléter les discours institutionnels. Nous y développons une méthodologie de collecte et d’analyse adaptée aux spécificités des discours natifs du numérique (massivité, anonymat, volatilité, caractéristiques structurelles, etc.). Nous portons notre attention sur les forums de discussion comme environnements d’élaboration de ces discours et appliquons la méthodologie développée à une problématique sociale définie : celle de l’épidémie du VIH/SIDA au Viêt Nam. Ce terrain applicatif recouvre plusieurs enjeux de société : sanitaire et social, évolutions des moeurs, concurrence des discours. L’étude est complétée par l’analyse d’un corpus comparable de langue française, relevant des mêmes thématique, genre et discours que le corpus vietnamien, de manière à mettre en évidence les spécificités de contextes socioculturels distincts. / The standard discourse produced by official organisations is confronted with the unofficial or informal discourse of the social web. Empowering people to express themselves results in a new balance of authority, when it comes to knowledge and changes the way people learn. Social web discourse is available to each and everyone and its size is growing fast, which opens up new fields for both humanities and social sciences to investigate. The latter, however, are not equipped to engage with such complex and little-analysed data. The aim of this dissertation is to investigate how far social web discourse can help supplement official discourse. In it we set out a method to collect and analyse data that is in line with the characteristics of a digital environment, namely data size, anonymity, transience, structure. We focus on forums, where such discourse is built, and test our method on a specific social issue, ie the HIV/AIDS epidemic in Vietnam. This field of investigation encompasses several related questions that have to do with health, society, the evolution of morals, the mismatch between different kinds of discourse. Our study is also grounded in the analysis of a comparable French corpus dealing with the same topic, whose genre and discourse characteristics are equivalent to those of the Vietnamese one: this two-pronged research highlights the specific features of different socio-cultural environments.
|
8 |
Essays in empirical financeFarouh, Magnim 08 1900 (has links)
Cette thèse comporte trois chapitres dans lesquels j'étudie les coûts de transaction des actions, les anomalies en finance et les activités du système bancaire parallèle.
Dans le premier chapitre (co-écrit avec René Garcia), une nouvelle façon d'estimer les coûts de transaction des actions est proposée. Les coûts de transaction ont diminué au fil du temps, mais ils peuvent augmenter considérablement lorsque la liquidité de financement se raréfi e, lorsque les craintes des investisseurs augmentent ou lorsqu'il y a d'autres frictions
qui empêchent l'arbitrage. Nous estimons dans ce chapitre les écarts entre les cours acheteur et vendeur des actions de milliers d'entreprises à une fréquence journalière et présentons ces mouvements importants pour plusieurs de ces épisodes au cours des 30 dernières années. Le coût de transaction des trois quarts des actions est fortement impacté par la liquidité de fi nancement et augmente en moyenne de 24%. Alors que les actions des petites entreprises et celles des entreprises à forte volatilité ont des coûts de transaction plus élevés, l'augmentation relative des coûts de transaction en temps de crise est plus prononcée pour les actions des grandes entreprises et celles des entreprises à faible volatilité. L'écart entre les coûts de transaction respectifs de ces groupes de qualité élevée et qualité faible augmente également lorsque les conditions financières se détériorent, ce qui prouve le phénomène de fuite vers la qualité. Nous avons construit des portefeuilles basés sur des anomalies et avons estimé leurs "alphas" ajustés pour les coûts de rééquilibrage sur la base de nos estimations des coûts de transaction pour montrer que toutes les stratégies sont soit non rentables soit perdent de l'argent, à l'exception de deux anomalies: le "prix de l'action" et la "dynamique du secteur industriel".
Dans le deuxième chapitre, j'étudie comment la popularité des anomalies dans les revues scienti ques spécialisées en finance peut influer sur le rendement des stratégies basées sur ces anomalies. J'utilise le ton du résumé de la publication dans laquelle une anomalie est discutée et le facteur d'impact de la revue dans laquelle cette publication a paru pour prévoir le rendement des stratégies basées sur ces anomalies sur la période après publication. La principale conclusion est la suivante: lorsqu'une anomalie est discutée dans une publication dont le résumé a un ton positif, et qui apparaît dans une revue avec un facteur d'impact supérieur à 3 (Journal of Finance, Journal of Financial Economics, Review of Financial
Studies), cette anomalie est plus susceptible d'attirer les investisseurs qui vont baser leurs stratégies sur cette anomalie et corriger ainsi la mauvaise évaluation des actions.
Le troisième chapitre (co-écrit avec Vasia Panousi) propose une mesure de l'activité bancaire parallèle des entreprises opérant dans le secteur financier aux États-Unis. À cette fi n, nous utilisons l'analyse de données textuelles en extrayant des informations des rapports annuels et trimestriels des entreprises. On constate que l'activité bancaire parallèle était plus élevée pour les "Institutions de dépôt", les "Institutions qui ne prennent pas de dépôt" et le secteur "Immobilier" avant 2008. Mais après 2008, l'activité bancaire parallèle a considérablement baissé pour toutes les fi rmes opérant dans le secteur financier sauf les "Institutions non dépositaires". Notre indice du système bancaire parallèle satisfait certains faits économiques concernant le système bancaire parallèle, en particulier le fait que les politiques monétaires restrictives contribuent à l'expansion du système bancaire parallèle. Nous montrons également avec notre indice que, lorsque l'activité bancaire parallèle des 100 plus grandes banques augmente, les taux de délinquance sur les prêts accordés par ces banques augmentent également. L'inverse est observé avec l'indice bancaire traditionnel: une augmentation de l'activité bancaire traditionnelle des 100 plus grandes banques diminue le taux de délinquance. / This thesis has three chapters in which I study transaction costs, anomalies and shadow banking activities.
In the first chapter (co-authored with René Garcia) a novel way of estimating transaction costs is proposed. Transaction costs have declined over time but they can increase considerably when funding liquidity becomes scarce, investors' fears spike or other frictions limit arbitrage. We estimate bid-ask spreads of thousands of firms at a daily frequency and put forward these large movements for several of these episodes in the last 30 years. The transaction cost of three-quarters of the firms is significantly impacted by funding liquidity and increases on average by 24%. While small firms and high volatility firms have larger transaction costs, the relative increase in transaction costs in crisis times is more pronounced in large firms and low-volatility firms. The gap between the respective transaction costs of these high- and low-quality groups also increases when financial conditions deteriorate, which provides evidence of flight to quality. We build anomaly-based long-short portfolios and estimate their alphas adjusted for rebalancing costs based on our security-level transaction cost estimates to show that all strategies are either unprofitable or lose money, except for price per share and industry momentum.
In the second chapter I study how the popularity of anomalies in peer-reviewed finance
journals can influence the returns on these anomalies. I use the tone of the abstract of the publication in which an anomaly is discussed and the impact factor of the journal in which this publication appears to forecast the post-publication return of strategies based on the anomaly. The main finding is the following: when an anomaly is discussed in a positive tone publication that appears in a journal with an impact factor higher than 3 (Journal of Finance, Journal of Financial Economics, Review of Financial Studies), this anomaly is more likely to attract investors that are going to arbitrage away the mispricing.
The third chapter (co-authored with Vasia Panousi) proposes a measure of the shadow banking activity of firms operating in the financial industry in the United States. For this purpose we use textual data analysis by extracting information from annual and quarterly reports of firms. We find that the shadow banking activity was higher for the “Depository Institutions", “Non depository Institutions" and the “Real estate" before 2008. But after 2008, the shadow banking activity dropped considerably for all the financial companies except for the “Non depository Institutions". Our shadow banking index satisfies some economic facts about the shadow banking, especially the fact that contractionary monetary policies contribute to expand shadow banking. We also show with our index that, when the shadow banking activity of the 100 biggest banks increases, the delinquency rates on the loans that these banks give also increases. The opposite is observed with the traditional banking index: an increase of the traditional banking activity of the 100 biggest banks decreases the delinquency rate.
|
Page generated in 0.4566 seconds