Propagation du buzz sur Internet -- Identification, analyse, modélisation et représentation dans un contexte de veille / Buzz lifecyle on the Web -- Identification, analysis, modelization and representation in the context of strategic and competitive intelligence

Lauf, Aurélien 14 October 2014 (has links)
S’inscrivant dans un contexte de veille et d’intelligence d’entreprise sur Internet, l’objectif de cette thèse est d’élaborer des outils et des méthodes permettant d’identifier, analyser, modéliser et représenter le cheminement des buzz sur Internet. Tout buzz a un ou plusieurs points d’origine : les sources primaires. L’information est ensuite relayée par des sources secondaires qui vont accélérer ou non la propagation en fonction de leur degré d’influence. Tout au long du cycle de vie du buzz, le contenu sémantique est amené à évoluer. La compréhension d’un buzz sur Internet passe ainsi par l’analyse de ce qui se dit et la qualification des émetteurs. Nos travaux s’axeront donc autour de deux types d’analyses complémentaires : une analyse topologique des sources (théorie des graphes et des réseaux) et une analyse du contenu textuel (linguistique de corpus). / This thesis is in the context of strategic and competitive intelligence. Its goal is to develop tools and methods to identify, analyze, model and represent how buzz spread on the Internet. Any buzz has one or more starting point(s), i.e. primary source(s). The information is then passed on by secondary sources which may speed or slow down its spreading depending on their influence. Throughout the buzz lifecycle, the semantic content can evolve. To understand a buzz on the Internet, one needs to analyze what is said and qualify who speaks. This thesis will focus on two main points : a topological analysis of the sources (graph theory and networks), and an analysis of the textual content (corpus linguistics).

Écologie moléculaire des symbioses eucaryotes des écosystèmes planctoniques de la zone photique des océans / Molecular ecology of eukaryotic symbioses in the planktonic ecosystems of the oceanic photic zone

Henry, Nicolas 02 February 2016 (has links)
Les symbioses ont un role majeur dans le fonctionnement et l'equilibre des ecosystemes. Dans les oceans, qui couvrent pres de 70 % de la surface de la planete, vivent une multitude d'organismes incapables de lutter contre les courants et la plupart sont microscopiques, il s'agit du plancton. Les organismes du plancton, comme ceux d'autres ecosystemes, entretiennent des symbioses, mais la nature et l'ampleur de ces interactions sont encore mal connues dans le plancton du fait la petite taille de ces organismes et de la difficulte d'echantillonnage des ecosystemes planctoniques, surtout dans les zones les plus eloignees des cotes. Les principaux objectifs de cette these sont de donner un apercu global de la place occupee par ces symbioses dans le plancton et de proposer des methodes originales permettant leur detection. Les travaux presentes dans ce manuscrit s'appuient sur l'analyse des donnees generees lors de l'expedition Tara Oceans (2009-2013) pendant laquelle 210 stations oceaniques ont ete echantillonnees a travers le monde. Ils concernent plus precisement le jeu de donnees environnemental obtenu grace au sequencage a haut debit (Illumina) de la region hypervariable V9 (130 nucleotides) de la sousunite 18S de l'ADN ribosomique des organismes eucaryotes (metabarcoding). Dans un premier temps, un etat des lieux de la diversite et de la structure des communautes du pico-nano-micro-mesoplancton (0,8-2000 μm) eucaryote de la zone photique des oceans temperes a tropicaux est realise. Il met en evidence la place importante occupee par les symbiotes au sein de ces communautes. Ensuite, l'etude de deux cas de symbiose (Blastodinium- Copepodes et Symbiodinium-Tiarina) montre les difficultes inherentes a la detection de couples symbiotiques a partir d’un jeu de donnees issue d'etudes par metabarcoding du plancton (flexibilite de la specificite des symbioses dans le plancton), mais aussi la possibilite de distinguer les differentes phases de vie des symbiotes (libres et symbiotiques) lorsque les echantillons etudies ont ete fractionnes. Enfin, un ensemble de methodes est propose afin d'ameliorer l'efficacite de la detection de symbioses dans le cadre d'etudes par reseau de cooccurrences des communautes planctoniques. L'analyse de la distribution des metabarcodes le long des fractions de taille (piconano- (0.8-5 μm), nano- (5-20 μm), micro- (20-180 μm), et meso-plancton (180-2000 μm)) permet de differencier ceux provenant d'organismes symbiotiques de ceux d'organismes libres, sans a priori. De plus la comparaison de l'abondance de groupes genetiques definis a differents niveaux de resolution permet de detecter des associations symbiotiques peu specifiques et d'apprecier leur niveau de specificite. / The oceans, which cover nearly 70 % of the earth's surface, is host to a myriad of mostly microscopic organisms that drift with the currents and are collectively called plankton. As in other ecosystems, symbioses play a major role in the functioning and equilibrium of the plankton. But the exact nature and strength of those symbiotic interactions are still poorly known, not only due to the small size of most planktonic organisms, but also because of the inherent difficulty of sampling planktonic ecosystems, especially in the high-seas. The main goals of this thesis are to give a global view of the importance of planktonic symbioses and to propose novel methods for their detection. The work presented in this manuscript is based on analyses of data generated during the Tara Oceans expedition (2009-2013), during which sea water was collected and size fractionated by filtration at 210 sampling locations distributed across the world's oceans. The data analyses presented herein mostly focus on an environmental metabarcoding dataset obtained from next-generation sequencing (Illumina) of the V9 hypervariable region (~130 nucleotides long) of the 18S small ribosomal subunit of eukaryotic organisms. We begin by assessing the diversity and structure of pico-, nano-, micro and meso-planktonic eukaryotic communities (0.8-2000 μm) in the photic zone of tropical to temperate sea regions. Then, we present two cases of symbioses (Blastodinium-Copepods and Symbiodinium-Tiarina) to illustrate both the difficulties encountered when trying to detect symbiotic relationships using metabarcoding data due to varying specificities of symbiotic relationships, but also the potential solutions offered by size-fractionated sampling to distinguish between the different stages of the life cycle of symbiotic organisms (free living and symbiotic stages). Finally, we propose a set of methods to improve the detection of symbioses by studying the co-occurrence of organisms in planktonic communities: we use the distribution of metabarcodes along size fractions ((piconano- (0.8-5 μm), nano- (5-20 μm), micro- (20-180 μm), and meso-plancton (180-2000 μm)) to distinguish likely free living organisms from those that have a symbiotic life style, and we compare the abundance of genetic groups constructed by clustering metabarcodes at different resolution levels, which allows us to detect interactions occurring above the species level and to evaluate their level of specificity.

Facteurs associés à la cooccurrence simultanée des troubles d’opposition, des troubles des conduites et du trouble déficitaire de l’attention avec hyperactivité chez les enfants

Mc Millan Mailloux, Annie-Claude January 2016 (has links)
L’objectif de ce mémoire est de décrire et comparer les facteurs de risque individuels, parentaux et familiaux qui sont associés à la cooccurrence simultanée du trouble déficitaire de l’attention avec hyperactivité (TDAH) et des troubles de comportement sévère tels le trouble oppositionnel avec provocation (TOP) et le trouble des conduites (TC). Plus particulièrement, l’étude s’appuie sur les informations issues du modèle de cooccurrence de Neale et Kendler (1995), voulant que le fait de partager des facteurs de risque génétiques et environnementaux communs puisse entraîner une cooccurrence de troubles. Les enfants (N = 345, 41% de filles), âgés entre 6 et 10 ans, ont été recrutés parmi des jeunes recevant des services spécialisées dans huit commissions scolaires de trois régions du Québec. Ces enfants ont été séparés dans différents groupes de comparaison selon la présence/absence du TDAH, du TOP et du TC. Les analyses de régressions logistiques multinomiales réalisées suggèrent que les enfants du groupe TDAH+TOP lorsque comparés à ceux du groupe TDAH seul vivraient dans des familles au sein desquelles il y aurait plus de coercition parentale et auraient vécu plus de changements familiaux que les enfants du groupe TOP seul. Aussi, plus de traits d’insensibilité seraient présents chez les enfants du groupe TDAH+TOP+TC lorsque comparés au groupe TDAH seul. De plus, les enfants du groupe TDAH+TOP+TC présenteraient plus d’anxiété que les enfants du groupe TOP+TC. Dans l’ensemble, il appert que la cooccurrence du TDAH et des troubles du comportement est associée à plus de facteurs de risque chez les enfants.

Multi-scale texture analysis of remote sensing images using gabor filter banks and wavelet transforms

Ravikumar, Rahul 15 May 2009 (has links)
Traditional remote sensing image classification has primarily relied on image spectral information and texture information was ignored or not fully utilized. Existing remote sensing software packages have very limited functionalities with respect to texture information extraction and utilization. This research focuses on the use of multi-scale image texture analysis techniques using Gabor filter banks and Wavelet transformations. Gabor filter banks model texture as irradiance patterns in an image over a limited range of spatial frequencies and orientations. Using Gabor filters, each image texture can be differentiated with respect to its dominant spatial frequency and orientation. Wavelet transformations are useful for decomposition of an image into a set of images based on an orthonormal basis. Dyadic transformations are applied to generate a multi-scale image pyramid which can be used for texture analysis. The analysis of texture is carried out using both artificial textures and remotely sensed image corresponding to natural scenes. This research has shown that texture can be extracted and incorporated in conventional classification algorithms to improve the accuracy of classified results. The applicability of Gabor filter banks and Wavelets is explored for classifying and segmenting remote sensing imagery for geographical applications. A qualitative and quantitative comparison between statistical texture indicators and multi-scale texture indicators has been performed. Multi-scale texture indicators derived from Gabor filter banks have been found to be very effective due to the nature of their configurability to target specific textural frequencies and orientations in an image. Wavelet transformations have been found to be effective tools in image texture analysis as they help identify the ideal scale at which texture indicators need to be measured and reduce the computation time taken to derive statistical texture indicators. A robust set of software tools for texture analysis has been developed using the popular .NET and ArcObjects. ArcObjects has been chosen as the API of choice, as these tools can be seamlessly integrated into ArcGIS. This will aid further exploration of image texture analysis by the remote sensing community.

La compréhension et le réemploi du vocabulaire suite à un enseignement par ordinateur à l'aide des définitions versus à l'aide des concordances

Tchernigovskaïa, Marina January 2008 (has links) (PDF)
Les connaissances lexicales constituent la base de tout enseignement de langues secondes. Cet enseignement peut être administré d'une façon implicite (à travers la lecture abondante) ou d'une façon explicite (en fournissant des indices de sens). Quelles sont les façons les plus efficaces qui permettent d'augmenter le bagage lexical dans un temps relativement court? Dans le présent travail, nous avons comparé la compréhension et le réemploi du vocabulaire suite à l'enseignement de celui-ci à l'aide des définitions et à l'aide des concordances. De cette façon, le sens du mot pouvait être donné ou inféré à partir de plusieurs exemples d'utilisation du mot. Nous avons utilisé l'ordinateur qui a permis d'avoir des interfaces cliquables et un accès immédiat à l'information. Un groupe d'étudiants du niveau universitaire qui suivait un cours d'immersion a été exposé à ces deux types d'enseignement. Les mots ciblés ont été enseignés pendant une session universitaire dans un contexte d'un cours d'histoire. Nous avons comparé les résultats de compréhension et de réemploi de 20 mots suite à l'enseignement à l'aide des définitions avec les résultats de compréhension et de réemploi de 20 mots suite à l'enseignement à l'aide des concordances. L'interprétation des résultats nous a permis d'observer une tendance générale à de meilleurs résultats suite à l'enseignement à l'aide des concordances. Nous avons remarqué également que les apprenants débutants semblent progresser très rapidement à l'aide des concordances, tandis que les apprenants avancés arrivent généralement à de meilleurs résultats. De plus, les participants plus âgés semblent réussir mieux en ce qui a trait à l'inférence du sens à partir des concordances. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Acquisition des langues secondes, Vocabulaire, Explicite, Implicite, Concordances, Cooccurrence.

Élaboration d’un modèle d’article de dictionnaire de collocations du lexique scientifique transdisciplinaire pour l’aide à la rédaction de textes scientifiques

Pouliot, Karine 05 1900 (has links)
Cette recherche constitue une première étape dans l’élaboration d’un dictionnaire de collocations du lexique scientifique transdisciplinaire (LST), conçu pour aider des étudiants ou des chercheurs dans la rédaction de discours scientifiques ou universitaires, quel que soit leur domaine d’études. Elle a permis de concevoir deux modèles originaux d’articles de dictionnaire donnant accès aux collocations de termes nominaux et verbaux caractéristiques du LST. Les modèles d’articles sont ensuite appliqués à la description d’un échantillon de termes nominaux : analyse, caractéristique, figure, hypothèse, rapport et résultat; et verbaux : décrire et étudier. Les articles conçus dans ce mémoire offrent un accès convivial aux collocations du LST en situation de rédaction. Ils ont l’avantage de proposer une organisation cohérente de ce lexique sur les plans syntaxique et sémantique. En outre, ils permettent de présenter les termes du LST dans des contextes variés, ce qui peut contribuer au développement de la compétence lexicale. / This research is the first step in the development of a collocations dictionary of “lexique scientifique transdisciplinaire” (LST), which is similar to the academic vocabulary, a collocations dictionary conceived to help students or researchers in scientific or academic writing, regardless of their field. In this research, we first developed two original models of dictionary articles which provide access to collocations of nouns and verbs characteristic of LST. Secondly, the models are used to describe a sample of nominal terms: analyse, caractéristique, figure, hypothèse, rapport, and résultat; and verbal terms: décrire, and étudier. The models developed in this thesis offer a convenient access to LST collocations in writing context. The advantage of these models is to propose a coherent organization of the lexicon in syntactic and semantic terms. In addition, they are made to present the LST terms in different contexts, which may contribute to the development of lexical competence.

On text mining to identify gene networks with a special reference to cardiovascular disease / Identifiering av genetiska nätverk av betydelse för kärlförkalkning med hjälp av automatisk textsökning i Medline, en medicinsk litteraturdatabas

Strandberg, Per Erik January 2005 (has links)
<p>The rate at which articles gets published grows exponentially and the possibility to access texts in machine-readable formats is also increasing. The need of an automated system to gather relevant information from text, text mining, is thus growing. </p><p>The goal of this thesis is to find a biologically relevant gene network for atherosclerosis, themain cause of cardiovascular disease, by inspecting gene cooccurrences in abstracts from PubMed. In addition to this gene nets for yeast was generated to evaluate the validity of using text mining as a method. </p><p>The nets found were validated in many ways, they were for example found to have the well known power law link distribution. They were also compared to other gene nets generated by other, often microbiological, methods from different sources. In addition to classic measurements of similarity like overlap, precision, recall and f-score a new way to measure similarity between nets are proposed and used. The method uses an urn approximation and measures the distance from comparing two unrelated nets in standard deviations. The validity of this approximation is supported both analytically and with simulations for both Erd¨os-R´enyi nets and nets having a power law link distribution. The new method explains that very poor overlap, precision, recall and f-score can still be very far from random and also how much overlap one could expect at random. The cutoff was also investigated. </p><p>Results are typically in the order of only 1% overlap but with the remarkable distance of 100 standard deviations from what one could have expected at random. Of particular interest is that one can only expect an overlap of 2 edges with a variance of 2 when comparing two trees with the same set of nodes. The use of a cutoff at one for cooccurrence graphs is discussed and motivated by for example the observation that this eliminates about 60-70% of the false positives but only 20-30% of the overlapping edges. This thesis shows that text mining of PubMed can be used to generate a biologically relevant gene subnet of the human gene net. A reasonable extension of this work is to combine the nets with gene expression data to find a more reliable gene net.</p>


Delenne, Carole 24 November 2006 (has links) (PDF)
Cette thèse propose de répondre, par l'analyse d'images aériennes à très haute résolution spatiale, aux besoins en information des gestionnaires de territoires viticoles. Les méthodes développées pour la détection des parcelles sont basées sur la reconnaissance de structures spatiales orientées et périodiques. Une analyse fréquentielle permet la segmentation des parcelles en polygones ainsi qu'une caractérisation précise de l'orientation des rangs et de la distance interrang. Ces caractéristiques permettent ensuite l'extraction et l'étude détaillée de chaque rang de vigne, avec pour objectifs 1) d'améliorer le contour des parcelles segmentées, 2) de détecter les pieds manquants et 3) de caractériser les interrangs. Ces travaux de thèse ont permis de répondre à l'essentiel de la demande des utilisateurs par la mise en place d'un processus automatique de détection, segmentation et caractérisation de la vigne.

