Spelling suggestions: "subject:"apprentissage automatique"" "subject:"dapprentissage automatique""
271 |
Amélioration d'un "Evolving Fuzzy Neural Network" dans le cadre d'applications militaires et astrophysiquesNadeau, Louis 11 April 2018 (has links)
Les buts de la recherche présentée dans ce mémoire sont : (1) de choisir et d'implémenter un algorithme d'apprentissage pour un système d'information militaire et (2) d'appliquer cet algorithme dans un cadre astrophysique. L'algorithme choisi est le «Evolving Fuzzy Neural Network (EFuNN)». Trois lacunes de l'EFuNN ont été identifiées et corrigées : (1) la métrique n'accepte pas de données manquantes, (2) la méthode de suppression des règles n'est pas adaptée au monde réel et (3) l'EFuNN ne peut pas exploiter ses connaissances statistiques. Pour l'application militaire, trois variations d'une expérience ont été faites : prédire la qualité de sources d'informations distribuées sur une carte. L'EFuNN a eu une précision supérieure aux besoins. Pour l'application astrophysique, l'EFuNN a eu une performance comparable à d'autres réseaux de neurones, ainsi, il pourrait être utile dans un système comprenant plusieurs réseaux de neurones qui votent. / The research presented in this master's thesis has two goals : (1) choose and implement a learning algorithm for a military information System and (2) apply this algorithm to an astrophysic problem of classification. The choosen algorithm is the Evoling Fuzzy Neural Network (EFuNN). Three problems of the EFuNN were found and corrected : (1) The metric was not able to mariage missing data, (2) the pruning method was not adapted to real world learning and (3) the EFuNN was not able to used its statistical knowledge. For the first goal, three variations of the same experiment were made : predict the quality of informations sources that are distributed on a map. The modified EFuNN performed better that needed on those tests. For the second goal, the EFuNN had a similar performance in comparison with other algorithms and it could be useful to include it in a program which uses many algorithms to better its overall performance.
|
272 |
Apprentissage faiblement supervisé appliqué à la segmentation d'images de protéines neuronalesBilodeau, Anthony 26 March 2024 (has links)
Tableau d'honneur de la Faculté des études supérieures et postdoctorales, 2020-2021 / En biologie cellulaire, la microscopie optique est couramment utilisée pour visualiser et caractériser la présence et la morphologie des structures biologiques. Suite à l’acquisition, un expert devra effectuer l’annotation des structures pour quantification. Cette tâche est ardue, requiert de nombreuses heures de travail, parfois répétitif, qui peut résulter en erreurs d’annotations causées par la fatigue d’étiquetage. L’apprentissage machine promet l’automatisation de tâches complexes à partir d’un grand lot de données exemples annotés. Mon projet de maîtrise propose d’utiliser des techniques faiblement supervisées, où les annotations requises pour l’entraînement sont réduites et/ou moins précises, pour la segmentation de structures neuronales. J’ai d’abord testé l’utilisation de polygones délimitant la structure d’intérêt pour la tâche complexe de segmentation de la protéine neuronale F-actine dans des images de microscopie à super-résolution. La complexité de la tâche est supportée par la morphologie hétérogène des neurones, le nombre élevé d’instances à segmenter dans une image et la présence de nombreux distracteurs. Malgré ces difficultés, l’utilisation d’annotations faibles a permis de quantifier un changement novateur de la conformation de la protéine F-actine en fonction de l’activité neuronale. J’ai simplifié davantage la tâche d’annotation en requérant seulement des étiquettes binaires renseignant sur la présence des structures dans l’image réduisant d’un facteur 30 le temps d’annotation. De cette façon, l’algorithme est entraîné à prédire le contenu d’une image et extrait ensuite les caractéristiques sémantiques importantes pour la reconnaissance de la structure d’intérêt à l’aide de mécanismes d’attention. La précision de segmentation obtenue sur les images de F-actine est supérieure à celle des annotations polygonales et équivalente à celle des annotations précises d’un expert. Cette nouvelle approche devrait faciliter la quantification des changements dynamiques qui se produisent sous le microscope dans des cellules vivantes et réduire les erreurs causées par l’inattention ou le biais de sélection des régions d’intérêt dans les images de microscopie. / In cell biology, optical microscopy is commonly used to visualize and characterize the presenceand morphology of biological structures. Following the acquisition, an expert will have toannotate the structures for quantification. This is a difficult task, requiring many hours ofwork, sometimes repetitive, which can result in annotation errors caused by labelling fatigue.Machine learning promises to automate complex tasks from a large set of annotated sampledata. My master’s project consists of using weakly supervised techniques, where the anno-tations required for training are reduced and/or less precise, for the segmentation of neuralstructures.I first tested the use of polygons delimiting the structure of interest for the complex taskof segmentation of the neuronal protein F-actin in super-resolution microscopy images. Thecomplexity of the task is supported by the heterogeneous morphology of neurons, the highnumber of instances to segment in an image and the presence of many distractors. Despitethese difficulties, the use of weak annotations has made it possible to quantify an innovativechange in the conformation of the F-actin protein as a function of neuronal activity. I furthersimplified the annotation task by requiring only binary labels that indicate the presence ofstructures in the image, reducing annotation time by a factor of 30. In this way, the algorithmis trained to predict the content of an image and then extract the semantic characteristicsimportant for recognizing the structure of interest using attention mechanisms. The segmen-tation accuracy obtained on F-actin images is higher than that of polygonal annotations andequivalent to that of an expert’s precise annotations. This new approach should facilitate thequantification of dynamic changes that occur under the microscope in living cells and reduceerrors caused by inattention or bias in the selection of regions of interest in microscopy images.
|
273 |
Système de gestion d'énergie d'un véhicule électrique hybride rechargeable à trois rouesDenis, Nicolas January 2014 (has links)
Résumé : Depuis la fin du XXème siècle, l’augmentation du prix du pétrole brut et les problématiques environnementales poussent l’industrie automobile à développer des technologies plus économes en carburant et générant moins d’émissions de gaz à effet de serre. Parmi ces technologies, les véhicules électriques hybrides constituent une solution viable et performante. En alliant un moteur électrique et un moteur à combustion, ces véhicules possèdent un fort potentiel de réduction de la consommation de carburant sans sacrifier son autonomie. La présence de deux moteurs et de deux sources d’énergie requiert un contrôleur, appelé système de gestion d’énergie, responsable de la commande simultanée des deux moteurs. Les performances du véhicule en matière de consommation dépendent en partie de la conception de ce contrôleur. Les véhicules électriques hybrides rechargeables, plus récents que leur équivalent non rechargeable, se distinguent par l’ajout d’un chargeur interne permettant la recharge de la batterie pendant l’arrêt du véhicule et par conséquent la décharge de celle-ci au cours d’un trajet. Cette particularité ajoute un degré de complexité pour ce qui est de la conception du système de gestion d’énergie. Dans cette thèse, nous proposons un modèle complet du véhicule dédié à la conception du contrôleur. Nous étudions ensuite la dépendance de la commande optimale des deux moteurs par rapport au profil de vitesse suivi au cours d’un trajet ainsi qu’à la quantité d’énergie électrique disponible au début d’un trajet. Cela nous amène à proposer une technique d’auto-apprentissage visant l’amélioration de la stratégie de gestion d’énergie en exploitant un certain nombre de données enregistrées sur les trajets antérieurs. La technique proposée permet l’adaptation de la stratégie de contrôle vis-à-vis du trajet en cours en se basant sur une pseudo-prédiction de la totalité du profil de vitesse. Nous évaluerons les performances de la technique proposée en matière de consommation de carburant en la comparant avec une stratégie optimale bénéficiant de la connaissance exacte du profil de vitesse ainsi qu’avec une stratégie de base utilisée couramment dans l’industrie. // Abstract : Since the end of the XXth century, the increase in crude oil price and the environmental concerns lead the automotive industry to develop technologies that can improve fuel savings and decrease greenhouse gases emissions. Among these technologies, the hybrid electric vehicles stand as a reliable and efficient solution. By combining an electrical motor and an internal combustion engine, these vehicles can bring a noticeable improvement in terms of fuel consumption without sacrificing the vehicle autonomy. The two motors and the two energy storage systems require a control unit, called energy management system, which is responsible for the command decision of both motors. The vehicle performances in terms of fuel consumption greatly depend on this control unit. The plug-in hybrid electric vehicles are a more recent technology compared to their non plug-in counterparts. They have an extra internal battery charger that allows the battery to be charged during OFF state, implying a possible discharge during a trip. This particularity adds complexity when it comes to the design of the energy management system. In this thesis, a complete vehicle model is proposed and used for the design of the controller. A study is then carried out to show the dependence between the optimal control of the motors and the speed profile followed during a trip as well as the available electrical energy at the beginning of a trip. According to this study, a self-learning optimization technique that aims at improving the energy management strategy by exploiting some driving data recorded on previous trips is proposed. The technique allows the adaptation of the control strategy to the current trip based on a pseudo-prediction of the total speed profile. Fuel consumption performances for the proposed technique will be evaluated by comparing it with an optimal control strategy that benefits from the exact a priori knowledge of the speed profile as well as a basic strategy commonly used in industry.
|
274 |
Contribution à l'analyse de données temporellesDouzal-Chouakria, Ahlame 29 November 2012 (has links) (PDF)
Mes travaux de recherche portent sur l'analyse de données temporelles et s'articulent en trois parties : -la représentation de séries temporelles, -la définition de métriques et leur apprentissage, -ainsi que la proposition de nouvelles approches de classification dédiées aux séries temporelles. Le déploiement de statistiques d'autocorrélation spatiale sur des structures de contiguïté particulières, telle que temporelle, met en évidence des propriétés intéressantes. Elles permettent, par exemple, d'appréhender le comportement des séries (aléatoire, chaotique), d'évaluer le niveau de saillance d'un événement, ou de mesurer la dépendance locale ou globale entre une structure évolutive et les observations associées. Ces propriétés ont guidé nos principaux travaux. Ainsi, une première contribution concerne la représentation compacte de séries multivariées. J'ai étudié une approche de réduction de la dimension temporelle de séries multivariées, par segmentation, préservant les corrélations inférées par la série ; l'identification de segments saillants étant guidée par la variance locale. Dans une deuxième partie, je me suis intéressée à la définition de métriques intégrant la composante forme des séries et leur positionnement dans un cadre plus général. L'alignement de séries étant un concept fondamental dans la définition de métriques, mon intérêt a porté, ensuite, sur l'apprentissage de couplages pour la discrimination de classes de séries complexes. L'approche proposée vise à lier les séries selon les caractéristiques communes au sein des classes et différentielles entre les classes. Le couplage ainsi appris permet de dériver une métrique locale pondérée restreignant la comparaison des séries aux attributs discriminants. Enfin, le troisième volet de mes travaux est dédié à l'extension des arbres de classification/régression à des variables prédictives temporelles. L'arbre temporel de classification proposé recours à un nouveau critère de coupure fondé sur une métrique adaptative et la localisation de sous-séquences discriminantes.
|
275 |
Création et utilisation de vocabulaires visuels pour la catégorisation d'images et la segmentation de classes d'objetsLarlus, Diane 28 November 2008 (has links) (PDF)
Cette thèse s'intéresse à l'interprétation d'images fixes et en particulier à la reconnaissance de classes d'objets. Les différentes approches considérées sont toutes des variations du modèle par sac-de-mots, utilisant des représentations locales, quantifiées à l'aide d'un vocabulaire visuel. <br>Nous nous intéresserons tout d'abord à l'étude de différentes méthodes de création du vocabulaire visuel et à l'évaluation de ces vocabulaires dans le contexte de la catégorisation d'images. <br>Dans un deuxième temps, nous étudierons la segmentation de classes d'objets et verrons en particulier comment combiner les propriétés de régularisation très locales permises par un champ de Markov avec un modèle d'apparence basé sur des régions qui représentent chacune un objet et qui sont considérées comme des collections de mots visuels.
|
276 |
Classification automatique pour la compréhension de la parole : vers des systèmes semi-supervisés et auto-évolutifsGotab, Pierre 04 December 2012 (has links) (PDF)
La compréhension automatique de la parole est au confluent des deux grands domaines que sont la reconnaissance automatique de la parole et l'apprentissage automatique. Un des problèmes majeurs dans ce domaine est l'obtention d'un corpus de données conséquent afin d'obtenir des modèles statistiques performants. Les corpus de parole pour entraîner des modèles de compréhension nécessitent une intervention humaine importante, notamment dans les tâches de transcription et d'annotation sémantique. Leur coût de production est élevé et c'est la raison pour laquelle ils sont disponibles en quantité limitée.Cette thèse vise principalement à réduire ce besoin d'intervention humaine de deux façons : d'une part en réduisant la quantité de corpus annoté nécessaire à l'obtention d'un modèle grâce à des techniques d'apprentissage semi-supervisé (Self-Training, Co-Training et Active-Learning) ; et d'autre part en tirant parti des réponses de l'utilisateur du système pour améliorer le modèle de compréhension.Ce dernier point touche à un second problème rencontré par les systèmes de compréhension automatique de la parole et adressé par cette thèse : le besoin d'adapter régulièrement leurs modèles aux variations de comportement des utilisateurs ou aux modifications de l'offre de services du système
|
277 |
Apprentissage automatique et compréhension dans le cadre d’un dialogue homme-machine téléphonique à initiative mixte / Corpus-based spoken language understanding for mixed initiative spoken dialog systemsServan, Christophe 10 December 2008 (has links)
Les systèmes de dialogues oraux Homme-Machine sont des interfaces entre un utilisateur et des services. Ces services sont présents sous plusieurs formes : services bancaires, systèmes de réservations (de billets de train, d’avion), etc. Les systèmes de dialogues intègrent de nombreux modules notamment ceux de reconnaissance de la parole, de compréhension, de gestion du dialogue et de synthèse de la parole. Le module qui concerne la problématique de cette thèse est celui de compréhension de la parole. Le processus de compréhension de la parole est généralement séparé du processus de transcription. Il s’agit, d’abord, de trouver la meilleure hypothèse de reconnaissance puis d’appliquer un processus de compréhension. L’approche proposée dans cette thèse est de conserver l’espace de recherche probabiliste tout au long du processus de compréhension en l’enrichissant à chaque étape. Cette approche a été appliquée lors de la campagne d’évaluation MEDIA. Nous montrons l’intérêt de notre approche par rapport à l’approche classique. En utilisant différentes sorties du module de RAP sous forme de graphe de mots, nous montrons que les performances du décodage conceptuel se dégradent linéairement en fonction du taux d’erreurs sur les mots (WER). Cependant nous montrons qu’une approche intégrée, cherchant conjointement la meilleure séquence de mots et de concepts, donne de meilleurs résultats qu’une approche séquentielle. Dans le souci de valider notre approche, nous menons des expériences sur le corpus MEDIA dans les mêmes conditions d’évaluation que lors de la campagne MEDIA. Il s’agit de produire des interprétations sémantiques à partir des transcriptions sans erreur. Les résultats montrent que les performances atteintes par notre modèle sont au niveau des performances des systèmes ayant participé à la campagne d’évaluation. L’étude détaillée des résultats obtenus lors de la campagne MEDIA nous permet de montrer la corrélation entre, d’une part, le taux d’erreur d’interprétation et, d’autre part, le taux d’erreur mots de la reconnaissance de la parole, la taille du corpus d’apprentissage, ainsi que l’ajout de connaissance a priori aux modèles de compréhension. Une analyse d’erreurs montre l’intérêt de modifier les probabilités des treillis de mots avec des triggers, un modèle cache ou d’utiliser des règles arbitraires obligeant le passage dans une partie du graphe et s’appliquant sur la présence d’éléments déclencheurs (mots ou concepts) en fonction de l’historique. On présente les méthodes à base de d’apprentissage automatique comme nécessairement plus gourmandes en terme de corpus d’apprentissage. En modifiant la taille du corpus d’apprentissage, on peut mesurer le nombre minimal ainsi que le nombre optimal de dialogues nécessaires à l’apprentissage des modèles de langages conceptuels du système de compréhension. Des travaux de recherche menés dans cette thèse visent à déterminer quel est la quantité de corpus nécessaire à l’apprentissage des modèles de langages conceptuels à partir de laquelle les scores d’évaluation sémantiques stagnent. Une corrélation est établie entre la taille de corpus nécessaire pour l’apprentissage et la taille de corpus afin de valider le guide d’annotations. En effet, il semble, dans notre cas de l’évaluation MEDIA, qu’il ait fallu sensiblement le même nombre d’exemple pour, d’une part, valider l’annotation sémantique et, d’autre part, obtenir un modèle stochastique « de qualité » appris sur corpus. De plus, en ajoutant des données a priori à nos modèles stochastiques, nous réduisons de manière significative la taille du corpus d’apprentissage nécessaire pour atteindre les même scores du système entièrement stochastique (près de deux fois moins de corpus à score égal). Cela nous permet de confirmer que l’ajout de règles élémentaires et intuitives (chiffres, nombres, codes postaux, dates) donne des résultats très encourageants. Ce constat a mené à la réalisation d’un système hybride mêlant des modèles à base de corpus et des modèles à base de connaissance. Dans un second temps, nous nous appliquons à adapter notre système de compréhension à une application de dialogue simple : un système de routage d’appel. La problématique de cette tâche est le manque de données d’apprentissage spécifiques au domaine. Nous la résolvons en partie en utilisant divers corpus déjà à notre disposition. Lors de ce processus, nous conservons les données génériques acquises lors de la campagne MEDIA et nous y intégrons les données spécifiques au domaine. Nous montrons l’intérêt d’intégrer une tâche de classification d’appel dans un processus de compréhension de la parole spontanée. Malheureusement, nous disposons de très peu de données d’apprentissage relatives au domaine de la tâche. En utilisant notre approche intégrée de décodage conceptuel, conjointement à un processus de filtrage, nous proposons une approche sous forme de sac de mots et de concepts. Cette approche exploitée par un classifieur permet d’obtenir des taux de classification d’appels encourageants sur le corpus de test, alors que le WER est assez élevé. L’application des méthodes développées lors de la campagne MEDIA nous permet d’améliorer la robustesse du processus de routage d’appels. / Spoken dialogues systems are interfaces between users and services. Simple examples of services for which theses dialogue systems can be used include : banking, booking (hotels, trains, flights), etc. Dialogue systems are composed of a number of modules. The main modules include Automatic Speech Recognition (ASR), Spoken Language Understanding (SLU), Dialogue Management and Speech Generation. In this thesis, we concentrate on the Spoken Language Understanding component of dialogue systems. In the past, it has usual to separate the Spoken Language Understanding process from that of Automatic Speech Recognition. First, the Automatic Speech Recognition process finds the best word hypothesis. Given this hypothesis, we then find the best semantic interpretation. This thesis presents a method for the robust extraction of basic conceptual constituents (or concepts) from an audio message. The conceptual decoding model proposed follows a stochastic paradigm and is directly integrated into the Automatic Speech Recognition process. This approach allows us to keep the probabilistic search space on sequences of words produced by the Automatic Speech Recognition module, and to project it to a probabilistic search space of sequences of concepts. The experiments carried out on the French spoken dialogue corpus MEDIA, available through ELDA, show that the performance reached by our new approach is better than the traditional sequential approach. As a starting point for evaluation, the effect that deterioration of word error rate (WER) has on SLU systems is examined though use of different ASR outputs. The SLU performance appears to decrease lineary as a function of ASR word error rate.We show, however, that the proposed integrated method of searching for both words and concets, gives better results to that of a traditionnanl sequential approach. In order to validate our approach, we conduct experiments on the MEDIA corpus in the same assessment conditions used during the MEDIA campaign. The goal is toproduce error-free semantic interpretations from transcripts. The results show that the performance achieved by our model is as good as the systems involved in the evaluation campaign. Studies made on the MEDIA corpus show the concept error rate is related to the word error rate, the size of the training corpus and a priori knwoledge added to conceptual model languages. Error analyses show the interest of modifying the probabilities of word lattice with triggers, a template cache or by using arbitrary rules requiring passage through a portion of the graph and applying the presence of triggers (words or concepts) based on history. Methods based on machine learning are generally quite demanding in terms of amount of training data required. By changing the size of the training corpus, the minimum and the optimal number of dialogues needed for training conceptual language models can be measured. Research conducted in this thesis aims to determine the size of corpus necessary for training conceptual language models from which the semantic evaluation scores stagnated. A correlation is established between the necessary corpus size for learning and the corpus size necessary to validate the manual annotations. In the case of the MEDIA evaluation campaign, it took roughly the same number of examples, first to validate the semantic annotations and, secondly, to obtain a "quality" corpus-trained stochastic model. The addition of a priori knowledge to our stochastic models reduce significantly the size of the training corpus needed to achieve the same scores as a fully stochastic system (nearly half the size for the same score). It allows us to confirm that the addition of basic intuitive rules (numbers, zip codes, dates) gives very encouraging results. It leeds us to create a hybrid system combining corpus-based and knowledge-based models. The second part of the thesis examines the application of the understanding module to another simple dialogue system task, a callrouting system. A problem with this specific task is a lack of data available for training the requiered language models. We attempt to resolve this issue by supplementing he in-domain data with various other generic corpora already available, and data from the MEDIA campaing. We show the benefits of integrating a call classification task in a SLU process. Unfortunately, we have very little training corpus in the field under consideration. By using our integrated approach to decode concepts, along with an integrated process, we propose a bag of words and concepts approach. This approach used by a classifier achieved encouraging call classification rates on the test corpus, while the WER was relativelyhigh. The methods developed are shown to improve the call routing system process robustness.
|
278 |
Modélisation des réactions émotionnelles dans un système tutoriel intelligentChaffar, Soumaya January 2009 (has links)
Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal.
|
279 |
Utilisation du formalisme DEVS pour la validation de comportements des systèmes à partir des scénarios UMLSqali Houssaini, Mamoun 12 October 2012 (has links)
Un développement d'un système débute par la constitution, dans la phase de spécification des besoins, d'un cahier des charges dans lequel un ensemble de scénarios d'utilisation du système est défini avec les contraintes auxquelles il doit obéir, dans lequel chaque scénario est un simple exemple d'exécution du système à concevoir. Une fois que tous les scénarios sont précisés, on obtient une description complète des interactions entre les composants. Toutefois, cette spécification n'est pas directement implémentable, car il est difficile, surtout pour les systèmes les plus complexes, d'apercevoir le comportement d'un système dans sa globalité directement à partir des scénarios. C'est pour cela que ces derniers sont souvent intégrés à d'autres modèles, utilisés dans la conception détaillée, qu'on appelle "les modèles de comportement", en particulier les machines à états [Harel 87] qui permettent de passer de la vue partielle à la vue globale du système afin de répondre à différents problèmes comme la validation du comportement ou la détection des inconsistances au sein du système. Notre thèse a pour but, d'une part, de recenser et étudier différents langages de scénarios, particulièrement les diagrammes de séquences UML et les diagrammes MSC's, et d'autre part de proposer une méthode se synthèse automatique permettant de générer des modèles exécutables à évènements discrets DEVS [Zeigler 76] à partir d'une base de scénarios décrivant le comportement fonctionnel du système. Les modèles obtenus sont déterministes et avec une sémantique formelle qui garantit une interprétation unique de chaque élément des modèles. / A development of a system begins with the constitution, in the phase of requirements analysis, a specification in which a set of scenarios describing the behavior of the system is defined with the constraints that it must obey, where each scenario is a partial representation of the system behavior. However, this specification is not directly implementable, because it is difficult, especially for more complex systems, to observe the global behavior of a system directly from scenario. That is why they are often integrated with other models used in the detailed design, called "behavioral models", in particular State Machines [Harel 87], who allow to move from partial to global view of the system in order to answer different problems such as validation of the behavior or the detection of system inconsistencies. Our thesis aims, firstly, to study different languages of scenarios, especially UML sequence diagrams, and MSC's (Message Sequence Charts), and secondly to propose an automatic synthesis method who generate executable discrete event DEVS models [Zeigler 76] from scenarios describing the desired behavior of a system. The resulting models are executable and deterministic with a formal semantics that ensures a unique interpretation of each element of models. The use of final models simulation traces, taking into account the coverage of the simulation compared to the number of states and transitions visited, allow validating the behavior.
|
280 |
Détection de communautés dans les réseaux d'information utilisant liens et attributs / Community detection in information networks using links and attributesCombe, David 15 October 2013 (has links)
Alors que les réseaux sociaux s'attachent à représenter des entités et les relations existant entre elles, les réseaux d'information intègrent également des attributs décrivant ces entités ; ce qui conduit à revisiter les méthodes d'analyse et de fouille de ces réseaux. Dans ces travaux, nous proposons des méthodes de classification des entités du réseau d'information qui exploitent d'une part les relations entre celles-ci et d'autre part les attributs les caractérisant. Nous nous penchons sur le cas des réseaux à vecteurs d'attributs, où les entités du réseau sont décrites par des vecteurs numériques. Ainsi nous proposons des approches basées sur des techniques reconnues pour chaque type d'information, faisant appel notamment à l'inertie pour la classification automatique et à la modularité de Newman et Girvan pour la détection de communautés. Nous évaluons nos propositions sur des réseaux issus de données bibliographiques, faisant usage en particulier d'information textuelle. Nous évaluons également nos approches face à diverses évolutions du réseau, notamment au regard d'une détérioration des informations des liens et des attributs, et nous caractérisons la robustesse de nos méthodes à celle-ci / While social networks use to represent entities and relationships between them, information networks also include attributes describing these entities, leading to review the analysis and mining methods for these networks. In this work, we discuss classification of the entities in an information network. Classification operate simultaneously on the relationships and on the attributes characterizing the entities. We look at the case of attributed graphs where entities are described by numerical feature vectors. We propose approaches based on proven classification techniques for each type of information, including the inertia for machine learning and Newman and Girvan's modularity for community detection. We evaluate our proposals on networks from bibliographic data, using textual information. We also evaluate our methods against various changes in the network, such as a deterioration of the relational or vector data, mesuring the robustness of our methods to them
|
Page generated in 0.0966 seconds