• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 249
  • 244
  • 44
  • 3
  • 2
  • 1
  • 1
  • Tagged with
  • 556
  • 556
  • 365
  • 353
  • 109
  • 106
  • 105
  • 105
  • 93
  • 90
  • 90
  • 87
  • 87
  • 71
  • 68
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
91

Dictionary learning for pattern classification in medical imaging / Apprentissage de dictionnaires pour la reconnaissance de motifs en imagerie médicale

Deshpande, Hrishikesh 08 July 2016 (has links)
La plupart des signaux naturels peuvent être représentés par une combinaison linéaire de quelques atomes dans un dictionnaire. Ces représentations parcimonieuses et les méthodes d'apprentissage de dictionnaires (AD) ont suscité un vif intérêt au cours des dernières années. Bien que les méthodes d'AD classiques soient efficaces dans des applications telles que le débruitage d'images, plusieurs méthodes d'AD discriminatifs ont été proposées pour obtenir des dictionnaires mieux adaptés à la classification. Dans ce travail, nous avons montré que la taille des dictionnaires de chaque classe est un facteur crucial dans les applications de reconnaissance des formes lorsqu'il existe des différences de variabilité entre les classes, à la fois dans le cas des dictionnaires classiques et des dictionnaires discriminatifs. Nous avons validé la proposition d'utiliser différentes tailles de dictionnaires, dans une application de vision par ordinateur, la détection des lèvres dans des images de visages, ainsi que par une application médicale plus complexe, la classification des lésions de scléroses en plaques (SEP) dans des images IRM multimodales. Les dictionnaires spécifiques à chaque classe sont appris pour les lésions et les tissus cérébraux sains. La taille du dictionnaire pour chaque classe est adaptée en fonction de la complexité des données. L'algorithme est validé à l'aide de 52 séquences IRM multimodales de 13 patients atteints de SEP. / Most natural signals can be approximated by a linear combination of a few atoms in a dictionary. Such sparse representations of signals and dictionary learning (DL) methods have received a special attention over the past few years. While standard DL approaches are effective in applications such as image denoising or compression, several discriminative DL methods have been proposed to achieve better image classification. In this thesis, we have shown that the dictionary size for each class is an important factor in the pattern recognition applications where there exist variability difference between classes, in the case of both the standard and discriminative DL methods. We validated the proposition of using different dictionary size based on complexity of the class data in a computer vision application such as lips detection in face images, followed by more complex medical imaging application such as classification of multiple sclerosis (MS) lesions using MR images. The class specific dictionaries are learned for the lesions and individual healthy brain tissues, and the size of the dictionary for each class is adapted according to the complexity of the underlying data. The algorithm is validated using 52 multi-sequence MR images acquired from 13 MS patients.
92

Fouille de données pour l'extraction de profils d'usage et la prévision dans le domaine de l'énergie / Data mining for the extraction of usage profiles and forecasting in the energy field

Melzi, Fateh 17 October 2018 (has links)
De nos jours, les pays sont amenés à prendre des mesures visant à une meilleure rationalisation des ressources en électricité dans une optique de développement durable. Des solutions de comptage communicantes (Smart Meters), sont mises en place et autorisent désormais une lecture fine des consommations. Les données spatio-temporelles massives collectées peuvent ainsi aider à mieux connaitre les habitudes de consommation et pouvoir les prévoir de façon précise. Le but est d'être en mesure d'assurer un usage « intelligent » des ressources pour une meilleure consommation : en réduisant par exemple les pointes de consommations ou en ayant recours à des sources d'énergies renouvelables. Les travaux de thèse se situent dans ce contexte et ont pour ambition de développer des outils de fouille de données en vue de mieux comprendre les habitudes de consommation électrique et de prévoir la production d'énergie solaire, permettant ensuite une gestion intelligente de l'énergie.Le premier volet de la thèse s'intéresse à la classification des comportements types de consommation électrique à l'échelle d'un bâtiment puis d'un territoire. Dans le premier cas, une identification des profils types de consommation électrique journalière a été menée en se basant sur l'algorithme des K-moyennes fonctionnel et sur un modèle de mélange gaussien. A l'échelle d'un territoire et en se plaçant dans un contexte non supervisé, le but est d'identifier des profils de consommation électrique types des usagers résidentiels et de relier ces profils à des variables contextuelles et des métadonnées collectées sur les usagers. Une extension du modèle de mélange gaussien classique a été proposée. Celle-ci permet la prise en compte de variables exogènes telles que le type de jour (samedi, dimanche et jour travaillé,…) dans la classification, conduisant ainsi à un modèle parcimonieux. Le modèle proposé a été comparé à des modèles classiques et appliqué sur une base de données irlandaise incluant à la fois des données de consommations électriques et des enquêtes menées auprès des usagers. Une analyse des résultats sur une période mensuelle a permis d'extraire un ensemble réduit de groupes d'usagers homogènes au sens de leurs habitudes de consommation électrique. Nous nous sommes également attachés à quantifier la régularité des usagers en termes de consommation ainsi que l'évolution temporelle de leurs habitudes de consommation au cours de l'année. Ces deux aspects sont en effet nécessaires à l'évaluation du potentiel de changement de comportement de consommation que requiert une politique d'effacement (décalage des pics de consommations par exemple) mise en place par les fournisseurs d'électricité.Le deuxième volet de la thèse porte sur la prévision de l'irradiance solaire sur deux horizons temporels : à court et moyen termes. Pour ce faire, plusieurs méthodes ont été utilisées parmi lesquelles des méthodes statistiques classiques et des méthodes d'apprentissage automatique. En vue de tirer profit des différents modèles, une approche hybride combinant les différents modèles a été proposée. Une évaluation exhaustive des différents approches a été menée sur une large base de données incluant des paramètres météorologiques mesurés et des prévisions issues des modèles NWP (Numerical Weather Predictions). La grande diversité des jeux de données relatifs à quatre localisations aux climats bien distincts (Carpentras, Brasilia, Pampelune et Ile de la Réunion) a permis de démontrer la pertinence du modèle hybride proposé et ce, pour l'ensemble des localisations / Nowadays, countries are called upon to take measures aimed at a better rationalization of electricity resources with a view to sustainable development. Smart Metering solutions have been implemented and now allow a fine reading of consumption. The massive spatio-temporal data collected can thus help to better understand consumption behaviors, be able to forecast them and manage them precisely. The aim is to be able to ensure "intelligent" use of resources to consume less and consume better, for example by reducing consumption peaks or by using renewable energy sources. The thesis work takes place in this context and aims to develop data mining tools in order to better understand electricity consumption behaviors and to predict solar energy production, then enabling intelligent energy management.The first part of the thesis focuses on the classification of typical electrical consumption behaviors at the scale of a building and then a territory. In the first case, an identification of typical daily power consumption profiles was conducted based on the functional K-means algorithm and a Gaussian mixture model. On a territorial scale and in an unsupervised context, the aim is to identify typical electricity consumption profiles of residential users and to link these profiles to contextual variables and metadata collected on users. An extension of the classical Gaussian mixture model has been proposed. This allows exogenous variables such as the type of day (Saturday, Sunday and working day,...) to be taken into account in the classification, thus leading to a parsimonious model. The proposed model was compared with classical models and applied to an Irish database including both electricity consumption data and user surveys. An analysis of the results over a monthly period made it possible to extract a reduced set of homogeneous user groups in terms of their electricity consumption behaviors. We have also endeavoured to quantify the regularity of users in terms of consumption as well as the temporal evolution of their consumption behaviors during the year. These two aspects are indeed necessary to evaluate the potential for changing consumption behavior that requires a demand response policy (shift in peak consumption, for example) set up by electricity suppliers.The second part of the thesis concerns the forecast of solar irradiance over two time horizons: short and medium term. To do this, several approaches have been developed, including autoregressive statistical approaches for modelling time series and machine learning approaches based on neural networks, random forests and support vector machines. In order to take advantage of the different models, a hybrid model combining the different models was proposed. An exhaustive evaluation of the different approaches was conducted on a large database including four locations (Carpentras, Brasilia, Pamplona and Reunion Island), each characterized by a specific climate as well as weather parameters: measured and predicted using NWP models (Numerical Weather Predictions). The results obtained showed that the hybrid model improves the results of photovoltaic production forecasts for all locations
93

Fouille de données à partir de séries temporelles d’images satellites / Data mining from satellite image time series

Khiali, Lynda 28 November 2018 (has links)
Les images satellites représentent de nos jours une source d’information incontournable. Elles sont exploitées dans diverses applications, telles que : la gestion des risques, l’aménagent des territoires, la cartographie du sol ainsi qu’une multitude d’autre taches. Nous exploitons dans cette thèse les Séries Temporelles d’Images Satellites (STIS) pour le suivi des évolutions des habitats naturels et semi-naturels. L’objectif est d’identifier, organiser et mettre en évidence des patrons d’évolution caractéristiques de ces zones.Nous proposons des méthodes d’analyse de STIS orientée objets, en opposition aux approches par pixel, qui exploitent des images satellites segmentées. Nous identifions d’abord les profils d’évolution des objets de la série. Ensuite, nous analysons ces profils en utilisant des méthodes d’apprentissage automatique. Afin d’identifier les profils d’évolution, nous explorons les objets de la série pour déterminer un sous-ensemble d’objets d’intérêt (entités spatio-temporelles/objets de référence). L’évolution de ces entités spatio-temporelles est ensuite illustrée en utilisant des graphes d’évolution.Afin d’analyser les graphes d’évolution, nous avons proposé trois contributions. La première contribution explore des STIS annuelles. Elle permet d’analyser les graphes d’évolution en utilisant des algorithmes de clustering, afin de regrouper les entités spatio-temporelles évoluant similairement. Dans la deuxième contribution, nous proposons une méthode d’analyse pluri-annuelle et multi-site. Nous explorons plusieurs sites d’étude qui sont décrits par des STIS pluri-annuelles. Nous utilisons des algorithmes de clustering afin d’identifier des similarités intra et inter-site. Dans la troisième contribution, nous introduisons une méthode d’analyse semi-supervisée basée sur du clustering par contraintes. Nous proposons une méthode de sélection de contraintes. Ces contraintes sont utilisées pour guider le processus de clustering et adapter le partitionnement aux besoins de l’utilisateur.Nous avons évalué nos travaux sur différents sites d’étude. Les résultats obtenus ont permis d’identifier des profils d’évolution types sur chaque site d’étude. En outre, nous avons aussi identifié des évolutions caractéristiques communes à plusieurs sites. Par ailleurs, la sélection de contraintes pour l’apprentissage semi-supervisé a permis d’identifier des entités profitables à l’algorithme de clustering. Ainsi, les partitionnements obtenus en utilisant l’apprentissage non supervisé ont été améliorés et adaptés aux besoins de l’utilisateur. / Nowadays, remotely sensed images constitute a rich source of information that can be leveraged to support several applications including risk prevention, land use planning, land cover classification and many other several tasks. In this thesis, Satellite Image Time Series (SITS) are analysed to depict the dynamic of natural and semi-natural habitats. The objective is to identify, organize and highlight the evolution patterns of these areas.We introduce an object-oriented method to analyse SITS that consider segmented satellites images. Firstly, we identify the evolution profiles of the objects in the time series. Then, we analyse these profiles using machine learning methods. To identify the evolution profiles, we explore all the objects to select a subset of objects (spatio-temporal entities/reference objects) to be tracked. The evolution of the selected spatio-temporal entities is described using evolution graphs.To analyse these evolution graphs, we introduced three contributions. The first contribution explores annual SITS. It analyses the evolution graphs using clustering algorithms, to identify similar evolutions among the spatio-temporal entities. In the second contribution, we perform a multi-annual cross-site analysis. We consider several study areas described by multi-annual SITS. We use the clustering algorithms to identify intra and inter-site similarities. In the third contribution, we introduce à semi-supervised method based on constrained clustering. We propose a method to select the constraints that will be used to guide the clustering and adapt the results to the user needs.Our contributions were evaluated on several study areas. The experimental results allow to pinpoint relevant landscape evolutions in each study sites. We also identify the common evolutions among the different sites. In addition, the constraint selection method proposed in the constrained clustering allows to identify relevant entities. Thus, the results obtained using the unsupervised learning were improved and adapted to meet the user needs.
94

Fouille de sous-graphes fréquents à base d'arc consistance / Frequent subgraph mining with arc consistency

Douar, Brahim 27 November 2012 (has links)
Avec la croissance importante du besoin d'analyser une grande masse de données structurées tels que les composés chimiques, les structures de protéines ou même les réseaux sociaux, la fouille de sous-graphes fréquents est devenue un défi réel en matière de fouille de données. Ceci est étroitement lié à leur nombre exponentiel ainsi qu'à la NP-complétude du problème d'isomorphisme d'un sous-graphe général. Face à cette complexité, et pour gérer cette taille importante de l'espace de recherche, les méthodes classiques de fouille de graphes ont exploré des heuristiques de recherche basées sur le support, le langage de description des exemples (limitation aux chemins, aux arbres, etc.) ou des hypothèses (recherche de sous-arborescence communes, de chemins communs, etc.). Dans le cadre de cette thèse, nous nous basons sur une méthode d'appariement de graphes issue du domaine de la programmation par contraintes, nommée AC-projection, qui a le mérite d'avoir une complexité polynomiale. Nous introduisons des approches de fouille de graphes permettant d'améliorer les approches existantes pour ce problème. En particulier, nous proposons deux algorithmes, FGMAC et AC-miner, permettant de rechercher les sous-graphes fréquents à partir d'une base de graphes. Ces deux algorithmes profitent, différemment, des propriétés fortes intéressantes de l'AC-projection. En effet, l'algorithme FGMAC adopte un parcours en largeur de l'espace de recherche et exploite l'approche par niveau introduite dans Apriori, tandis que l'algorithme AC-miner parcourt l'espace en profondeur par augmentation de motifs, assurant ainsi une meilleure mise à l'échelle pour les grands graphes. Ces deux approches permettent l'extraction d'un type particulier de graphes, il s'agit de celui des sous-graphes AC-réduits fréquents. Dans un premier temps, nous prouvons, théoriquement, que l'espace de recherche de ces sous-graphes est moins important que celui des sous-graphes fréquents à un isomorphisme près. Ensuite, nous menons une série d'expérimentations permettant de prouver que les algorithmes FGMAC et AC-miner sont plus efficients que ceux de l'état de l'art. Au même temps, nous prouvons que les sous-graphes AC-réduits fréquents, en dépit de leur nombre sensiblement réduit, ont le même pouvoir discriminant que les sous-graphes fréquents à un isomorphisme près. Cette étude est menée en se basant sur une évaluation expérimentale de la qualité des sous-graphes AC-réduits fréquents dans un processus de classification supervisée de graphes. / With the important growth of requirements to analyze large amount of structured data such as chemical compounds, proteins structures, social networks, to cite but a few, graph mining has become an attractive track and a real challenge in the data mining field. Because of the NP-Completeness of subgraph isomorphism test as well as the huge search space, frequent subgraph miners are exponential in runtime and/or memory use. In order to alleviate the complexity issue, existing subgraph miners have explored techniques based on the minimal support threshold, the description language of the examples (only supporting paths, trees, etc.) or hypothesis (search for shared trees or common paths, etc.). In this thesis, we are using a new projection operator, named AC-projection, which exhibits nice complexity properties as opposed to the graph isomorphism operator. This operator comes from the constraints programming field and has the advantage of a polynomial complexity. We propose two frequent subgraph mining algorithms based on the latter operator. The first one, named FGMAC, follows a breadth-first order to find frequent subgraphs and takes advantage of the well-known Apriori levelwise strategy. The second is a pattern-growth approach that follows a depth-first search space exploration strategy and uses powerful pruning techniques in order to considerably reduce this search space. These two approaches extract a set of particular subgraphs named AC-reduced frequent subgraphs. As a first step, we have studied the search space for discovering such frequent subgraphs and proved that this one is smaller than the search space of frequent isomorphic subgraphs. Then, we carried out experiments in order to prove that FGMAC and AC-miner are more efficient than the state-of-the-art algorithms. In the same time, we have studied the relevance of frequent AC-reduced subgraphs, which are much fewer than isomorphic ones, on classification and we conclude that we can achieve an important performance gain without or with non-significant loss of discovered pattern's quality.
95

Contribution au développement de l’apprentissage profond dans les systèmes distribués / Contribution to the development of deep learning in distributed systems

Hardy, Corentin 08 April 2019 (has links)
L'apprentissage profond permet de développer un nombre de services de plus en plus important. Il nécessite cependant de grandes bases de données d'apprentissage et beaucoup de puissance de calcul. Afin de réduire les coûts de cet apprentissage profond, nous proposons la mise en œuvre d'un apprentissage collaboratif. Les futures utilisateurs des services permis par l'apprentissage profond peuvent ainsi participer à celui-ci en mettant à disposition leurs machines ainsi que leurs données sans déplacer ces dernières sur le cloud. Nous proposons différentes méthodes afin d'apprendre des réseaux de neurones profonds dans ce contexte de système distribué. / Deep learning enables the development of a growing number of services. However, it requires large training databases and a lot of computing power. In order to reduce the costs of this deep learning, we propose a distributed computing setup to enable collaborative learning. Future users can participate with their devices and their data without moving private data in datacenters. We propose methods to train deep neural network in this distibuted system context.
96

Sur l'utilisation active de la diversité dans la construction d'ensembles de classifieurs. Application à la détection de fumées nocives sur site industriel

Gacquer, David 05 December 2008 (has links) (PDF)
L'influence de la diversité lors de la construction d'ensembles de classifieurs a soulevé de nombreuses discussions au sein de la communauté de l'Apprentissage Automatique ces dernières années. <br> Une manière particulière de construire un ensemble de classifieurs consiste à sélectionner individuellement les membres de l'ensemble à partir d'un pool de classifieurs en se basant sur des critères prédéfinis. <br> La littérature fait référence à cette méthode sous le terme de paradigme Surproduction et Sélection, également appelé élagage d'ensemble de classifieurs.<br> <br> Les travaux présentés dans cette thèse ont pour objectif d'étudier le compromis entre la précision et la diversité existant dans les ensembles de classifieurs. Nous apportons également certains éléments de réponse sur le comportement insaisissable de la diversité lorsqu'elle est utilisée de manière explicite lors de la construction d'un ensemble de classifieurs.<br> <br> Nous commençons par étudier différents algorithmes d'apprentissage de la littérature. Nous présentons également les algorithmes ensemblistes les plus fréquemment utilisés. Nous définissons ensuite le concept de diversité dans les ensembles de classifieurs ainsi que les différentes méthodes permettant de l'utiliser directement lors de la création de l'ensemble.<br> <br> Nous proposons un algorithme génétique permettant de construire un ensemble de classifieurs en contrôlant le compromis entre précision et diversité lors de la sélection des membres de l'ensemble. Nous comparons notre algorithme avec différentes heuristiques de sélection proposées dans la littérature pour construire un ensemble de classifieurs selon le paradigme Surproduction et Sélection.<br> <br> Les différentes conclusions que nous tirons des résultats obtenus pour différents jeux de données de l'UCI Repository nous conduisent à la proposition de conditions spécifiques pour lesquelles l'utilisation de la diversité peut amener à une amélioration des performances de l'ensemble de classifieurs. Nous montrons également que l'efficacité de l'approche Surproduction et Sélection repose en grande partie sur la stabilité inhérente au problème posé.<br> <br> Nous appliquons finalement nos travaux de recherche au développement d'un système de classification supervisée pour le contrôle de la pollution atmosphérique survenant sur des sites industriels. Ce système est basé sur l'analyse par traitement d'image de scènes à risque enregistrées à l'aide de caméras. Son principal objectif principal est de détecter les rejets de fumées dangereux émis par des usines sidérurgiques et pétro-chimiques.
97

Apprentissage automatique et compréhension dans le cadre d'un dialogue homme-machine téléphonique à initiative mixte

Servan, Christophe 10 December 2008 (has links) (PDF)
Les systèmes de dialogues oraux Homme-Machine sont des interfaces entre un utilisateur et des services. Ces services sont présents sous plusieurs formes : services bancaires, systèmes de réservations (de billets de train, d'avion), etc. Les systèmes de dialogues intègrent de nombreux modules notamment ceux de reconnaissance de la parole, de compréhension, de gestion du dialogue et de synthèse de la parole. Le module qui concerne la problématique de cette thèse est celui de compréhension de la parole. Le processus de compréhension de la parole est généralement séparé du processus de transcription. Il s'agit, d'abord, de trouver la meilleure hypothèse de reconnaissance puis d'appliquer un processus de compréhension. L'approche proposée dans cette thèse est de conserver l'espace de recherche probabiliste tout au long du processus de compréhension en l'enrichissant à chaque étape. Cette approche a été appliquée lors de la campagne d'évaluation MEDIA. Nous montrons l'intérêt de notre approche par rapport à l'approche classique. En utilisant différentes sorties du module de RAP sous forme de graphe de mots, nous montrons que les performances du décodage conceptuel se dégradent linéairement en fonction du taux d'erreurs sur les mots (WER). Cependant nous montrons qu'une approche intégrée, cherchant conjointement la meilleure séquence de mots et de concepts, donne de meilleurs résultats qu'une approche séquentielle. Dans le souci de valider notre approche, nous menons des expériences sur le corpus MEDIA dans les mêmes conditions d'évaluation que lors de la campagne MEDIA. Il s'agit de produire des interprétations sémantiques à partir des transcriptions sans erreur. Les résultats montrent que les performances atteintes par notre modèle sont au niveau des performances des systèmes ayant participé à la campagne d'évaluation. L'étude détaillée des résultats obtenus lors de la campagne MEDIA nous permet de montrer la corrélation entre, d'une part, le taux d'erreur d'interprétation et, d'autre part, le taux d'erreur mots de la reconnaissance de la parole, la taille du corpus d'apprentissage, ainsi que l'ajout de connaissance a priori aux modèles de compréhension. Une analyse d'erreurs montre l'intérêt de modifier les probabilités des treillis de mots avec des triggers, un modèle cache ou d'utiliser des règles arbitraires obligeant le passage dans une partie du graphe et s'appliquant sur la présence d'éléments déclencheurs (mots ou concepts) en fonction de l'historique. On présente les méthodes à base de d'apprentissage automatique comme nécessairement plus gourmandes en terme de corpus d'apprentissage. En modifiant la taille du corpus d'apprentissage, on peut mesurer le nombre minimal ainsi que le nombre optimal de dialogues nécessaires à l'apprentissage des modèles de langages conceptuels du système de compréhension. Des travaux de recherche menés dans cette thèse visent à déterminer quel est la quantité de corpus nécessaire à l'apprentissage des modèles de langages conceptuels à partir de laquelle les scores d'évaluation sémantiques stagnent. Une corrélation est établie entre la taille de corpus nécessaire pour l'apprentissage et la taille de corpus afin de valider le guide d'annotations. En effet, il semble, dans notre cas de l'évaluation MEDIA, qu'il ait fallu sensiblement le même nombre d'exemple pour, d'une part, valider l'annotation sémantique et, d'autre part, obtenir un modèle stochastique " de qualité " appris sur corpus. De plus, en ajoutant des données a priori à nos modèles stochastiques, nous réduisons de manière significative la taille du corpus d'apprentissage nécessaire pour atteindre les même scores du système entièrement stochastique (près de deux fois moins de corpus à score égal). Cela nous permet de confirmer que l'ajout de règles élémentaires et intuitives (chiffres, nombres, codes postaux, dates) donne des résultats très encourageants. Ce constat a mené à la réalisation d'un système hybride mêlant des modèles à base de corpus et des modèles à base de connaissance. Dans un second temps, nous nous appliquons à adapter notre système de compréhension à une application de dialogue simple : un système de routage d'appel. La problématique de cette tâche est le manque de données d'apprentissage spécifiques au domaine. Nous la résolvons en partie en utilisant divers corpus déjà à notre disposition. Lors de ce processus, nous conservons les données génériques acquises lors de la campagne MEDIA et nous y intégrons les données spécifiques au domaine. Nous montrons l'intérêt d'intégrer une tâche de classification d'appel dans un processus de compréhension de la parole spontanée. Malheureusement, nous disposons de très peu de données d'apprentissage relatives au domaine de la tâche. En utilisant notre approche intégrée de décodage conceptuel, conjointement à un processus de filtrage, nous proposons une approche sous forme de sac de mots et de concepts. Cette approche exploitée par un classifieur permet d'obtenir des taux de classification d'appels encourageants sur le corpus de test, alors que le WER est assez élevé. L'application des méthodes développées lors de la campagne MEDIA nous permet d'améliorer la robustesse du processus de routage d'appels.
98

Génération de phrases multilingues par apprentissage automatique de modèles de phrases

Charton, Eric 12 November 2010 (has links) (PDF)
La Génération Automatique de Texte (GAT) est le champ de recherche de la linguistique informatique qui étudie la possibilité d'attribuer à une machine la faculté de produire du texte intelligible. Dans ce mémoire, nous présentons une proposition de système de GAT reposant exclusivement sur des méthodes statistiques. Son originalité est d'exploiter un corpus en tant que ressource de formation de phrases. Cette méthode offre plusieurs avantages : elle simplifie l'implémentation d'un système de GAT en plusieurs langues et améliore les capacités d'adaptations d'un système de génération à un domaine sémantique particulier. La production, d'après un corpus d'apprentissage, des modèles de phrases finement étiquetées requises par notre générateur de texte nous a conduit à mener des recherches approfondies dans le domaine de l'extraction d'information et de la classification. Nous décrivons le système d'étiquetage et de classification de contenus encyclopédique mis au point à cette fin. Dans les étapes finales du processus de génération, les modèles de phrases sont exploités par un module de génération de texte multilingue. Ce module exploite des algorithmes de recherche d'information pour extraire du modèle une phrase pré-existante, utilisable en tant que support sémantique et syntaxique de l'intention à communiquer. Plusieurs méthodes sont proposées pour générer une phrase, choisies en fonction de la complexité du contenu sémantique à exprimer. Nous présentons notamment parmi ces méthodes une proposition originale de génération de phrases complexes par agrégation de proto-phrases de type Sujet, Verbe, Objet. Nous envisageons dans nos conclusions que cette méthode particulière de génération puisse ouvrir des voies d'investigations prometteuses sur la nature du processus de formation de phrases
99

INFÉRENCE DE CONNAISSANCES SÉMANTIQUES, APPLICATION AUX IMAGES SATELLITAIRES

Bordes, Jean-Baptiste 03 April 2009 (has links) (PDF)
Une méthode probabiliste pour annoter des images satellites avec des concepts sémantiques est présentée. Cette méthode part de caractéristiques de bas-niveau quantifiées dans l'image et utilise une phase d'apprentissage à partir des concepts fournis par l'utilisateur avec un lot d'images exemples. La contribution principale est la définition d'un formalisme pour la mise en relation d'un réseau sémantique hiérarchique avec un modèle stochastique. Les liens sémantiques de synonymie, méronymie, hyponymie sont mis en correspondance avec différents types de modélisations inspirées des méthodes utilisées en fouille de données textuelles. Les niveaux de structuration et de généralité des différents concepts utilisés sont pris en compte pour l'annotation et la modélisation de la base de données. Une méthode de sélection de modèle permet de déduire le réseau sémantique correspondant à la modélisation optimale de la base de données. Cette approche exploite ainsi la puissance de description des réseaux sémantique tout en conservant la flexibilité des approches statistiques par apprentissage. La méthode a été évaluée sur des bases de données SPOT5 et Quickbird.
100

Une méthode d'analyse discriminante pour des concepts imprécis

Loutchmia, Dominique 25 September 1998 (has links) (PDF)
Les travaux de cette thèse se situent dans le cadre de la discrimination conceptuelle. Notre objectif est de caractériser des classes d'objets imprécis et structurés, à partir de concepts imprécis. Le modèle de représentation des données utilise un formalisme objet pour décrire les relations de dépendance entre les attributs et modélise l'imprécision à l'aide de termes linguistiques organisés en structure de treillis. Dans un premier temps, nous avons défini des fonctions de reconnaissances floues permettant de mesurer l'appartenance graduelle d'une observation à un concept. Ces fonctions sont construites à partir de métriques qui prennent en compte les différents aspects du modèle. Ensuite, à partir des notions de complétude et de consistance, nous avons élaboré des critères évaluant la qualité de discrimination d'un concept au contour imprécis. L'utilisation de quantificateurs et modificateurs linguistiques permet de préciser cette qualité de discrimination en tenant compte des erreurs de classement. Enfin, nous avons développé des méthodes d'acquisition de concepts imprécis à partir d'exemples et de contre-exemples. Ces méthodes déterminent un recouvrement des exemples à partir de descriptions reconnaissant au plus, un nombre fixe de contre-exemples. Nos méthodes de discrimination s'appuient, pour déterminer efficacement des concepts, sur les opérateurs de généralisation et sur la structure de treillis des descriptions discriminantes. Afin d'améliorer la qualité et la fiabilité des résultats, une procédure de sélection des attributs les plus discriminants a été proposée. Implantées dans un système d'apprentissage, ces différentes méthodes sont appliquées à plusieurs expérimentations.

Page generated in 0.109 seconds