• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 5
  • 3
  • 3
  • Tagged with
  • 11
  • 11
  • 8
  • 7
  • 7
  • 5
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Méthodes avancées pour l'extraction d'informations a partir des images à haute résolution SAR: Méthodes d'évaluation guidées par les modèles utilisateur et par la structure des données.

Espinoza Molina, Daniela 16 May 2011 (has links) (PDF)
Nous nous sommes intéressés au problème de l'extraction d'information dans des images (Image Information Mining IIM) pour Mieux comprendre et exploiter des données en provenance du high resolution Synthetic Aperture Radar (SAR) les avancements dans ce champ de recherche contribuent à l'élaboration d'outils d'exploration interactive et l'extraction du contenu de l'image Dans ce contexte , analyser et évaluer les modèles d'image et méthodes d'extraction d'information adéquats selon les conjectures de l'utilisateur, constituent des problèmes difficiles. Notre travail contribue avec des solutions pour la modélisation de SAR de haute résolution et pour l'estimation du contenu en utilisant une approche d'évaluation pilotés par les données (data-driven), et avec la conception de scénarios pour l'extraction d'information dans des images en y associant l'utilisateur et ses conjectures, réalisée par une approche d'évaluation axée sur l'utilisateur. Pour représenter les données et pour permettre l'extraction de l'information, nous nous concentrons sur les propriétés des images à haute résolution SAR et comment les modèles stochastiques peuvent représenter et caractériser le contenu de l'image après une étape d'estimation des paramètres. Nous réalisons une évaluation et une validation guidée par les données des méthodes d'extraction automatique d'informations pour des scènes en haute résolution SAR basée sur le modèle Gibbs Random Field (GRF). Plus précisément, des modèles Gauss Markov Random Field (GMRF) et Auto-binomial (ABM) sont mis en place dans les méthodes d'extraction d'information suite aux deux niveaux d'inférence bayésienne: ajustement du modèle et sélection du modèle. Les deux méthodes donnent comme résultat une image sans tache (speckle-free) et ses paramètres de la structure. Afin d'évaluer la qualité de ces méthodes, nous réalisons des tests de détection sur des classes telles que les villes, la végétation et des plans d'eau; en utilisant des paramètres qualitatifs spécifiques pour quantifier la qualité de l'enlèvement de la tâche (speckle) La précision de la modélisation et la caractérisation du contenu de l'image sont déterminées en utilisant des classifications supervisées et non supervisées, et les matrices de confusion. Nous concluons que les deux méthodes améliorent l'image pendant le processus de nettoyage de l'image. Le modèle GMRF est plus approprié pour les scènes naturelles et le modèle ABM pour les structures artificielles (man-made). Toutefois, l'évaluation des méthodes d'extraction d'information ne suffit pas pour une validation complète de systèmes de type IIM, parce que nous devons nous adapter aux conjectures de l'utilisateur en créant des scénarios de validation et en évaluant le degré de satisfaction des utilisateurs ainsi comme l'efficacité du processus de récupération. Nous concevons et générons deux cas d'étude, qui reflètent les besoins des utilisateurs dans la résolution rapide d'applications de cartographie. L'utilisateur final est inclus dans la méthode d'évaluation en créant deux scénarios d'évaluation dans le cadre de la surveillance des catastrophes: détection des déversements de pétrole et d'inondation. Les scénarios sont effectués en utilisant des produits ScanSAR et High Resolution Spotlight TerraSAR-X, respectivement. Les métriques quantitatives comme la précision et le rappel (recall) sont utilisés comme facteurs de qualité Afin d'avoir des mesures sur le degré de satisfaction des utilisateurs, un groupe d'évaluateurs sont invités à classer de façon qualitative les résultats récupérés. Nous concluons que l'efficacité du processus de récupération est supérieure à 80 pour cent et le degré de satisfaction des utilisateurs est bonne pour les deux scénarios.
2

Comprendre le Web caché

Senellart, Pierre 12 December 2007 (has links) (PDF)
Le Web caché (également appelé Web profond ou Web invisible), c'est-à-dire la partie du Web qui n'est pas directement accessible par des hyperliens, mais à travers des formulaires HTML ou des services Web, est d'une grande valeur, mais difficile à exploiter. Nous présentons un processus pour la découverte, l'analyse syntaxique et sémantique, et l'interrogation des services du Web caché, le tout de manière entièrement automatique. Nous proposons une architecture générale se basant sur un entrepôt semi-structuré de contenu imprécis (probabiliste). Nous fournissons une analyse détaillée de la complexité du modèle d'arbre probabiliste sous-jacent. Nous décrivons comment une combinaison d'heuristiques et de sondages du Web peut être utilisée pour comprendre la structure d'un formulaire HTML. Nous présentons une utilisation originale des champs aléatoires conditionnels (une méthode d'apprentissage supervisé) de manière non supervisée, sur une annotation automatique, imparfaite et imprécise, basée sur la connaissance du domaine, afin d'extraire l'information pertinente de pages de résultat HTML. Afin d'obtenir des relations sémantiques entre entrées et sorties d'un service du Web caché, nous étudions la complexité de l'obtention d'une correspondance de schémas à partir d'instances de bases de données, en se basant uniquement sur la présence des constantes dans ces deux instances. Nous décrivons enfin un modèle de représentation sémantique et d'indexation en compréhension de sources du Web caché, et débattons de la manière de traiter des requêtes de haut niveau à l'aide de telles descriptions.
3

Multi-scale computational rhythm analysis : a framework for sections, downbeats, beats, and microtiming / Analyse numérique multi-échelle du rythme musical : un cadre unifié pour les sections, premiers temps, temps et microtiming

Fuentes, Magdalena 12 November 2019 (has links)
La modélisation computationnelle du rythme a pour objet l'extraction et le traitement d’informations rythmiques à partir d’un signal audio de musique. Cela s'avère être une tâche extrêmement complexe car, pour traiter un enregistrement audio réel, il faut pouvoir gérer sa complexité acoustique et sémantique à plusieurs niveaux de représentation. Les méthodes d’analyse rythmique existantes se concentrent généralement sur l'un de ces aspects à la fois et n’exploitent pas la richesse de la structure musicale, ce qui compromet la cohérence musicale des estimations automatiques. Dans ce travail, nous proposons de nouvelles approches tirant parti des informations multi-échelles pour l'analyse automatique du rythme. Nos modèles prennent en compte des interdépendances intrinsèques aux signaux audio de musique, en permettant ainsi l’interaction entre différentes échelles de temps et en assurant la cohérence musicale entre elles. En particulier, nous effectuons une analyse systématique des systèmes de l’état de l’art pour la détection des premiers temps, ce qui nous conduit à nous tourner vers des architectures convolutionnelles et récurrentes qui exploitent la modélisation acoustique à court et long terme; nous introduisons un modèle de champ aléatoire conditionnel à saut de chaîne pour la détection des premiers temps. Ce système est conçu pour tirer parti des informations de structure musicale (c'est-à-dire des répétitions de sections musicales) dans un cadre unifié. Nous proposons également un modèle linguistique pour la détection conjointe des temps et du micro-timing dans la musique afro-latino-américaine. Nos méthodes sont systématiquement évaluées sur diverses bases de données, allant de la musique occidentale à des genres plus spécifiques culturellement, et comparés à des systèmes de l’état de l’art, ainsi qu’à des variantes plus simples. Les résultats globaux montrent que nos modèles d’estimation des premiers temps sont aussi performants que ceux de l’état de l'art, tout en étant plus cohérents sur le plan musical. De plus, notre modèle d’estimation conjointe des temps et du microtiming représente une avancée vers des systèmes plus interprétables. Les méthodes présentées ici offrent des alternatives nouvelles et plus holistiques pour l'analyse numérique du rythme, ouvrant des perspectives vers une analyse automatique plus complète de la musique. / Computational rhythm analysis deals with extracting and processing meaningful rhythmical information from musical audio. It proves to be a highly complex task, since dealing with real audio recordings requires the ability to handle its acoustic and semantic complexity at multiple levels of representation. Existing methods for rhythmic analysis typically focus on one of those levels, failing to exploit music’s rich structure and compromising the musical consistency of automatic estimations. In this work, we propose novel approaches for leveraging multi-scale information for computational rhythm analysis. Our models account for interrelated dependencies that musical audio naturally conveys, allowing the interplay between different time scales and accounting for music coherence across them. In particular, we conduct a systematic analysis of downbeat tracking systems, leading to convolutional-recurrent architectures that exploit short and long term acoustic modeling; we introduce a skip-chain conditional random field model for downbeat tracking designed to take advantage of music structure information (i.e. music sections repetitions) in a unified framework; and we propose a language model for joint tracking of beats and micro-timing in Afro-Latin American music. Our methods are systematically evaluated on a diverse group of datasets, ranging from Western music to more culturally specific genres, and compared to state-of-the-art systems and simpler variations. The overall results show that our models for downbeat tracking perform on par with the state of the art, while being more musically consistent. Moreover, our model for the joint estimation of beats and microtiming takes further steps towards more interpretable systems. The methods presented here offer novel and more holistic alternatives for computational rhythm analysis, towards a more comprehensive automatic analysis of music.
4

Accès sémantique aux bases de données documentaires. Techniques symboliques de traitement automatique du langage pour l'indexation thématique et l'extraction d'informations temporelles

Kevers, Laurent 31 January 2011 (has links) (PDF)
Dans le contexte actuel d'une société et d'une économie centrées sur l'information, l'accès à la masse grandissante de documents électroniques est devenu un enjeu capital. De nombreux outils de recherche d'informations se contentent cependant d'un scénario de recherche classique, basé sur les mots. Pourtant, la relation entre un concept et son expression ne se limite pas toujours à un lien unique. Ainsi, un concept peut souvent être désigné par plusieurs expressions (« chômeur » et « demandeur d'emploi »), et inversement, un mot peut aussi parfois désigner plusieurs concepts différents (« carotte » en tant que légume ou en géologie). Afin de gérer cette difficulté, il peut être intéressant de représenter les documents non plus dans un espace de mots, mais dans un espace de concepts. Dans cette thèse, nous proposons trois façons d'apporter des éléments de sens à la représentation des documents : une méthode de classification supervisée (semi-)automatique de documents, la prise en compte de manière particulière de certains éléments d'informations, comme le temps, et finalement un système d'indexation thématico-temporel qui montre l'intérêt, et les perspectives en termes applicatifs, de cette approche multidimensionnelle et sémantique de l'accès à l'information.
5

Analyse sémantique automatique des adverbiaux de localisation temporelle : application à la recherche d'information et à l'acquisition de connaissances

Teissèdre, Charles 22 November 2012 (has links) (PDF)
Cette thèse concerne la question de l'accès aux textes numériques, en particulier de l'accès à leur " contenu informationnel ", vu sous l'angle de l'ancrage temporel. Conciliant une approche linguistique et une approche applicative, ils visent à contribuer à l'élaboration de nouveaux outils pour la fouille de textes, la recherche d'information et la gestion des connaissances - nouveaux outils en mesure de tirer parti de la sémantique des informations relatives au repérage temporel exprimées dans les textes. Il s'agit ainsi à la fois de mettre en œuvre des systèmes d'interaction avec les utilisateurs et de parvenir à modéliser la sémantique des unités textuelles qui contribuent de façon saillante à l'ancrage dans le temps des situations décrites dans les textes : les adverbiaux de localisation temporelle. La représentation formelle que l'on en propose, qui procède d'une analyse linguistique, les décrit sous la forme d'une succession d'opérations sémantiques. Cette représentation permet de pouvoir décrire des informations présentant un certain degré d'indétermination sans en fermer l'interprétation (" jusque vers la fin des années 30 "). Elle permet également d'exprimer des informations en intension (" de février à août, tous les jours sauf le dimanche, de 10h à 19h "). Cette représentation est ainsi plus expressive que les modèles généralement utilisés en ingénierie des connaissances - modèles qui, le plus souvent, représentent un repère temporel sous la forme d'une date ou d'un intervalle de dates. Articulant notre proposition de modélisation avec les modèles standards des intervalles de dates, nous montrons qu'il devient possible d'élaborer de nouveaux systèmes de recherche d'information, susceptibles de traiter des requêtes associant un critère calendaire avec un ensemble de mots-clés, telles que " les universités au début du XIIe siècle " ou " le vote des femmes depuis 1900 ", par exemple. S'appuyant sur les outils développés en ce sens, on montre qu'il devient également possible d'interagir avec des données structurées décrivant des informations temporelles, à la fois pour les interroger et pour les enrichir de façon semi-automatique, afin, par exemple, de constituer des bases de connaissances.
6

Anomaly detection technique for sequential data / Technique de détection d'anomalies utilisant des données séquentielles

Pellissier, Muriel 15 October 2013 (has links)
De nos jours, beaucoup de données peuvent être facilement accessibles. Mais toutes ces données ne sont pas utiles si nous ne savons pas les traiter efficacement et si nous ne savons pas extraire facilement les informations pertinentes à partir d'une grande quantité de données. Les techniques de détection d'anomalies sont utilisées par de nombreux domaines afin de traiter automatiquement les données. Les techniques de détection d'anomalies dépendent du domaine d'application, des données utilisées ainsi que du type d'anomalie à détecter.Pour cette étude nous nous intéressons seulement aux données séquentielles. Une séquence est une liste ordonnée d'objets. Pour de nombreux domaines, il est important de pouvoir identifier les irrégularités contenues dans des données séquentielles comme par exemple les séquences ADN, les commandes d'utilisateur, les transactions bancaires etc.Cette thèse présente une nouvelle approche qui identifie et analyse les irrégularités de données séquentielles. Cette technique de détection d'anomalies peut détecter les anomalies de données séquentielles dont l'ordre des objets dans les séquences est important ainsi que la position des objets dans les séquences. Les séquences sont définies comme anormales si une séquence est presque identique à une séquence qui est fréquente (normale). Les séquences anormales sont donc les séquences qui diffèrent légèrement des séquences qui sont fréquentes dans la base de données.Dans cette thèse nous avons appliqué cette technique à la surveillance maritime, mais cette technique peut être utilisée pour tous les domaines utilisant des données séquentielles. Pour notre application, la surveillance maritime, nous avons utilisé cette technique afin d'identifier les conteneurs suspects. En effet, de nos jours 90% du commerce mondial est transporté par conteneurs maritimes mais seulement 1 à 2% des conteneurs peuvent être physiquement contrôlés. Ce faible pourcentage est dû à un coût financier très élevé et au besoin trop important de ressources humaines pour le contrôle physique des conteneurs. De plus, le nombre de conteneurs voyageant par jours dans le monde ne cesse d'augmenter, il est donc nécessaire de développer des outils automatiques afin d'orienter le contrôle fait par les douanes afin d'éviter les activités illégales comme les fraudes, les quotas, les produits illégaux, ainsi que les trafics d'armes et de drogues. Pour identifier les conteneurs suspects nous comparons les trajets des conteneurs de notre base de données avec les trajets des conteneurs dits normaux. Les trajets normaux sont les trajets qui sont fréquents dans notre base de données.Notre technique est divisée en deux parties. La première partie consiste à détecter les séquences qui sont fréquentes dans la base de données. La seconde partie identifie les séquences de la base de données qui diffèrent légèrement des séquences qui sont fréquentes. Afin de définir une séquence comme normale ou anormale, nous calculons une distance entre une séquence qui est fréquente et une séquence aléatoire de la base de données. La distance est calculée avec une méthode qui utilise les différences qualitative et quantitative entre deux séquences. / Nowadays, huge quantities of data can be easily accessible, but all these data are not useful if we do not know how to process them efficiently and how to extract easily relevant information from a large quantity of data. The anomaly detection techniques are used in many domains in order to help to process the data in an automated way. The anomaly detection techniques depend on the application domain, on the type of data, and on the type of anomaly.For this study we are interested only in sequential data. A sequence is an ordered list of items, also called events. Identifying irregularities in sequential data is essential for many application domains like DNA sequences, system calls, user commands, banking transactions etc.This thesis presents a new approach for identifying and analyzing irregularities in sequential data. This anomaly detection technique can detect anomalies in sequential data where the order of the items in the sequences is important. Moreover, our technique does not consider only the order of the events, but also the position of the events within the sequences. The sequences are spotted as anomalous if a sequence is quasi-identical to a usual behavior which means if the sequence is slightly different from a frequent (common) sequence. The differences between two sequences are based on the order of the events and their position in the sequence.In this thesis we applied this technique to the maritime surveillance, but this technique can be used by any other domains that use sequential data. For the maritime surveillance, some automated tools are needed in order to facilitate the targeting of suspicious containers that is performed by the customs. Indeed, nowadays 90% of the world trade is transported by containers and only 1-2% of the containers can be physically checked because of the high financial cost and the high human resources needed to control a container. As the number of containers travelling every day all around the world is really important, it is necessary to control the containers in order to avoid illegal activities like fraud, quota-related, illegal products, hidden activities, drug smuggling or arm smuggling. For the maritime domain, we can use this technique to identify suspicious containers by comparing the container trips from the data set with itineraries that are known to be normal (common). A container trip, also called itinerary, is an ordered list of actions that are done on containers at specific geographical positions. The different actions are: loading, transshipment, and discharging. For each action that is done on a container, we know the container ID and its geographical position (port ID).This technique is divided into two parts. The first part is to detect the common (most frequent) sequences of the data set. The second part is to identify those sequences that are slightly different from the common sequences using a distance-based method in order to classify a given sequence as normal or suspicious. The distance is calculated using a method that combines quantitative and qualitative differences between two sequences.
7

Analyse automatique d'opinion : problématique de l'intensité et de la négation pour l'application à un corpus journalistique

Zhang, Lei 11 December 2012 (has links) (PDF)
La problématique de l'analyse d'opinion connaît un intérêt croissant depuis une quinzaine d'années. Cette problématique mène à de nombreux travaux ayant des objectifs allant de la constitution de ressources lexicales à l'identification des cibles d'une opinion. Le cadre applicatif de notre étude est l'analyse automatique d'articles de journaux pour la veille d'opinion. Ce cadre est ambitieux vis-à-vis de l'état de l'art puisque nous sommes amené à étudier un grand nombre de critères propres à l'analyse d'opinion. Nous proposons un modèle conceptuel permettant de caractériser une opinion par la polarité, l'intensité, la prototypicalité, la cible, la source, l'engagement de l'auteur, etc. En particulier, nous modélisons la négation et ses effets sur l'intensité et la polarité. En plus des cas classiques de négation, nous sommes en mesure de modéliser des effets de rhétoriques tels que l'euphémisme ou la litote, très présents dans le genre journalistique. À partir de ce modèle conceptuel, nous présentons un ensemble de choix techniques permettant de préciser les ressources et traitements nécessaires à l'automatisation. Nous mettons en œuvre deux applications (en chinois et en français) de la chaîne de traitements issue du modèle permettant de confirmer la validité du modèle conceptuel ainsi que l'efficacité des traitements automatiques.
8

Discours de presse et veille stratégique d'événements Approche textométrique et extraction d'informations pour la fouille de textes

Erin, Macmurray 02 July 2012 (has links) (PDF)
Ce travail a pour objet l'étude de deux méthodes de fouille automatique de textes, l'extraction d'informations et la textométrie, toutes deux mises au service de la veille stratégique des événements économiques. Pour l'extraction d'informations, il s'agit d'identifier et d'étiqueter des unités de connaissances, entités nommées -- sociétés, lieux, personnes, qui servent de points d'entrée pour les analyses d'activités ou d'événements économiques -- fusions, faillites, partenariats, impliquant ces différents acteurs. La méthode textométrique, en revanche, met en oeuvre un ensemble de modèles statistiques permettant l'analyse des distributions de mots dans de vastes corpus, afin faire émerger les caractéristiques significatives des données textuelles. Dans cette recherche, la textométrie, traditionnellement considérée comme étant incompatible avec la fouille par l'extraction, est substituée à cette dernière pour obtenir des informations sur des événements économiques dans le discours. Plusieurs analyses textométriques (spécificités et cooccurrences) sont donc menées sur un corpus de flux de presse numérisé. On étudie ensuite les résultats obtenus grâce à la textométrie en vue de les comparer aux connaissances mises en évidence au moyen d'une procédure d'extraction d'informations. On constate que chacune des approches contribuent différemment au traitement des données textuelles, produisant toutes deux des analyses complémentaires. À l'issue de la comparaison est exposé l'apport des deux méthodes de fouille pour la veille d'événements.
9

Classification automatique des signaux audio-fréquences : reconnaissance des instruments de musique

Essid, Slim 13 December 2005 (has links) (PDF)
L'objet de cette thèse est de contribuer à améliorer l'identification automatique des instruments de musique dans des contextes réalistes, (sur des solos de musique, mais également sur des pièces multi-instrumentales). Nous abordons le problème suivant une approche de classification automatique en nous efforçant de rechercher des réalisations performantes des différents modules constituant le système que nous proposons. Nous adoptons un schéma de classification hiérarchique basé sur des taxonomies des instruments et des mélanges d'instruments. Ces taxonomies sont inférées au moyen d'un algorithme de clustering hiérarchique exploitant des distances probabilistes robustes qui sont calculées en utilisant une méthode à noyau. Le système exploite un nouvel algorithme de sélection automatique des attributs pour produire une description efficace des signaux audio qui, associée à des machines à vecteurs supports, permet d'atteindre des taux de reconnaissance élevés sur des pièces sonores reflétant la diversité de la pratique musicale et des conditions d'enregistrement rencontrées dans le monde réel. Notre architecture parvient ainsi à identifier jusqu'à quatre instruments joués simultanément, à partir d'extraits de jazz incluant des percussions.
10

De l'utilisation des noyaux maxitifs en traitement de l'information

Loquin, Kevin 03 November 2008 (has links) (PDF)
Dans cette thèse, nous proposons et développons de nouvelles méthodes en statistiques et en traitement du signal et des images basées sur la théorie des possibilités. Ces nouvelles méthodes sont des adaptations d'outils usuels de traitement d'information dont le but est de prendre en compte les défauts dus à la méconnaissance de l'utilisateur sur la modélisation du phénomène observé. Par cette adaptation, on passe de méthodes dont les sorties sont précises, ponctuelles, à des méthodes dont les sorties sont intervallistes et donc imprécises. Les intervalles produits reflètent, de façon cohérente, l'arbitraire dans le choix des paramètres lorsqu'une méthode classique est utilisée.<br />Beaucoup d'algorithmes en traitement du signal ou en statistiques utilisent, de façon plus ou moins explicite, la notion d'espérance mathématique associée à une représentation probabiliste du voisinage d'un point, que nous appelons noyau sommatif. Nous regroupons ainsi, sous la dénomination d'extraction sommative d'informations, des méthodes aussi diverses que la modélisation de la mesure, le filtrage linéaire, les processus d'échantillonnage, de reconstruction et de dérivation d'un signal numérique, l'estimation de densité de probabilité et de fonction de répartition par noyau ou par histogramme,...<br />Comme alternative à l'extraction sommative d'informations, nous présentons la méthode d'extraction maxitive d'informations qui utilise l'intégrale de Choquet associée à une représentation possibiliste du voisinage d'un point, que nous appelons noyau maxitif. La méconnaissance sur le noyau sommatif est prise en compte par le fait qu'un noyau maxitif représente une famille de noyaux sommatifs. De plus, le résultat intervalliste de l'extraction maxitive d'informations est l'ensemble des résultats ponctuels des extractions sommatives d'informations obtenues avec les noyaux sommatifs de la famille représentée par le noyau maxitif utilisé. En plus de cette justification théorique, nous présentons une série d'applications de l'extraction maxitive d'informations en statistiques et en traitement du signal qui constitue une boîte à outils à enrichir et à utiliser sur des cas réels.

Page generated in 0.5641 seconds