  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.

Extraction de l'ECG du foetus et de ses caractéristiques grâce à la multi-modalité / Extraction of fetal ECG and its characteristics using multi-modality

Noorzadeh, Saman 02 November 2015 (has links)
La surveillance de la santé foetale permet aux cliniciens d’évaluer le bien-être du foetus,de faire une détection précoce des anomalies cardiaques foetales et de fournir les traitementsappropriés. Les développements technologies actuels visent à permettre la mesurede l’électrocardiogramme (ECG) foetal de façon non-invasive afin d’extraire non seulementle rythme cardiaque mais également la forme d’onde du signal. Cet objectif est rendudifficile par le faible rapport signal sur bruit des signaux mesurés sur l’abdomen maternel.Cette mesure est donc toujours un challenge auquel se confrontent beaucoup d’études quiproposent des solutions de traitement de signal basées sur la seule modalité ECG.Le but de cette thèse est d’utiliser la modélisation des processus Gaussiens pour améliorerl’extraction des signaux cardiaques foetaux, dans une base multi-modale. L’ECG est utiliséconjointement avec le signal Phonocardiogramme (PCG) qui peut apporter une informationcomplémentaire à l’ECG. Une méthode générale pour la modélisation des signauxquasi-périodiques est présentée avec l’application au débruitage de l’ECG et à l’extractionde l’ECG du foetus. Différents aspects de la multi-modalité (synchronisation, · · · ) proposéesont étudiées afin de détecter avec plus de robustesse les battements cardiaques foetaux.La méthode considère l’application sur les signaux ECG et PCG à travers deux aspects:l’aspect du traitement du signal et l’expérimental. La modélisation des processus Gaussien,avec le signal PCG pris comme la référence, est utilisée pour extraire des modèles flexibleset des estimations non linéaires de l’information. La méthode cherche également à faciliterla mise en oeuvre pratique en utilisant un codage 1-bit des signaux de référence.Le modèle proposé est validé sur des signaux synthétiques et également sur des donnéespréliminaires réelles qui ont été enregistrées afin d’amorcer la constitution d’une base dedonnées multi-modale synchronisée. Les premiers résultats montrent que la méthode permettraà terme aux cliniciens d’étudier les battements cardiaques ainsi que la morphologiede l’ECG. Ce dernier aspect était jusqu’à présent limité à l’analyse d’enregistrements ECGinvasifs prélevés pendant l’accouchement par le biais d’électrodes posées sur le scalp dufoetus. / Fetal health must be carefully monitored during pregnancy to detect early fetal cardiac diseases, and provide appropriate treatment. Technological development allows a monitoring during pregnancy using the non-invasive fetal electrocardiogram (ECG). Noninvasive fetal ECG is a method not only to detect fetal heart rate, but also to analyze the morphology of fetal ECG, which is now limited to analysis of the invasive ECG during delivery. However, the noninvasive fetal ECG recorded from the mother's abdomen is contaminated with several noise sources among which the maternal ECG is the most prominent.In the present study, the problem of noninvasive fetal ECG extraction is tackled using multi-modality. Beside ECG signal, this approach benefits from the Phonocardiogram (PCG) signal as another signal modality, which can provide complementary information about the fetal ECG.A general method for quasi-periodic signal analysis and modeling is first described and its application to ECG denoising and fetal ECG extraction is explained. Considering the difficulties caused by the synchronization of the two modalities, the event detection in the quasi-periodic signals is also studied which can be specified to the detection of the R-peaks in the ECG signal.The method considers both clinical and signal processing aspects of the application on ECG and PCG signals. These signals are introduced and their characteristics are explained. Then, using PCG signal as the reference, the Gaussian process modeling is employed to provide the possibility of flexible models as nonlinear estimations. The method also tries to facilitate the practical implementation of the device by using the less possible number of channels and also by using only 1-bit reference signal.The method is tested on synthetic data and also on real data that is recorded to provide a synchronous multi-modal data set.Since a standard agreement for the acquisition of these modalities is not yet taken into much consideration, the factors which influence the signals in recording procedure are introduced and their difficulties and effects are investigated.The results show that the multi-modal approach is efficient in the detection of R-peaks and so in the extraction of fetal heart rate, and it also provides the results about the morphology of fetal ECG.

Egocentric Audio-Visual Scene Analysis : a machine learning and signal processing approach / Analyse audio-visuelle de la scène d'un point de vue égocentrique : une approche par de l'apprentissage automatique et du traitement du signal.

Alameda-Pineda, Xavier 15 October 2013 (has links)
Depuis les vingt dernières années, l'industrie a développé plusieurs produits commerciaux dotés de capacités auditives et visuelles. La grand majorité de ces produits est composée d'un caméscope et d'un microphone embarqué (téléphones portables, tablettes, etc). D'autres, comme la Kinect, sont équipés de capteurs de profondeur et/ou de petits réseaux de microphones. On trouve également des téléphones portables dotés d'un système de vision stéréo. En même temps, plusieurs systèmes orientés recherche sont apparus (par exemple, le robot humanoïde NAO). Du fait que ces systèmes sont compacts, leurs capteurs sont positionnés près les uns des autres. En conséquence, ils ne peuvent pas capturer la scène complète, mais qu'un point de vue très particulier de l'interaction sociale en cours. On appelle cela "Analyse Égocentrique de Scènes Audio-Visuelles''.Cette thèse contribue à cette thématique de plusieurs façons. D'abord, en fournissant une base de données publique qui cible des applications comme la reconnaissance d'actions et de gestes, localisation et suivi d'interlocuteurs, analyse du tour de parole, localisation de sources auditives, etc. Cette base a été utilisé en dedans et en dehors de cette thèse. Nous avons aussi travaillé le problème de la détection d'événements audio-visuels. Nous avons montré comme la confiance en une des modalités (issue de la vision en l'occurrence), peut être modélisée pour biaiser la méthode, en donnant lieu à un algorithme d'espérance-maximisation visuellement supervisé. Ensuite, nous avons modifié l'approche pour cibler la détection audio-visuelle d'interlocuteurs en utilisant le robot humanoïde NAO. En parallèle aux travaux en détection audio-visuelle d'interlocuteurs, nous avons développé une nouvelle approche pour la reconnaissance audio-visuelle de commandes. Nous avons évalué la qualité de plusieurs indices et classeurs, et confirmé que l'utilisation des données auditives et visuelles favorise la reconnaissance, en comparaison aux méthodes qui n'utilisent que l'audio ou que la vidéo. Plus tard, nous avons cherché la meilleure méthode pour des ensembles d'entraînement minuscules (5-10 observations par catégorie). Il s'agit d'un problème intéressant, car les systèmes réels ont besoin de s'adapter très rapidement et d'apprendre de nouvelles commandes. Ces systèmes doivent être opérationnels avec très peu d'échantillons pour l'usage publique. Pour finir, nous avons contribué au champ de la localisation de sources sonores, dans le cas particulier des réseaux coplanaires de microphones. C'est une problématique importante, car la géométrie du réseau est arbitraire et inconnue. En conséquence, cela ouvre la voie pour travailler avec des réseaux de microphones dynamiques, qui peuvent adapter leur géométrie pour mieux répondre à certaines tâches. De plus, la conception des produits commerciaux peut être contrainte de façon que les réseaux linéaires ou circulaires ne sont pas bien adaptés. / Along the past two decades, the industry has developed several commercial products with audio-visual sensing capabilities. Most of them consists on a videocamera with an embedded microphone (mobile phones, tablets, etc). Other, such as Kinect, include depth sensors and/or small microphone arrays. Also, there are some mobile phones equipped with a stereo camera pair. At the same time, many research-oriented systems became available (e.g., humanoid robots such as NAO). Since all these systems are small in volume, their sensors are close to each other. Therefore, they are not able to capture de global scene, but one point of view of the ongoing social interplay. We refer to this as "Egocentric Audio-Visual Scene Analysis''.This thesis contributes to this field in several aspects. Firstly, by providing a publicly available data set targeting applications such as action/gesture recognition, speaker localization, tracking and diarisation, sound source localization, dialogue modelling, etc. This work has been used later on inside and outside the thesis. We also investigated the problem of AV event detection. We showed how the trust on one of the modalities (visual to be precise) can be modeled and used to bias the method, leading to a visually-supervised EM algorithm (ViSEM). Afterwards we modified the approach to target audio-visual speaker detection yielding to an on-line method working in the humanoid robot NAO. In parallel to the work on audio-visual speaker detection, we developed a new approach for audio-visual command recognition. We explored different features and classifiers and confirmed that the use of audio-visual data increases the performance when compared to auditory-only and to video-only classifiers. Later, we sought for the best method using tiny training sets (5-10 samples per class). This is interesting because real systems need to adapt and learn new commands from the user. Such systems need to be operational with a few examples for the general public usage. Finally, we contributed to the field of sound source localization, in the particular case of non-coplanar microphone arrays. This is interesting because the geometry of the microphone can be any. Consequently, this opens the door to dynamic microphone arrays that would adapt their geometry to fit some particular tasks. Also, because the design of commercial systems may be subject to certain constraints for which circular or linear arrays are not suited.

Expressing emotions through vibration for perception and control / Expressing emotions through vibration

ur Réhman, Shafiq January 2010 (has links)
This thesis addresses a challenging problem: “how to let the visually impaired ‘see’ others emotions”. We, human beings, are heavily dependent on facial expressions to express ourselves. A smile shows that the person you are talking to is pleased, amused, relieved etc. People use emotional information from facial expressions to switch between conversation topics and to determine attitudes of individuals. Missing emotional information from facial expressions and head gestures makes the visually impaired extremely difficult to interact with others in social events. To enhance the visually impaired’s social interactive ability, in this thesis we have been working on the scientific topic of ‘expressing human emotions through vibrotactile patterns’. It is quite challenging to deliver human emotions through touch since our touch channel is very limited. We first investigated how to render emotions through a vibrator. We developed a real time “lipless” tracking system to extract dynamic emotions from the mouth and employed mobile phones as a platform for the visually impaired to perceive primary emotion types. Later on, we extended the system to render more general dynamic media signals: for example, render live football games through vibration in the mobile for improving mobile user communication and entertainment experience. To display more natural emotions (i.e. emotion type plus emotion intensity), we developed the technology to enable the visually impaired to directly interpret human emotions. This was achieved by use of machine vision techniques and vibrotactile display. The display is comprised of a ‘vibration actuators matrix’ mounted on the back of a chair and the actuators are sequentially activated to provide dynamic emotional information. The research focus has been on finding a global, analytical, and semantic representation for facial expressions to replace state of the art facial action coding systems (FACS) approach. We proposed to use the manifold of facial expressions to characterize dynamic emotions. The basic emotional expressions with increasing intensity become curves on the manifold extended from the center. The blends of emotions lie between those curves, which could be defined analytically by the positions of the main curves. The manifold is the “Braille Code” of emotions. The developed methodology and technology has been extended for building assistive wheelchair systems to aid a specific group of disabled people, cerebral palsy or stroke patients (i.e. lacking fine motor control skills), who don’t have ability to access and control the wheelchair with conventional means, such as joystick or chin stick. The solution is to extract the manifold of the head or the tongue gestures for controlling the wheelchair. The manifold is rendered by a 2D vibration array to provide user of the wheelchair with action information from gestures and system status information, which is very important in enhancing usability of such an assistive system. Current research work not only provides a foundation stone for vibrotactile rendering system based on object localization but also a concrete step to a new dimension of human-machine interaction. / Taktil Video

