Global ETD Search

561	Approche informée pour l'analyse du son et de la musique Fourer, Dominique 11 December 2013 (has links) (PDF) En traitement du signal audio, l'analyse est une étape essentielle permettant de comprendre et d'inter-agir avec les signaux existants. En effet, la qualité des signaux obtenus par transformation ou par synthèse des paramètres estimés dépend de la précision des estimateurs utilisés. Cependant, des limitations théoriques existent et démontrent que la qualité maximale pouvant être atteinte avec une approche classique peut s'avérer insufﬁsante dans les applications les plus exigeantes (e.g. écoute active de la musique). Le travail présenté dans cette thèse revisite certains problèmes d'analyse usuels tels que l'analyse spectrale, la transcription automatique et la séparation de sources en utilisant une approche dite "informée". Cette nouvelle approche exploite la conﬁguration des studios de musique actuels qui maitrisent la chaîne de traitement avant l'étape de création du mélange. Dans les solutions proposées, de l'information complémentaire minimale calculée est transmise en même temps que le signal de mélange aﬁn de permettre certaines transformations sur celui-ci tout en garantissant le niveau de qualité. Lorsqu'une compatibilité avec les formats audio existants est nécessaire, cette information est cachée à l'intérieur du mélange lui-même de manière inaudible grâce au tatouage audionumérique. Ce travail de thèse présente de nombreux aspects théoriques et pratiques dans lesquels nous montrons que la combinaison d'un estimateur avec de l'information complémentaire permet d'améliorer les performances des approches usuelles telles que l'estimation non informée ou le codage pur. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Audio Analyse spectrale Estimation Codage audio Séparation de sources Transcription automatique de la musique
562	Nie-destruktiewe klankonttrekking, restourasie en spraakverheffing van Edison-fonograafsilinders Van der Westhuizen, Ewald 12 1900 (has links) Thesis (MScEng)--University of Stellenbosch, 2003. / ENGLISH ABSTRACT: Two non-destructive methods of extracting audio from Edison phonographic cylinders were investigated. A recording device with high accuracy positioning was designed and manufactured. A microscopic image method was investigated first. Surface images of the cylinder were obtained using a webcamera. An audio signal was then extracted from the width modulation. Results were not pleasing as echoes caused by intergroove modulation were perceptable. The audio also lacked resolution. The true modulation of the audio is not embedded in the width, but in the depth of the groove. The second audio extraction method involved using a laser pick-up from a compact disc player to measure the depth of the groove. Three laser recording methods were investigated. The first was forward recording, that measured the depth modulation in the recording direction of the groove. The second method, backward recording, was identical to forward recording with the mechanical system moving in reverse. Four recordings from different positions in the groove were combined to create an audio signal. This combination of recordings showed a substantial improvement in the signal-to-noise ratio. A third recording method, transverse recording, that measured the whole depth profile of the groove was also investigated. The groove profile was then processed to an audio signal. A manual audio restoration program was written to replace visible sections of distorted data with better interpolations. Two speech enhancement methods were investigated, the first being the most commonly used speech enhancement method for digital audio restoration, Short-Time Spectral Attenuation (STSA). The second method is based on linear predictive coefficient (LPC) estimation of short-time frames. The two methods were evaluated by means of listening tests. The LPC enhancement method was preferred because it enhanced the intelligibility of the speech. / AFRIKAANSE OPSOMMING: Twee nie-destruktiewe metodes om klank van Edison-fonograafsilinders te onttrek, is ondersoek. 'n Opneemtoestel, wat die silinders met baie hoë akkuraatheid posisioneer, IS ontwerp en vervaardig. 'n Mikroskopiese beeldrnetode IS as eerste klankonttrekkingsmetode ondersoek. Mikroskopiese beelde is met 'n webkamera van die silinderoppervlak geneem. Klank is vanuit die wydtemodulasie sigbaar in die beelde onttrek. Resultate was nie bevredigend nie weens groefintermodulasie-eggo's en 'n tekort aan resolusie. Die ware modulasie van die klank is nie in die wydte van die groefie gegraveer nie, maar in die diepte. Die tweede klankonttrekkingsmetode gebruik 'n aangepaste lasersensor van 'n CD-speler om die dieptemodulasie van die groefie te meet. Drie laseropneemmetodes is ondersoek. Die eerste is voorwaartse opname, wat die dieptemodulasie in die opneemrigting van die groefie meet. 'n Tweede opneemmetode, truwaartse opname, is identies aan voorwaartse opname, behalwe dat die meganiese stelsel in trurat beweeg. Vier opnames vanuit verskillende posisies in die groefbreedte is gekombineer om 'n klanksein te vorm. Die kombinasie van vier opnames toon 'n beduidende verbetering op die sein-tot-ruis-verhouding. Dit het aanleiding gegee tot die derde opneemmetode, dwarsskandering, wat die hele profiel van die groef meet. Die groefprofiel word dan verwerk tot 'n klanksein. 'n Handoudiorestourasieprogram is geskryf om sigbare verwringing in die klanksein met beter interpolasies te vervang. Twee spraakverheffingsmetodes is ondersoek. Short- Time Spectral Attenuation (STSA) is die mees gebruikte metode vir oudiorestourasie. 'n Tweede spraakverheffingsmetode wat van 'n lineêre voorspellingskoëffisiëntafskatting (LPC-afskatting) van korttydraampies gebruik maak, is ook toegepas. Die twee metodes is deur luistertoetse teen mekaar opgeweeg. Die LPCmetode is verkies aangesien dit die verstaanbaarheid van die spraak beter behoue laat bly. Phonocylinders Sound recordings Sound -- Recording and reproducing Dissertations -- Electronic engineering Speech enhancement Audio restoration Audio extraction Theses -- Electronic engineering
563	Reconnaissance de scènes multimodale embarquée / Embedded multimodal scene recognition Blachon, David 29 February 2016 (has links) Contexte : Cette thèse se déroule dans les contextes de l'intelligence ambiante et de la reconnaissance de scène (sur mobile). Historiquement, le projet vient de l'entreprise ST-Ericsson. Il émane d'un besoin de développer et intégrer un "serveur de contexte" sur smartphone capable d'estimer et de fournir des informations de contexte pour les applications tierces qui le demandent. Un exemple d'utilisation consiste en une réunion de travail où le téléphone sonne~; grâce à la reconnaissance de la scène, le téléphone peut automatiquement réagir et adapter son comportement, par exemple en activant le mode vibreur pour ne pas déranger.Les principaux problèmes de la thèse sont les suivants : d'abord, proposer une définition de ce qu'est une scène et des exemples de scènes pertinents pour l'application industrielle ; ensuite, faire l'acquisition d'un corpus de données à exploiter par des approches d'apprentissage automatique~; enfin, proposer des solutions algorithmiques au problème de la reconnaissance de scène.Collecte de données : Aucune des bases de données existantes ne remplit les critères fixés (longs enregistrements continus, composés de plusieurs sources de données synchronisées dont l'audio, avec des annotations pertinentes).Par conséquent, j'ai développé une application Android pour la collecte de données. L'application est appelée RecordMe et a été testé avec succès sur plus de 10 appareils. L'application a été utilisée pour 2 campagnes différentes, incluant la collecte de scènes. Cela se traduit par plus de 500 heures enregistrées par plus de 25 bénévoles, répartis principalement dans la région de Grenoble, mais aussi à l'étranger (Dublin, Singapour, Budapest). Pour faire face au problème de protection de la vie privée et de sécurité des données, des mesures ont été mises en place dans le protocole et l'application de collecte. Par exemple, le son n'est pas sauvegardé, mes des coefficients MFCCs sont enregistrés.Définition de scène : L'étude des travaux existants liés à la tâche de reconnaissance de scène, et l'analyse des annotations fournies par les bénévoles lors de la collecte de données, ont permis de proposer une définition d'une scène. Elle est définie comme la généralisation d'une situation, composée d'un lieu et une action effectuée par une seule personne (le propriétaire du smartphone). Des exemples de scènes incluent les moyens de transport, la réunion de travail, ou le déplacement à pied dans la rue. La notion de composition permet de décrire la scène avec plusieurs types d'informations. Cependant, la définition est encore trop générique, et elle pourrait être complétée par des informations additionnelles, intégrée à la définition comme de nouveaux éléments de la composition.Algorithmique : J'ai réalisé plusieurs expériences impliquant des techniques d'apprentissage automatique supervisées et non non-supervisées. La partie supervisée consiste en de la classification. La méthode est commune~: trouver des descripteurs des données pertinents grâce à l'utilisation d'une méthode de sélection d'attribut ; puis, entraîner et tester plusieurs classifieurs (arbres de décisions et forêt d'arbres décisionnels ; GMM ; HMM, et DNN). Également, j'ai proposé un système à 2 étages composé de classifieurs formés pour identifier les concepts intermédiaires et dont les prédictions sont fusionnées afin d'estimer la scène la plus probable. Les expérimentations non-supervisées visent à extraire des informations à partir des données. Ainsi, j'ai appliqué un algorithme de regroupement hiérarchique ascendant, basé sur l'algorithme EM, sur les données d'accélération et acoustiques considérées séparément et ensemble. L'un des résultats est la distinction des données d'accélération en groupes basés sur la quantité d'agitation. / Context: This PhD takes place in the contexts of Ambient Intelligence and (Mobile) Context/Scene Awareness. Historically, the project comes from the company ST-Ericsson. The project was depicted as a need to develop and embed a “context server” on the smartphone that would get and provide context information to applications that would require it. One use case was given for illustration: when someone is involved in a meeting and receives a call, then thanks to the understanding of the current scene (meet at work), the smartphone is able to automatically act and, in this case, switch to vibrate mode in order not to disturb the meeting. The main problems consist of i) proposing a definition of what is a scene and what examples of scenes would suit the use case, ii) acquiring a corpus of data to be exploited with machine learning based approaches, and iii) propose algorithmic solutions to the problem of scene recognition.Data collection: After a review of existing databases, it appeared that none fitted the criteria I fixed (long continuous records, multi-sources synchronized records necessarily including audio, relevant labels). Hence, I developed an Android application for collecting data. The application is called RecordMe and has been successfully tested on 10+ devices, running Android 2.3 and 4.0 OS versions. It has been used for 3 different campaigns including the one for scenes. This results in 500+ hours recorded, 25+ volunteers were involved, mostly in Grenoble area but abroad also (Dublin, Singapore, Budapest). The application and the collection protocol both include features for protecting volunteers privacy: for instance, raw audio is not saved, instead MFCCs are saved; sensitive strings (GPS coordinates, device ids) are hashed on the phone.Scene definition: The study of existing works related to the task of scene recognition, along with the analysis of the annotations provided by the volunteers during the data collection, allowed me to propose a definition of a scene. It is defined as a generalisation of a situation, composed of a place and an action performed by one person (the smartphone owner). Examples of scenes include taking a transportation, being involved in a work meeting, walking in the street. The composition allows to get different kinds of information to provide on the current scene. However, the definition is still too generic, and I think that it might be completed with additionnal information, integrated as new elements of the composition.Algorithmics: I have performed experiments involving machine learning techniques, both supervised and unsupervised. The supervised one is about classification. The method is quite standard: find relevant descriptors of the data through the use of an attribute selection method. Then train and test several classifiers (in my case, there were J48 and Random Forest trees ; GMM ; HMM ; and DNN). Also, I have tried a 2-stage system composed of a first step of classifiers trained to identify intermediate concepts and whose predictions are merged in order to estimate the most likely scene. The unsupervised part of the work aimed at extracting information from the data, in an unsupervised way. For this purpose, I applied a bottom-up hierarchical clustering, based on the EM algorithm on acceleration and audio data, taken separately and together. One of the results is the distinction of acceleration into groups based on the amount of agitation. Reconnaissance de scène Audio Multimodalité Mobile Apprentissage artificiel Intelligence ambiante Scene Recognition Audio Multimodal Mobile Machine Learning Ambiant intelligence 621 510
564	Egocentric Audio-Visual Scene Analysis : a machine learning and signal processing approach / Analyse audio-visuelle de la scène d'un point de vue égocentrique : une approche par de l'apprentissage automatique et du traitement du signal. Alameda-Pineda, Xavier 15 October 2013 (has links) Depuis les vingt dernières années, l'industrie a développé plusieurs produits commerciaux dotés de capacités auditives et visuelles. La grand majorité de ces produits est composée d'un caméscope et d'un microphone embarqué (téléphones portables, tablettes, etc). D'autres, comme la Kinect, sont équipés de capteurs de profondeur et/ou de petits réseaux de microphones. On trouve également des téléphones portables dotés d'un système de vision stéréo. En même temps, plusieurs systèmes orientés recherche sont apparus (par exemple, le robot humanoïde NAO). Du fait que ces systèmes sont compacts, leurs capteurs sont positionnés près les uns des autres. En conséquence, ils ne peuvent pas capturer la scène complète, mais qu'un point de vue très particulier de l'interaction sociale en cours. On appelle cela "Analyse Égocentrique de Scènes Audio-Visuelles''.Cette thèse contribue à cette thématique de plusieurs façons. D'abord, en fournissant une base de données publique qui cible des applications comme la reconnaissance d'actions et de gestes, localisation et suivi d'interlocuteurs, analyse du tour de parole, localisation de sources auditives, etc. Cette base a été utilisé en dedans et en dehors de cette thèse. Nous avons aussi travaillé le problème de la détection d'événements audio-visuels. Nous avons montré comme la confiance en une des modalités (issue de la vision en l'occurrence), peut être modélisée pour biaiser la méthode, en donnant lieu à un algorithme d'espérance-maximisation visuellement supervisé. Ensuite, nous avons modifié l'approche pour cibler la détection audio-visuelle d'interlocuteurs en utilisant le robot humanoïde NAO. En parallèle aux travaux en détection audio-visuelle d'interlocuteurs, nous avons développé une nouvelle approche pour la reconnaissance audio-visuelle de commandes. Nous avons évalué la qualité de plusieurs indices et classeurs, et confirmé que l'utilisation des données auditives et visuelles favorise la reconnaissance, en comparaison aux méthodes qui n'utilisent que l'audio ou que la vidéo. Plus tard, nous avons cherché la meilleure méthode pour des ensembles d'entraînement minuscules (5-10 observations par catégorie). Il s'agit d'un problème intéressant, car les systèmes réels ont besoin de s'adapter très rapidement et d'apprendre de nouvelles commandes. Ces systèmes doivent être opérationnels avec très peu d'échantillons pour l'usage publique. Pour finir, nous avons contribué au champ de la localisation de sources sonores, dans le cas particulier des réseaux coplanaires de microphones. C'est une problématique importante, car la géométrie du réseau est arbitraire et inconnue. En conséquence, cela ouvre la voie pour travailler avec des réseaux de microphones dynamiques, qui peuvent adapter leur géométrie pour mieux répondre à certaines tâches. De plus, la conception des produits commerciaux peut être contrainte de façon que les réseaux linéaires ou circulaires ne sont pas bien adaptés. / Along the past two decades, the industry has developed several commercial products with audio-visual sensing capabilities. Most of them consists on a videocamera with an embedded microphone (mobile phones, tablets, etc). Other, such as Kinect, include depth sensors and/or small microphone arrays. Also, there are some mobile phones equipped with a stereo camera pair. At the same time, many research-oriented systems became available (e.g., humanoid robots such as NAO). Since all these systems are small in volume, their sensors are close to each other. Therefore, they are not able to capture de global scene, but one point of view of the ongoing social interplay. We refer to this as "Egocentric Audio-Visual Scene Analysis''.This thesis contributes to this field in several aspects. Firstly, by providing a publicly available data set targeting applications such as action/gesture recognition, speaker localization, tracking and diarisation, sound source localization, dialogue modelling, etc. This work has been used later on inside and outside the thesis. We also investigated the problem of AV event detection. We showed how the trust on one of the modalities (visual to be precise) can be modeled and used to bias the method, leading to a visually-supervised EM algorithm (ViSEM). Afterwards we modified the approach to target audio-visual speaker detection yielding to an on-line method working in the humanoid robot NAO. In parallel to the work on audio-visual speaker detection, we developed a new approach for audio-visual command recognition. We explored different features and classifiers and confirmed that the use of audio-visual data increases the performance when compared to auditory-only and to video-only classifiers. Later, we sought for the best method using tiny training sets (5-10 samples per class). This is interesting because real systems need to adapt and learn new commands from the user. Such systems need to be operational with a few examples for the general public usage. Finally, we contributed to the field of sound source localization, in the particular case of non-coplanar microphone arrays. This is interesting because the geometry of the microphone can be any. Consequently, this opens the door to dynamic microphone arrays that would adapt their geometry to fit some particular tasks. Also, because the design of commercial systems may be subject to certain constraints for which circular or linear arrays are not suited. Traitement du signal multimodal Apprentissage statistique Analyse audio-visuel égocentrique Multimodal signal processing Statistical learning Egocentric audio-visual analysis 510
565	Inflexions de la voix poématique nérudienne - Parcours audio-critique de l'oeuvre de Pablo Néruda (1915 -1973) / Inflections of the nerudian poematic voice Casimiro, Dominique 15 June 2013 (has links) Ce travail est de une tentative de réponse à la question cruciale formulée en son temps par Paul Valéry : « mais au fait, qui parle dans un poème ? », à partir d’une étude audio-critique de la trajectoire complète de Pablo Neruda (1904-1973). Quarante-trois recueils et plus de cinq cents poèmes seront ainsi convoqués au cours de cette thèse dont le point de départ est le suivant : s’il est communément admis que la voix, en poésie, est un indescriptible inaudible qui est et n’est pas, la voix nérudienne propose elle une évolution cohérente vers une plus grande sonorité. La voix nérudienne est bien un effet de présence issu d’une absence. Elle est bien dotée d’inflexions dont les silences a priori sonores dessinent un ontorythme qui en ferait une voix presque humaine. / This dissertation is an attempt at answering a crucial question that Paul Valéry once asked: “by the way, who is speaking in a poem?” This study is based the complete works of Pablo Neruda (1904-1973) analysed from an audio-critical point of view, with forty-three collections of poems under scrutiny. The assumption at the core of this dissertation is that, although it is generally defined as something indescribable and inaudible that is and is not that the same time, the nerudian voice offers a coherent evolution towards more perceptible sonority, a more perceptible sound pattern. The nerudian voice is indeed a form of presence resulting from absence. It is endowed with inflections and a priori audible silent moments that create an ontorhythm, turning it into an almost human voice. Like the human voice, the poematic voice went through a series of evolutions and mutations that need to be reflected upon. Pablo Neruda Voix poématique Audio-critique Musique Poésie Pablo Neruda Poematic voice Audio-critical point of view Music Poetry
566	Codage audio stéréo avancé / Advanced stereo audio coding Capobianco, Julien 03 June 2015 (has links) Depuis une dizaine d’années, des techniques de codage joint, exploitant les relations et les redondances entre canaux audios, ont été développées afin de réduire davantage la quantité d’information nécessaire à la représentation des signaux multicanaux. Dans cette thèse, nous étudions plus particulièrement le codage des signaux audio stéréo en l’absence d’informations à priori sur la nature des sources en présences, leur nombre et la manière dont elles sont spatialisées. Cette situation correspond à l’immense majorité des enregistrements commerciaux dans l’industrie de la musique et du multimédia de manière générale. Nous étudions des approches paramétrique et signal de la problématique de codage de ces sources, où les deux sont souvent mêlées. Dans ce contexte, trois types d’approches sont utilisés. L’approche paramétrique spatiale consiste à réduire le nombre de canaux audio de la source à coder et à recréer le nombre de canaux d’origine à partir des canaux réduits et de paramètres spatiaux, extraits des canaux d’origine. L’approche signal conserve le nombre de canaux d’origine, mais encode des canaux construits à partir de ces derniers et présentant moins de redondances. Enfin, l’approche mixte introduite dans MPEG USAC utilise un signal audio et un signal résiduel, issu d’une prédiction, et dont les paramètres sont codés conjointement. Dans cette thèse, nous analysons tout d’abord les caractéristiques d’un signal stéréo issu d’un enregistrement commercial et les techniques de production associées. Cette étude nous mène à une réflexion sur les rapports entre les modèles paramétriques d’émetteur, obtenus en analysant les techniques de production des enregistrements commerciaux, et les modèles de récepteur qui sont au coeur du codage spatial paramétrique. A partir de cette mise en perspective nous présentons et étudions les trois approches évoquées plus haut. Pour l’approche purement paramétrique, nous montrons l’impossibilité d’arriver à la transparence pour la majorité des sources audios, nous menons une réflexion sur les représentations paramétriques et proposons des techniques afin de réduire le débit de leurs paramètres et d’améliorer la qualité audio. Ces améliorations passent par une meilleur segmentation du signal audio, basée sur les transitoires, sur des caractéristiques perceptives de certains indices spatiaux et sur une meilleur estimation des indices spatiaux. L’approche mixte étant récemment standardisée dans MPEG USAC, nous l’étudions en détail, puis nous proposons une nouvelle technique de codage qui exploite au mieux l’allocation du résidu aux bandes fréquentielles, lorsque celui-ci n’est pas utilisé sur l’ensemble de la bande passante du signal. Enfin, nous concluons en évoquant l’avenir du codage audio spatial généraliste et mettons l’accent sur l’importance de développer des techniques de classification et de segmentation audio pour optimiser le rapport qualité/débit. / During the last ten years, technics for joint coding exploiting relations and redundancies between channels have been developped in order to further reduce the amount of information needed to represent multichannel audio signals.In this document, we focus on the coding of stereo audio signals where prior informations on the nature of sources in presence, their number or the manner they are spatialized is unknown. Such signals are actually the most representative in commercial records of music industry and in multimedia entertainment in general. To address the coding problematic of these signals, we study parametric and signal approaches, where both of them are often mixed.In this context, three types of approaches are used. The spatial parametric approach reduce the number of audio channels of the signal to encode and recreate the original number of channels from reduced channels and spatial parameters extracted from original channels. The signal approach keep the original number of channels, but encode mono signals, built from the combination of the original ones and containing less redundancies. Finally, the hybrid approach introduced in the MPEG USAC standard keep the two channels of a stereo signal, but one is a mono downmix and the other is a residual signal, resulting from a prediction on the downmix, where prediction parameters are encoded as side information.In this document, we first analyse the characteristics of a stereo audio signal coming from a commercial recording and the associated production techniques. This study lead us to consider the relations between the emitter parametric models, elaborated from our analysis of commercial recording production techniques, and the receiver models which are the basis of spatial parametric coding. In the light of these considerations, we present and study the three approaches mentioned earlier. For the parametric approach, we show that transparency cannot be achieved for most of the stereo audio signals, we have a reflection on parametric representations and we propose techniques to improve the audio quality and further reduce the bitrate of their parameters. These improvements are obtained by applying a better segmentation on the signal, based on the significant transient, by exploiting perceptive characteristics of some spatial cues and by adapting the estimation of spatial cues. As the hybrid approach has been recently standardized in MPEG USAC, we propose a full review of it, then we develop a new coding technique to optimize the allocation of the residual bands when the residual is not used on the whole bandwidth of the signal to encode. In the conclusion, we discuss about the future of the general spatial audio coding and we show the importance of developping new technics of segmentation and classification for audio signals to further adapt the coding to the content of the signal. Codage audio Stéréo Codage spatial paramétrique Indices spatiaux Mpeg usac MPEG Parametric Stereo Coding audio Stereo Spatial cues 621.382
567	Multimedia technology in the secondary classroom: Teaching strategies and interdisciplinary curriculum design Chesus-Beck, Susana 01 January 1996 (has links) This is a handbook of multimedia technology and multimedia production teaching strategies that include the following: lesson and unit plans, worksheets, with teacher directions and student instructions, interdisciplinary activities for use in secondary level classrooms, lists of useful reading material, and sources of supplies used in the described student multimedia activities. Technology -- Audio-visual aids Teaching Audio-visual materials Instructional Media Design
568	Educational use of video tape and cable to communicate information Maury, Donna Lynne, Burke, Mary Ann 01 January 1998 (has links) As educators, communicating timely, important information to parents and to the community is a challenge. By using video technology, the ability to convey such information is not only possible but rather simple. Taking it one step further, utilizing cable television allows for the transmission of a variety of information to every living room in our community. Carnelian Elementary (California) Audio-visual education Communication -- Audio-visual aids Educational technology Information technology Cable television Instructional Media Design
569	A design framework for user interfaces of 3D audio production tools / Un cadre de conception pour les interfaces utilisateur des outils de production audio 3D Mathew, Justin D. 02 October 2017 (has links) Il y a un intérêt important et croissant à procurer des expériences d’écoute immersives pour une variété d’applications, et les améliorations constantes des technologies de reproduction audio 3D permettent de produire des scènes auditives immersives à la fois créatives et réalistes. Mais bien que ces technologies de rendu audio 3D soient maintenant relativement disponibles pour les consommateurs, la production et la création des contenus adéquats restent difficiles en raison de la variété des techniques de rendu, des considérations perceptives et des limites des interfaces utilisateur disponibles. Cette thèse traite de ces problèmes en développant un cadre de conception basé sur deux points de vue : l’analyse morphologique des méthodes et des pratiques audio 3D, et la conception d’interaction. À partir du recueil de données ethnographiques sur les outils, les méthodes et les pratiques pour la production de contenu audio 3D, de considérations sur la perception spatiale liée à l’audio 3D, et d’une analyse morphologique sur les objets d’intérêt connexes (objets audio 3D, paramètres interactifs et techniques de rendu), nous avons identifié les taches que doivent supporter les interfaces utilisateur audio 3D et proposé un cadre de conception qui caractérise la création et la manipulation des objets audio. Ensuite, nous avons conçu plusieurs techniques d’interaction pour la création audio 3D et avons étudié leurs performances et leur facilité d’utilisation selon différentes caractéristiques des méthodes d’entrée et de ’mapping’ (multiplexage, intégralité, ’directitude’). Nous avons observé des différences de performances lors de la création et de l’édition de trajectoires audio suggérant que l’augmentation de la sensibilité de la technique de ’mapping’ améliore les performances, et qu’un équilibre entre la séparabilité et l’intégralité des méthodes d’entrée peut résulter en un compromis satisfaisant entre la performance de l’utilisateur et la simplicité matérielle de la solution. Plus généralement, à partir de ces perspectives, nous avons identifié les critères de conception requis pour les interfaces utilisateur audio 3D en vue de compléter notre cadre de conception. Ce dernier, associé à nos résultats expérimentaux, sont un moyen d’aider les concepteurs à mieux prendre en compte les dimensions importantes dans le processus de conception, analyser les fonctionnalités et améliorer les interfaces utilisateur pour les outils de production audio 3D. / There has been a significant interest in providing immersive listening experiences for a variety of applications, and recent improvements in audio production have provided the capability for 3D audio practitioners to produce realistic and imaginative immersive auditory scenes. Even though technologies to reproduce 3D audio content are becoming readily available for consumers, producing and authoring this type of content is difficult due to the variety of rendering techniques, perceptual considerations, and limitations of available user interfaces. This thesis examines these issues through the development of a framework of design spaces that classifies how 3D audio objects can be created and manipulated from two different viewpoints : Morphological Analysis of 3D Audio Methods and Practices and Interaction Design. By gathering ethnographic data on tools, methods, and practices of 3D audio practitioners, overviewing spatial perception related to 3D audio, and conducting a morphological analysis on related objects of interest (3D audio objects, interactive parameters, and rendering techniques), we identified the tasks required to produce 3D audio content and how 3D audio objects can be created and manipulated. This work provided the dimensions of two design spaces that identify the interactive spatial parameters of audio objects by their recording and rendering methods, describing how user interfaces provide visual feedback and control the interactive parameters. Lastly, we designed several interaction techniques for 3D audio authoring and studied their performance and usability according to different characteristics of input and mapping methods (multiplexing, integrality, directness). We observed performance differences when creating and editing audio trajectories, suggesting that increasing the directness of the mapping technique improves performance and that a balance between separability and integrality of input methods can result into a satisfactory trade-off between user performance and cost of equipment. This study provided results that inform designers on what they might expect in terms of usability when designing input and mapping methods for 3D audio trajectory authoring tasks. From these viewpoints, we proposed design criteria required for user interfaces for 3D audio user production that developed and improved the framework of design spaces. We believe this framework and the results of our studies could help designers better account for important dimensions in the design process, analyze functionalities in current tools, and improve the usability of user interfaces for 3D audio production tools. Interaction homme-machine Audio 3D Informatique Traitement de signal Human-Computer Interaction 3D Audio Computer Science Signal Processing
570	Vliv topologie operačních zesilovačů na kvalitu audiosignálu / The influence of operational amplifier topology on audiosignal quality Rozkopal, Tomáš January 2017 (has links) The thesis describes different between any signal and audio signal from the used amplifier´s quality point of view. There are mentioned ways of origin of distortions and their effect on the audio signal quality. There is also described in detail the principal of operational amplifier, it´s circuit realization and ways to improve the circuit topology in order to reach the best qualities. Choice of parts used for discreet realization of operational amplifier is consulted. Last but not least the thesis contents the practical part, stating the reasons for realization of operational amplifiers from discreet parts and also describing two most commonly used topologies of operational amplifiers. Their discreet version is designed and there are compared the different between the manufacturer’s data and the data measured during the simulation.

Search results