• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 91
  • 33
  • 11
  • 7
  • 5
  • 5
  • 3
  • 3
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 200
  • 29
  • 25
  • 21
  • 20
  • 17
  • 16
  • 16
  • 15
  • 15
  • 14
  • 14
  • 13
  • 13
  • 13
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
151

Active Control of Propeller-Induced Noise in Aircraft : Algorithms & Methods

Johansson, Sven January 2000 (has links)
In the last decade acoustic noise has become more and more regarded as a problem. In cars, boats, trains and aircraft, low-frequency noise reduces comfort. Lightweight materials and more powerful engines are used in high-speed vehicles, resulting in a general increase in interior noise levels. Low-frequency noise is annoying and during periods of long exposure it causes fatigue and discomfort. The masking effect which low-frequency noise has on speech reduces speech intelligibility. Low-frequency noise is sought to be attenuated in a wide range of applications in order to improve comfort and speech intelligibility. The use of conventional passive methods to attenuate low-frequency noise is often impractical since considerable bulk and weight are required; in transportation large weight is associated with high fuel consumption. In order to overcome the problems of ineffective passive suppression of low-frequency noise, the technique of active noise control has become of considerable interest. The fundamental principle of active noise control is based on secondary sources producing ``anti-noise.'' Destructive interference between the generated and the primary sound fields results in noise attenuation. Active noise control systems significantly increase the capacity for attenuating low-frequency noise without major increase in volume and weight. This doctoral dissertation deals with the topic of active noise control within the passenger cabin in aircraft, and within headsets. The work focuses on methods, controller structures and adaptive algorithms for attenuating tonal low-frequency noise produced by synchronized or moderately synchronized propellers generating beating sound fields. The control algorithm is a central part of an active noise control system. A multiple-reference feedforward controller based on the novel actuator-individual normalized Filtered-X Least-Mean-Squares algorithm is introduced, yielding significant attenuation of such period noise. This algorithm is of the LMS-type, and owing to the novel normalization it can also be regarded as a Newton-type algorithm. The new algorithm combines low computational complexity with high performance. For that reason the algorithm is suitable for use in systems with a large number of control sources and control sensors in order to reduce the computional power required by the control system. The computational power of the DSP hardware is limited, and therefore algorithms with high computational complexity allow fewer control sources and sensors to be used, often with reduced noise attenuation as a result. In applications, such as controlling aircraft cabin noise, where a large multiple-channel system is needed to control the relative complex interior sound field, it is of great importance to keep down the computational complexity of the algorithm so that a large number of loudspeakers and microphones can be used. The dissertation presents theoretical work, off-line computer experiments and practical real-time experiments using the actuator-individual normalized algorithm. The computer experiments are principally based on real-life cabin noise data recorded during flight in a twin-engine propeller aircraft and in a helicopter. The practical experiments were carried out in a full-scale fuselage section from a propeller aircraft. / Buller i vår dagliga miljö kan ha en negativ inverkan på vår hälsa. I många sammanhang, i tex bilar, båtar och flygplan, förekommer lågfrekvent buller. Lågfrekvent buller är oftast inte skadligt för hörseln, men kan vara tröttande och försvåra konversationen mellan personer som vistas i en utsatt miljö. En dämpning av bullernivån medför en förbättrad taluppfattbarhet samt en komfortökning. Att dämpa lågfrekvent buller med traditionella passiva metoder, tex absorbenter och reflektorer, är oftast ineffektivt. Det krävs stora, skrymmande absorbenter för att dämpa denna typ av buller samt tunga skiljeväggar för att förhindra att bullret transmitteras vidare från ett utrymme till ett annat. Metoder som är mera lämpade vid dämpning av lågfrekvent buller är de aktiva. De aktiva metoderna baseras på att en vågrörelse som ligger i motfas med en annan överlagras och de släcker ut varandra. Bullerdämpningen erhålls genom att ett ljudfält genereras som är lika starkt som bullret men i motfas med detta. De aktiva bullerdämpningsmetoderna medför en effektiv dämpning av lågfrekvent buller samtidigt som volymen, tex hos bilkupen eller båt/flygplanskabinen ej påverkas nämnvärt. Dessutom kan fordonets/farkostens vikt reduceras vilket är tacksamt för bränsleförbrukningen. I de flesta tillämpningar varierar bullrets karaktär, dvs styrka och frekvensinnehåll. För att följa dessa variationer krävs ett adaptivt (självinställande) reglersystem som styr genereringen av motljudet. I propellerflygplan är de dominerande frekvenserna i kabinbullret relaterat till propellrarnas varvtal, man känner alltså till frekvenserna som skall dämpas. Man utnyttjar en varvtalssignal för att generera signaler, så kallade referenssignaler, med de frekvenser som skall dämpas. Dessa bearbetas av ett reglersystem som generar signaler till högtalarna som i sin tur generar motljudet. För att ställa in högtalarsignalerna så att en effektiv dämpning erhålls, används mikrofoner utplacerade i kabinen som mäter bullret. För att åstadkomma en effektiv bullerdämpning i ett rum, tex i en flygplanskabin, behövs flera högtalare och mikrofoner, vilket kräver ett avancerat reglersystem. I doktorsavhandlingen ''Active Control of Propeller-Induced Noise in Aircraft'' behandlas olika metoder för att reducera kabinbuller härrörande från propellrarna. Här presenteras olika strukturer på reglersystem samt beräkningsalgoritmer för att ställa in systemet. För stora system där många högtalare och mikrofoner används, samt flera frekvenser skall dämpas, är det viktigt att systemet inte behöver för stor beräkningskapacitet för att generera motljudet. Metoderna som behandlas ger en effektiv dämpning till låg beräkningskostnad. Delar av materialet som presenteras i avhandlingen har ingått i ett EU-projekt med inriktning mot bullerundertryckning i propellerflygplan. I projektet har flera europeiska flygplanstillverkare deltagit. Avhandlingen behandlar även aktiv bullerdämpning i headset, som används av helikopterpiloter. I denna tillämpning har aktiv bullerdämpning används för att öka taluppfattbarheten.
152

Localization algorithms for passive sensor networks

Ismailova, Darya 23 January 2017 (has links)
Locating a radiating source based on range or range measurements obtained from a network of passive sensors has been a subject of research over the past two decades due to the problem’s importance in applications in wireless communications, surveillance, navigation, geosciences, and several other fields. In this thesis, we develop new solution methods for the problem of localizing a single radiating source based on range and range-difference measurements. Iterative re-weighting algorithms are developed for both range-based and range-difference-based least squares localization. Then we propose a penalty convex-concave procedure for finding an approximate solution to nonlinear least squares problems that are related to the range measurements. Finally, the sequential convex relaxation procedures are proposed to obtain the nonlinear least squares estimate of source coordinates. Localization in wireless sensor network, where the RF signals are used to derive the ranging measurements, is the primary application area of this work. However, the solution methods proposed are general and could be applied to range and range-difference measurements derived from other types of signals. / Graduate / 0544 / ismailds@uvic.ca
153

Comparaison de quatre méthodes pour le traitement des données manquantes au sein d’un modèle multiniveau paramétrique visant l’estimation de l’effet d’une intervention

Paquin, Stéphane 03 1900 (has links)
Les données manquantes sont fréquentes dans les enquêtes et peuvent entraîner d’importantes erreurs d’estimation de paramètres. Ce mémoire méthodologique en sociologie porte sur l’influence des données manquantes sur l’estimation de l’effet d’un programme de prévention. Les deux premières sections exposent les possibilités de biais engendrées par les données manquantes et présentent les approches théoriques permettant de les décrire. La troisième section porte sur les méthodes de traitement des données manquantes. Les méthodes classiques sont décrites ainsi que trois méthodes récentes. La quatrième section contient une présentation de l’Enquête longitudinale et expérimentale de Montréal (ELEM) et une description des données utilisées. La cinquième expose les analyses effectuées, elle contient : la méthode d’analyse de l’effet d’une intervention à partir de données longitudinales, une description approfondie des données manquantes de l’ELEM ainsi qu’un diagnostic des schémas et du mécanisme. La sixième section contient les résultats de l’estimation de l’effet du programme selon différents postulats concernant le mécanisme des données manquantes et selon quatre méthodes : l’analyse des cas complets, le maximum de vraisemblance, la pondération et l’imputation multiple. Ils indiquent (I) que le postulat sur le type de mécanisme MAR des données manquantes semble influencer l’estimation de l’effet du programme et que (II) les estimations obtenues par différentes méthodes d’estimation mènent à des conclusions similaires sur l’effet de l’intervention. / Missing data are common in empirical research and can lead to significant errors in parameters’ estimation. This dissertation in the field of methodological sociology addresses the influence of missing data on the estimation of the impact of a prevention program. The first two sections outline the potential bias caused by missing data and present the theoretical background to describe them. The third section focuses on methods for handling missing data, conventional methods are exposed as well as three recent ones. The fourth section contains a description of the Montreal Longitudinal Experimental Study (MLES) and of the data used. The fifth section presents the analysis performed, it contains: the method for analysing the effect of an intervention from longitudinal data, a detailed description of the missing data of MLES and a diagnosis of patterns and mechanisms. The sixth section contains the results of estimating the effect of the program under different assumptions about the mechanism of missing data and by four methods: complete case analysis, maximum likelihood, weighting and multiple imputation. They indicate (I) that the assumption on the type of MAR mechanism seems to affect the estimate of the program’s impact and, (II) that the estimates obtained using different estimation methods leads to similar conclusions about the intervention’s effect.
154

Diversified query expansion

Bouchoucha, Arbi 06 1900 (has links)
La diversification des résultats de recherche (DRR) vise à sélectionner divers documents à partir des résultats de recherche afin de couvrir autant d’intentions que possible. Dans les approches existantes, on suppose que les résultats initiaux sont suffisamment diversifiés et couvrent bien les aspects de la requête. Or, on observe souvent que les résultats initiaux n’arrivent pas à couvrir certains aspects. Dans cette thèse, nous proposons une nouvelle approche de DRR qui consiste à diversifier l’expansion de requête (DER) afin d’avoir une meilleure couverture des aspects. Les termes d’expansion sont sélectionnés à partir d’une ou de plusieurs ressource(s) suivant le principe de pertinence marginale maximale. Dans notre première contribution, nous proposons une méthode pour DER au niveau des termes où la similarité entre les termes est mesurée superficiellement à l’aide des ressources. Quand plusieurs ressources sont utilisées pour DER, elles ont été uniformément combinées dans la littérature, ce qui permet d’ignorer la contribution individuelle de chaque ressource par rapport à la requête. Dans la seconde contribution de cette thèse, nous proposons une nouvelle méthode de pondération de ressources selon la requête. Notre méthode utilise un ensemble de caractéristiques qui sont intégrées à un modèle de régression linéaire, et génère à partir de chaque ressource un nombre de termes d’expansion proportionnellement au poids de cette ressource. Les méthodes proposées pour DER se concentrent sur l’élimination de la redondance entre les termes d’expansion sans se soucier si les termes sélectionnés couvrent effectivement les différents aspects de la requête. Pour pallier à cet inconvénient, nous introduisons dans la troisième contribution de cette thèse une nouvelle méthode pour DER au niveau des aspects. Notre méthode est entraînée de façon supervisée selon le principe que les termes reliés doivent correspondre au même aspect. Cette méthode permet de sélectionner des termes d’expansion à un niveau sémantique latent afin de couvrir autant que possible différents aspects de la requête. De plus, cette méthode autorise l’intégration de plusieurs ressources afin de suggérer des termes d’expansion, et supporte l’intégration de plusieurs contraintes telles que la contrainte de dispersion. Nous évaluons nos méthodes à l’aide des données de ClueWeb09B et de trois collections de requêtes de TRECWeb track et montrons l’utilité de nos approches par rapport aux méthodes existantes. / Search Result Diversification (SRD) aims to select diverse documents from the search results in order to cover as many search intents as possible. For the existing approaches, a prerequisite is that the initial retrieval results contain diverse documents and ensure a good coverage of the query aspects. In this thesis, we investigate a new approach to SRD by diversifying the query, namely diversified query expansion (DQE). Expansion terms are selected either from a single resource or from multiple resources following the Maximal Marginal Relevance principle. In the first contribution, we propose a new term-level DQE method in which word similarity is determined at the surface (term) level based on the resources. When different resources are used for the purpose of DQE, they are combined in a uniform way, thus totally ignoring the contribution differences among resources. In practice the usefulness of a resource greatly changes depending on the query. In the second contribution, we propose a new method of query level resource weighting for DQE. Our method is based on a set of features which are integrated into a linear regression model and generates for a resource a number of expansion candidates that is proportional to the weight of that resource. Existing DQE methods focus on removing the redundancy among selected expansion terms and no attention has been paid on how well the selected expansion terms can indeed cover the query aspects. Consequently, it is not clear how we can cope with the semantic relations between terms. To overcome this drawback, our third contribution in this thesis aims to introduce a novel method for aspect-level DQE which relies on an explicit modeling of query aspects based on embedding. Our method (called latent semantic aspect embedding) is trained in a supervised manner according to the principle that related terms should correspond to the same aspects. This method allows us to select expansion terms at a latent semantic level in order to cover as much as possible the aspects of a given query. In addition, this method also incorporates several different external resources to suggest potential expansion terms, and supports several constraints, such as the sparsity constraint. We evaluate our methods using ClueWeb09B dataset and three query sets from TRECWeb tracks, and show the usefulness of our proposed approaches compared to the state-of-the-art approaches.
155

Recycling of Passenger Vehicles: A framework for upcycling and required enabling technologies

Kelly, Sean Michael 25 April 2018 (has links)
The automotive industry is expected to transition from a net-consumer to a net-producer of aluminum scrap as aluminum-intensive vehicles (AIVs, i.e., Ford’s aluminum-bodied F-150) begin to reach end-of-life (EOL). In the past, the industry has downcycled aluminum scrap to meet the consumption demands of the automotive sector. With the shift to having a large supply of this scrap in the near future, the industry needs to recover and reuse EOL Al by utilizing a circular economic model, create value via an upcycling paradigm (vs downcycling). This work establishes a platform as to how the recycling industry can be restructured to create value in our waste streams and is organized in three segments: First, an analysis of the flow of automobiles at EOL was carried out from the perspective of recovery and reuse; a recycling rate for Al has been determined, and the factors that go into the dynamics of the recycling rate have been identified. Secondly, the current state of the market was surveyed to evaluate where improvements could be made to affect material collection and recovery. The latter led to compositional characterization of aluminum auto-shred to identify the alloys in the mixture, and thereby the needed intelligent sorting systems for upcycling. Thirdly, these results were used in a dynamic material flow model to predict how the composition of auto-shred will change due to increased aluminum usage and as a function of various end-of-life processing scenarios. The outcome and impact of this work is that we have established a platform that enables the ELV recycling industry to upcycle the large amount of Al that will be available in the near future. These results will be discussed and reviewed during this presentation.
156

O caso Ellwanger e seu impacto no direito brasileiro / The case Ellwanger and its impact on the brazilian law

Violante, João Luís Mousinho dos Santos Monteiro 20 July 2010 (has links)
Made available in DSpace on 2016-04-26T20:19:25Z (GMT). No. of bitstreams: 1 Joao Luis Mousinho dos Santos Monteiro Violante.pdf: 839581 bytes, checksum: 060bc31cddaae24d520d79718a78c391 (MD5) Previous issue date: 2010-07-20 / This work is based on the trial of writer and editor Siegfried Ellwanger, indicted by the Public Prosecutor of the State of Rio Grande do Sul from the practice of the crime of racism (article 20 of law n ° 7,716/89, with the redaction given by law n ° 8,081/90), by reason of publishing and marketing books content discriminatory against the Jewish people. The first chapter describes the path travelled by Revisão Editora, founded by the defendant, which specialized in disseminating ideas that contest the occurrence of historical facts related to the second world war, in particular, the existence of the Jewish Holocaust perpetrated by the Nazis, while remained in activity, in the main pole of the entry called "historical revisionism" in Brazil. The chapters 2, 3 and 4 examines the legal way cases for the crime of racism and the key issues raised therein and decided by the various instances of Brazilian criminal justice, limited of constitutional legal concept of racism and weighting values in the face of collision between the fundamental rights of freedom of expression and protecting the dignity of the Jewish people. In the last chapter is the overall analysis of the case, under the approach of the Public International Law, of Constitutional Law, of comparative jurisprudence and specific criminal legislation on the matter / Versa o presente trabalho sobre o julgamento do escritor e editor gaúcho Siegfried Ellwanger, acusado pelo Ministério Público do Estado do Rio Grande do Sul da prática de crime de racismo (artigo 20 da Lei n° 7.716/89, com a redação dada pela Lei n° 8.081/90), em razão da publicação de livros de conteúdo discriminatório contra o povo judeu. O primeiro capítulo descreve a trajetória percorrida pela Revisão Editora, fundada pelo réu, que se especializou em difundir idéias que contestam a ocorrência de fatos históricos relacionados à Segunda Guerra Mundial, em especial, a existência do holocausto judeu perpetrado pelos nazistas, convertendo-se, ao tempo em que permaneceu em atividade, no principal pólo do movimento denominado revisionismo histórico no Brasil. Nos capítulos 2, 3 e 4, examina-se o iter jurídico do processo por crime de racismo e as questões fundamentais nele suscitadas e decididas pelas diversas instâncias da Justiça Penal brasileira, destacando-se a delimitação do conceito jurídico-constitucional de racismo e a ponderação de valores em face da colisão entre os direitos fundamentais da liberdade de expressão e da proteção à dignidade do povo judeu. No último capítulo, procedeu-se à análise global do caso, sob os enfoques do Direito Internacional Público, da Jurisprudência Comparada, do Direito Constitucional e da legislação penal específica sobre a matéria
157

Interpolation sur les variétés grassmanniennes et applications à la réduction de modèles en mécanique / Interpolation on Grassmann manifolds and applications to reduced order methods in mechanics

Mosquera Meza, Rolando 26 June 2018 (has links)
Ce mémoire de thèse concerne l'interpolation sur les variétés de Grassmann et ses applications à la réduction de modèles en mécanique et plus généralement aux systèmes d'équations aux dérivées partielles d'évolution. Après une description de la méthode POD, nous introduisons les fondements théoriques en géométrie des variétés de Grassmann, qui seront utilisés dans le reste de la thèse. Ce chapitre donne à ce mémoire à la fois une rigueur mathématique au niveau des algorithmes mis au point, leur domaine de validité ainsi qu'une estimation de l'erreur en distance grassmannienne, mais également un caractère auto-contenu "self-contained" du manuscrit. Ensuite, on présente la méthode d'interpolation sur les variétés de Grassmann introduite par David Amsallem et Charbel Farhat. Cette méthode sera le point de départ des méthodes d'interpolation que nous développerons dans les chapitres suivants. La méthode de Amsallem-Farhat consiste à choisir un point d'interpolation de référence, envoyer l'ensemble des points d'interpolation sur l'espace tangent en ce point de référence via l'application logarithme géodésique, effectuer une interpolation classique sur cet espace tangent, puis revenir à la variété de Grassmann via l'application exponentielle géodésique. On met en évidence par des essais numériques l'influence du point de référence sur la qualité des résultats. Dans notre premier travail, nous présentons une version grassmannienne d'un algorithme connu dans la littérature sous le nom de Pondération par Distance Inverse (IDW). Dans cette méthode, l'interpolé en un point donné est considéré comme le barycentre des points d'interpolation où les coefficients de pondération utilisés sont inversement "proportionnels" à la distance entre le point considéré et les points d'interpolation. Dans notre méthode, notée IDW-G, la distance géodésique sur la variété de Grassmann remplace la distance euclidienne dans le cadre standard des espaces euclidiens. L'avantage de notre algorithme, dont on a montré la convergence sous certaines conditions assez générales, est qu'il ne requiert pas de point de référence contrairement à la méthode de Amsallem-Farhat. Pour remédier au caractère itératif (point fixe) de notre première méthode, nous proposons une version directe via la notion de barycentre généralisé. Notons enfin que notre algorithme IDW-G dépend nécessairement du choix des coefficients de pondération utilisés. Dans notre second travail, nous proposons une méthode qui permet un choix optimal des coefficients de pondération, tenant compte de l'auto-corrélation spatiale de l'ensemble des points d'interpolation. Ainsi, chaque coefficient de pondération dépend de tous les points d'interpolation et non pas seulement de la distance entre le point considéré et un point d'interpolation. Il s'agit d'une version grassmannienne de la méthode de Krigeage, très utilisée en géostatique. La méthode de Krigeage grassmannienne utilise également le point de référence. Dans notre dernier travail, nous proposons une version grassmannienne de l'algorithme de Neville qui permet de calculer le polynôme d'interpolation de Lagrange de manière récursive via l'interpolation linéaire entre deux points. La généralisation de cet algorithme sur une variété grassmannienne est basée sur l'extension de l'interpolation entre deux points (géodésique/droite) que l'on sait faire de manière explicite. Cet algorithme ne requiert pas le choix d'un point de référence, il est facile d'implémentation et très rapide. De plus, les résultats numériques obtenus sont remarquables et nettement meilleurs que tous les algorithmes décrits dans ce mémoire. / This dissertation deals with interpolation on Grassmann manifolds and its applications to reduced order methods in mechanics and more generally for systems of evolution partial differential systems. After a description of the POD method, we introduce the theoretical tools of grassmannian geometry which will be used in the rest of the thesis. This chapter gives this dissertation a mathematical rigor in the performed algorithms, their validity domain, the error estimate with respect to the grassmannian distance on one hand and also a self-contained character to the manuscript. The interpolation on Grassmann manifolds method introduced by David Amsallem and Charbel Farhat is afterward presented. This method is the starting point of the interpolation methods that we will develop in this thesis. The method of Amsallem-Farhat consists in chosing a reference interpolation point, mapping forward all interpolation points on the tangent space of this reference point via the geodesic logarithm, performing a classical interpolation on this tangent space and mapping backward the interpolated point to the Grassmann manifold by the geodesic exponential function. We carry out the influence of the reference point on the quality of the results through numerical simulations. In our first work, we present a grassmannian version of the well-known Inverse Distance Weighting (IDW) algorithm. In this method, the interpolation on a point can be considered as the barycenter of the interpolation points where the used weights are inversely proportional to the distance between the considered point and the given interpolation points. In our method, denoted by IDW-G, the geodesic distance on the Grassmann manifold replaces the euclidean distance in the standard framework of euclidean spaces. The advantage of our algorithm that we show the convergence undersome general assumptions, does not require a reference point unlike the method of Amsallem-Farhat. Moreover, to carry out this, we finally proposed a direct method, thanks to the notion of generalized barycenter instead of an earlier iterative method. However, our IDW-G algorithm depends on the choice of the used weighting coefficients. The second work deals with an optimal choice of the weighting coefficients, which take into account of the spatial autocorrelation of all interpolation points. Thus, each weighting coefficient depends of all interpolation points an not only on the distance between the considered point and the interpolation point. It is a grassmannian version of the Kriging method, widely used in Geographic Information System (GIS). Our grassmannian Kriging method require also the choice of a reference point. In our last work, we develop a grassmannian version of Neville's method which allow the computation of the Lagrange interpolation polynomial in a recursive way via the linear interpolation of two points. The generalization of this algorithm to grassmannian manifolds is based on the extension of interpolation of two points (geodesic/straightline) that we can do explicitly. This algorithm does not require the choice of a reference point, it is easy to implement and very quick. Furthermore, the obtained numerical results are notable and better than all the algorithms described in this dissertation.
158

Contribution to automatic text classification : metrics and evolutionary algorithms / Contributions à la classification automatique de texte : métriques et algorithmes évolutifs

Mazyad, Ahmad 22 November 2018 (has links)
Cette thèse porte sur le traitement du langage naturel et l'exploration de texte, à l'intersection de l'apprentissage automatique et de la statistique. Nous nous intéressons plus particulièrement aux schémas de pondération des termes (SPT) dans le contexte de l'apprentissage supervisé et en particulier à la classification de texte. Dans la classification de texte, la tâche de classification multi-étiquettes a suscité beaucoup d'intérêt ces dernières années. La classification multi-étiquettes à partir de données textuelles peut être trouvée dans de nombreuses applications modernes telles que la classification de nouvelles où la tâche est de trouver les catégories auxquelles appartient un article de presse en fonction de son contenu textuel (par exemple, politique, Moyen-Orient, pétrole), la classification du genre musical (par exemple, jazz, pop, oldies, pop traditionnelle) en se basant sur les commentaires des clients, la classification des films (par exemple, action, crime, drame), la classification des produits (par exemple, électronique, ordinateur, accessoires). La plupart des algorithmes d'apprentissage ne conviennent qu'aux problèmes de classification binaire. Par conséquent, les tâches de classification multi-étiquettes sont généralement transformées en plusieurs tâches binaires à label unique. Cependant, cette transformation introduit plusieurs problèmes. Premièrement, les distributions des termes ne sont considérés qu'en matière de la catégorie positive et de la catégorie négative (c'est-à-dire que les informations sur les corrélations entre les termes et les catégories sont perdues). Deuxièmement, il n'envisage aucune dépendance vis-à-vis des étiquettes (c'est-à-dire que les informations sur les corrélations existantes entre les classes sont perdues). Enfin, puisque toutes les catégories sauf une sont regroupées dans une seule catégories (la catégorie négative), les tâches nouvellement créées sont déséquilibrées. Ces informations sont couramment utilisées par les SPT supervisés pour améliorer l'efficacité du système de classification. Ainsi, après avoir présenté le processus de classification de texte multi-étiquettes, et plus particulièrement le SPT, nous effectuons une comparaison empirique de ces méthodes appliquées à la tâche de classification de texte multi-étiquette. Nous constatons que la supériorité des méthodes supervisées sur les méthodes non supervisées n'est toujours pas claire. Nous montrons ensuite que ces méthodes ne sont pas totalement adaptées au problème de la classification multi-étiquettes et qu'elles ignorent beaucoup d'informations statistiques qui pourraient être utilisées pour améliorer les résultats de la classification. Nous proposons donc un nouvel SPT basé sur le gain d'information. Cette nouvelle méthode prend en compte la distribution des termes, non seulement en ce qui concerne la catégorie positive et la catégorie négative, mais également en rapport avec toutes les autres catégories. Enfin, dans le but de trouver des SPT spécialisés qui résolvent également le problème des tâches déséquilibrées, nous avons étudié les avantages de l'utilisation de la programmation génétique pour générer des SPT pour la tâche de classification de texte. Contrairement aux études précédentes, nous générons des formules en combinant des informations statistiques à un niveau microscopique (par exemple, le nombre de documents contenant un terme spécifique) au lieu d'utiliser des SPT complets. De plus, nous utilisons des informations catégoriques telles que (par exemple, le nombre de catégories dans lesquelles un terme apparaît). Des expériences sont effectuées pour mesurer l'impact de ces méthodes sur les performances du modèle. Nous montrons à travers ces expériences que les résultats sont positifs. / This thesis deals with natural language processing and text mining, at the intersection of machine learning and statistics. We are particularly interested in Term Weighting Schemes (TWS) in the context of supervised learning and specifically the Text Classification (TC) task. In TC, the multi-label classification task has gained a lot of interest in recent years. Multi-label classification from textual data may be found in many modern applications such as news classification where the task is to find the categories that a newswire story belongs to (e.g., politics, middle east, oil), based on its textual content, music genre classification (e.g., jazz, pop, oldies, traditional pop) based on customer reviews, film classification (e.g. action, crime, drama), product classification (e.g. Electronics, Computers, Accessories). Traditional classification algorithms are generally binary classifiers, and they are not suited for the multi-label classification. The multi-label classification task is, therefore, transformed into multiple single-label binary tasks. However, this transformation introduces several issues. First, terms distributions are only considered in relevance to the positive and the negative categories (i.e., information on the correlations between terms and categories is lost). Second, it fails to consider any label dependency (i.e., information on existing correlations between classes is lost). Finally, since all categories but one are grouped into one category (the negative category), the newly created tasks are imbalanced. This information is commonly used by supervised TWS to improve the effectiveness of the classification system. Hence, after presenting the process of multi-label text classification, and more particularly the TWS, we make an empirical comparison of these methods applied to the multi-label text classification task. We find that the superiority of the supervised methods over the unsupervised methods is still not clear. We show then that these methods are not fully adapted to the multi-label classification problem and they ignore much statistical information that coul be used to improve the classification results. Thus, we propose a new TWS based on information gain. This new method takes into consideration the term distribution, not only regarding the positive and the negative categories but also in relevance to all classes. Finally, aiming at finding specialized TWS that also solve the issue of imbalanced tasks, we studied the benefits of using genetic programming for generating TWS for the text classification task. Unlike previous studies, we generate formulas by combining statistical information at a microscopic level (e.g., the number of documents that contain a specific term) instead of using complete TWS. Furthermore, we make use of categorical information such as (e.g., the number of categories where a term occurs). Experiments are made to measure the impact of these methods on the performance of the model. We show through these experiments that the results are positive.
159

Estimation efficace en présence de non-réponse dans les enquêtes

Gao, Yimeng 03 1900 (has links)
No description available.
160

個案無反應資料之各種加權方法分析比較 / Weighting Adjustments for Unit Nonresponse

劉淑芳, Liou, Shue-Fang Unknown Date (has links)
在本論文中,根據所建立的100,000筆模擬資料作為抽樣的母體,利用簡單隨機抽樣法(simple random sampling;SRS)從此模擬的資料中共抽出1068筆成功樣本,分別考慮了當個案訪問失敗(unit nonresponse)情形發生時是『隨機性』及『非隨機性』兩種情況下比較(1)事後分層加權(poststratification approach);(2)多個變數反覆加權(raking or raking ratio);及(3)估計成功率加權等三種加權方法之效果如何。 當訪問失敗具完全隨機性的情況之下所抽出之樣本,由於原始樣本的代表性過於『完美』,即使是經過事後分層加權或是raking加權後,均無顯著的效果。因此,對於樣本的改善程度實在是微不足道!而在訪問失敗是非隨機性的情況時,事後分層加權對於變數間具較強相關性時,則具有較佳的加權效果;raking加權方式的加權效果普遍上均不錯的表現,值得廣泛地採用;而估計成功率加權的效果則必須取決於估計準確與否,否則可能由於估計的偏差而導致加權效果不彰。 最後,本文亦提供了事後分層加權及raking加權的適用時機及建議,以作為日後從事抽樣調查工作者的參考意見。

Page generated in 0.0596 seconds