Global ETD Search

11	Contribution to automatic text classification : metrics and evolutionary algorithms / Contributions à la classification automatique de texte : métriques et algorithmes évolutifs Mazyad, Ahmad 22 November 2018 (has links) Cette thèse porte sur le traitement du langage naturel et l'exploration de texte, à l'intersection de l'apprentissage automatique et de la statistique. Nous nous intéressons plus particulièrement aux schémas de pondération des termes (SPT) dans le contexte de l'apprentissage supervisé et en particulier à la classification de texte. Dans la classification de texte, la tâche de classification multi-étiquettes a suscité beaucoup d'intérêt ces dernières années. La classification multi-étiquettes à partir de données textuelles peut être trouvée dans de nombreuses applications modernes telles que la classification de nouvelles où la tâche est de trouver les catégories auxquelles appartient un article de presse en fonction de son contenu textuel (par exemple, politique, Moyen-Orient, pétrole), la classification du genre musical (par exemple, jazz, pop, oldies, pop traditionnelle) en se basant sur les commentaires des clients, la classification des films (par exemple, action, crime, drame), la classification des produits (par exemple, électronique, ordinateur, accessoires). La plupart des algorithmes d'apprentissage ne conviennent qu'aux problèmes de classification binaire. Par conséquent, les tâches de classification multi-étiquettes sont généralement transformées en plusieurs tâches binaires à label unique. Cependant, cette transformation introduit plusieurs problèmes. Premièrement, les distributions des termes ne sont considérés qu'en matière de la catégorie positive et de la catégorie négative (c'est-à-dire que les informations sur les corrélations entre les termes et les catégories sont perdues). Deuxièmement, il n'envisage aucune dépendance vis-à-vis des étiquettes (c'est-à-dire que les informations sur les corrélations existantes entre les classes sont perdues). Enfin, puisque toutes les catégories sauf une sont regroupées dans une seule catégories (la catégorie négative), les tâches nouvellement créées sont déséquilibrées. Ces informations sont couramment utilisées par les SPT supervisés pour améliorer l'efficacité du système de classification. Ainsi, après avoir présenté le processus de classification de texte multi-étiquettes, et plus particulièrement le SPT, nous effectuons une comparaison empirique de ces méthodes appliquées à la tâche de classification de texte multi-étiquette. Nous constatons que la supériorité des méthodes supervisées sur les méthodes non supervisées n'est toujours pas claire. Nous montrons ensuite que ces méthodes ne sont pas totalement adaptées au problème de la classification multi-étiquettes et qu'elles ignorent beaucoup d'informations statistiques qui pourraient être utilisées pour améliorer les résultats de la classification. Nous proposons donc un nouvel SPT basé sur le gain d'information. Cette nouvelle méthode prend en compte la distribution des termes, non seulement en ce qui concerne la catégorie positive et la catégorie négative, mais également en rapport avec toutes les autres catégories. Enfin, dans le but de trouver des SPT spécialisés qui résolvent également le problème des tâches déséquilibrées, nous avons étudié les avantages de l'utilisation de la programmation génétique pour générer des SPT pour la tâche de classification de texte. Contrairement aux études précédentes, nous générons des formules en combinant des informations statistiques à un niveau microscopique (par exemple, le nombre de documents contenant un terme spécifique) au lieu d'utiliser des SPT complets. De plus, nous utilisons des informations catégoriques telles que (par exemple, le nombre de catégories dans lesquelles un terme apparaît). Des expériences sont effectuées pour mesurer l'impact de ces méthodes sur les performances du modèle. Nous montrons à travers ces expériences que les résultats sont positifs. / This thesis deals with natural language processing and text mining, at the intersection of machine learning and statistics. We are particularly interested in Term Weighting Schemes (TWS) in the context of supervised learning and specifically the Text Classification (TC) task. In TC, the multi-label classification task has gained a lot of interest in recent years. Multi-label classification from textual data may be found in many modern applications such as news classification where the task is to find the categories that a newswire story belongs to (e.g., politics, middle east, oil), based on its textual content, music genre classification (e.g., jazz, pop, oldies, traditional pop) based on customer reviews, film classification (e.g. action, crime, drama), product classification (e.g. Electronics, Computers, Accessories). Traditional classification algorithms are generally binary classifiers, and they are not suited for the multi-label classification. The multi-label classification task is, therefore, transformed into multiple single-label binary tasks. However, this transformation introduces several issues. First, terms distributions are only considered in relevance to the positive and the negative categories (i.e., information on the correlations between terms and categories is lost). Second, it fails to consider any label dependency (i.e., information on existing correlations between classes is lost). Finally, since all categories but one are grouped into one category (the negative category), the newly created tasks are imbalanced. This information is commonly used by supervised TWS to improve the effectiveness of the classification system. Hence, after presenting the process of multi-label text classification, and more particularly the TWS, we make an empirical comparison of these methods applied to the multi-label text classification task. We find that the superiority of the supervised methods over the unsupervised methods is still not clear. We show then that these methods are not fully adapted to the multi-label classification problem and they ignore much statistical information that coul be used to improve the classification results. Thus, we propose a new TWS based on information gain. This new method takes into consideration the term distribution, not only regarding the positive and the negative categories but also in relevance to all classes. Finally, aiming at finding specialized TWS that also solve the issue of imbalanced tasks, we studied the benefits of using genetic programming for generating TWS for the text classification task. Unlike previous studies, we generate formulas by combining statistical information at a microscopic level (e.g., the number of documents that contain a specific term) instead of using complete TWS. Furthermore, we make use of categorical information such as (e.g., the number of categories where a term occurs). Experiments are made to measure the impact of these methods on the performance of the model. We show through these experiments that the results are positive. Apprentissage automatique Traitement du langage naturel Exploration de texte FORMTEXT Classification des textes Schéma de Pondération des Termes Optimisation Programmation génétique Machine learning Natural language processing Text mining FORMTEXT Classification of texts Term Weighting Schemes Optimization Genetic programming
12	Evolution de modèles différentiels de systèmes complexes concrets par programmation génétique / Evolution of differential models for concrete complex systems through genetic programming / Evolução de modelos diferenciais para sistemas complexos concretos por programação genética Santos Peretta, Igor 21 September 2015 (has links) Un système est défini par les entités et leurs interrelations dans un environnement qui est déterminé par une limite arbitraire. Les systèmes complexes présentent un comportement émergent sans un contrôleur central. Les systèmes concrets désignent ceux qui sont observables dans la réalité. Un modèle nous permet de comprendre, de contrôler et de prédire le comportement du système. Un modèle différentiel à partir d'un système pourrait être compris comme une sorte de loi physique sous-jacent représenté par l'un ou d'un ensemble d'équations différentielles. Ce travail vise à étudier et mettre en œuvre des méthodes pour effectuer la modélisation des systèmes automatisée par l'ordinateur. Cette thèse pourrait être divisée en trois étapes principales, ainsi: (1) le développement d'un solveur numérique automatisé par l'ordinateur pour les équations différentielles linéaires, partielles ou ordinaires, sur la base de la formulation de matrice pour une personnalisation propre de la méthode Ritz-Galerkin; (2) la proposition d'un schème de score d'adaptation qui bénéficie du solveur numérique développé pour guider l'évolution des modèles différentiels pour les systèmes complexes concrets; (3) une implémentation préliminaire d'une application de programmation génétique pour effectuer la modélisation des systèmes automatisée par l'ordinateur. Dans la première étape, il est montré comment le solveur proposé utilise les polynômes de Jacobi orthogonaux comme base complète pour la méthode de Galerkin et comment le solveur traite des conditions auxiliaires de plusieurs types. Solutions à approximations polynomiales sont ensuite réalisés pour plusieurs types des équations différentielles partielles linéaires, y compris les problèmes hyperboliques, paraboliques et elliptiques. Dans la deuxième étape, le schème de score d'adaptation proposé est conçu pour exploiter certaines caractéristiques du solveur proposé et d'effectuer l'approximation polynômiale par morceaux afin d'évaluer les individus différentiels à partir d'une population fournie par l'algorithme évolutionnaire. Enfin, une mise en œuvre préliminaire d'une application GP est présentée et certaines questions sont discutées afin de permettre une meilleure compréhension de la modélisation des systèmes automatisée par l'ordinateur. Indications pour certains sujets prometteurs pour la continuation de futures recherches sont également abordées dans ce travail, y compris la façon d'étendre ce travail à certaines classes d'équations différentielles partielles non-linéaires. / A system is defined by its entities and their interrelations in an environment which is determined by an arbitrary boundary. Complex systems exhibit emergent behaviour without a central controller. Concrete systems designate the ones observable in reality. A model allows us to understand, to control and to predict behaviour of the system. A differential model from a system could be understood as some sort of underlying physical law depicted by either one or a set of differential equations. This work aims to investigate and implement methods to perform computer-automated system modelling. This thesis could be divided into three main stages: (1) developments of a computer-automated numerical solver for linear differential equations, partial or ordinary, based on the matrix formulation for an own customization of the Ritz-Galerkin method; (2) proposition of a fitness evaluation scheme which benefits from the developed numerical solver to guide evolution of differential models for concrete complex systems; (3) preliminary implementations of a genetic programming application to perform computer-automated system modelling. In the first stage, it is shown how the proposed solver uses Jacobi orthogonal polynomials as a complete basis for the Galerkin method and how the solver deals with auxiliary conditions of several types. Polynomial approximate solutions are achieved for several types of linear partial differential equations, including hyperbolic, parabolic and elliptic problems. In the second stage, the proposed fitness evaluation scheme is developed to exploit some characteristics from the proposed solver and to perform piecewise polynomial approximations in order to evaluate differential individuals from a given evolutionary algorithm population. Finally, a preliminary implementation of a genetic programming application is presented and some issues are discussed to enable a better understanding of computer-automated system modelling. Indications for some promising subjects for future continuation researches are also addressed here, as how to expand this work to some classes of non-linear partial differential equations. Modèles différentiels Score d'adaptation Programmation génétique Computer-Automated system modelling Differential models Linear ordinary differential equations Linear partial differential equations Fitness evaluation Genetic programming 006.3 515.3 629.89
13	Ant colony optimization for continuous and mixed-variable domains Socha, Krzysztof 09 May 2008 (has links) In this work, we present a way to extend Ant Colony Optimization (ACO), so that it can be applied to both continuous and mixed-variable optimization problems. We demonstrate, first, how ACO may be extended to continuous domains. We describe the algorithm proposed, discuss the different design decisions made, and we position it among other metaheuristics.<p>Following this, we present the results of numerous simulations and testing. We compare the results obtained by the proposed algorithm on typical benchmark problems with those obtained by other methods used for tackling continuous optimization problems in the literature. Finally, we investigate how our algorithm performs on a real-world problem coming from the medical field—we use our algorithm for training neural network used for pattern classification in disease recognition.<p>Following an extensive analysis of the performance of ACO extended to continuous domains, we present how it may be further adapted to handle both continuous and discrete variables simultaneously. We thus introduce the first native mixed-variable version of an ACO algorithm. Then, we analyze and compare the performance of both continuous and mixed-variable<p>ACO algorithms on different benchmark problems from the literature. Through the research performed, we gain some insight into the relationship between the formulation of mixed-variable problems, and the best methods to tackle them. Furthermore, we demonstrate that the performance of ACO on various real-world mixed-variable optimization problems coming from the mechanical engineering field is comparable to the state of the art. / Doctorat en Sciences de l'ingénieur / info:eu-repo/semantics/nonPublished Informatique générale Sciences de l'ingénieur Combinatorial optimization Genetic programming (Computer science) Genetic algorithms Neural networks (Computer science) Optimisation combinatoire Programmation génétique (Informatique) Algorithmes génétiques Réseaux neuronaux (Informatique) optimization ant colony optimization continuous optimization mixed-variable optimization ant system
14	Stochastic optimization by evolutionary methods applied to autonomous aircraft flight control / Optimisation stochastique par évolution artificielle appliquée à la conduite autonome d’engins aériens Querry, Stephane 29 September 2014 (has links) Le but de ce doctorat est de déterminer dans quelle mesure les algorithmes issus de l’intelligence artificielle, principalement les Algorithmes Evolutionnaires et la Programmation Génétique, pourraient aider les algorithmes de l’automatique classique afin de permettre aux engins autonomes de disposer de capacités bien supérieures, et ce dans les domaines de l’identification, de la planification de trajectoire, du pilotage et de la navigation.De nouveaux algorithmes ont été développés, dans les domaines de l’identification, de la planification de trajectoire, de la navigation et du contrôle, et ont été testés sur des systèmes de simulation et des aéronefs du monde réel (Oktokopter du ST2I, Bebop.Drone de la société Parrot, Twin Otter et F-16 de la NASA) de manière à évaluer les apports de ces nouvelles approches par rapport à l’état de l’art.La plupart de ces nouvelles approches ont permis d’obtenir de très bons résultats comparés à l’état de l’art, notamment dans le domaine de l’identification et de la commande, et un approfondissement des travaux devraient être engagé afin de développer le potentiel applicatifs de certains algorithmes. / The object of this PhD has consisted in elaborating evolutionary computing algorithms to find interesting solutions to important problems in several domains of automation science, applied to aircrafts mission conduction and to understand what could be the advantages of using such approaches, compared to the state-of-the-art, in terms of efficiency, robustness, and effort of implementation.New algorithms have been developed, in Identification, Path planning, Navigation and Control and have been tested on simulation and on real world platforms (AR.Drone 3.0 UAV (Parrot), Oktokopter UAV, Twin Otter and military fighter F-16 (NASA LaRC)), to assess the performances improvements, given by the new proposed approaches.Most of these new approaches provide very interesting results; and research work (on control by evolutionary algorithms, identification by genetic programming and relative navigation) should be engaged to plan potential applications in different real world technologies. Automatique Contrôle Commande Pilotage Planification de trajectoire Identification Navigation Intelligence artificielle Évolution artificielle Programmation génétique Algorithmes évolutionnaires Automatics Control Path planning Identification Navigation Artificial intelligence Artificial evolution Evolutionary algorithms Programming genetic 006.3
15	Una aproximación evolucionista para la generación automática de sentencias SQL a partir de ejemplos Ahumada Pardo, Dania I. 03 1900 (has links) En la actualidad, el uso de las tecnologías ha sido primordial para el avance de las sociedades, estas han permitido que personas sin conocimientos informáticos o usuarios llamados “no expertos” se interesen en su uso, razón por la cual los investigadores científicos se han visto en la necesidad de producir estudios que permitan la adaptación de sistemas, a la problemática existente dentro del ámbito informático. Una necesidad recurrente de todo usuario de un sistema es la gestión de la información, la cual se puede administrar por medio de una base de datos y lenguaje específico, como lo es el SQL (Structured Query Language), pero esto obliga al usuario sin conocimientos a acudir a un especialista para su diseño y construcción, lo cual se ve reflejado en costos y métodos complejos, entonces se plantea una pregunta ¿qué hacer cuando los proyectos son pequeñas y los recursos y procesos son limitados? Teniendo como base la investigación realizada por la universidad de Washington[39], donde sintetizan sentencias SQL a partir de ejemplos de entrada y salida, se pretende con esta memoria automatizar el proceso y aplicar una técnica diferente de aprendizaje, para lo cual utiliza una aproximación evolucionista, donde la aplicación de un algoritmo genético adaptado origina sentencias SQL válidas que responden a las condiciones establecidas por los ejemplos de entrada y salida dados por el usuario. Se obtuvo como resultado de la aproximación, una herramienta denominada EvoSQL que fue validada en este estudio. Sobre los 28 ejercicios empleados por la investigación [39], 23 de los cuales se obtuvieron resultados perfectos y 5 ejercicios sin éxito, esto representa un 82.1% de efectividad. Esta efectividad es superior en un 10.7% al establecido por la herramienta desarrollada en [39] SQLSynthesizer y 75% más alto que la herramienta siguiente más próxima Query by Output QBO[31]. El promedio obtenido en la ejecución de cada ejercicio fue de 3 minutos y 11 segundos, este tiempo es superior al establecido por SQLSynthesizer; sin embargo, en la medida un algoritmo genético supone la existencia de fases que amplían los rangos de tiempos, por lo cual el tiempo obtenido es aceptable con relación a las aplicaciones de este tipo. En conclusión y según lo anteriormente expuesto, se obtuvo una herramienta automática con una aproximación evolucionista, con buenos resultados y un proceso simple para el usuario “no experto”. / Actuellement l'usage des technologies est primordial pour l'avance de la société, celles-ci ont permis que des personnes sans connaissances informatiques ou des utilisateurs appelés "non expert" s'intéressent à son usage. C'est la raison pour laquelle les enquêteurs scientifiques se sont vus dans la nécessité de produire les études qui permettent l'adaptation des systèmes à la problématique existante à l'intérieur du domaine informatique. Une nécessité récurrente pour tout utilisateur d'un système est la gestion de l'information, que l’on peut administrer au moyen d'une base de données et de langage spécifique pour celles-ci comme est le SQL (Structured Query Language), mais qui oblige à l'utilisateur à chercher un spécialiste pour sa conception et sa construction, et qui représente des prix et des méthodes complexes. Une question se pose alors, quoi faire quand les projets sont petites et les ressources et les processus limités ? Ayant pour base la recherche de l'université de Washington [39], ce mémoire automatise le processus et applique une différente technique d'apprentissage qui utilise une approche évolutionniste, où l'application d'un algorithme génétique adapté génère des requêtes SQL valides répondant aux conditions établies par les exemples d'entrée et de sortie donnés par l'utilisateur. On a obtenu comme résultat de l’approche un outil dénommé EvoSQL qui a été validé dans cette étude. Sur les 28 exercices employés par la recherche [39], 23 exercices ont été obtenus avec des résultats parfaits et 5 exercices sans succès, ce qui représente 82.1 % d'effectivité. Cette effectivité est supérieure de 10.7 % à celle établie par l'outil développé dans [32] SQLSynthesizer et 75% plus haute que l'outil suivant le plus proche Query by Output QBO [31]. La moyenne obtenue dans l'exécution de chaque exercice a été de 3 min et 11sec, ce qui est supérieur au temps établi par SQlSynthesizer, cependant dans la mesure où un algorithme génétique suppose que l'existence de phases augmente les rangs des temps, le temps obtenu est acceptable par rapport aux applications de ce type. Dans une conclusion et selon ce qui a été antérieurement exposé nous avons obtenu un outil automatique, avec une approche évolutionniste, avec de bons résultats et un processus simple pour l'utilisateur « non expert ». / At present the use of the technologies is basic for the advance of the society; these have allowed that persons without knowledge or so called "non expert" users are interested in this use, is for it that the researchers have seen the need to produce studies that allow the adjustment of the systems the existing at the problematic inside the area of the technology. A need of every user of a system is the management of the information, which can be manage by a database and specific language for these as the SQL (Structured Query Language), which forces the user to come to a specialist for the design and construction of this one, which represents costs and complex methods, but what to do when they are small investigations where the resources and processes are limited? Taking as a base the research of the university of Washington [32], this report automates the process and applies a different learning technique, for which uses an evolutionary approach, where the application of a genetic adapted algorithm generates query SQL valid that answer to the conditions established by the given examples of entry and exit given by the user. There was obtained as a result of the approach a tool named EvoSQL that was validated in the same 28 exercises used by the investigation [32], of which 23 exercises were obtained by ideal results and 5 not successful exercises, which represents 82.1 % of efficiency, superior in 10.7 % to the established one for the tool developed in [32] SQLSynthesizer and 75% higher than the following near tool Query by Output QBO [26]. The average obtained in the execution of every exercise was of 3 min and 11seg that is superior to the time established by SQlSynthesizer, Nevertheless, being a genetic algorithm where the steps existence makes that the ranges of times are extended, the obtained one is acceptable with relation to the applications of this type. In conclusion et according to previously exposed, we have obtained an automatic tool, with an evolutionary approach, with good results and a simple process for the « not expert » user. Programmation génétique Requêtes SQL Génération à partir d’exemples Génie Logiciel Programación genética Sentencias SQL Generación a partir de ejemplos Ingeniería del software Genetic programming Generation from examples Software engineering SQL Query generation from examples

Page generated in 0.1409 seconds