301 |
Contrôle et opération des réseaux HVDC multi-terminaux à base de convertisseurs MMC / Control and energy management of MMC-based multi-terminal HVDC gridsShinoda, Kosei 21 November 2017 (has links)
Cette thèse porte sur la commande de réseaux multi-terminaux à courant continu (MTDC) basés sur des convertisseurs multiniveaux modulaires (MMCs).Tout d’abord, notre attention se focalise sur l'énergie stockée en interne dans le MMC qui constitue un degré de liberté additionnel apporté par sa topologie complexe. Afin d’en tirer le meilleur parti, les limites de l’énergie interne sont formulées mathématiquement.Afin de maîtriser la dynamique de la tension DC, l’utilisation de ce nouveau degré de liberté s’avère d’une grande importance. Par conséquent, une nouvelle de stratégie de commande, nommée «Virtual Capacitor Control», est proposée. Cette nouvelle méthode de contrôle permet au MMC de se comporter comme s’il possédait un condensateur de taille réglable aux bornes, contribuant ainsi à l’atténuation des fluctuations de la tension DC.Enfin, la portée de l’étude est étendue au réseau MTDC. L'un des défis majeurs pour un tel système est de faire face à une perte soudaine d'une station de convertisseur qui peut entraîner une grande variation de la tension du système. A cet effet, la méthode de statisme de tension est la plus couramment utilisée. Cependant, l'analyse montre que l'action de contrôle souhaitée risque de ne pas être réalisée lorsque la marge disponible de réserve de puissance du convertisseur est insuffisante. Nous proposons donc une nouvelle structure de contrôle de la tension qui permet de fournir différentes actions en fonction du signe de l'écart de la tension suite à une perturbation, associée à un algorithme qui détermine les paramètres de statisme en tenant compte du point de fonctionnement et de la réserve disponible à chaque station. / The scope of this thesis includes control and management of the Modular Multilevel Converter (MMC)-based Multi-Terminal Direct Current (MTDC).At first, our focus is paid on the internally stored energy, which is the important additional degree of freedom brought by the complex topology of MMC. In order to draw out the utmost of this additional degree of freedom, an in-depth analysis of the limits of this internally stored energy is carried out, and they are mathematically formulated.Then, this degree of freedom of the MMC is used to provide a completely new solution to improve the DC voltage dynamics. A novel control strategy, named Virtual Capacitor Control, is proposed. Under this control, the MMC behaves as if there were a physical capacitor whose size is adjustable. Thus, it is possible to virtually increase the equivalent capacitance of the DC grid to mitigate the DC voltage fluctuations in MTDC systems.Finally, the scope is extended to MMC-based MTDC grid. One of the crucial challenges for such system is to cope with a sudden loss of a converter station which may lead to a great variation of the system voltage. The voltage droop method is commonly used for this purpose. The analysis shows that the desired control action may not be exerted when the available headroom of the converter stations are insufficient. We thus propose a novel voltage droop control structure which permits to provide different actions depending on the sign of DC voltage deviation caused by the disturbance of system voltage as well as an algorithm that determines the droop parameters taking into account the operating point and the available headroom of each station.
|
302 |
Méthodologie de localisation des défauts soft dans les circuits intégrés mixtes et analogiques par stimulation par faisceau laser : analyse de résultats des techniques dynamiques paramétriquesSienkiewicz, Magdalena 28 May 2010 (has links)
Cette thèse s’inscrit dans le domaine de la localisation de défauts de type «soft» dans les Circuits Intégrés (CI) analogiques et mixtes à l’aide des techniques dynamiques de stimulation laser en faible perturbation. Les résultats obtenus à l’aide de ces techniques sont très complexes à analyser dans le cas des CI analogiques et mixtes. Ce travail porte ainsi particulièrement sur le développement d’une méthodologie facilitant l’analyse des cartographies laser. Cette méthodologie est basée sur la comparaison de résultats de simulations électriques de l’interaction faisceau laser-CI avec des résultats expérimentaux (cartographies laser). L’influence des phénomènes thermique et photoélectrique sur les CI (niveau transistor) a été modélisée et simulée. La méthodologie a été validée tout d’abord sur des structures de tests simples avant d’être utilisée sur des CI complexes que l’on trouve dans le commerce. / This thesis deals with Soft failure localization in the analog and mixed mode Integrated Circuits (ICs) by means of Dynamic Laser Stimulation techniques (DLS). The results obtained using these techniques are very complex to analyze in the case of analog and mixed ICs. In this work we develop a methodology which facilitates the analysis of the laser mapping. This methodology consists on combining the experimental results (laser mapping) with the electrical simulations of laser stimulation impact on the device. The influence of photoelectric and thermal phenomena on the IC (transistor level) has been modeled and simulated. The methodology has been validated primarily on test structures before being used on complex Freescale ICs existing in commerce.
|
303 |
Adaptative high-gain extended Kalman filter and applications / Le filtre de Kalman étendu à grand-gain adaptatif et ses applicationsBoizot, Nicolas 30 April 2010 (has links)
Le travail porte sur la problématique de l’observation des systèmes — la reconstruction de l’état complet d’un système dynamique à partir d'une mesure partielle de cet état. Nous considérons spécifiquement les systèmes non linéaires. Le filtre de Kalman étendu (EKF) est l’un des observateurs les plus utilisés à cette fin. Il souffre cependant d’une performance moindre lorsque l'état estimé n’est pas dans un voisinage de l'état réel. La convergence de l’observateur dans ce cas n’est pas prouvée. Nous proposons une solution à ce problème : l’EKF à grand gain adaptatif. La théorie de l’observabilité fait apparaître l’existence de représentations caractérisant les systèmes dit observables. C’est la forme normale d’observabilité. L’EKF à grand gain est une variante de l’EKF que l’on construit à base d’un paramètre scalaire. La convergence de cet observateur pour un système sous sa forme normale d’observabilité est démontrée pour toute erreur d’estimation initiale. Cependant, contrairement à l’EKF, cet algorithme est très sensible au bruit de mesure. Notre objectif est de combiner l’efficacit´e de l’EKF en termes de lissage du bruit, et la r´eactivit´e de l’EKF grand-gain face aux erreurs d’estimation. Afin de parvenir à ce résultat nous rendons adaptatif le paramètre central de la méthode grand gain. Ainsi est constitué l’EKF à grand gain adaptatif. Le processus d’adaptation doit être guidé par une mesure de la qualité de l’estimation. Nous proposons un tel indice et prouvons sa pertinence. Nous établissons une preuve de la convergence de notre observateur, puis nous l’illustrons à l’aide d’une série de simulations ainsi qu’une implémentation en temps réel dur. Enfin nous proposons des extensions au résultat initial : dans le cas de systèmes multi-sorties et dans le cas continu-discret. / The work concerns the “observability problem”—the reconstruction of a dynamic process’s full state from a partially measured state— for nonlinear dynamic systems. The Extended Kalman Filter (EKF) is a widely-used observer for such nonlinear systems. However it suffers from a lack of theoretical justifications and displays poor performance when the estimated state is far from the real state, e.g. due to large perturbations, a poor initial state estimate, etc. . . We propose a solution to these problems, the Adaptive High-Gain (EKF). Observability theory reveals the existence of special representations characterizing nonlinear systems having the observability property. Such representations are called observability normal forms. A EKF variant based on the usage of a single scalar parameter, combined with an observability normal form, leads to an observer, the High-Gain EKF, with improved performance when the estimated state is far from the actual state. Its convergence for any initial estimated state is proven. Unfortunately, and contrary to the EKF, this latter observer is very sensitive to measurement noise. Our observer combines the behaviors of the EKF and of the high-gain EKF. Our aim is to take advantage of both efficiency with respect to noise smoothing and reactivity to large estimation errors. In order to achieve this, the parameter that is the heart of the high-gain technique is made adaptive. Voila, the Adaptive High-Gain EKF. A measure of the quality of the estimation is needed in order to drive the adaptation. We propose such an index and prove the relevance of its usage. We provide a proof of convergence for the resulting observer, and the final algorithm is demonstrated via both simulations and a real-time implementation. Finally, extensions to multiple output and to continuous-discrete systems are given.
|
304 |
Méthodes itératives pour la résolution d'équations matricielles / Iterative methods fol solving matrix equationsSadek, El Mostafa 23 May 2015 (has links)
Nous nous intéressons dans cette thèse, à l’étude des méthodes itératives pour la résolutiond’équations matricielles de grande taille : Lyapunov, Sylvester, Riccati et Riccatinon symétrique.L’objectif est de chercher des méthodes itératives plus efficaces et plus rapides pour résoudreles équations matricielles de grande taille. Nous proposons des méthodes itérativesde type projection sur des sous espaces de Krylov par blocs Km(A, V ) = Image{V,AV, . . . ,Am−1V }, ou des sous espaces de Krylov étendus par blocs Kem(A, V ) = Image{V,A−1V,AV,A−2V,A2V, · · · ,Am−1V,A−m+1V } . Ces méthodes sont généralement plus efficaces et rapides pour les problèmes de grande dimension. Nous avons traité d'abord la résolution numérique des équations matricielles linéaires : Lyapunov, Sylvester, Stein. Nous avons proposé une nouvelle méthode itérative basée sur la minimisation de résidu MR et la projection sur des sous espaces de Krylov étendus par blocs Kem(A, V ). L'algorithme d'Arnoldi étendu par blocs permet de donner un problème de minimisation projeté de petite taille. Le problème de minimisation de taille réduit est résolu par différentes méthodes directes ou itératives. Nous avons présenté ainsi la méthode de minimisation de résidu basée sur l'approche global à la place de l'approche bloc. Nous projetons sur des sous espaces de Krylov étendus Global Kem(A, V ) = sev{V,A−1V,AV,A−2V,A2V, · · · ,Am−1V,A−m+1V }. Nous nous sommes intéressés en deuxième lieu à des équations matricielles non linéaires, et tout particulièrement l'équation matricielle de Riccati dans le cas continu et dans le cas non symétrique appliquée dans les problèmes de transport. Nous avons utilisé la méthode de Newtown et l'algorithme MINRES pour résoudre le problème de minimisation projeté. Enfin, nous avons proposé deux nouvelles méthodes itératives pour résoudre les équations de Riccati non symétriques de grande taille : la première basée sur l'algorithme d'Arnoldi étendu par bloc et la condition d'orthogonalité de Galerkin, la deuxième est de type Newton-Krylov, basée sur la méthode de Newton et la résolution d'une équation de Sylvester de grande taille par une méthode de type Krylov par blocs. Pour toutes ces méthodes, les approximations sont données sous la forme factorisée, ce qui nous permet d'économiser la place mémoire en programmation. Nous avons donné des exemples numériques qui montrent bien l'efficacité des méthodes proposées dans le cas de grandes tailles. / In this thesis, we focus in the studying of some iterative methods for solving large matrix equations such as Lyapunov, Sylvester, Riccati and nonsymmetric algebraic Riccati equation. We look for the most efficient and faster iterative methods for solving large matrix equations. We propose iterative methods such as projection on block Krylov subspaces Km(A, V ) = Range{V,AV, . . . ,Am−1V }, or block extended Krylov subspaces Kem(A, V ) = Range{V,A−1V,AV,A−2V,A2V, · · · ,Am−1V,A−m+1V }. These methods are generally most efficient and faster for large problems. We first treat the numerical solution of the following linear matrix equations : Lyapunov, Sylvester and Stein matrix equations. We have proposed a new iterative method based on Minimal Residual MR and projection on block extended Krylov subspaces Kem(A, V ). The extended block Arnoldi algorithm gives a projected minimization problem of small size. The reduced size of the minimization problem is solved by direct or iterative methods. We also introduced the Minimal Residual method based on the global approach instead of the block approach. We projected on the global extended Krylov subspace Kem(A, V ) = Span{V,A−1V,AV,A−2V,A2V, · · · ,Am−1V,A−m+1V }. Secondly, we focus on nonlinear matrix equations, especially the matrix Riccati equation in the continuous case and the nonsymmetric case applied in transportation problems. We used the Newton method and MINRES algorithm to solve the projected minimization problem. Finally, we proposed two new iterative methods for solving large nonsymmetric Riccati equation : the first based on the algorithm of extended block Arnoldi and Galerkin condition, the second type is Newton-Krylov, based on Newton’s method and the resolution of the large matrix Sylvester equation by using block Krylov method. For all these methods, approximations are given in low rank form, wich allow us to save memory space. We have given numerical examples that show the effectiveness of the methods proposed in the case of large sizes.
|
305 |
Etudes expérimentale et numérique de la pyrolyse oxydante de la biomasse en lit fixe / Experimental and numerical studies of biomass oxidative pyrolysis in a fixed bed reactorDaouk, Elias 20 November 2015 (has links)
Les procédés de gazéification de bois à lits fixes étagés sont adaptés à la production d'électricité de petites puissances. Dans ces procédés, la pyrolyse est opérée dans un réacteur continu à lit fixe descendant. La particularité de ce type de réacteur est son fonctionnement autothermique. L'énergie nécessaire au chauffage, au séchage et à la pyrolyse est apportée par la combustion partielle du bois : on parle de “pyrolyse oxydante”. L'injection d'air par le haut du réacteur provoque la propagation d'une zone d'oxydation dans le milieu poreux à contre-courant des écoulements des solides et des gaz. Les travaux présentés dans ce manuscrit visent une meilleure description de cette étape du procédé. Le problème posé est de type multi-échelles. Ainsi, nous avons préalablement mené une étude à l'échelle de la particule isolée avant de s'intéresser au comportement global du lit fixe. A l'échelle de la particule, nous avons quantifié l'effet de l'oxygène et de la taille des particules sur la cinétique de la pyrolyse oxydante. Cette étude nous a guidés pour la mise en place d'un modèle cinétique de cette transformation. A l'échelle du lit fixe, la propagation de la zone d'oxydation a été caractérisée par des approches expérimentale et numérique, offrant ainsi une meilleure connaissance de cette étape du procédé étagé. / Wood Multi-staged gasification in a fixed bed reactor is suitable for small-scale electricity generation. In these processes, the pyrolysis is performed in a continuous downward fixed bed reactor. The main feature of this reactor is the autothermal operation. Energy for heating, drying and pyrolysis is supplied by partial combustion of wood, known as “oxidative pyrolysis”. The air introduced from the top of the reactor induces a combustion front that propagates countercurrent with the solids and gazes flows. The work presented in this document aimed to achieve a better description of this process. A multi-scale approach was considered. Therefore, we have firstly studied the behavior of an isolated particle before focusing on the overall fixed bed. At the particle scale, we have quantified the effect of oxygen and of particle size on the oxidative pyrolysis kinetics. This led us to the setup of a kinetic model for this transformation.At the fixed bed scale, the propagation of the combustion front was studied considering the experimental and numerical approaches, which provides a better understanding of this step of the wood staged gasifiers.
|
306 |
L'interface photosphère solaire/chromosphère et couronne : apport des éclipses et des images EUV / The solar interface photosphere/chromosphere and corona : contributions of eclipses and EUV filtergramsBazin, Cyrille 10 October 2013 (has links)
Les régions d’interface du Soleil de la photosphère à la chromosphère et au delà de la basse couronne ont été étudiées à partir des spectres éclairs. Les éclipses sont les plus adaptées à ce type d’observation, car l’occultation a lieu en dehors de l’atmosphère terrestre et sont exemptes de lumière parasite. Les images Extrême-UV des régions du limbe obtenues récemment dans l’espace sont analysés avec des modèles hydrostatiques à une dimension, comme les modèles VAL, mais cette méthode ne tient pas compte du phénomène d’émergence du champ magnétique, associé au réseau chromosphérique qui est responsable de: i) les spicules et le milieu interspiculaire, ii) les jets coronaux et macrospicules. Un saut de température de 0.01 à 1 MK est observé autour de 2 Mm d’altitude plus loin, et produit plus loin le flot du vent solaire permanent. Le processus de chauffage responsable du saut de température et la source du vent solaire ne sont pas encore compris. Dans cette thèse, nous traitons ces problèmes à partir de spectres éclairs récents réalisés avec les technologies actuelles de détecteurs CCD rapides, images d’éclipse en lumière blanche et des images EUV obtenues avec des instruments de missions spatiales. Nous illustrons les mécanismes des émissions des raies à faible potentiel de première ionisation (FIP) présents dans les basses couches de l’atmosphère solaire. Nous identifions plus précisément les raies à bas FIP à la fois dans les interfaces, à l’intérieur et en dehors des protubérances. Nous caractérisons en détail les enveloppes d’hélium et la région de l’interface solaire. Nous discutons de l'enrichissement de la couronne en éléments low FIP. / The solar interface region from the photosphere to the chromosphere and to the lower corona has been studied using flash spectra obtained during solar total eclipses. Eclipses are very favourable for this type of observation as the occultation takes place outside the Earth atmosphere and are free of parasitic scattered light. Independently, EUV filtergrams of the limb region obtained in space were analyzed using one dimensional hydrostatic models like the VAL models but this method ignores the ubiquitous magnetic field emergence phenomenon associated with the chromospheric network and responsible for: i) spicules and interspicular regions, ii) coronal jets and macrospicules. The components of the solar interface region are dynamical and different type of waves and magnetic reconnections are suggested to be at work. A jump of temperature from 0.01 to 1 MK is observed near the 2 Mm heights and higher, further producing a permanent solar wind flow. The heating processes responsible for this temperature jump and for the flow are not yet fully understood. In this thesis, we reconsider these problems on the basis of original, superior flash spectra which benefit from present technology such as CCD detectors, white light (W-L) eclipse images and new EUV images obtained with space-borne instruments. We illustrate the mechanisms of low First Ionisation Potential (FIP) emission lines present in the low layers of the solar atmosphere and interfaces. We identify more precisely low FIP lines both inside and nearby prominences. We characterize in detail the He shells and the solar interface region. We discuss the enrichment of low FIP elements in the corona.
|
307 |
Conception d’un module d’électronique de puissance «Fail-to-short» pour application haute tension / Designing a power module with failure to short circuit mode capability for high voltage applicationsDchar, Ilyas 31 May 2017 (has links)
Les convertisseurs de forte puissance sont des éléments critiques des futurs réseaux HVDC. À ce titre, leur fiabilité et leur endurance sont primordiales. La défaillance d’un composant se produit soit en circuit ouvert, ou en court-circuit. Le composant défaillant en circuit ouvert est inadmissible pour les convertisseurs utilisant une topologie de mise en série. En particulier, dans certaines applications HVDC, les modules doivent être conçus de telle sorte que lorsqu'une défaillance se produit, le module défaillant doit se comporter comme un court-circuit et supporter ainsi le courant nominal qui le traverse. Un tel comportement est appelé “défaillance en court-circuit” ou “failure-to-short-circuit”. Actuellement, tous les modules de puissance ayant un mode de défaillance en court-circuit disponibles dans le commerce utilisent des semi-conducteurs en silicium. Les potentialités des semi-conducteurs en carbure de silicium (SiC) poussent, aujourd’hui, les industriels et les chercheurs à mener des investigations pour développer des modules Fail-to-short à base des puces SiC. C’est dans ce contexte que se situe ce travail de thèse, visant à concevoir un module à base de puces SiC offrant un mode de défaillance de court-circuit. Pour cela nous présentons d’abord une étude de l’énergie de défaillance des puces SiC, afin de définir les plages d’activation du mécanisme Fail-to-short. Ensuite, nous démontrons la nécessité de remplacer les interconnexions classiques (fils de bonding) par des contacts massifs sur la puce. Enfin, une mise en œuvre est présentée au travers d’un module “demi pont” à deux transistors MOSFET. / The reliability and endurance of high power converters are paramount for future HVDC networks. Generally, module’s failure behavior can be classified as open-circuit failure and short-circuit failure. A module which fails to an open circuit is considered as fatal for applications requiring series connection. Especially, in some HVDC application, modules must be designed such that when a failure occurs, the failed module still able to carry the load current by the formation of a stable short circuit. Such operation is referred to as short circuit failure mode operation. Currently, all commercially available power modules which offer a short circuit failure mode use silicon semiconductors. The benefits of SiC semiconductors prompts today the manufacturers and researchers to carry out investigations to develop power modules with Fail-to-short-circuit capability based on SiC dies. This represents a real challenge to replace silicon power module for high voltage applications in the future. The work presented in this thesis aims to design a SiC power module with failure to short-circuit failure mode capability. The first challenge of the research work is to define the energy leading to the failure of the SiC dies in order to define the activation range of the Fail-to-short mechanism. Then, we demonstrate the need of replacing the conventional interconnections (wire bonds) by massive contacts. Finally, an implementation is presented through a "half bridge" module with two MOSFETs.
|
308 |
Terminaisons verticales de jonction remplies avec des couches diélectriques isolantes pour des application haute tension utilisant des composants grand-gap de forte puissance / Vertical termination filled with adequate dielectric on wide band-gap HVDC power devicesBui, Thi Thanh Huyen 12 July 2018 (has links)
Le développement de l’énergie renouvelable loin des zones urbaines demande le transport d'une grande quantité d’énergie sur de longues distances. Le transport d’électricité en courant continu haute tension (HVDC) présente beaucoup d’avantages par rapport à celui en courant alternatif. Dans ce contexte il est nécessaire de développer des convertisseurs de puissance constitués par des composants électroniques très haute tension, 10 à 30 kV. Si les composants en silicium ne peuvent pas atteindre ces objectifs, le carbure de silicium (SiC) se positionne comme un matériau semiconducteur alternatif prometteur. Pour supporter des tensions élevées, une région de "drift", relativement large et peu dopée constitue le cœur du composant de puissance. En pratique l’obtention d’une tension de blocage effective dépend de plusieurs facteurs et surtout de la conception d'une terminaison de jonction adaptée. Cette thèse présente une méthode pour améliorer la tenue en tension des composants en SiC basée sur l’utilisation des terminaisons de jonctions : Deep Trench Termination. Cette méthode utilise une tranchée gravée profonde en périphérie du composant, remplie avec un matériau diélectrique pour supporter l'étalement des lignes équipotentielles. La conception de la diode avec cette terminaison a été faite par simulation TCAD, avec deux niveaux de tension 3 et 20 kV. Les travaux ont pris en compte les caractéristiques du matériau, les charges à l’interface de la tranchée et les limites technologiques pour la fabrication. Ce travail a abouti sur la fabrication de démonstrateurs et leur caractérisation pour valider notre conception. Lors de la réalisation de ces structures, la gravure plasma du SiC a été optimisée dans un bâti ICP de manière à obtenir une vitesse de gravure élevée et en conservant une qualité électronique de l'état des surfaces gravées. Cette qualité est confirmée par les résultats de caractérisation obtenus avec des tenues en tension proches de celle idéale. / The development of renewable energy away from urban areas requires the transmission of a large amount of energy over long distances. High Voltage Direct Current (HVDC) power transmission has many advantages over AC power transmission. In this context, it is necessary to develop power converters based on high voltage power electronic components, 10 to 30 kV. If silicon components cannot achieve these objectives, silicon carbide (SiC) is positioned as a promising alternative semiconductor material. To support high voltages, a drift region, relatively wide and lightly doped is the heart of the power component. In practice obtaining an effective blocking voltage depends on several factors and especially the design of a suitable junction termination. This thesis presents a method to improve the voltage withstand of SiC components based on the use of junction terminations: Deep Trench Termination. This method uses a trench deep etching around the periphery of the component, filled with a dielectric material to support the spreading of the equipotential lines. The design of the diode with this termination was done by TCAD simulation, with two voltage levels 3 and 20 kV. The work took into account the characteristics of the material, the interface charge of the trench and the technological limits for the fabrication. This work resulted in the fabrication of demonstrators and their characterization to validate the design. During the production of these structures, plasma etching of SiC has been optimized in an ICP reactor so as to obtain a high etching rate and maintaining an electronic quality of the state of etched surfaces. This quality is confirmed by the results of characterization obtained with blocking voltage close to the ideal one.
|
309 |
Deep geometric probabilistic modelsXu, Minkai 10 1900 (has links)
La géométrie moléculaire, également connue sous le nom de conformation, est la représentation la plus intrinsèque et la plus informative des molécules. Cependant, prédire des conformations stables à partir de graphes moléculaires reste un problème difficile et fondamental en chimie et en biologie computationnelles. Les méthodes expérimentales et computationelles traditionnelles sont généralement coûteuses et chronophages. Récemment, nous avons assisté à des progrès considérables dans l'utilisation de l'apprentissage automatique, en particulier des modèles génératifs, pour accélérer cette procédure. Cependant, les approches actuelles basées sur les données n'ont généralement pas la capacité de modéliser des distributions complexes et ne tiennent pas compte de caractéristiques géométriques importantes. Dans cette thèse, nous cherchons à construire des modèles génératifs basés sur des principes pour la génération de conformation moléculaire qui peuvent surmonter les problèmes ci-dessus. Plus précisément, nous avons proposé des modèles de diffusion basés sur les flux, sur l'énergie et de débruitage pour la génération de structures moléculaires. Cependant, il n'est pas trivial d'appliquer ces modèles à cette tâche où la vraisemblance des géométries devrait avoir la propriété importante d'invariance par rotation par de translation. Inspirés par les progrès récents de l'apprentissage des représentations géométriques, nous fournissons à la fois une justification théorique et une mise en œuvre pratique sur la manière d'imposer cette propriété aux modèles. Des expériences approfondies sur des jeux de données de référence démontrent l'efficacité de nos approches proposées par rapport aux méthodes de référence existantes. / Molecular geometry, also known as conformation, is the most intrinsic and informative representation of molecules. However, predicting stable conformations from molecular graphs remains a challenging and fundamental problem in computational chemistry and biology. Traditional experimental and computational methods are usually expensive and time-consuming. Recently, we have witnessed considerable progress in using machine learning, especially generative models, to accelerate this procedure. However, current data-driven approaches usually lack the capacity for modeling complex distributions and fail to take important geometric features into account. In this thesis, we seek to build principled generative models for molecular conformation generation that can overcome the above problems. Specifically, we proposed flow-based, energy-based, and denoising diffusion models for molecular structure generation. However, it's nontrivial to apply these models to this task where the likelihood of the geometries should have the important property of rotational and translation invariance. Inspired by the recent progress of geometric representation learning, we provide both theoretical justification and practical implementation about how to impose this property into the models. Extensive experiments on common benchmark datasets demonstrate the effectiveness of our proposed approaches over existing baseline methods.
|
310 |
Aligning language models to code : exploring efficient, temporal, and preference alignment for code generationWeyssow, Martin 09 1900 (has links)
Pre-trained and large language models (PLMs, LLMs) have had a transformative impact on the artificial intelligence (AI) for software engineering (SE) research field.
Through large-scale pre-training on terabytes of natural and programming language data, these models excel in generative coding tasks such as program repair and code generation.
Existing approaches to align the model's behaviour with specific tasks propose using parameter-free methods like prompting or fine-tuning to improve their effectiveness.
Nevertheless, it remains unclear how to align code PLMs and LLMs to more complex scenarios that extend beyond task effectiveness.
We focus on model alignment in three overlooked scenarios for code generation, each addressing a specific objective: optimizing fine-tuning costs, aligning models with new data while retaining previous knowledge, and aligning with user coding preferences or non-functional requirements.
We explore these scenarios in three articles, which constitute the main contributions of this thesis.
In the first article, we conduct an empirical study on parameter-efficient fine-tuning techniques (PEFTs) for code LLMs in resource-constraint settings.
Our study reveals the superiority of PEFTs over few-shot learning, showing that PEFTs like LoRA and QLoRA allow fine-tuning LLMs with up to 33 billion parameters on a single 24GB GPU without compromising task effectiveness.
In the second article, we examine the behaviour of code PLMs in a continual fine-tuning setting, where the model acquires new knowledge from sequential domain-specific datasets.
Each dataset introduces new data about third-party libraries not seen during pre-training or previous fine-tuning.
We demonstrate that sequential fine-tuning leads to catastrophic forgetting and implement replay- and regularization-based continual learning approaches, showcasing their superiority in balancing task effectiveness and knowledge retention.
In our third article, we introduce CodeUltraFeedback and CODAL-Bench, a novel dataset and benchmark for aligning code LLMs to user coding preferences or non-functional requirements.
Our experiments reveal that tuning LLMs with reinforcement learning techniques like direct preference optimization (DPO) using CodeUltraFeedback results in better-aligned LLMs to coding preferences and substantial improvement in the functional correctness of LLM-generated code. / Les modèles de langue pré-entraînés et de grande taille (PLMs, LLMs) ont eu un impact
transformateur sur le domaine de la recherche en intelligence artificielle (IA) pour l’ingénierie
logicielle (SE). Grâce à un pré-entraînement à grande échelle sur des téraoctets de données
en langage naturel et de programmation, ces modèles excellent dans les tâches de codage
génératif telles que la réparation de programmes et la génération de code. Les approches
existantes pour aligner le comportement du modèle avec des tâches spécifiques proposent
l’utilisation de méthodes non paramétriques telles que le prompting ou le fine-tuning pour
améliorer leur efficacité. Néanmoins, il reste incertain comment aligner les PLMs et LLMs de
code sur des scénarios plus complexes qui nécessitent plus que garantir l’efficacité du modèle
sur des tâches cibles. Nous nous concentrons sur l’alignement des modèles dans trois scénarios
négligés pour la génération de code, chacun abordant un objectif spécifique: optimiser les
coûts de fine-tuning, aligner les modèles avec de nouvelles données dans le temps tout en
conservant les connaissances antérieures, et aligner les modèles sur les préférences de codage
des utilisateurs ou exigences non fonctionnelles. Nous explorons ces scénarios dans trois
articles, qui constituent les principales contributions de cette thèse.
Dans le premier article, nous réalisons une étude empirique sur les techniques de finetuning efficaces en paramètres (PEFTs) pour les LLMs de code dans des environnements
à ressources limitées. Notre étude révèle la supériorité des PEFTs par rapport au few-shot
learning, montrant que des PEFTs comme LoRA et QLoRA permettent de fine-tuner des
LLMs jusqu’à 33 milliards de paramètres sur un seul GPU de 24Go sans compromettre
l’efficacité sur les tâches. Dans le deuxième article, nous examinons le comportement des
PLMs de code dans un contexte de fine-tuning continu, où le modèle acquiert de nouvelles
connaissances à partir de jeux de données séquentiels. Chaque jeu de données introduit
de nouvelles informations sur des bibliothèques tierces non vues lors de la phase de préentraînement ou dans les jeux de données de fine-tuning précédents. Nous démontrons que le
fine-tuning séquentiel conduit à de l’oubli catastrophique et mettons en œuvre des approches
d’apprentissage continu basées sur le replay et la régularisation, et montrons leur supériorité
pour balancer l’efficacité du modèle et la rétention des connaissances. Dans notre troisième
article, nous introduisons CodeUltraFeedback et CODAL-Bench, un nouveau jeu de données
et un banc d’essai pour aligner les LLMs de code sur les préférences de codage des utilisateurs
ou exigences non fonctionnelles. Nos expériences révèlent que le tuning des LLMs avec des
techniques d’apprentissage par renforcement comme l’optimisation directe des préférences
(DPO) utilisant CodeUltraFeedback résulte en des LLMs mieux alignés sur les préférences de
codage et une amélioration substantielle de l’exactitude fonctionnelle des codes générés.
|
Page generated in 0.0496 seconds