Global ETD Search

1	Enhancing factuality and coverage in summarization via referencing key extracted content Belanger Albarran, Georges 04 1900 (has links) Les résumés abstraits de dialogues permettent aux gens de comprendre rapidement les aspects clés des conversations dont la synthèse nécessiterait autrement des efforts considérables. Malgré les progrès considérables réalisés par les grands modèles de langage (LLM), même les modèles les plus puissants souffrent encore d’hallucinations lorsqu’ils génèrent des résumés abstraits et ne parviennent pas à couvrir des aspects importants du contenu sous-jacent. En outre, la vérification humaine de la factualité d’un résumé abstrait peut nécessiter un effort considérable. L’un des moyens de minimiser la charge cognitive liée à la vérification de la qualité d’un résumé consiste à faire en sorte que le résumé cite des phrases dans le contenu original. Cependant, il est rare que les ensembles de données de résumés abstraits citent des passages de texte du contenu original. Même les meilleurs LLM ont du mal à effectuer un résumé basé sur des citations. Pour résoudre ce problème, nous créons l’ensemble de données Tweetsumm++, composé de résumés abstraits soutenus par des citations de dialogues entre clients et entreprises sur Twitter. Nous examinons également une méthode d’entraînement et de formulation de problèmes multitâches qui apprend à effectuer conjointement un résumé extractif et un résumé abstractif faisant référence au contenu extrait. Dans notre configuration, le modèle est également chargé d’étiqueter les phrases clés dans des catégories telles que ISSUE, RESOLUTION,WORKAROUND et autres, qui représentent les principaux éléments clés d’un dialogue. Nous explorons l’impact de la mise au point d’un LLM Mixtral open-source pour effectuer un résumé abstractif basé sur des citations et une catégorisation des phrases clés. En outre, étant donné que l’acquisition d’étiquettes pour un tel ensemble de données est coûteuse, nous explorons une nouvelle méthode d’auto-étiquetage basée sur le feedback de l’IA qui bénéficie du format de résumé basé sur les citations et peut améliorer les modèles en ce qui concerne la qualité des citations. / Abstractive summaries of dialogues allow people to quickly understand key aspects of conversations that might otherwise take considerable effort to synthesize. Despite the tremendous progress made by large language models (LLMs), even the most powerful models still suffer from hallucinations when generating abstractive summaries and fail to cover important aspects of the underlying content. Furthermore, human verification of the factuality of an abstractive summary can entail significant effort. One way to minimize the cognitive load of quality checking an abstractive summary is to have the summary cite sentences within the original content. However, it is uncommon for abstractive summarization datasets to cite passages of text from the original content. Even the best LLMs struggle to perform citation-backed summarization. To address this issue, we create the Tweetsumm++ dataset composed of citation-backed abstractive summaries of dialogues between customers and companies on Twitter. We also examine a multi-task problem formulation and training method that learns to jointly perform extractive, and abstractive summarization which reference the extracted content. In our setup, the model is also tasked with tagging key sentences into categories such as ISSUE, RESOLUTION, WORKAROUND, and others that represent the main key elements of a dialogue. We explore the impact of fine-tuning an open-source Mixtral LLM to perform citation-backed abstractive summarization and key sentence categorization. Further, since acquiring labels for such a dataset is costly, we explore a novel self-labeling method based on AI feedback that benefits from the citation-based summarization format and can improve models with respect to citation quality. Résumé de Dialogue Grands Modèles de Langage, Hallucination Factualité Couverture Citation de Contenu Dialogue Summarization Large Language Models Factuality Coverage Content Citation
2	Learning representations for reasoning : generalizing across diverse structures Zhu, Zhaocheng 08 1900 (has links) Le raisonnement, la capacité de tirer des conclusions logiques à partir de connaissances existantes, est une caractéristique marquante de l’être humain. Avec la perception, ils constituent les deux thèmes majeurs de l’intelligence artificielle. Alors que l’apprentissage profond a repoussé les limites de la perception au-delà des performances humaines en vision par ordinateur et en traitement du langage naturel, les progrès dans les domaines du raisonnement sont loin derrière. L’une des raisons fondamentales est que les problèmes de raisonnement ont généralement des structures flexibles à la fois pour les connaissances (par exemple, les graphes de connaissances) et les requêtes (par exemple, les requêtes en plusieurs étapes), et de nombreux modèles existants ne fonctionnent bien que sur les structures vues pendant l’entraînement. Dans cette thèse, nous visons à repousser les limites des modèles de raisonnement en concevant des algorithmes qui généralisent à travers les structures de connaissances et de requêtes, ainsi que des systèmes qui accélèrent le développement sur des données structurées. Cette thèse est composée de trois parties. Dans la partie I, nous étudions des modèles qui peuvent généraliser de manière inductive à des graphes de connaissances invisibles, qui impliquent de nouveaux vocabulaires d’entités et de relations. Pour les nouvelles entités, nous proposons un nouveau cadre qui apprend les opérateurs neuronaux dans un algorithme de programmation dynamique calculant des représentations de chemin. Ce cadre peut être étendu à des graphes de connaissances à l’échelle d’un million en apprenant une fonction de priorité. Pour les relations, nous construisons un graphe de relations pour capturer les interactions entre les relations, convertissant ainsi les nouvelles relations en nouvelles entités. Cela nous permet de développer un modèle pré-entraîné unique pour des graphes de connaissances arbitraires. Dans la partie II, nous proposons deux solutions pour généraliser les requêtes en plusieurs étapes sur les graphes de connaissances et sur le texte respectivement. Pour les graphes de connaissances, nous montrons que les requêtes en plusieurs étapes peuvent être résolues par plusieurs appels de réseaux neuronaux graphes et d’opérations de logique floue. Cette conception permet la généralisation à de nouvelles entités, et peut être intégrée à notre modèle pré-entraîné pour prendre en charge des graphes de connaissances arbitraires. Pour le texte, nous concevons un nouvel algorithme pour apprendre des connaissances explicites sous forme de règles textuelles afin d’améliorer les grands modèles de langage sur les requêtes en plusieurs étapes. Dans la partie III, nous proposons deux systèmes pour faciliter le développement de l’apprentissage automatique sur des données structurées. Notre bibliothèque open source traite les données structurées comme des citoyens de première classe et supprime la barrière au développement d’algorithmes d’apprentissage automatique sur des données structurées, y compris des graphes, des molécules et des protéines. Notre système d’intégration de noeuds résout le goulot d’étranglement de la mémoire GPU des matrices d’intégration et s’adapte aux graphes avec des milliards de noeuds. / Reasoning, the ability to logically draw conclusions from existing knowledge, is a hallmark of human. Together with perception, they constitute the two major themes of artificial intelligence. While deep learning has pushed the limit of perception beyond human-level performance in computer vision and natural language processing, the progress in reasoning domains is way behind. One fundamental reason is that reasoning problems usually have flexible structures for both knowledge (e.g. knowledge graphs) and queries (e.g. multi-step queries), and many existing models only perform well on structures seen during training. In this thesis, we aim to push the boundary of reasoning models by devising algorithms that generalize across knowledge and query structures, as well as systems that accelerate development on structured data. This thesis is composed of three parts. In Part I, we study models that can inductively generalize to unseen knowledge graphs, which involve new entity and relation vocabularies. For new entities, we propose a novel framework that learns neural operators in a dynamic programming algorithm computing path representations. This framework can be further scaled to million-scale knowledge graphs by learning a priority function. For relations, we construct a relation graph to capture the interactions between relations, thereby converting new relations into new entities. This enables us to develop a single pre-trained model for arbitrary knowledge graphs. In Part II, we propose two solutions for generalizing across multi-step queries on knowledge graphs and text respectively. For knowledge graphs, we show multi-step queries can be solved by multiple calls of graph neural networks and fuzzy logic operations. This design enables generalization to new entities, and can be integrated with our pre-trained model to accommodate arbitrary knowledge graphs. For text, we devise a new algorithm to learn explicit knowledge as textual rules to improve large language models on multi-step queries. In Part III, we propose two systems to facilitate machine learning development on structured data. Our open-source library treats structured data as first-class citizens and removes the barrier for developing machine learning algorithms on structured data, including graphs, molecules and proteins. Our node embedding system solves the GPU memory bottleneck of embedding matrices and scales to graphs with billion nodes. raisonnement apprentissage de représentation graphes de connaissances grands modèles de langage systèmes d’apprentissage automatique reasoning representation learning knowledge graphs large language models machine learning systems
3	Contextual cues for deep learning models of code Shrivastava, Disha 09 1900 (has links) Le code source offre un domaine d'application passionnant des méthodes d'apprentissage en profondeur, englobant des tâches telles que la synthèse, la réparation et l'analyse de programmes, ainsi que des tâches à l'intersection du code et du langage naturel. Bien que les modèles d’apprentissage profond pour le code, en particulier les grands modèles de langage, aient récemment connu un succès significatif, ils peuvent avoir du mal à se généraliser à du code invisible. Cela peut conduire à des inexactitudes, en particulier lorsque vous travaillez avec des référentiels contenant des logiciels propriétaires ou du code en cours de travail. L'objectif principal de cette thèse est d'exploiter efficacement les signaux utiles du contexte disponible afin d'améliorer les performances des modèles de code d'apprentissage profond pour une tâche donnée. En incorporant ces indices contextuels, les capacités de généralisation du modèle sont amplifiées, fournissant des informations supplémentaires non évidentes à partir de l'entrée d'origine et orientant son attention vers des détails essentiels. De plus, l'utilisation d'indices contextuels facilite l'adaptation aux nouvelles tâches et améliore les performances des tâches existantes en effectuant des prédictions plus contextuelles. Pour y parvenir, nous présentons un cadre général comprenant deux étapes : (a) l'amélioration du contexte, qui implique l'enrichissement de l'entrée avec un contexte de support obtenu grâce à l'identification et à la sélection d'indices contextuels pertinents, et (b) la prédiction à l'aide du contexte amélioré, où nous exploitez le contexte de support combiné aux entrées pour faire des prédictions précises. La thèse présente quatre articles qui proposent diverses approches pour ces étapes. Le premier article divise le problème standard de la programmation par exemples en deux étapes: (a) trouver des programmes qui satisfont des exemples individuels (solutions par exemple) et, (b) combiner ces solutions par exemple en tirant parti de leurs états d'exécution de programme pour trouver un programme qui satisfait tous les exemples donnés. Le deuxième article propose une approche pour sélectionner des informations ciblées à partir du fichier actuel et les utiliser pour adapter le modèle de complétion de code à un contexte local jamais vu précédemment. Le troisième article s'appuie sur le deuxième article en tirant parti des indices contextuels de l'ensemble du répertoire de code à l'aide d'un ensemble de requêtes ({\it prompts}) proposées suggérant l'emplacement et le contenu du contexte particulièrement utile à extraire du répertoire. Nous proposons un cadre pour sélectionner la requête la plus pertinente, qui est ensuite utilisée pour demander à un modèle de langage de code de générer des prédictions pour le reste de la ligne de code suivant un curseur positionné dans un fichier. Le quatrième article prolonge le troisième article en proposant un cadre qui apprend à combiner plusieurs contextes divers à partir du répertoire. Nous montrons que la formation de modèles de language de code plus petits de cette manière fonctionne mieux ou à égalité avec des modèles beaucoup plus grands qui n'utilisent pas le contexte du répertoire de code. / Source code provides an exciting application area of deep learning methods, encompassing tasks like program synthesis, repair, and analysis, as well as tasks at the intersection of code and natural language. Although deep learning models for code, particularly large language models, have recently seen significant success, they can face challenges in generalizing to unseen code. This can lead to inaccuracies especially when working with repositories that contain proprietary software or work-in-progress code. The main focus of this thesis is to effectively harness useful signals from the available context such that it can improve the performance of the deep learning models of code at the given task. By incorporating these contextual cues, the model's generalization capabilities are amplified, providing additional insights not evident from the original input and directing its focus toward essential details. Furthermore, the use of contextual cues aids in adapting to new tasks and boosts performance on existing ones by making more context-aware predictions. To achieve this, we present a general framework comprising two stages: (a) Context Enhancement, which involves enriching the input with support context obtained through the identification and selection of relevant contextual cues, and (b) Prediction using the Enhanced Context, where we leverage the support context combined with the input to make accurate predictions. The thesis presents four articles that propose diverse approaches for these stages. The first article breaks the standard problem of programming by examples into two stages: (a) finding programs that satisfy individual examples (per-example solutions) and, (b) combining these per-example solutions by leveraging their program execution states to find a program that satisfies all given examples. The second article proposes an approach for selecting targeted information from the current file and using it to adapt the code completion model to an unseen, local context. The third article builds upon the second article by leveraging contextual cues from the entire code repository using a set of prompt proposals that govern the location and content of the context that should be taken from the repository. We propose a framework to select the most relevant prompt proposal context which is then used to prompt a large language model of code to generate predictions for the tokens in the rest of the line following the cursor in a file. The fourth article extends the third article by proposing a framework that learns to combine multiple diverse contexts from the repository. We show that training smaller models of code this way performs better or at par with significantly larger models that are not trained with repository context. Deep Learning Program Synthesis Code Completion Machine Learning for Code Software Engineering Information Retrieval Large Language Models Apprentissage profond synthèse de programmes complétion de code apprentissage automatique pour le code génie logiciel recherche d'informations grands modèles de langage

1

Page generated in 0.0878 seconds