• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2
  • Tagged with
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Enhancing factuality and coverage in summarization via referencing key extracted content

Belanger Albarran, Georges 04 1900 (has links)
Les résumés abstraits de dialogues permettent aux gens de comprendre rapidement les aspects clés des conversations dont la synthèse nécessiterait autrement des efforts considérables. Malgré les progrès considérables réalisés par les grands modèles de langage (LLM), même les modèles les plus puissants souffrent encore d’hallucinations lorsqu’ils génèrent des résumés abstraits et ne parviennent pas à couvrir des aspects importants du contenu sous-jacent. En outre, la vérification humaine de la factualité d’un résumé abstrait peut nécessiter un effort considérable. L’un des moyens de minimiser la charge cognitive liée à la vérification de la qualité d’un résumé consiste à faire en sorte que le résumé cite des phrases dans le contenu original. Cependant, il est rare que les ensembles de données de résumés abstraits citent des passages de texte du contenu original. Même les meilleurs LLM ont du mal à effectuer un résumé basé sur des citations. Pour résoudre ce problème, nous créons l’ensemble de données Tweetsumm++, composé de résumés abstraits soutenus par des citations de dialogues entre clients et entreprises sur Twitter. Nous examinons également une méthode d’entraînement et de formulation de problèmes multitâches qui apprend à effectuer conjointement un résumé extractif et un résumé abstractif faisant référence au contenu extrait. Dans notre configuration, le modèle est également chargé d’étiqueter les phrases clés dans des catégories telles que ISSUE, RESOLUTION,WORKAROUND et autres, qui représentent les principaux éléments clés d’un dialogue. Nous explorons l’impact de la mise au point d’un LLM Mixtral open-source pour effectuer un résumé abstractif basé sur des citations et une catégorisation des phrases clés. En outre, étant donné que l’acquisition d’étiquettes pour un tel ensemble de données est coûteuse, nous explorons une nouvelle méthode d’auto-étiquetage basée sur le feedback de l’IA qui bénéficie du format de résumé basé sur les citations et peut améliorer les modèles en ce qui concerne la qualité des citations. / Abstractive summaries of dialogues allow people to quickly understand key aspects of conversations that might otherwise take considerable effort to synthesize. Despite the tremendous progress made by large language models (LLMs), even the most powerful models still suffer from hallucinations when generating abstractive summaries and fail to cover important aspects of the underlying content. Furthermore, human verification of the factuality of an abstractive summary can entail significant effort. One way to minimize the cognitive load of quality checking an abstractive summary is to have the summary cite sentences within the original content. However, it is uncommon for abstractive summarization datasets to cite passages of text from the original content. Even the best LLMs struggle to perform citation-backed summarization. To address this issue, we create the Tweetsumm++ dataset composed of citation-backed abstractive summaries of dialogues between customers and companies on Twitter. We also examine a multi-task problem formulation and training method that learns to jointly perform extractive, and abstractive summarization which reference the extracted content. In our setup, the model is also tasked with tagging key sentences into categories such as ISSUE, RESOLUTION, WORKAROUND, and others that represent the main key elements of a dialogue. We explore the impact of fine-tuning an open-source Mixtral LLM to perform citation-backed abstractive summarization and key sentence categorization. Further, since acquiring labels for such a dataset is costly, we explore a novel self-labeling method based on AI feedback that benefits from the citation-based summarization format and can improve models with respect to citation quality.
2

Contextual cues for deep learning models of code

Shrivastava, Disha 09 1900 (has links)
Le code source offre un domaine d'application passionnant des méthodes d'apprentissage en profondeur, englobant des tâches telles que la synthèse, la réparation et l'analyse de programmes, ainsi que des tâches à l'intersection du code et du langage naturel. Bien que les modèles d’apprentissage profond pour le code, en particulier les grands modèles de langage, aient récemment connu un succès significatif, ils peuvent avoir du mal à se généraliser à du code invisible. Cela peut conduire à des inexactitudes, en particulier lorsque vous travaillez avec des référentiels contenant des logiciels propriétaires ou du code en cours de travail. L'objectif principal de cette thèse est d'exploiter efficacement les signaux utiles du contexte disponible afin d'améliorer les performances des modèles de code d'apprentissage profond pour une tâche donnée. En incorporant ces indices contextuels, les capacités de généralisation du modèle sont amplifiées, fournissant des informations supplémentaires non évidentes à partir de l'entrée d'origine et orientant son attention vers des détails essentiels. De plus, l'utilisation d'indices contextuels facilite l'adaptation aux nouvelles tâches et améliore les performances des tâches existantes en effectuant des prédictions plus contextuelles. Pour y parvenir, nous présentons un cadre général comprenant deux étapes : (a) l'amélioration du contexte, qui implique l'enrichissement de l'entrée avec un contexte de support obtenu grâce à l'identification et à la sélection d'indices contextuels pertinents, et (b) la prédiction à l'aide du contexte amélioré, où nous exploitez le contexte de support combiné aux entrées pour faire des prédictions précises. La thèse présente quatre articles qui proposent diverses approches pour ces étapes. Le premier article divise le problème standard de la programmation par exemples en deux étapes: (a) trouver des programmes qui satisfont des exemples individuels (solutions par exemple) et, (b) combiner ces solutions par exemple en tirant parti de leurs états d'exécution de programme pour trouver un programme qui satisfait tous les exemples donnés. Le deuxième article propose une approche pour sélectionner des informations ciblées à partir du fichier actuel et les utiliser pour adapter le modèle de complétion de code à un contexte local jamais vu précédemment. Le troisième article s'appuie sur le deuxième article en tirant parti des indices contextuels de l'ensemble du répertoire de code à l'aide d'un ensemble de requêtes ({\it prompts}) proposées suggérant l'emplacement et le contenu du contexte particulièrement utile à extraire du répertoire. Nous proposons un cadre pour sélectionner la requête la plus pertinente, qui est ensuite utilisée pour demander à un modèle de langage de code de générer des prédictions pour le reste de la ligne de code suivant un curseur positionné dans un fichier. Le quatrième article prolonge le troisième article en proposant un cadre qui apprend à combiner plusieurs contextes divers à partir du répertoire. Nous montrons que la formation de modèles de language de code plus petits de cette manière fonctionne mieux ou à égalité avec des modèles beaucoup plus grands qui n'utilisent pas le contexte du répertoire de code. / Source code provides an exciting application area of deep learning methods, encompassing tasks like program synthesis, repair, and analysis, as well as tasks at the intersection of code and natural language. Although deep learning models for code, particularly large language models, have recently seen significant success, they can face challenges in generalizing to unseen code. This can lead to inaccuracies especially when working with repositories that contain proprietary software or work-in-progress code. The main focus of this thesis is to effectively harness useful signals from the available context such that it can improve the performance of the deep learning models of code at the given task. By incorporating these contextual cues, the model's generalization capabilities are amplified, providing additional insights not evident from the original input and directing its focus toward essential details. Furthermore, the use of contextual cues aids in adapting to new tasks and boosts performance on existing ones by making more context-aware predictions. To achieve this, we present a general framework comprising two stages: (a) Context Enhancement, which involves enriching the input with support context obtained through the identification and selection of relevant contextual cues, and (b) Prediction using the Enhanced Context, where we leverage the support context combined with the input to make accurate predictions. The thesis presents four articles that propose diverse approaches for these stages. The first article breaks the standard problem of programming by examples into two stages: (a) finding programs that satisfy individual examples (per-example solutions) and, (b) combining these per-example solutions by leveraging their program execution states to find a program that satisfies all given examples. The second article proposes an approach for selecting targeted information from the current file and using it to adapt the code completion model to an unseen, local context. The third article builds upon the second article by leveraging contextual cues from the entire code repository using a set of prompt proposals that govern the location and content of the context that should be taken from the repository. We propose a framework to select the most relevant prompt proposal context which is then used to prompt a large language model of code to generate predictions for the tokens in the rest of the line following the cursor in a file. The fourth article extends the third article by proposing a framework that learns to combine multiple diverse contexts from the repository. We show that training smaller models of code this way performs better or at par with significantly larger models that are not trained with repository context.

Page generated in 0.0643 seconds