Return to search

Generating plumitifs descriptions using neural networks

Titre de l'écran-titre (visionné le 24 mai 2023) / Comme dans de nombreuses autres démocraties, il existe au Canada un droit d'accès à l'information judiciaire. Il s'agit d'un élément fondamental de tout processus judiciaire. Ce droit a deux objectifs principaux : offrir une fenêtre sur le système de justice et permettre aux gens d'acquérir une meilleure compréhension du processus judiciaire. Parmi les documents essentiels au système de justice figure le plumitif : un document qui détaille le déroulement de chaque dossier ouverts devant les tribunaux. Malgré tout, il a été démontré que le plumitif est un document difficile à comprendre, tant pour les citoyens que les praticiens. Dans cette thèse, nous concentrons nos efforts sur le plumitif criminel, et nous proposons d'améliorer l'accès à ce registre juridique à l'aide de techniques du traitement automatique de la langue naturelle. Premièrement, nous proposons un nouveau jeu de données pour la génération des descriptions de plumitifs. Ce jeu de données est utilisé pour entraîner des générateurs de texte neuronaux afin de fournir des descriptions intelligibles des plumitifs criminels. Nous proposons ensuite une nouvelle métrique robuste d'évaluation de génération textuelle qui quantifie les omissions et les hallucinations des générateurs textuels neuronaux, un problème de grande importance dans le domaine juridique. Nous avons ensuite mené une évaluation manuelle des générations faites par différents modèles de réseaux de neurones, pour mieux caractériser le comportement de ceux-ci. Finalement, nous proposons un nouvel algorithme de décodage pour les générateurs textuels neuronaux de types "data-to-text" qui améliore la fidélité du texte généré par rapport aux données d'entrée. / As in many other democracies, Canada has a right of access to court information. It is a fundamental element of any judicial process. This right has two main purposes: to provide a window on the justice system and to allow people to gain a better understanding of the court process. One of the essential documents in the justice system is the docket; a document that details the progress of each case before the courts. Despite this, it has been shown that the docket is a document difficult to understand for both citizens and practitioners. In this thesis, we focus our efforts on the criminal docket, and we propose to improve access to this legal record using automatic natural language processing techniques. To this end, we propose a new dataset for generating docket descriptions. This dataset is used to train neural text generators to provide intelligible descriptions of criminal dockets. We then propose a new robust text generation evaluation metric that quantifies omissions and hallucinations of neural text generators, a problem of great importance in the legal domain. We then conduct a manual evaluation of generations made by neural networks, to better characterize their behavior. Finally, we propose a new decoding algorithm for data-to-text neural generators that improves the faithfulness of generated text with respect to the input.

Identiferoai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/118243
Date02 June 2023
CreatorsGarneau, Nicolas
ContributorsLamontagne, Luc
Source SetsUniversité Laval
LanguageEnglish
Detected LanguageFrench
TypeCOAR1_1::Texte::Thèse::Thèse de doctorat
Format1 ressource en ligne (xii, 125 pages), application/pdf
Rightshttp://purl.org/coar/access_right/c_abf2

Page generated in 0.0018 seconds