61 |
Résolution des anaphores nominales pour la compréhension automatique des textes / Nominal anaphora resolution for the automatic understanding of textsPham, Thi Nhung 27 January 2017 (has links)
Toutes les informations présentes actuellement sur le web représentent une source d‘informations colossale, qui s‘enrichit de jour en jour. L‘analyse automatique de ces informations, qui sont plus souvent non-structurées, constitue un véritable enjeu économique et scientifique. La résolution des anaphores nominales s‘inscrit dans la structuration des informations grâce à l‘identification du lien entre des groupes nominaux, elle permet de simplifier des tâches à différentes applications : la traduction automatique, le résumé ou l‘extraction automatique d‘information, le data mining etc. Dans ce contexte, le travail que nous avons mené dans cette thèse évoque différentes méthodes de résolution des anaphores nominales de deux types : infidèles et associatives. En nous fondant sur divers aspects autours de la notion d‘anaphore nominale et des notions de voisinage comme la résolution d‘anaphores pronominales, la résolution de coréférences ; en combinant des méthodes existantes avec des outils et des ressources disponibles pour la langue française, notre travail s‘attache à trois modules : module de prétraitement du corpus, module de résolution des anaphores nominales et le module d‘évaluation. Au module de prétraitement, les ressources lexicales sont constituées et mobilisées grâces aux analyses au niveau linguistique des anaphores nominales. La plateforme Unitex est le principal outil utilisé à cette étape. Pour les anaphores du type infidèle, nous avons utilisé deux méthodes différentes : la première mobilise des ressources lexicales simples avec les entrées de groupes nominaux uniquement ; la deuxième mobilise des ressources plus élaborées (les entrées de groupes nominaux et verbaux). Pour les anaphores associatives du type méronymique, nous nous fondons sur la théorie des classes d‘objets afin de décrire le type de relation anaphorique établie Résumé 17 entre l‘expression anaphorique et son antécédent. Les ressources utilisées pour ce type d‘anaphore sont ainsi divisées hiérarchiquement selon les classes et les domaines. Le module de résolution est l‘étape de décision, nous nous basons sur le calcul du poids de saillance de chacun des antécédents potentiels pour sélectionner le meilleur candidat. Chaque candidat peut avoir différents facteurs de saillance, qui correspond à sa probabilité d'être sélectionné. Le poids de saillance final est calculé par le moyen pondéré des poids de saillance élémentaires. Les facteurs de saillances sont proposés après les analyses syntaxiques et sémantiques du corpus. L‘évaluation de notre travail constitue un vrai enjeu à cause de la complexité de la tâche, mais elle nous permet d‘avoir une vue globale sur nos méthodes de travail. La comparaison des résultats obtenus permet de visualiser l‘apport de chaque paramètre utilisé. L‘évaluation de notre travail nous permet également de voir les erreurs au niveau du prétraitement (l‘extraction des syntagmes nominaux, des syntagmes verbaux…), cela nous a permis d‘intégrer un module de correction dans notre système. / In order to facilitate the interpretation of texts, this thesis is devoted to the development of a system to identify and resolve the indirect nominal anaphora and the associative anaphora. Resolution of the indirect nominal anaphora is based on calculating salience weights of candidate antecedents with the purpose of associating these antecedents with the anaphoric expressions identified. It is processed by twoAnnexe317different methods based on a linguistic approach: the first method uses lexical and morphological parameters; the second method uses morphological and syntactical parameters. The resolution of associative anaphora is based on syntactical and semantic parameters.The results obtained are encouraging: 90.6% for the indirect anaphora resolution with the first method, 75.7% for the indirect anaphora resolution with the second method and 68.7% for the associative anaphora resolution. These results show the contribution of each parameter used and the utility of this system in the automatic interpretation of the texts.
|
62 |
Modélisation de dialogues à l'aide d'un modèle Markovien cachéBesbes, Ghina 16 April 2018 (has links)
La modélisation de dialogue humain-machine est un domaine de recherche qui englobe plusieurs disciplines telles que la philosophie, les sciences cognitives et sociales, et l’informatique. Elle a pour but de reproduire la capacité humaine afin d’apprendre des stratégies optimales de dialogue. De plus, elle vise à concevoir et à évaluer des systèmes de gestion de dialogue ou d’étudier plus en détails la nature des conversations. Par ailleurs, peu de modèles de simulation de dialogues existants ont été jugé bons. Ce mémoire présente un modèle de Markov caché qui prédit l’action de l’utilisateur dans les systèmes de dialogue étant donné l’action du système précédente. L’apprentissage du modèle a été réalisé selon une approche d’apprentissage non supervisé en utilisant différentes méthodes de la validation croisée. Quant à l’évaluation du modèle, elle a été faite en utilisant différentes métriques. Les résultats de l’évaluation ont été en dessous des attentes mais tout de même satisfaisants par rapport aux travaux antérieurs. Par conséquent, des avenues de recherches futures seront proposées pour surpasser cette problématique. Mots-clés : traitement de la langue naturelle, dialogue oral homme-machine, modèle de Markov caché, apprentissage non supervisé, validation croisée. / Modeling human-machine dialogue is a research area that encompasses several disciplines such as philosophy, computer science, as well as cognitive and social sciences. It aims to replicate the human ability to learn optimal strategies of dialogue. Furthermore, it aims to design and evaluate management systems for dialogue, and to study the nature of the conversations in more detail. Moreover, few simulation models of existing dialogues were considered good. This thesis presents a hidden Markov model that predicts the action of the user in dialogue systems on the basis of the previous system action. The learning model has been realized through an approach to unsupervised learning using different methods of cross validation. As for model evaluation, it has been done using different metrics. The evaluation results were below expectation. Nonetheless, they are satisfactory compared to previous work. Ultimately, avenues for future research are proposed to overcome this problem. Keywords: natural language processing, spoken dialogue human-machine, Hidden Markov Model (HMM), unsupervised learning, cross validation.
|
63 |
La catégorisation grammaticale automatique : adaptation du catégoriseur de Brill au français et modification de l'approcheThibeault, Mélanie 11 April 2018 (has links)
Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2004-2005 / La catégorisation grammaticale automatique est un domaine où il reste encore beaucoup à faire. De très bons catégoriseurs existent pour l'anglais, mais ceux dont dispose la communauté francophone sont beaucoup moins efficaces. Nous avons donc entraîné le catégoriseur de Brill pour le français pour ensuite en améliorer les résultats. Par ailleurs, quelle que soit la technique utilisée, certains problèmes restent irrésolus. Les mots inconnus sont toujours difficiles à catégoriser correctement. Nous avons tenté de trouver des solutions à ce problème. En somme, nous avons apporté une série de modifications à l'approche de Brill et évalué l'impact de celles-ci sur les performances. Les modifications apportées ont permis de faire passer les performances du traitement des mots inconnus français de 70,7% à 78,6%. Nous avons donc amélioré sensiblement les performances bien qu'il reste encore beaucoup de travail à faire avant que le traitement des mots inconnus français soit satisfaisant.
|
64 |
Sentiment classification with case-base approachTorabian, Bibizeinab 13 January 2025 (has links)
L'augmentation de la croissance des réseaux, des blogs et des utilisateurs des sites d'examen sociaux font d'Internet une énorme source de données, en particulier sur la façon dont les gens pensent, sentent et agissent envers différentes questions. Ces jours-ci, les opinions des gens jouent un rôle important dans la politique, l'industrie, l'éducation, etc. Alors, les gouvernements, les grandes et petites industries, les instituts universitaires, les entreprises et les individus cherchent à étudier des techniques automatiques fin d’extraire les informations dont ils ont besoin dans les larges volumes de données. L’analyse des sentiments est une véritable réponse à ce besoin. Elle est une application de traitement du langage naturel et linguistique informatique qui se compose de techniques de pointe telles que l'apprentissage machine et les modèles de langue pour capturer les évaluations positives, négatives ou neutre, avec ou sans leur force, dans des texte brut. Dans ce mémoire, nous étudions une approche basée sur les cas pour l'analyse des sentiments au niveau des documents. Notre approche basée sur les cas génère un classificateur binaire qui utilise un ensemble de documents classifies, et cinq lexiques de sentiments différents pour extraire la polarité sur les scores correspondants aux commentaires. Puisque l'analyse des sentiments est en soi une tâche dépendante du domaine qui rend le travail difficile et coûteux, nous appliquons une approche «cross domain» en basant notre classificateur sur les six différents domaines au lieu de le limiter à un seul domaine. Pour améliorer la précision de la classification, nous ajoutons la détection de la négation comme une partie de notre algorithme. En outre, pour améliorer la performance de notre approche, quelques modifications innovantes sont appliquées. Il est intéressant de mentionner que notre approche ouvre la voie à nouveaux développements en ajoutant plus de lexiques de sentiment et ensembles de données à l'avenir. / Increasing growth of the social networks, blogs, and user review sites make Internet a huge source of data especially about how people think, feel, and act toward different issues. These days, people opinions play an important role in the politic, industry, education, etc. Thus governments, large and small industries, academic institutes, companies, and individuals are looking for investigating automatic techniques to extract their desire information from large amount of data. Sentiment analysis is one true answer to this need. Sentiment analysis is an application of natural language processing and computational linguistic that consists of advanced techniques such as machine learning and language model approaches to capture the evaluative factors such as positive, negative, or neutral, with or without their strength, from plain texts. In this thesis we study a case-based approach on cross-domain for sentiment analysis on the document level. Our case-based algorithm generates a binary classifier that uses a set of the processed cases, and five different sentiment lexicons to extract the polarity along the corresponding scores from the reviews. Since sentiment analysis inherently is a domain dependent task that makes it problematic and expensive work, we use a cross-domain approach by training our classifier on the six different domains instead of limiting it to one domain. To improve the accuracy of the classifier, we add negation detection as a part of our algorithm. Moreover, to improve the performance of our approach, some innovative modifications are applied. It is worth to mention that our approach allows for further developments by adding more sentiment lexicons and data sets in the future.
|
65 |
Analysis of the Dirichlet process mixture model with application to dialogue act classificationBakhtiari, Alireza 17 April 2018 (has links)
La reconnaissance des intentions de l’utilisateur est l’un des problèmes les plus difficiles dans la conception des systèmes de dialogues. Ces intentions sont généralement codés en termes d’actes de dialogue, où un rôle fonctionnel est attribué à chaque énoncé d’une conversation. L’annotation manuelle des actes de dialogue est généralement coûteuse et prends du temps, il y a donc un grand intérêt à plutôt annoter automatiquement des corpus de dialogue. Dans ce mémoire, nous proposons une approche non paramétrique bayésienne pour la classification automatique des actes de dialogue. Nous utilisons les mélanges par processus de Dirichlet (DPMM), dans lesquels chacune des composantes est déterminée par une distribution de Dirichlet-multinomial. Deux nouvelles approches pour l’estimation des hyperparamètres dans ces distributions sont introduites. Les résultats de l’application de ce modèle au corpus DIHANA montre que la DPMM peut récupérer le nombre réel d’étiquettes en haute précision. / Recognition of user intentions is one of the most challenging problems in the design of dialogue systems. These intentions are usually coded in terms of Dialogue Acts (Following Austin’s work on speech act theory), where a functional role is assigned to each utterance of a conversation. Manual annotation of dialogue acts is both time consuming and expensive, therefore there is a huge interest in systems which are able to automatically annotate dialogue corpora. In this thesis, we propose a nonparametric Bayesian approach for the automatic classification of dialogue acts. We make use of the Dirichlet Process Mixture Model (DPMM), within which each of the components is governed by a Dirichlet-Multinomial distribution. Two novel approaches for hyperparameter estimation in these distributions are also introduced. Results of the application of this model to the DIHANA corpus shows that the DPMM can successfully recover the true number of DA labels with high precision
|
66 |
Generating plumitifs descriptions using neural networksGarneau, Nicolas 13 December 2023 (has links)
Titre de l'écran-titre (visionné le 24 mai 2023) / Comme dans de nombreuses autres démocraties, il existe au Canada un droit d'accès à l'information judiciaire. Il s'agit d'un élément fondamental de tout processus judiciaire. Ce droit a deux objectifs principaux : offrir une fenêtre sur le système de justice et permettre aux gens d'acquérir une meilleure compréhension du processus judiciaire. Parmi les documents essentiels au système de justice figure le plumitif : un document qui détaille le déroulement de chaque dossier ouverts devant les tribunaux. Malgré tout, il a été démontré que le plumitif est un document difficile à comprendre, tant pour les citoyens que les praticiens. Dans cette thèse, nous concentrons nos efforts sur le plumitif criminel, et nous proposons d'améliorer l'accès à ce registre juridique à l'aide de techniques du traitement automatique de la langue naturelle. Premièrement, nous proposons un nouveau jeu de données pour la génération des descriptions de plumitifs. Ce jeu de données est utilisé pour entraîner des générateurs de texte neuronaux afin de fournir des descriptions intelligibles des plumitifs criminels. Nous proposons ensuite une nouvelle métrique robuste d'évaluation de génération textuelle qui quantifie les omissions et les hallucinations des générateurs textuels neuronaux, un problème de grande importance dans le domaine juridique. Nous avons ensuite mené une évaluation manuelle des générations faites par différents modèles de réseaux de neurones, pour mieux caractériser le comportement de ceux-ci. Finalement, nous proposons un nouvel algorithme de décodage pour les générateurs textuels neuronaux de types "data-to-text" qui améliore la fidélité du texte généré par rapport aux données d'entrée. / As in many other democracies, Canada has a right of access to court information. It is a fundamental element of any judicial process. This right has two main purposes: to provide a window on the justice system and to allow people to gain a better understanding of the court process. One of the essential documents in the justice system is the docket; a document that details the progress of each case before the courts. Despite this, it has been shown that the docket is a document difficult to understand for both citizens and practitioners. In this thesis, we focus our efforts on the criminal docket, and we propose to improve access to this legal record using automatic natural language processing techniques. To this end, we propose a new dataset for generating docket descriptions. This dataset is used to train neural text generators to provide intelligible descriptions of criminal dockets. We then propose a new robust text generation evaluation metric that quantifies omissions and hallucinations of neural text generators, a problem of great importance in the legal domain. We then conduct a manual evaluation of generations made by neural networks, to better characterize their behavior. Finally, we propose a new decoding algorithm for data-to-text neural generators that improves the faithfulness of generated text with respect to the input.
|
67 |
Analyse et détection automatique de disfluences dans la parole spontanée conversationnelle / Disfluency analysis and automatic detection in conversational spontaneous speechDutrey, Camille 16 December 2014 (has links)
Extraire de l'information de données langagières est un sujet de plus en plus d'actualité compte tenude la quantité toujours croissante d'information qui doit être régulièrement traitée et analysée, etnous assistons depuis les années 90 à l'essor des recherches sur des données de parole également. Laparole pose des problèmes supplémentaires par rapport à l'écrit, notamment du fait de la présence dephénomènes propres à l'oral (hésitations, reprises, corrections) mais aussi parce que les donnéesorales sont traitées par un système de reconnaissance automatique de la parole qui génèrepotentiellement des erreurs. Ainsi, extraire de l'information de données audio implique d'extraire del'information tout en tenant compte du « bruit » intrinsèque à l'oral ou généré par le système dereconnaissance de la parole. Il ne peut donc s'agir d'une simple application de méthodes qui ont faitleurs preuves sur de l'écrit. L'utilisation de techniques adaptées au traitement des données issues del'oral et prenant en compte à la fois leurs spécificités liées au signal de parole et à la transcription –manuelle comme automatique – de ce dernier représente un thème de recherche en pleindéveloppement et qui soulève de nouveaux défis scientifiques. Ces défis sont liés à la gestion de lavariabilité dans la parole et des modes d'expressions spontanés. Par ailleurs, l'analyse robuste deconversations téléphoniques a également fait l'objet d'un certain nombre de travaux dans lacontinuité desquels s'inscrivent ces travaux de thèse.Cette thèse porte plus spécifiquement sur l'analyse des disfluences et de leur réalisation dans desdonnées conversationnelles issues des centres d'appels EDF, à partir du signal de parole et destranscriptions manuelle et automatique de ce dernier. Ce travail convoque différents domaines, del'analyse robuste de données issues de la parole à l'analyse et la gestion des aspects liés àl'expression orale. L'objectif de la thèse est de proposer des méthodes adaptées à ces données, quipermettent d'améliorer les analyses de fouille de texte réalisées sur les transcriptions (traitement desdisfluences). Pour répondre à ces problématiques, nous avons analysé finement le comportement dephénomènes caractéristiques de l'oral spontané (disfluences) dans des données oralesconversationnelles issues de centres d'appels EDF, et nous avons mis au point une méthodeautomatique pour leur détection, en utilisant des indices linguistiques, acoustico-prosodiques,discursifs et para-linguistiques.Les apports de cette thèse s'articulent donc selon trois axes de recherche. Premièrement, nousproposons une caractérisation des conversations en centres d'appels du point de vue de l'oralspontané et des phénomènes qui le caractérisent. Deuxièmement, nous avons mis au point (i) unechaîne d'enrichissement et de traitement des données orales effective sur plusieurs plans d'analyse(linguistique, prosodique, discursif, para-linguistique) ; (ii) un système de détection automatique desdisfluences d'édition adapté aux données orales conversationnelles, utilisant le signal et lestranscriptions (manuelles ou automatiques). Troisièmement, d'un point de vue « ressource », nousavons produit un corpus de transcriptions automatiques de conversations issues de centres d'appelsannoté en disfluences d'édition (méthode semi-automatique). / Extracting information from linguistic data has gain more and more attention in the last decades inrelation with the increasing amount of information that has to be processed on a daily basis in the world. Since the 90’s, this interest for information extraction has converged to the development of researches on speech data. In fact, speech data involves extra problems to those encountered on written data. In particular, due to many phenomena specific to human speech (e.g. hesitations, corrections, etc.). But also, because automatic speech recognition systems applied on speech signal potentially generates errors. Thus, extracting information from audio data requires to extract information by taking into account the "noise" inherent to audio data and output of automatic systems. Thus, extracting information from speech data cannot be as simple as a combination of methods that have proven themselves to solve the extraction information task on written data. It comes that, the use of technics dedicated for speech/audio data processing is mandatory, and epsecially technics which take into account the specificites of such data in relation with the corresponding signal and transcriptions (manual and automatic). This problem has given birth to a new area of research and raised new scientific challenges related to the management of the variability of speech and its spontaneous modes of expressions. Furthermore, robust analysis of phone conversations is subject to a large number of works this thesis is in the continuity.More specifically, this thesis focuses on edit disfluencies analysis and their realisation in conversational data from EDF call centres, using speech signal and both manual and automatic transcriptions. This work is linked to numerous domains, from robust analysis of speech data to analysis and management of aspects related to speech expression. The aim of the thesis is to propose appropriate methods to deal with speech data to improve text mining analyses of speech transcriptions (treatment of disfluencies). To address these issues, we have finely analysed the characteristic phenomena and behavior of spontaneous speech (disfluencies) in conversational data from EDF call centres and developed an automatic method for their detection using linguistic, prosodic, discursive and para-linguistic features.The contributions of this thesis are structured in three areas of research. First, we proposed a specification of call centre conversations from the prespective of the spontaneous speech and from the phenomena that specify it. Second, we developed (i) an enrichment chain and effective processings of speech data on several levels of analysis (linguistic, acoustic-prosodic, discursive and para-linguistic) ; (ii) an system which detect automaticcaly the edit disfluencies suitable for conversational data and based on the speech signal and transcriptions (manual or automatic). Third, from a "resource" point of view, we produced a corpus of automatic transcriptions of conversations taken from call centres which has been annotated in edition disfluencies (using a semi-automatic method).
|
68 |
Intégration de connaissances linguistiques pour la reconnaissance de textes manuscrits en-ligneQuiniou, Solen 17 December 2007 (has links) (PDF)
L'objectif de ces travaux de thèse est de construire un système de reconnaissance de phrases, en se basant sur un système de reconnaissance de mots existant. Pour cela, deux axes de recherche sont abordés : la segmentation des phrases en mots ainsi que l'intégration de connaissances linguistiques pour prendre en compte le contexte des phrases. Nous avons étudié plusieurs types de modèles de langage statistiques, en comparant leurs impacts respectifs sur les performances du système de reconnaissance. Nous avons également recherché la meilleure stratégie pour les intégrer efficacement dans le système de reconnaissance global. Une des orginalités de cette étude est l'ajout d'une représentation des différentes hypothèses de phrases sous forme d'un réseau de confusion, afin de pouvoir détecter et corriger les erreurs de reconnaissance restantes. L'utilisation des technique présentées permet de réduire de façon importante le nombre d'erreurs de reconnaissance, parmi les mots des phrases.
|
69 |
Adaptation thématique non supervisée d'un système de reconnaissance automatique de la paroleLecorvé, Gwénolé 24 November 2010 (has links) (PDF)
Les systèmes actuels de reconnaissance automatique de la parole (RAP) reposent sur un modèle de langue (ML) qui les aide à déterminer les hypothèses de transcription les plus probables. Pour cela, le ML recense des probabilités de courtes séquences de mots, appelées n-grammes, fondées sur un vocabulaire fini. Ces ML et vocabulaire sont estimés une fois pour toutes à partir d'un vaste corpus de textes traitant de sujets variés. En conséquence, les systèmes actuels souffrent d'un manque de spécificité lorsqu'il s'agit de transcrire des documents thématiquement marqués. Pour pallier ce problème, nous proposons un nouveau processus d'adaptation thématique non supervisée du ML et du vocabulaire. Sur la base d'une première transcription automatique d'un document audio, ce processus consiste à récupérer sur Internet des textes du même thème que le document, textes à partir desquels nous réestimons le ML et enrichissons le vocabulaire. Ces composants adaptés servent alors à produire une nouvelle transcription dont la qualité est espérée meilleure. Ce processus est particulièrement original car il se préserve de toute connaissance a priori sur les éventuels thèmes des documents à transcrire et il intègre des techniques de traitement automatique des langues. De plus, nous apportons des contributions pour chaque étape du processus. Tout d'abord, étant donnée la transcription initiale d'un document audio, nous avons aménagé le critère tf-idf , issu du domaine de la recherche d'information, aux spécificités de l'oral afin de caractériser le thème du document par des mots-clés extraits automatiquement. Via un moteur de recherche sur Internet, ces mots-clés nous permettent de récupérer des pages Web que nous filtrons afin d'assurer leur cohérence thématique avec le document audio. Ensuite, nous avons proposé une nouvelle technique de réestimation thématique du ML. En extrayant des mots et séquences de mots spécifiques au thème considéré à partir des corpora Web, nous utilisons le cadre de l'adaptation par minimum d'information discriminante pour ne modifier que les probabilités des n-grammes propres au thème, laissant les autres probabilités inchangées. Enfin, nous montrons également que les corpora extraits du Web peuvent servir à repérer des mots hors vocabulaire spécifiques aux thèmes. Nous proposons une technique originale qui permet d'apprendre ces nouveaux mots au système et, notamment, de les intégrer dans le ML en déterminant automatiquement dans quels n-grammes ils sont susceptibles d'apparaître. Pour cela, chaque nouveau mot est assimilé à d'autres, déjà connus du système, avec lesquels il partage une relation paradigmatique. Nos expériences, menées sur des émissions d'actualités radiodiffusées, montrent que l'ensemble de ces traitements aboutit à des améliorations significatives du taux de reconnaissance d'un système de RAP.
|
70 |
Contributions à l'estimation de modèles probabilistes discriminants: apprentissage semi-supervisé et sélection de caractéristiquesSokolovska, Nataliya 25 February 2010 (has links) (PDF)
Dans cette thèse nous étudions l'estimation de modèles probabilistes discriminants, surtout des aspects d'apprentissage semi-supervisé et de sélection de caractéristiques. Le but de l'apprentissage semi-supervisé est d'améliorer l'efficacité de l'apprentissage supervisé en utilisant des données non étiquetées. Cet objectif est difficile à atteindre dans les cas des modèles discriminants. Les modèles probabilistes discriminants permettent de manipuler des représentations linguistiques riches, sous la forme de vecteurs de caractéristiques de très grande taille. Travailler en grande dimension pose des problèmes, en particulier computationnels, qui sont exacerbés dans le cadre de modèles de séquences tels que les champs aléatoires conditionnels (CRF). Sélectionner automatiquement les caractéristiques pertinentes s'avère alors intéressant et donne lieu à des modèles plus compacts et plus faciles à utiliser. Notre contribution est double. Nous introduisons une méthode originale et simple pour intégrer des données non étiquetées dans une fonction objectif semi-supervisé. Nous démontrons alors que l'estimateur semi-supervisé correspondant est asymptotiquement optimal. Le cas de la régression logistique est illustré par des résultats d'expériences. Nous proposons un algorithme d'estimation pour les CRF qui réalise une sélection de caractéristiques, par le truchement d'une pénalisation $L_1$. Nous présentons également les résultats d'expériences menées sur des tâches de traitement des langues, en analysant les performances en généralisation et les caractéristiques sélectionnées. Nous proposons finalement diverses pistes pour améliorer l'efficacité computationelle de cette technique.
|
Page generated in 0.103 seconds