Spelling suggestions: "subject:"traitement automatique duu langage"" "subject:"traitement automatique dud langage""
21 |
ANTHAPSI : un système d'analyse thématique et d'apprentissage de connaissances pragmatiques fondé sur l'amorçageFerret, Olivier 22 December 1998 (has links) (PDF)
Le système ANTHAPSI a été conçu dans le but d'apprendre de manière automatique des connaissances sur les situations prototypiques du monde à partir de textes. Afin que ce processus d'apprentissage soit le plus général possible, ANTHAPSI se place dans un cadre minimisant le recours à des connaissances pragmatiques fournies a priori. Pour mener sa tâche à bien, il met l'accent sur la nécessité d'associer étroitement l'analyse des textes, en l'occurrence une analyse de nature thématique, et l'apprentissage de connaissances. Cette association repose sur un modèle de mémoire spécifique, chargé de servir de trait d'union entre ces deux processus. Cette mémoire joue en effet le rôle de réceptacle actif pour les connaissances nécessaires au fonctionnement de l'analyse thématique, ces connaissances étant produites par le processus d'apprentissage à partir des représentations des textes construites par l'analyse thématique. De cette manière, l'association entre l'analyse des textes et l'apprentissage de connaissances permet de développer progressivement un noyau initial de connaissances et met en oeuvre par là même la première forme d'amorçage présente dans ANTHAPSI, appelée amorçage intra-niveau. ANTHAPSI explore également la façon dont ce noyau initial peut être constitué à partir d'un niveau de connaissances moins précises et moins structurées. Il est ainsi formé de deux composantes fonctionnellement similaires mais utilisant des connaissances et des représentations de niveaux différents : MLK applique les principes de l'amorçage intra-niveau en manipulant des représentations composées de graphes conceptuels tandis que ROSA le fait avec des représentations simplement composées de mots. L'amorçage inter-niveau montre en l'occurrence comment ROSA peut contribuer, au moins sur le plan thématique, à la mise en opération de MLK.
|
22 |
Mesures de similarité distributionnelle asymétrique pour la détection de l'implication textuelle par généralitéPais, Sebastião 06 December 2013 (has links) (PDF)
Textual Entailment vise à capturer les principaux besoins d'inférence sémantique dans les applications de Traitement du Langage Naturel. Depuis 2005, dans la Textual Entailment reconnaissance tâche (RTE), les systèmes sont appelés à juger automatiquement si le sens d'une portion de texte, le texte - T, implique le sens d'un autre texte, l'hypothèse - H. Cette thèse nous nous intéressons au cas particulier de l'implication, l'implication de généralité. Pour nous, il ya différents types d'implication, nous introduisons le paradigme de l'implication textuelle en généralité, qui peut être définie comme l'implication d'une peine spécifique pour une phrase plus générale, dans ce contexte, le texte T implication Hypothèse H, car H est plus générale que T.Nous proposons des méthodes sans surveillance indépendante de la langue de reconnaissance de l'implication textuelle par la généralité, pour cela, nous présentons une mesure asymétrique informatif appelée Asymmetric simplifié InfoSimba, que nous combinons avec différentes mesures d'association asymétriques à reconnaître le cas spécifique de l'implication textuelle par la généralité.Cette thèse, nous introduisons un nouveau concept d'implication, les implications de généralité, en conséquence, le nouveau concept d'implications de la reconnaissance par la généralité, une nouvelle orientation de la recherche en Traitement du Langage Naturel.
|
23 |
JSreal : un réalisateur de texte pour la programmation webDaoust, Nicolas 09 1900 (has links)
La génération automatique de texte en langage naturel est une branche de l’intelligence artificielle qui étudie le développement de systèmes produisant des textes pour différentes applications, par exemple la description textuelle de jeux de données massifs ou l’automatisation de rédactions textuelles routinières. Un projet de génération de texte comporte plusieurs grandes étapes : la détermination du contenu à exprimer, son organisation en structures comme des paragraphes et des phrases et la production de chaînes de caractères pour un lecteur humain ; c’est la réalisation, à laquelle ce mémoire s’attaque.
Le web est une plateforme en constante croissance dont le contenu, de plus en plus dynamique, se prête souvent bien à l’automatisation par un réalisateur. Toutefois, les réalisateurs existants ne sont pas conçus en fonction du web et leur utilisation requiert beaucoup de connaissances, compliquant leur emploi.
Le présent mémoire de maîtrise présente JSreal, un réalisateur conçu spécifiquement pour le web et facile d’apprentissage et d’utilisation. JSreal permet de construire une variété d’expressions et de phrases en français, qui respectent les règles de grammaire et de syntaxe, d’y ajouter des balises HTML et de les intégrer facilement aux pages web. / Natural language generation, a part of artificial intelligence, studies the development of systems that produce text for different applications, for example the textual description of massive datasets or the automation of routine text redaction. Text generation projects consist of multiple steps : determining the content to be expressed, organising it in logical structures such as sentences and paragraphs, and producing human-readable character strings, a step usually called realisation, which this thesis takes on.
The web is constantly growing and its contents, getting progressively more dynamic, are well-suited to automation by a realiser. However, existing realisers are not designed with the web in mind and their operation requires much knowledge, complicating their use.
This master’s thesis presents JSreal, a realiser designed specifically for the web and easy to learn and use. JSreal allows its user to build a variety of French expressions and sentences, to add HTML tags to them and to easily integrate them into web pages. / Site web associé au mémoire: http://daou.st/JSreal
|
24 |
Recensement et description des mots composés - méthodes et applicationsSavary, Agata 14 December 2000 (has links) (PDF)
Ce mémoire décrit les recherches en informatique linguistique menées par l'auteur dans le domaine des mots composés, et plus spécialement de la composition nominale en anglais général et spécialisé. Le point de départ pour toutes les recherches présentées a été le système de traitement automatique de grands corpus, INTEX?.<br />Nous nous sommes penchée sur le problème du recensement des mots composés à grande échelle. Nous avons essayé de répondre aux questions suivantes :<br />1) Comment ce recensement peut être effectué ?<br />2) Est-il utile de le réaliser ?<br />La réponse à la première question est donnée dans le contexte de la création de dictionnaires électroniques, sous formats disponibles dans le système INTEX. Nous analysons la morphologie flexionnelle des noms composés en trois langues : le français, l'anglais et le polonais. Nous proposons une méthode formelle de description du comportement flexionnel des composés, ainsi qu'un algorithme qui génère automatiquement leurs formes fléchies. Nous décrivons la construction de deux dictionnaires électroniques : l'un pour les mots composés de l'anglais général, l'autre pour les termes simples et composés anglais du domaine de l'informatique. Nous présentons une bibliothèque d'automates et de transducteurs finis pour la reconnaissance des déterminants numéraux cardinaux et ordinaux de l'anglais.<br />L'intérêt de la création de bases lexicales pour les mots composés est vérifié dans deux types d'applications du TALN. Premièrement, nous présentons une méthode d'acquisition de terminologie, basée sur l'emploi de ressources terminologiques initiales. Deuxièmement, nous proposons un algorithme de correction orthographique des mots simples et composés, basé sur la consultation d'un dictionnaire sous format d'automate fini.
|
25 |
Identification et analyse linguistique du lexique scientifique transdisciplinaire. Approche outillée sur un corpus d'articles de recherche en SHS / The French Cross-disciplinary Scientific Lexicon, Identification and Linguistic Analysis. A corpus-driven approach of Research Articles in Humanities and Social SciencesHatier, Sylvain 07 December 2016 (has links)
Cette thèse s’intéresse au lexique scientifique transdisciplinaire (LST), lexique inscrit dans le genre de l’article de recherche en sciences humaines et sociales. Le LST est fréquemment mobilisé dans les écrits scientifiques et constitue ainsi un objet d’importance pour l’étude de ce genre. Ce lexique trouve également des applications concrètes tant en indexation terminologique que pour l’aide à la rédaction/compréhension de textes scientifiques. Ces différents objectifs nous amènent à adopter une approche outillée pour identifier et caractériser les unités lexicales du LST, lexique complexe à circonscrire, situé entre lexique de la langue générale et terminologie. En nous basant sur les propriétés de spécificité et de transdisciplinarité ainsi que sur l’étude des propriétés lexico-syntaxiques de ses éléments, nous élaborons une ressource du LST intégrant informations lexicales, syntaxiques et sémantiques. L’analyse de la combinatoire à l’aide d’un corpus arboré autorise ainsi une caractérisation du LST ancrée sur l’usage dans le genre de l’article de recherche. Selon cette même approche, nous identifions les acceptions nominales transdisciplinaires et proposons une classification sémantique fondée sur la combinatoire en corpus pour intégrer à notre ressource lexicale une typologie nominale sur deux niveaux. Nous montrons enfin que cette structuration du LST nous permet d’aborder la dimension phraséologique et rhétorique du LST en faisant émerger du corpus des constructions récurrentes définies par leurs propriétés syntactico-sémantiques. / In this dissertation we study the French cross-disciplinary scientific lexicon (CSL), a lexicon which fall within the genre of scientific articles in humanities and social sciences. As the CSL is commonly used in scientific texts, it is a gateway of interest to explore this genre. This lexicon has also practical applications in the fields of automatic terms identification and foreign language teaching in the academic background. To this end, we apply a corpus-driven approach in order to extract and structure the CSL lexical units which are complex to circumscribe. The method relies on the cross-disciplinarity and specificity criteria and on the lexico-syntactic properties of the CSL lexical units. As a result, we designed a lexical resource which include lexical, syntactical and semantical informations. As we analyze the combinatorial properties extracted from a parsed corpus of scientific articles, we performed a CSL study based on its genre specific use. We follow the same approach to identify cross-disciplinary meanings for the CSL nouns and to design a nominal semantic classification. This two-level typology allow us to explore rhetorical and phraseological CSL properties by identifying frequent syntactico-semantic patterns.
|
26 |
Vers une approche non orientée pour l'évaluation de la qualité des odeurs / Towards a non oriented approach of the evaluation of the odor qualityMedjkoune, Massissilia 30 March 2018 (has links)
Caractériser la qualité d’une odeur est une tâche complexe qui consiste à identifier un ensemble de descripteurs qui synthétise au mieux la sensation olfactive au cours de séances d’analyse sensorielle. Généralement, cette caractérisation est une liste de descripteurs extraite d’un vocabulaire imposé par les industriels d’un domaine pour leurs analyses sensorielles. Ces analyses représentent un coût significatif pour les industriels chaque année. En effet, ces approches dites orientées reposent sur l’apprentissage de vocabulaires, limitent singulièrement les descripteurs pour un public non initié et nécessitent de couteuses phases d’apprentissage. Si cette caractérisation devait être confiée à des évaluateurs naïfs, le nombre de participants pourrait être significativement augmenté tout en réduisant le cout des analyses sensorielles. Malheureusement, chaque description libre n’est alors plus associée à un ensemble de descripteurs non ambigus, mais à un simple sac de mots en langage naturel (LN). Deux problématiques sont alors rattachées à la caractérisation d’odeurs. La première consiste à transformer des descriptions en LN en descripteurs structurés ; la seconde se donne pour objet de résumer un ensemble de descriptions formelles proposées par un panel d’évaluateurs en une synthèse unique et cohérente à des fins industrielles. Ainsi, la première partie de notre travail se focalise sur la définition et l’évaluation de modèles qui peuvent être utilisés pour résumer un ensemble de mots en un ensemble de descripteurs désambiguïsés. Parmi les différentes stratégies envisagées dans cette contribution, nous proposons de comparer des approches hybrides exploitant à la fois des bases de connaissances et des plongements lexicaux définis à partir de grands corpus de textes. Nos résultats illustrent le bénéfice substantiel à utiliser conjointement représentation symbolique et plongement lexical. Nous définissons ensuite de manière formelle le processus de synthèse d’un ensemble de concepts et nous proposons un modèle qui s’apparente à une forme d’intelligence humaine pour évaluer les résumés alternatifs au regard d’un objectif de synthèse donné. L’approche non orientée que nous proposons dans ce manuscrit apparait ainsi comme l’automatisation cognitive des tâches confiées aux opérateurs des séances d’analyse sensorielle. Elle ouvre des perspectives intéressantes pour développer des analyses sensorielles à grande échelle sur de grands panels d’évaluateurs lorsque l’on essaie notamment de caractériser les nuisances olfactives autour d’un site industriel. / Characterizing the quality of smells is a complex process that consists in identifying a set of descriptors best summarizing the olfactory sensation. Generally, this characterization results in a limited set of descriptors provided by sensorial analysis experts. These sensorial analysis sessions are however very costly for industrials. Indeed, such oriented approaches based on vocabulary learning limit, in a restrictive manner, the possible descriptors available for any uninitiated public, and therefore require a costly vocabulary-learning phase. If we could entrust this characterization to neophytes, the number of participants of a sensorial analysis session would be significantly enlarged while reducing costs. However, in that setting, each individual description is not related to a set of non-ambiguous descriptors anymore, but to a bag of terms expressed in natural language (NL). Two issues are then related to smell characterization implementing this approach. The first one is how to translate such NL descriptions into structured descriptors; the second one being how to summarize a set of individual characterizations into a consistent and synthetic unique characterization meaningful for professional purposes. Hence, this work focuses first on the definition and evaluation of models that can be used to summarize a set of terms into unambiguous entity identifiers selected from a given ontology. Among the several strategies explored in this contribution, we propose to compare hybrid approaches taking advantages of knowledge bases (symbolic representations) and word embeddings defined from large text corpora analysis. The results we obtain highlight the relative benefits of mixing symbolic representations with classic word embeddings for this task. We then formally define the problem of summarizing sets of concepts and we propose a model mimicking Human-like Intelligence for scoring alternative summaries with regard to a specific objective function. Interestingly, this non-oriented approach for identifying the quality of odors appears to be an actual cognitive automation of the task today performed by expert operators in sensorial analysis. It therefore opens interesting perspectives for developing scalable sensorial analyses based on large sets of evaluators when assessing, for instance, olfactory pollution around industrial sites.
|
27 |
Using formal logic to represent sign language phonetics in semi-automatic annotation tasks / Using formal logic to represent sign language phonetics in semi-automatic annotation tasksCuriel Diaz, Arturo Tlacaélel 23 November 2015 (has links)
Cette thèse présente le développement d'un framework formel pour la représentation des Langues de Signes (LS), les langages des communautés Sourdes, dans le cadre de la construction d'un système de reconnaissance automatique. Les LS sont de langues naturelles, qui utilisent des gestes et l'espace autour du signeur pour transmettre de l'information. Cela veut dire que, à différence des langues vocales, les morphèmes en LS ne correspondent pas aux séquences de sons; ils correspondent aux séquences de postures corporelles très spécifiques, séparés par des changements tels que de mouvements. De plus, lors du discours les signeurs utilisent plusieurs parties de leurs corps (articulateurs) simultanément, ce qui est difficile à capturer avec un système de notation écrite. Cette situation difficulté leur représentation dans de taches de Traitement Automatique du Langage Naturel (TALN). Pour ces raisons, le travail présenté dans ce document a comme objectif la construction d'une représentation abstraite de la LS; plus précisément, le but est de pouvoir représenter des collections de vidéo LS (corpus) de manière formelle. En générale, il s'agit de construire une couche de représentation intermédiaire, permettant de faire de la reconnaissance automatique indépendamment des technologies de suivi et des corpus utilisés pour la recherche. Cette couche corresponde à un système de transition d'états (STE), spécialement crée pour représenter la nature parallèle des LS. En plus, elle peut-être annoté avec de formules logiques pour son analyse, à travers de la vérification de modèles. Pour représenter les propriétés à vérifier, une logique multi-modale a été choisi : la Logique Propositionnelle Dynamique (PDL). Cette logique a été originalement crée pour la spécification de programmes. De manière plus précise, PDL permit d'utilise des opérateurs modales comme [a] et <a>, représentant <<nécessité>> et <<possibilité>>, respectivement. Une variante particulaire a été développée pour les LS : la PDL pour Langue de Signes (PDLSL), qui est interprété sur des STE représentant des corpus. Avec PDLSL, chaque articulateur du corps (comme les mains et la tête) est vu comme un agent indépendant; cela veut dire que chacun a ses propres actions et propositions possibles, et qu'il peux les exécuter pour influencer une posture gestuelle. L'utilisation du framework proposé peut aider à diminuer deux problèmes importantes qui existent dans l'étude linguistique des LS : hétérogénéité des corpus et la manque des systèmes automatiques d'aide à l'annotation. De ce fait, un chercheur peut rendre exploitables des corpus existants en les transformant vers des STE. Finalement, la création de cet outil à permit l'implémentation d'un système d'annotation semi-automatique, basé sur les principes théoriques du formalisme. Globalement, le système reçoit des vidéos LS et les transforme dans un STE valide. Ensuite, un module fait de la vérification formelle sur le STE, en utilisant une base de données de formules crée par un expert en LS. Les formules représentent des propriétés lexicales à chercher dans le STE. Le produit de ce processus, est une annotation qui peut être corrigé par des utilisateurs humains, et qui est utilisable dans des domaines d'études tels que la linguistique. / This thesis presents a formal framework for the representation of Signed Languages (SLs), the languages of Deaf communities, in semi-automatic recognition tasks. SLs are complex visio-gestural communication systems; by using corporal gestures, signers achieve the same level of expressivity held by sound-based languages like English or French. However, unlike these, SL morphemes correspond to complex sequences of highly specific body postures, interleaved with postural changes: during signing, signers use several parts of their body simultaneously in order to combinatorially build phonemes. This situation, paired with an extensive use of the three-dimensional space, make them difficult to represent with tools already existent in Natural Language Processing (NLP) of vocal languages. For this reason, the current work presents the development of a formal representation framework, intended to transform SL video repositories (corpus) into an intermediate representation layer, where automatic recognition algorithms can work under better conditions. The main idea is that corpora can be described with a specialized Labeled Transition System (LTS), which can then be annotated with logic formulae for its study. A multi-modal logic was chosen as the basis of the formal language: the Propositional Dynamic Logic (PDL). This logic was originally created to specify and prove properties on computer programs. In particular, PDL uses the modal operators [a] and <a> to denote necessity and possibility, respectively. For SLs, a particular variant based on the original formalism was developed: the PDL for Sign Language (PDLSL). With the PDLSL, body articulators (like the hands or head) are interpreted as independent agents; each articulator has its own set of valid actions and propositions, and executes them without influence from the others. The simultaneous execution of different actions by several articulators yield distinct situations, which can be searched over an LTS with formulae, by using the semantic rules of the logic. Together, the use of PDLSL and the proposed specialized data structures could help curb some of the current problems in SL study; notably the heterogeneity of corpora and the lack of automatic annotation aids. On the same vein, this may not only increase the size of the available datasets, but even extend previous results to new corpora; the framework inserts an intermediate representation layer which can serve to model any corpus, regardless of its technical limitations. With this, annotations is possible by defining with formulae the characteristics to annotate. Afterwards, a formal verification algorithm may be able to find those features in corpora, as long as they are represented as consistent LTSs. Finally, the development of the formal framework led to the creation of a semi-automatic annotator based on the presented theoretical principles. Broadly, the system receives an untreated corpus video, converts it automatically into a valid LTS (by way of some predefined rules), and then verifies human-created PDLSL formulae over the LTS. The final product, is an automatically generated sub-lexical annotation, which can be later corrected by human annotators for their use in other areas such as linguistics.
|
28 |
Unsupervised Information Extraction From Text – Extraction and Clustering of Relations between Entities / Extraction d'Information Non Supervisée à Partir de Textes – Extraction et Regroupement de Relations entre EntitésWang, Wei 16 May 2013 (has links)
L'extraction d'information non supervisée en domaine ouvert est une évolution récente de l'extraction d'information adaptée à des contextes dans lesquels le besoin informationnel est faiblement spécifié. Dans ce cadre, la thèse se concentre plus particulièrement sur l'extraction et le regroupement de relations entre entités en se donnant la possibilité de traiter des volumes importants de données.L'extraction de relations se fixe plus précisément pour objectif de faire émerger des relations de type non prédéfini à partir de textes. Ces relations sont de nature semi-structurée : elles associent des éléments faisant référence à des structures de connaissance définies a priori, dans le cas présent les entités qu’elles relient, et des éléments donnés uniquement sous la forme d’une caractérisation linguistique, en l’occurrence leur type. Leur extraction est réalisée en deux temps : des relations candidates sont d'abord extraites sur la base de critères simples mais efficaces pour être ensuite filtrées selon des critères plus avancés. Ce filtrage associe lui-même deux étapes : une première étape utilise des heuristiques pour éliminer rapidement les fausses relations en conservant un bon rappel tandis qu'une seconde étape se fonde sur des modèles statistiques pour raffiner la sélection des relations candidates.Le regroupement de relations a quant à lui un double objectif : d’une part, organiser les relations extraites pour en caractériser le type au travers du regroupement des relations sémantiquement équivalentes et d’autre part, en offrir une vue synthétique. Il est réalisé dans le cas présent selon une stratégie multiniveau permettant de prendre en compte à la fois un volume important de relations et des critères de regroupement élaborés. Un premier niveau de regroupement, dit de base, réunit des relations proches par leur expression linguistique grâce à une mesure de similarité vectorielle appliquée à une représentation de type « sac-de-mots » pour former des clusters fortement homogènes. Un second niveau de regroupement est ensuite appliqué pour traiter des phénomènes plus sémantiques tels que la synonymie et la paraphrase et fusionner des clusters de base recouvrant des relations équivalentes sur le plan sémantique. Ce second niveau s'appuie sur la définition de mesures de similarité au niveau des mots, des relations et des clusters de relations en exploitant soit des ressources de type WordNet, soit des thésaurus distributionnels. Enfin, le travail illustre l’intérêt de la mise en œuvre d’un clustering des relations opéré selon une dimension thématique, en complément de la dimension sémantique des regroupements évoqués précédemment. Ce clustering est réalisé de façon indirecte au travers du regroupement des contextes thématiques textuels des relations. Il offre à la fois un axe supplémentaire de structuration des relations facilitant leur appréhension globale mais également le moyen d’invalider certains regroupements sémantiques fondés sur des termes polysémiques utilisés avec des sens différents. La thèse aborde également le problème de l'évaluation de l'extraction d'information non supervisée par l'entremise de mesures internes et externes. Pour les mesures externes, une méthode interactive est proposée pour construire manuellement un large ensemble de clusters de référence. Son application sur un corpus journalistique de grande taille a donné lieu à la construction d'une référence vis-à-vis de laquelle les différentes méthodes de regroupement proposées dans la thèse ont été évaluées. / Unsupervised information extraction in open domain gains more and more importance recently by loosening the constraints on the strict definition of the extracted information and allowing to design more open information extraction systems. In this new domain of unsupervised information extraction, this thesis focuses on the tasks of extraction and clustering of relations between entities at a large scale. The objective of relation extraction is to discover unknown relations from texts. A relation prototype is first defined, with which candidates of relation instances are initially extracted with a minimal criterion. To guarantee the validity of the extracted relation instances, a two-step filtering procedures is applied: the first step with filtering heuristics to remove efficiently large amount of false relations and the second step with statistical models to refine the relation candidate selection. The objective of relation clustering is to organize extracted relation instances into clusters so that their relation types can be characterized by the formed clusters and a synthetic view can be offered to end-users. A multi-level clustering procedure is design, which allows to take into account the massive data and diverse linguistic phenomena at the same time. First, the basic clustering groups similar relation instances by their linguistic expressions using only simple similarity measures on a bag-of-word representation for relation instances to form high-homogeneous basic clusters. Second, the semantic clustering aims at grouping basic clusters whose relation instances share the same semantic meaning, dealing with more particularly phenomena such as synonymy or more complex paraphrase. Different similarities measures, either based on resources such as WordNet or distributional thesaurus, at the level of words, relation instances and basic clusters are analyzed. Moreover, a topic-based relation clustering is proposed to consider thematic information in relation clustering so that more precise semantic clusters can be formed. Finally, the thesis also tackles the problem of clustering evaluation in the context of unsupervised information extraction, using both internal and external measures. For the evaluations with external measures, an interactive and efficient way of building reference of relation clusters proposed. The application of this method on a newspaper corpus results in a large reference, based on which different clustering methods are evaluated.
|
29 |
Traitement automatique d’informations appliqué aux ressources humaines / Automatic processing of information applied to human resourcesKessler, Rémy 10 July 2009 (has links)
Depuis les années 90, Internet est au coeur du marché du travail. D’abord mobilisée sur des métiers spécifiques, son utilisation s’étend à mesure qu’augmente le nombre d’internautes dans la population. La recherche d’emploi au travers des « bourses à l’emploi électroniques » est devenu une banalité et le e-recrutement quelque chose de courant. Cette explosion d’informations pose cependant divers problèmes dans leur traitement en raison de la grande quantité d’information difficile à gérer rapidement et efficacement pour les entreprises. Nous présentons dans ce mémoire, les travaux que nous avons développés dans le cadre du projet E-Gen, qui a pour but la création d’outils pour automatiser les flux d’informations lors d’un processus de recrutement. Nous nous intéressons en premier lieu à la problématique posée par le routage précis de courriels. La capacité d’une entreprise à gérer efficacement et à moindre coût ces flux d’informations, devient un enjeu majeur de nos jours pour la satisfaction des clients. Nous proposons l’application des méthodes d’apprentissage afin d’effectuer la classification automatique de courriels visant leur routage, en combinant techniques probabilistes et machines à vecteurs de support. Nous présentons par la suite les travaux qui ont été menés dans le cadre de l’analyse et l’intégration d’une offre d’emploi par Internet. Le temps étant un facteur déterminant dans ce domaine, nous présentons une solution capable d’intégrer une offre d’emploi d’une manière automatique ou assistée afin de pouvoir la diffuser rapidement. Basé sur une combinaison de systèmes de classifieurs pilotés par un automate de Markov, le système obtient de très bons résultats. Nous proposons également les diverses stratégies que nous avons mises en place afin de fournir une première évaluation automatisée des candidatures permettant d’assister les recruteurs. Nous avons évalué une palette de mesures de similarité afin d’effectuer un classement pertinent des candidatures. L’utilisation d’un modèle de relevance feedback a permis de surpasser nos résultats sur ce problème difficile et sujet à une grande subjectivité. / Since the 90s, Internet is at the heart of the labor market. First mobilized on specific expertise, its use spreads as increase the number of Internet users in the population. Seeking employment through "electronic employment bursary" has become a banality and e-recruitment something current. This information explosion poses various problems in their treatment with the large amount of information difficult to manage quickly and effectively for companies. We present in this PhD thesis, the work we have developed under the E-Gen project, which aims to create tools to automate the flow of information during a recruitment process.We interested first to the problems posed by the routing of emails. The ability of a companie to manage efficiently and at lower cost this information flows becomes today a major issue for customer satisfaction. We propose the application of learning methods to perform automatic classification of emails to their routing, combining technical and probabilistic vector machines support. After, we present work that was conducted as part of the analysis and integration of a job ads via Internet. We present a solution capable of integrating a job ad from an automatic or assisted in order to broadcast it quickly. Based on a combination of classifiers systems driven by a Markov automate, the system gets very good results. Thereafter, we present several strategies based on vectorial and probabilistic models to solve the problem of profiling candidates according to a specific job offer to assist recruiters. We have evaluated a range of measures of similarity to rank candidatures by using ROC curves. Relevance feedback approach allows to surpass our previous results on this task, difficult, diverse and higly subjective.
|
30 |
Transformer-Based Multi-scale Technical Reports Analyser for Science Projects Cost Prediction / Transformers-baserad analysator av tekniska rapporter i flera skalor för prognostisering av kostnader för vetenskapsprojektBouquet, Thomas January 2023 (has links)
Intrinsic value prediction is a Natural Language Processing (NLP) problem consisting in determining a numerical value contained implicitly and non-trivially in a text. In this project, we introduce the SWORDSMAN model (Sentence and Word-level Oracle for Research Documents by Semantic Multi-scale ANalysis), a deep neural network architecture based on transformers whose goal is to predict the cost of research projects from the analysis of their abstract. SWORDSMAN is built on a hybrid structure based on two branches in order to conduct a multi-scale analysis by combining the strengths of global and local perspectives to extract more relevant information from these texts. The local branch uses Convolution Neural Networks (CNNs) to analyse abstracts at fine-grained word level and bring more nuance to the understanding of the context of occurrence of key terms, while the global branch combines Sentence Transformers and Radial Basis Functions (RBFs) to process these abstracts at a higher level to identify the overall context of the project, while being more focused on the content than the form of the data. The joint use of these models allows SWORDSMAN to have a better capacity to understand complex data by using this analysis at different levels of granularity to present a better estimation accuracy. / Förutsägelse av inneboende värde är ett problem inom Natural Language Processing (NLP) som består i att bestämma ett numeriskt värde som finns implicit och icke-trivialt i en text. I det här projektet introducerar vi SWORDSMAN-modellen (Sentence and Word-level Oracle for Research Documents by Semantic Multi-scale ANalysis), en djup neuronal nätverksarkitektur baserad på transformatorer vars mål är att förutsäga kostnaden för forskningsprojekt utifrån analysen av deras abstrakt. SWORDSMAN bygger på en hybridstruktur baserad på två grenar för att genomföra en analys i flera skalor genom att kombinera styrkorna hos globala och lokala perspektiv för att extrahera mer relevant information från dessa texter. I den lokala grenen används CNN-nätverk (Convolution Neural Networks) för att analysera sammanfattningar på finkornig ordnivå och ge mer nyans till förståelsen av sammanhanget för förekomsten av nyckeltermer, medan den globala grenen kombinerar meningstransformatorer och radiella basfunktioner (RBF) för att bearbeta dessa sammanfattningar på en högre nivå för att identifiera projektets övergripande sammanhang, samtidigt som den är mer inriktad på innehållet än på formen av uppgifterna. Den gemensamma användningen av dessa modeller gör det möjligt för SWORDSMAN att ha en bättre förmåga att förstå komplexa data genom att använda denna analys på olika granularitetsnivåer för att presentera en bättre skattningsnoggrannhet. / La prédiction de valeur intrinsèque est un problème de Traitement Automatique du Langage (TAL) consistant à déterminer une valeur numérique contenue de manière implicite et non triviale dans un texte. Dans ce projet, nous introduisons le modèle SWORDSMAN (Sentence and Word-level Oracle for Research Documents by Semantic Multi-scale ANalysis), une architecture de réseaux de neurones profonde basée sur les transformers dont le but est de prédire le coût de projets de recherche à partir de l’analyse de leur abstract. SWORDSMAN est bâti sur une structure hybride reposant sur deux branches afin de mener une analyse multi-échelles en combinant les forces de perspectives globale et locale pour extraire des informations plus pertinentes de ces textes. La branche locale utilise des réseaux de neurones de convolution (CNN) pour analyser les abstracts à l’échelle des mots et apporter plus de nuance à la compréhension du contexte d’apparition des termes clés, là où la branche globale combine Sentence Transformers et fonctions de base radiale (RBF) pour traiter ces abstracts à un plus haut niveau afin d’identifier le contexte général du projet, tout en étant plus focalisée sur le contenu que la forme des données. L’utilisation conjointe de ces modèles permet à SWORDSMAN de disposer d’une meilleure capacité de compréhension de données complexes en se servant de cette analyse à différents niveaux de granularité pour présenter une meilleure précision d’estimation.
|
Page generated in 0.1596 seconds