Global ETD Search

31	Supervised Learning Approaches for Automatic Structuring of Videos / Méthodes d'apprentissage supervisé pour la structuration automatique de vidéos Potapov, Danila 22 July 2015 (has links) L'Interprétation automatique de vidéos est un horizon qui demeure difficile a atteindre en utilisant les approches actuelles de vision par ordinateur. Une des principales difficultés est d'aller au-delà des descripteurs visuels actuels (de même que pour les autres modalités, audio, textuelle, etc) pour pouvoir mettre en oeuvre des algorithmes qui permettraient de reconnaitre automatiquement des sections de vidéos, potentiellement longues, dont le contenu appartient à une certaine catégorie définie de manière sémantique. Un exemple d'une telle section de vidéo serait une séquence ou une personne serait en train de pêcher; un autre exemple serait une dispute entre le héros et le méchant dans un film d'action hollywoodien. Dans ce manuscrit, nous présentons plusieurs contributions qui vont dans le sens de cet objectif ambitieux, en nous concentrant sur trois tâches d'analyse de vidéos: le résumé automatique, la classification, la localisation temporelle.Tout d'abord, nous introduisons une approche pour le résumé automatique de vidéos, qui fournit un résumé de courte durée et informatif de vidéos pouvant être très longues, résumé qui est de plus adapté à la catégorie de vidéos considérée. Nous introduisons également une nouvelle base de vidéos pour l'évaluation de méthodes de résumé automatique, appelé MED-Summaries, ou chaque plan est annoté avec un score d'importance, ainsi qu'un ensemble de programmes informatiques pour le calcul des métriques d'évaluation.Deuxièmement, nous introduisons une nouvelle base de films de cinéma annotés, appelée Inria Action Movies, constitué de films d'action hollywoodiens, dont les plans sont annotés suivant des catégories sémantiques non-exclusives, dont la définition est suffisamment large pour couvrir l'ensemble du film. Un exemple de catégorie est "course-poursuite"; un autre exemple est "scène sentimentale". Nous proposons une approche pour localiser les sections de vidéos appartenant à chaque catégorie et apprendre les dépendances temporelles entre les occurrences de chaque catégorie.Troisièmement, nous décrivons les différentes versions du système développé pour la compétition de détection d'événement vidéo TRECVID Multimédia Event Detection, entre 2011 et 2014, en soulignant les composantes du système dont l'auteur du manuscrit était responsable. / Automatic interpretation and understanding of videos still remains at the frontier of computer vision. The core challenge is to lift the expressive power of the current visual features (as well as features from other modalities, such as audio or text) to be able to automatically recognize typical video sections, with low temporal saliency yet high semantic expression. Examples of such long events include video sections where someone is fishing (TRECVID Multimedia Event Detection), or where the hero argues with a villain in a Hollywood action movie (Inria Action Movies). In this manuscript, we present several contributions towards this goal, focusing on three video analysis tasks: summarization, classification, localisation.First, we propose an automatic video summarization method, yielding a short and highly informative video summary of potentially long videos, tailored for specified categories of videos. We also introduce a new dataset for evaluation of video summarization methods, called MED-Summaries, which contains complete importance-scorings annotations of the videos, along with a complete set of evaluation tools.Second, we introduce a new dataset, called Inria Action Movies, consisting of long movies, and annotated with non-exclusive semantic categories (called beat-categories), whose definition is broad enough to cover most of the movie footage. Categories such as "pursuit" or "romance" in action movies are examples of beat-categories. We propose an approach for localizing beat-events based on classifying shots into beat-categories and learning the temporal constraints between shots.Third, we overview the Inria event classification system developed within the TRECVID Multimedia Event Detection competition and highlight the contributions made during the work on this thesis from 2011 to 2014. Analyse de vidéos Classification de vidéos Résumé automatique de vidéos Vision par ordinateur Apprentissage statistique Video analysis Video classification Video summarization Computer vision Machine learning 004 510
32	A storytelling machine ? : automatic video summarization : the case of TV series / Une machine à raconter des histoires ? : Analyse et modélisation des processus de ré-éditorialisation de vidéos Bost, Xavier 23 November 2016 (has links) Ces dix dernières années, les séries télévisées sont devenues de plus en plus populaires. Par opposition aux séries TV classiques composées d’épisodes autosuffisants d’un point de vue narratif, les séries TV modernes développent des intrigues continues sur des dizaines d’épisodes successifs. Cependant, la continuité narrative des séries TV modernes entre directement en conflit avec les conditions usuelles de visionnage : en raison des technologies modernes de visionnage, les nouvelles saisons des séries TV sont regardées sur de courtes périodes de temps. Par conséquent, les spectateurs sur le point de visionner de nouvelles saisons sont largement désengagés de l’intrigue, à la fois d’un point de vue cognitif et affectif. Une telle situation fournit au résumé de vidéos des scénarios d’utilisation remarquablement réalistes, que nous détaillons dans le Chapitre 1. De plus, le résumé automatique de films, longtemps limité à la génération de bande-annonces à partir de descripteurs de bas niveau, trouve dans les séries TV une occasion inédite d’aborder dans des conditions bien définies ce qu’on appelle le fossé sémantique : le résumé de médias narratifs exige des approches orientées contenu, capables de jeter un pont entre des descripteurs de bas niveau et le niveau humain de compréhension. Nous passons en revue dans le Chapitre 2 les deux principales approches adoptées jusqu’ici pour aborder le problème du résumé automatique de films de fiction. Le Chapitre 3 est consacré aux différentes sous-tâches requises pour construire les représentations intermédiaires sur lesquelles repose notre système de génération de résumés : la Section 3.2 se concentre sur la segmentation de vidéos,tandis que le reste du chapitre est consacré à l’extraction de descripteurs de niveau intermédiaire,soit orientés saillance (échelle des plans, musique de fond), soit en relation avec le contenu (locuteurs). Dans le Chapitre 4, nous utilisons l’analyse des réseaux sociaux comme une manière possible de modéliser l’intrigue des séries TV modernes : la dynamique narrative peut être adéquatement capturée par l’évolution dans le temps du réseau des personnages en interaction. Cependant, nous devons faire face ici au caractère séquentiel de la narration lorsque nous prenons des vues instantanées de l’état des relations entre personnages. Nous montrons que les approches classiques par fenêtrage temporel ne peuvent pas traiter convenablement ce cas, et nous détaillons notre propre méthode pour extraire des réseaux sociaux dynamiques dans les médias narratifs.Le Chapitre 5 est consacré à la génération finale de résumés orientés personnages,capables à la fois de refléter la dynamique de l’intrigue et de ré-engager émotionnellement les spectateurs dans la narration. Nous évaluons notre système en menant à une large échelle et dans des conditions réalistes une enquête auprès d’utilisateurs. / These past ten years, TV series became increasingly popular. In contrast to classicalTV series consisting of narratively self-sufficient episodes, modern TV seriesdevelop continuous plots over dozens of successive episodes. However, thenarrative continuity of modern TV series directly conflicts with the usual viewing conditions:due to modern viewing technologies, the new seasons of TV series are beingwatched over short periods of time. As a result, viewers are largely disengaged fromthe plot, both cognitively and emotionally, when about to watch new seasons. Sucha situation provides video summarization with remarkably realistic use-case scenarios,that we detail in Chapter 1. Furthermore, automatic movie summarization, longrestricted to trailer generation based on low-level features, finds with TV series a unprecedentedopportunity to address in well-defined conditions the so-called semanticgap: summarization of narrative media requires content-oriented approaches capableto bridge the gap between low-level features and human understanding. We review inChapter 2 the two main approaches adopted so far to address automatic movie summarization.Chapter 3 is dedicated to the various subtasks needed to build the intermediaryrepresentations on which our summarization framework relies: Section 3.2focuses on video segmentation, whereas the rest of Chapter 3 is dedicated to the extractionof different mid-level features, either saliency-oriented (shot size, backgroundmusic), or content-related (speakers). In Chapter 4, we make use of social network analysisas a possible way to model the plot of modern TV series: the narrative dynamicscan be properly captured by the evolution over time of the social network of interactingcharacters. Nonetheless, we have to address here the sequential nature of thenarrative when taking instantaneous views of the state of the relationships between thecharacters. We show that standard time-windowing approaches can not properly handlethis case, and we detail our own method for extracting dynamic social networksfrom narrative media. Chapter 5 is dedicated to the final generation and evaluation ofcharacter-oriented summaries, both able to reflect the plot dynamics and to emotionallyre-engage viewers into the narrative. We evaluate our framework by performing alarge-scale user study in realistic conditions. Résumé de vidéos Séries TV Analyse de l’intrigue Analyse des réseaux sociaux Segmentation en locuteurs Video summarization TV series Plot analysis Social network analysis Speaker diarization 791.450 285
33	Aide à l'analyse de traces d'exécution dans le contexte des microcontrôleurs 32 bits / Assit to execution trace analysis in the microcontrollers 32 bits context Amiar, Azzeddine 27 November 2013 (has links) Souvent, dû à l'aspect cyclique des programmes embarqués, les traces de microcontrôleurs contiennent beaucoup de données. De plus, dans notre contexte de travail, pour l'analyse du comportement, une seule trace se terminant sur une défaillance est disponible. L'objectif du travail présenté dans cette thèse est d'aider à l'analyse de trace de microcontrôleurs. La première contribution de cette thèse concerne l'identification de cycles, ainsi que la génération d'une description pertinente de la trace. La détection de cycles repose sur l'identification du loop-header. La description proposée à l'ingénieur est produite en utilisant la compression basée sur la génération d'une grammaire. Cette dernière permet la détection de répétitions dans la trace. La seconde contribution concerne la localisation de faute(s). Elle est basée sur l'analogie entre les exécutions du programme et les cycles. Ainsi, pour aider dans l'analyse de la trace, nous avons adapté des techniques de localisation de faute(s) basée sur l'utilisation de spectres. Nous avons aussi défini un processus de filtrage permettant de réduire le nombre de cycles à utiliser pour la localisation de faute(s). Notre troisième contribution concerne l'aide à l'analyse des cas où les multiples cycles d'une même exécution interagissent entre eux. Ainsi, pour faire de la localisation de faute(s) pour ce type de cas, nous nous intéressons à la recherche de règles d'association. Le groupement des cycles en deux ensembles (cycles suspects et cycles corrects) pour la recherche de règles d'association, permet de définir les comportements jugés correctes et ceux jugés comme suspects. Ainsi, pour la localisation de faute(s), nous proposons à l'ingénieur un diagnostic basé sur l'analyse des règles d'association selon leurs degrés de suspicion. Cette thèse présente également les évaluations menées, permettant de mesurer l'efficacité de chacune des contributions discutées, et notre outil CoMET. Les résultats de ces évaluations montrent l'efficacité de notre travail d'aide à l'analyse de traces de microcontrôleurs. / The microcontroller traces contain a huge amount of information. This is mainly due to the cyclic aspect of embedded programs. In addition, in our context, a single trace that ends at the failure is used to analyze the behavior of the microcontroller . The work presented in this thesis aims to assit in analysis of microcontroller traces. The first contribution of this thesis concerns the identification of cycles and the generation of a relevant description of the trace. The detection of cycles is based on the identification of the loop-header. The description of the trace is generated using Grammar-Based Compression, which allows the detection of repetitions in the trace. The second contribution concerns the fault localization. Our approach is based on the analogy between executions and cycles. Thus, this contribution is an adaptation of some spectrum-based fault localization techniques. This second contribution also defines a filtering process, which aims to reduce the number of cycles used by the fault localization. The third contribution considers that the multiple cycles of a same execution can interact together. Our fault localization for this type of cases is based on the use of association rules. Grouping cycles in two sets (suspect cycles and correct cycles), and searching for association rules using those two sets, helps to define the behaviors considered as corrects and those considered as suspects. This thesis presents the experimental evaluations concerning our contributions, and our tool CoMET. Analyse des traces Diagnostic Micro-contrôleur Compréhension du système Résumé de trace Localisation de faute(s) Trace analysis Diagnostic Microcontroller Program comprehension Trace summarization Fault localization 004
34	Sebeprezentace uchazeče o zaměstnání písemnou formou před ústním pohovorem / Job Applicant`s Self-Presentation in Written Form Before an Interview NEKOLOVÁ, Adéla January 2008 (has links) The graduation thesis deals with the function of a CV in the process of finding an employment, particularly in the period before a face-to-face job interview. The subject matter is observed from the point of view of the employer and of the job applicant as well. In the theoretical part, the crucial terms are explicated and the preparations before the appointment are described. The practical part of the thesis confronts and observes theoretical information taken from a sample that consisted of sixty real CVs. Data in the theoretical part is compared with real facts. On the basis of this confrontation, conclusions concerning various categories as well as the whole issue are made.
35	Détection des changements de plans et extraction d'images représentatives dans une séquence vidéo / Video shot boundary detection and key-frame extraction using mathematical models Bendraou, Youssef 16 November 2017 (has links) Les technologies multimédias ont récemment connues une grande évolution surtout avec la croissance rapide d'internet ainsi que la création quotidienne de grands volumes de données vidéos. Tout ceci nécessite de nouvelles méthodes performantes permettant d'indexer, de naviguer, de rechercher et de consulter les informations stockées dans de grandes bases de données multimédia. La récupération de données basée sur le contenu vidéo, qui est devenue un domaine de recherche très actif durant cette décennie, regroupe les différentes techniques conçues pour le traitement de la vidéo. Dans le cadre de cette thèse de doctorat, nous présentons des applications permettant la segmentation temporelle d'une vidéo ainsi que la récupération d'information pertinente dans une séquence vidéo. Une fois le processus de classification effectué, il devient possible de rechercher l'information utile en ajoutant de nouveaux critères, et aussi de visualiser l'information d'une manière appropriée permettant d'optimiser le temps et la mémoire. Dans une séquence vidéo, le plan est considéré comme l'unité élémentaire de la vidéo. Un plan est défini comme une suite d'image capturée par une même caméra représentant une action dans le temps. Pour composer une vidéo, plusieurs plans sont regroupés en utilisant des séquences de transitions. Ces transitions se catégorisent en transitions brusques et transitions progressives. Détecter les transitions présentes dans une séquence vidéo a fait l'objet de nos premières recherches. Plusieurs techniques, basées sur différents modèles mathématiques, ont été élaborées pour la détection des changements de plans. L'utilisation de la décomposition en valeur singulière (SVD) ains que la norme Frobenius ont permis d'obtenir des résultats précis en un temps de calcul réduit. Le résumé automatique des séquences vidéo est actuellement un sujet d'une très grande actualité. Comme son nom l'indique, il s'agit d'une version courte de la vidéo qui doit contenir l'essentiel de l'information, tout en étant le plus concis possible. Ils existent deux grandes familles de résumé : le résumé statique et le résumé dynamique. Sélectionner une image représentative de chaque plan permet de créer un scénarimage. Ceci est considéré comme étant un résumé statique et local. Dans notre travail, une méthode de résumé globale est proposée. / With the recent advancement in multimedia technologies, in conjunction with the rapid increase of the volume of digital video data and the growth of internet ; it has becom mandatory to have the hability browse and search through information stored in large multimedia databases. For this purpose, content based video retrieval (CBVR) has become an active area of research durinf the last decade. The objective of this thesis is to present applications for temporal video segmentation and video retrieval based on different mathematical models. A shot is considered as the elementary unit of a video, and is defined as a continuous sequence of frames taken from a single camera, representing an action during time. The different types of transitions that may occur in a video sequence are categorized into : abrupt and gradual transition. In this work, through statistical analysis, we segment a video into its constituent units. This is achieved by identifying transitions between adjacent shots. The first proposed algorithm aims to detect abrupt shot transitions only by measuring the similarity between consecutive frames. Given the size of the vector containing distances, it can be modeled by a log normal distribution since all the values are positive. Gradual shot transition identification is a more difficult task when compared to cut detection. Generally, a gradual transition may share similar characteristics as a dynamic segment with camera or object motion. In this work, singular value decomposition (SVD) is performed to project features from the spatial domain to the singular space. Resulting features are reduced and more refined, which makes the remaining tasks easier. The proposed system, designed for detecting both abrupt and gradual transitions, has lead to reliable performances achieving high detection rates. In addition, the acceptable computational time allows to process in real time. Once a video is partitioned into its elementary units, high-level applications can be processed, such as the key-frame extraction. Selecting representative frames from each shot to form a storyboard is considered as a static and local video summarization. In our research, we opted for a global method based on local extraction. Using refined centrist features from the singular space, we select representative frames using modified k-means clustering based on important scenes. This leads to catch pertinent frames without redoudancy in the final storyboard. Résumé vidéo Changement de plan Transition brusque Transition graduelle Décomposition en valeur singulière Video summary Change of plan Abrupt transition Gradual transition Singular value decomposition
36	L'arôme du gin : identification des composés clés et rôle des matières premières / Gin aroma : identification of key flavour compounds and role of raw botanicals Dussort, Pierre 30 November 2012 (has links) Afin d’identifier les composés responsables de l’arôme du gin, une procédure GC-O-MS se basant sur la fréquence de détection a été développée. Elle a permis de déterminer l’intensité odorante des composés volatils. Leur qualité d’odeur a pu être définie par le développement d’une roue des odeurs utilisée pour catégoriser les descripteurs obtenus. Cette approche nous a dans un premier temps permis d’identifier les composés potentiellement importants pour l’arôme du gin. L’origine de ces composés a ensuite été déterminée par l’étude de la fraction volatile de différents « botanicals » appartenant à la recette du gin. Cette stratégie nous a permis de constater que les baies de genièvre et les graines de coriandre étaient les principaux contributeurs en composés volatils d’impact. A l’opposé, les racines d’iris, la réglisse et les amandes ont semblé n’en apporter aucun. Nous avons donc distingué les « botanicals majeurs » et les « botanicals mineurs » selon leurs apports en composés volatils d’impact. Cette hypothèse a été globalement validée par différents tests sensoriels sur des mélanges de distillats. Enfin, une stratégie de recombinaison a été proposée dans le but de valider une sélection des composés d’impact. Une approche multicritères (intensité odorante, qualité d’odeur, propriétés physico-chimiques…) a abouti à la création de plusieurs recombinaisons. Celles-ci ont ensuite été analysées sensoriellement grâce à un test de tri-libre qui a permis de déterminer leur proximité avec le gin cible ainsi que les distances entre elles. Ainsi, une quinzaine de composés ont pu être identifiés comme influençant de manière importante la qualité aromatique du gin / In order to identify the compounds responsible for gin aroma, a GCO-MS procedure based on detection frequency analysis has been developed. It allowed the determination of volatile compound odorant intensity. Their odor quality has been defined thanks to a developed aroma wheel, used to categorize the obtained descriptors. This approach permitted the identification of gin aroma potential impact compounds. The origin of these compounds has then been determined by studying the different botanicals involved in the gin recipe. The obtained results showed that juniper berries and coriander seeds were the main contributors in terms of volatile impact compounds. At the opposite, orris roots, liquorice and almond did not seem to provide any of them. We thus differentiated the “major botanicals” from the “minor botanicals” according to their supply in volatile impact compounds. This hypothesis has been globally validated by different sensory tests on botanical distillate mixtures. Finally, a recombination procedure has been proposed in order to validate a selection of impact compounds. A multicriteria approach (odor intensity, odor quality, physic-chemical properties…) led to the creation of several recombinates. They have been sensorially analyzed by a free sorting task, which allowed determining their proximity with the target gin and the distance between them. Thus, around fifteen compounds have been identified as key compounds for gin aroma Pas de résumé en français Gin Key aroma compounds GC-O Olfactometry Recombination Spirits GC-MS Sensory analysis Detection frequency Impact compounds 543 664.07
37	Compression automatique de phrases : une étude vers la génération de résumés / Automatic sentence compression : towards abstract summarization Molina Villegas, Alejandro 30 September 2013 (has links) Cette étude présente une nouvelle approche pour la génération automatique de résumés, un des principaux défis du Traitement de la Langue Naturelle. Ce sujet, traité pendant un demi-siècle par la recherche, reste encore actuel car personne n’a encore réussi à créer automatiquement des résumés comparables, en qualité, avec ceux produits par des humains. C’est dans ce contexte que la recherche en résumé automatique s’est divisée en deux grandes catégories : le résumé par extraction et le résumé par abstraction. Dans le premier, les phrases sont triées de façon à ce que les meilleures conforment le résumé final. Or, les phrases sélectionnées pour le résumé portent souvent des informations secondaires, une analyse plus fine s’avère nécessaire.Nous proposons une méthode de compression automatique de phrases basée sur l’élimination des fragments à l’intérieur de celles-ci. À partir d’un corpus annoté, nous avons créé un modèle linéaire pour prédire la suppression de ces fragments en fonction de caractéristiques simples. Notre méthode prend en compte trois principes : celui de la pertinence du contenu, l’informativité ; celui de la qualité du contenu, la grammaticalité, et la longueur, le taux de compression. Pour mesurer l’informativité des fragments,nous utilisons une technique inspirée de la physique statistique : l’énergie textuelle.Quant à la grammaticalité, nous proposons d’utiliser des modèles de langage probabilistes.La méthode proposée est capable de générer des résumés corrects en espagnol.Les résultats de cette étude soulèvent divers aspects intéressants vis-à- vis du résumé de textes par compression de phrases. On a observé qu’en général il y a un haut degré de subjectivité de la tâche. Il n’y a pas de compression optimale unique mais plusieurs compressions correctes possibles. Nous considérons donc que les résultats de cette étude ouvrent la discussion par rapport à la subjectivité de l’informativité et son influence pour le résumé automatique. / This dissertation presents a novel approach to automatic text summarization, one of the most challenging tasks in Natural Language Processing (NLP). Until now, no one had ever created a summarization method capable of producing summaries comparable in quality with those produced by humans. Even many of state-of-the-art approaches form the summary by selecting a subset of sentences from the original text. Since some of the selected sentences might still contain superfluous information, a finer analysis is needed. We propose an Automatic Sentence Compression method based on the elimination of intra-phrase discourse segments. Using a manually annotated big corpus, we have obtained a linear model that predicts the elimination probability of a segment on the basis of three simple three criteria: informativity, grammaticality and compression rate. We discuss the difficulties for automatic assessment of these criteria in documents and phrases and we propose a solution based on existing techniques in NLP literature, one applying two different algorithms that produce summaries with compressed sentences. After applying both algorithms in documents in Spanish, our method is able to produce high quality results. Finally, we evaluate the produced summaries using the Turing test to determine if human judges can distinguish between human-produced summaries and machine-produced summaries. This dissertation addresses many previously ignored aspects of NLP, namely the subjectivity of informativity, the sentence compression in Spanish documents, and the evaluation of NLP using the Turing test. Résumé automatique Compression automatique de phrases Segmentation discursive Le test de Turing pour le TALN Summarization Sentence compression Discourse segmentation Turing test for NLP 006.454 006.35
38	Enhancing factuality and coverage in summarization via referencing key extracted content Belanger Albarran, Georges 04 1900 (has links) Les résumés abstraits de dialogues permettent aux gens de comprendre rapidement les aspects clés des conversations dont la synthèse nécessiterait autrement des efforts considérables. Malgré les progrès considérables réalisés par les grands modèles de langage (LLM), même les modèles les plus puissants souffrent encore d’hallucinations lorsqu’ils génèrent des résumés abstraits et ne parviennent pas à couvrir des aspects importants du contenu sous-jacent. En outre, la vérification humaine de la factualité d’un résumé abstrait peut nécessiter un effort considérable. L’un des moyens de minimiser la charge cognitive liée à la vérification de la qualité d’un résumé consiste à faire en sorte que le résumé cite des phrases dans le contenu original. Cependant, il est rare que les ensembles de données de résumés abstraits citent des passages de texte du contenu original. Même les meilleurs LLM ont du mal à effectuer un résumé basé sur des citations. Pour résoudre ce problème, nous créons l’ensemble de données Tweetsumm++, composé de résumés abstraits soutenus par des citations de dialogues entre clients et entreprises sur Twitter. Nous examinons également une méthode d’entraînement et de formulation de problèmes multitâches qui apprend à effectuer conjointement un résumé extractif et un résumé abstractif faisant référence au contenu extrait. Dans notre configuration, le modèle est également chargé d’étiqueter les phrases clés dans des catégories telles que ISSUE, RESOLUTION,WORKAROUND et autres, qui représentent les principaux éléments clés d’un dialogue. Nous explorons l’impact de la mise au point d’un LLM Mixtral open-source pour effectuer un résumé abstractif basé sur des citations et une catégorisation des phrases clés. En outre, étant donné que l’acquisition d’étiquettes pour un tel ensemble de données est coûteuse, nous explorons une nouvelle méthode d’auto-étiquetage basée sur le feedback de l’IA qui bénéficie du format de résumé basé sur les citations et peut améliorer les modèles en ce qui concerne la qualité des citations. / Abstractive summaries of dialogues allow people to quickly understand key aspects of conversations that might otherwise take considerable effort to synthesize. Despite the tremendous progress made by large language models (LLMs), even the most powerful models still suffer from hallucinations when generating abstractive summaries and fail to cover important aspects of the underlying content. Furthermore, human verification of the factuality of an abstractive summary can entail significant effort. One way to minimize the cognitive load of quality checking an abstractive summary is to have the summary cite sentences within the original content. However, it is uncommon for abstractive summarization datasets to cite passages of text from the original content. Even the best LLMs struggle to perform citation-backed summarization. To address this issue, we create the Tweetsumm++ dataset composed of citation-backed abstractive summaries of dialogues between customers and companies on Twitter. We also examine a multi-task problem formulation and training method that learns to jointly perform extractive, and abstractive summarization which reference the extracted content. In our setup, the model is also tasked with tagging key sentences into categories such as ISSUE, RESOLUTION, WORKAROUND, and others that represent the main key elements of a dialogue. We explore the impact of fine-tuning an open-source Mixtral LLM to perform citation-backed abstractive summarization and key sentence categorization. Further, since acquiring labels for such a dataset is costly, we explore a novel self-labeling method based on AI feedback that benefits from the citation-based summarization format and can improve models with respect to citation quality. Résumé de Dialogue Grands Modèles de Langage, Hallucination Factualité Couverture Citation de Contenu Dialogue Summarization Large Language Models Factuality Coverage Content Citation
39	CV och personligt brev för nyutexaminerade fartygsbefäl i den svenska sjöfartsbranschen Björkman, Robin, Rehnberg, Olof January 2017 (has links) Med en allt hårdare konkurrens om arbetstillfällena för fartygsbefäl krävs det att den arbetssökande att sticker ut ur mängden vid en arbetsansökan. Syftet med denna studie var att undersöka vad den svenska sjöfartsbranschen värderar av innehållet i ett CV och personligt brev vid anställning av nyutexaminerade svenska fartygsbefäl. Detta har undersökts genom intervjuer med nio rekryterare från olika rederier och managementbolag som anställer svenska juniorbefäl. Genom att söka efter tidigare studier som gjorts angående rekrytering skapades en bredare förståelse av ämnet och dess relevans. Litteratursökningen visade att det finns en kunskapslucka angående hur ett nyutexaminerat svenskt fartygsbefäl bör skriva sitt CV och personliga brev för att vara rekryterare i sjöfartsbranschen till lags. Resultatet av studien visar på vissa mönster i svaren från respondenterna, gemensamt är att det efterfrågas korta CV samt personliga brev med innehåll som är relevant för den sökta tjänsten. Samtidigt visar resultaten att en arbetsansökan tolkas subjektivt och därför i viss mån bör skräddarsys för varje enskild tjänst. / As the competition for employment toughens amongst deck officers high effort is required in order to stand out from the crowd regarding job applications. The purpose of this study has been to investigate what content the Swedish shipping industry values most in CVs and cover letters. This was achieved by interviewing nine recruiters from different shipping companies and management agencies that recruit Swedish junior officers. A literature search regarding previous studies concerning recruitment provided a wider understanding of the subject and its relevance for maritime science graduates. The literature search also revealed a knowledge gap regarding recruiters in the Swedish shipping industry preferences about CVs and cover letters. The results of the study show some patterns and tendencies amongst the respondents, common to all of which is a preference of short and concise CVs and cover letters with content that is relevant for the applied position. The results also show that a job application is interpreted subjectively and therefore to some extent must be tailored to each individual employment opportunity. CV curriculum vitae résumé cover letter graduate Swedish shipping industry junior officer deck officer CV curriculum vitae personligt brev nyutexaminerad svenska sjöfartsbranschen juniorbefäl fartygsbefäl Marine Engineering Marin teknik Work Sciences Arbetslivsstudier
40	Résumé automatique de parole pour un accès efficace aux bases de données audio Favre, Benoit 19 March 2007 (has links) (PDF) L'avènement du numérique permet de stocker de grandes quantités de parole à moindre coût. Malgré les récentes avancées en recherche documentaire audio, il reste difficile d'exploiter les documents à cause du temps nécessaire pour les écouter. Nous tentons d'atténuer cet inconvénient en produisant un résumé automatique parlé à partir des informations les plus importantes. Pour y parvenir, une méthode de résumé par extraction est appliquée au contenu parlé, transcrit et structuré automatiquement. La transcription enrichie est réalisée grâce aux outils Speeral et Alize développés au LIA. Nous complétons cette chaîne de structuration par une segmentation en phrases et une détection des entités nommées, deux caractéristiques importantes pour le résumé par extraction. La méthode de résumé proposée prend en compte les contraintes imposées par des données audio et par des interactions avec l'utilisateur. De plus, cette méthode intègre une projection dans un espace pseudo-sémantique des phrases. Les différents modules mis en place aboutissent à un démonstrateur complet facilitant l'étude des interactions avec l'utilisateur. En l'absence de données d'évaluation sur la parole, la méthode de résumé est évaluée sur le texte lors de la campagne DUC 2006. Nous simulons l'impact d'un contenu parlé en dégradant artificiellement les données de cette même campagne. Enfin, l'ensemble de la chaîne de traitement est mise en œuvre au sein d'un démonstrateur facilitant l'accès aux émissions radiophoniques de la campagne ESTER. Nous proposons, dans le cadre de ce démonstrateur, une frise chronologique interactive complémentaire au résumé parlé. Résumé Automatique de Parole Recherche d'Information Parlée Reconnaissance Automatique de la Parole Transcription Enrichie Frontière de Phrase Entité Nommée Maximal Marginal Relevance MMR Conditional Random Fields CRF Latent Semantic Analysis LSA Document Understanding Conference DUC

Search results