Spelling suggestions: "subject:"deembedding"" "subject:"disembedding""
401 |
Navigating the Metric Zoo: Towards a More Coherent Model For Quantitative Evaluation of Generative ML ModelsDozier, Robbie 26 August 2022 (has links)
No description available.
|
402 |
The Effect of Data Quantity on Dialog System Input Classification Models / Datamängdens effekt på modeller för avsiktsklassificering i chattkonversationerLipecki, Johan, Lundén, Viggo January 2018 (has links)
This paper researches how different amounts of data affect different word vector models for classification of dialog system user input. A hypothesis is tested that there is a data threshold for dense vector models to reach the state-of-the-art performance that have been shown with recent research, and that character-level n-gram word-vector classifiers are especially suited for Swedish classifiers–because of compounding and the character-level n-gram model ability to vectorize out-of-vocabulary words. Also, a second hypothesis is put forward that models trained with single statements are more suitable for chat user input classification than models trained with full conversations. The results are not able to support neither of our hypotheses but show that sparse vector models perform very well on the binary classification tasks used. Further, the results show that 799,544 words of data is insufficient for training dense vector models but that training the models with full conversations is sufficient for single statement classification as the single-statement- trained models do not show any improvement in classifying single statements. / Detta arbete undersöker hur olika datamängder påverkar olika slags ordvektormodeller för klassificering av indata till dialogsystem. Hypotesen att det finns ett tröskelvärde för träningsdatamängden där täta ordvektormodeller när den högsta moderna utvecklingsnivån samt att n-gram-ordvektor-klassificerare med bokstavs-noggrannhet lämpar sig särskilt väl för svenska klassificerare söks bevisas med stöd i att sammansättningar är särskilt produktiva i svenskan och att bokstavs-noggrannhet i modellerna gör att tidigare osedda ord kan klassificeras. Dessutom utvärderas hypotesen att klassificerare som tränas med enkla påståenden är bättre lämpade att klassificera indata i chattkonversationer än klassificerare som tränats med hela chattkonversationer. Resultaten stödjer ingendera hypotes utan visar istället att glesa vektormodeller presterar väldigt väl i de genomförda klassificeringstesterna. Utöver detta visar resultaten att datamängden 799 544 ord inte räcker till för att träna täta ordvektormodeller väl men att konversationer räcker gott och väl för att träna modeller för klassificering av frågor och påståenden i chattkonversationer, detta eftersom de modeller som tränats med användarindata, påstående för påstående, snarare än hela chattkonversationer, inte resulterar i bättre klassificerare för chattpåståenden.
|
403 |
Synthetic Graph Generation at Scale : A novel framework for generating large graphs using clustering, generative models and node embeddings / Storskalig generering av syntetiska grafer : En ny arkitektur för att tillverka stora grafer med hjälp av klustring, generativa modeller och nodinbäddningarHammarstedt, Johan January 2022 (has links)
The field of generative graph models has seen increased popularity during recent years as it allows us to model the underlying distribution of a network and thus recreate it. From allowing anonymization of sensitive information in social networks to data augmentation of rare diseases in the brain, the ability to generate synthetic data has multiple applications in various domains. However, most current methods face the bottleneck of trying to generate the entire adjacency matrix and are thus limited to graphs with less than tens of thousands of nodes. In contrast, large real-world graphs like social networks or transaction graphs can extend significantly beyond these boundaries. Furthermore, the current scalable approaches are predominantly based on stochasticity and do not capture local structures and communities. In this paper, we propose Graphwave Edge-Linking CELL or GELCELL, a novel three-step architecture for generating graphs at scale. First, instead of constructing the entire network, GELCELL partitions the data and generates each cluster separately, allowing for efficient and parallelizable training. Then, by encoding the nodes, it trains a classifier to predict the edges between the partitions to patch them together, creating a synthetic version of the original large graph. Although it does suffer from some limitations due to necessary constraints on the cluster sizes, the results showed that GELCELL, given optimized parameters, can produce graphs with reasonable accuracy on all data tested, with the largest having 400 000 nodes and 1 000 000 edges. / Generativa grafmodeller har sett ökad popularitet under de senaste åren eftersom det möjliggör modellering av grafens underliggande distribution, och vi kan på så sätt återskapa liknande kopior. Förmågan att generera syntetisk data har ett flertal applikationsområden i en mängd av områden, allt från att möjligöra anonymisering av känslig data i sociala nätverk till att utöka mängden tillgänglig data av ovanliga hjärnsjukdomar. Dagens metoder har länge varit begränsade till grafer med under tiotusental noder, då dessa inte är tillräckligt skalbara, men grafer som sociala nätverk eller transaktionsgrafer kan sträcka sig långt utöver dessa gränser. Dessutom är de nuvarande skalbara tillvägagångssätten till största delen baserade på stokasticitet och fångar inte lokala strukturer och kluster. I denna rapport föreslår vi ”Graphwave EdgeLinking CELL” eller GELCELL, en trestegsarkitektur för att generera grafer i större skala. Istället för att återskapa hela grafen direkt så partitionerar GELCELL all datat och genererar varje kluster separat, vilket möjliggör både effektiv och parallelliserbar träning. Vi kan sedan koppla samman grafen genom att koda noderna och träna en modell för att prediktera länkarna mellan kluster och återskapa en syntetisk version av originalet. Metoden kräver vissa antaganden gällande max-storleken på dess kluster men är flexibel och kan rymma domänkännedom om en specifik graf i form av informerad parameterinställning. Trots detta visar resultaten på varierade träningsdata att GELCELL, givet optimerade parametrar, är kapabel att genera grafer med godtycklig precision upp till den största beprövade grafen med 400 000 noder och 1 000 000 länkar.
|
404 |
Une étude des graphes jumeaux via l'auto-abritementGagnon, Alizée 03 1900 (has links)
On étudie la conjecture des graphes jumeaux dénombrables, cas spécifique d’une conjecture de Thomassé, qui dit que le nombre de jumeaux d’un graphe dénombrable ( ses sous-graphes propres desquels il est aussi un sous-graphe propre) est soit nul, soit infini. On commence par étudier les graphes auto-abrités, que nous définissons, et en utilisant notre classification de ces graphes nous prouvons la conjecture dans certains cas, en précisant la cardinalité exacte du nombre de jumeaux. Nous donnons également des contre-exemples à l’article de l’arXiv «Self-contained graphs». / We make progress on the Graph Alternative Conjecture, a special case of a conjecture of Thomassé which says that the number of twins of a countable graph (i.e. its proper subgraphs of which that graph is also a proper subgraph) is either null or infinite. We begin by studying self-embedded graphs, which we define, and using our classification of these graphs, we prove the conjecture in some cases while specifying the exact number of twins. We also give counter-examples to a paper on arXiv called "Self-contained graphs".
|
405 |
Attention based Knowledge Tracing in a language learning settingVergunst, Sebastiaan January 2022 (has links)
Knowledge Tracing aims to predict future performance of users of learning platforms based on historical data, by modeling their knowledge state. In this task, the target is a binary variable representing the correctness of the exercise, where an exercise is a word uttered by the user. Current state-of-the-art models add attention layers to autoregressive models or rely on self-attention networks. However, these models are built on publicly available datasets that lack useful information about the interactions users have with exercises. In this work, various techniques are introduced that allow for the incorporation of additional information made available in a dataset provided by Astrid Education. They consist of encoding a time dimension, modeling the skill needed for each exercise explicitly, and adjusting the length of the interaction sequence. Introducing new information to the Knowledge Tracing framework allows Astrid to craft a more personalized experience for its users; thus fulfilling the purpose and goal of the thesis. Additionally, we perform experiments to understand what aspects influence the models. Results show that modeling the skills needed to solve an exercise using an encoding strategy and reducing the length of the interaction sequence lead to improvements in terms of both accuracy and AUC. The time-encoding did not lead to better results, further experimentation is needed to include the time dimension successfully. / Mänsklig kunskap är ett försök att förutsäga användarnas framtida prestanda på lärandeplattformar baserat på historiska data, genom att modellera deras kunskaps tillstånd. I denna uppgift är målet en binär variabel som representerar överensstämmelsen av övningen. Nuvarande state-of-the-art-modeller lägger till uppmärksamhetslager på autoregressiva modeller eller förlitar sig på self-attention-nätverk. Dessa modeller bygger dock på offentligt tillgängliga databaser som saknar användbar information om de interaktioner som användare har med övningar. I detta arbete introduceras olika tekniker som gör det möjligt att inkludera ytterligare information som görs tillgänglig i en databas som tillhandahålls av Astrid Education AB. De består av att koda en tidsdimension, modellera färdigheten som krävs för varje övning explicit och justera interaktionssekvenslängden. Genom att introducera ny information i ramverket för kunskapstracing tillåter Astrid att skapa en mer personlig upplevelse för sina användare; därmed uppfyller syftet och målet med denna avhandling. Dessutom genomför vi experiment för att förstå vilka aspekter som påverkar modellerna. Resultaten visar att modellering av färdigheter med en kodningsstrategi och reducering av interaktionssekvenslängden leder till förbättringar både vad gäller noggrannhet och AUC. Tidskodningen ledde inte till bättre resultat, ytterligare experimentering krävs för att inkludera tidsdimensionen på ett framgångsrikt sätt.
|
406 |
Tailored Query Resolution for Medical Data Interaction: Integrating LangChain4j, LLMs, and Retrieval Augmented Generation : Utilizing Real Time Embedding Techniques / Skräddarsydd Frågeupplösning för Interaktion med Medicinsk Data: Integrering av LangChain4j, LLMs och Hämtnings-Förstärkt Generation : Med realtidsinbäddningteknikerTegsten, Samuel January 2024 (has links)
Current artificial intelligence tools, including machine learning and large language models, display inabilities to interact with medical data in real time and raise privacy concerns related to user data management. This study illustrates the development of a system prototype using LangChain4j, which is an open-source project offering a multitude of AI-tools, including embedding tools, retrieval-augmented generation, and unified API:s for large language model providers. It was utilized to process medical data from a Neo4j database and enabled real-time interaction for that data. All content generation was generated locally to address privacy concerns, while using Apache Kafka for data distribution. The system prototype was evaluated by response time, resource consumption and accuracy assessment. Among the models assessed, LLaMA 3 emerged as the top performer in accuracy, successfully identifying 42.87% of all attributes with a correctness rate of 89.81%. Meanwhile, Phi3 exhibited superior outcomes in both resource consumption and response time. The embedding process, while enabling the selection of visible data, imposed limitations on general usability. In summary, this thesis advances data interaction using AI by developing a prototype that enables real-time interaction with medical data. It achieves high accuracy and efficient resource utilization while addressing limitations in current AI tools related to real-time processing and privacy concerns. / Nuvarande verktyg för artificiell intelligens, inklusive maskininlärning och stora språkmodeller, visar oförmåga att interagera med medicinska data i realtid och väcker integritetsproblem relaterade till hantering av användardata. Denna studie illustrerar utvecklingen av ett systemprototyp med LangChain4j, ett open-source-projekt som erbjuder en mängd AI-verktyg, inklusive inbäddningsverktyg, retrieval-augmented generation och enhetliga API för leverantörer av stora språkmodeller. Det användes för att bearbeta medicinska data från en Neo4j-databas och möjliggjorde realtidsinteraktion för dessa data. All innehållsgenerering skedde lokalt med Apache Kafka för datadistribution. Systemprototypen utvärderades utifrån svarstid, resursförbrukning och noggrannhetsbedömning. Bland de modeller som utvärderades visade sig LLaMA 3 vara den bästa presteraren i noggrannhet, och identifierade framgångsrikt 42,87 % av alla attribut med en korrekthet på 89,81 %. Samtidigt visade Phi3 överlägsna resultat både i resursförbrukning och svarstid. Inbäddningsprocessen, medan den möjliggjorde valet av synliga data, innebar begränsningar för allmän användbarhet. Sammanfattningsvis förbättrar denna avhandling datainteraktion med AI genom att utveckla en prototyp som möjliggör realtidsinteraktion med medicinska data. Den uppnår hög noggrannhet och effektiv resursanvändning samtidigt som den adresserar begränsningar i nuvarande AI-verktyg relaterade till realtidsbearbetning och integritetsproblem.
|
407 |
Tracking with Joint-Embedding Predictive Architectures : Learning to track through representation learning / Spårning genom Prediktiva Arkitekturer med Gemensam Inbäddning : Att lära sig att spåra genom representations inlärningMaus, Rickard January 2024 (has links)
Multi-object tracking is a classic engineering problem wherein a system must keep track of the identities of a set of a priori unknown objects through a sequence, for example video. Perfect execution of this task would mean no spurious or missed detections or identities, neither swapped identities. To measure performance of tracking systems, the Higher Order Tracking Accuracy metric is often used, which takes into account both detection and association accuracy. Prior work in monocular vision-based multi-object tracking has integrated deep learning to various degrees, with deep learning based detectors and visual feature extractors being commonplace alongside motion models of varying complexities. These methods have historically combined the usage of position and appearance in their association stage using hand-crafted heuristics, featuring increasingly complex algorithms to achieve higher performance tracking. With an interest in simplifying tracking algorithms, we turn to the field of representation learning. Presenting a novel method using a Joint-Embedding Predictive Architecture, trained through a contrastive objective, we learn object feature embeddings initialized by detections from a pre-trained detector. The results are features that fuse both positional and visual features. Comparing the performance of our method on the complex DanceTrack and relatively simpler MOT17 datasets to that of the most performant heuristic-based alternative, Deep OC-SORT, we see a significant improvement of 66.1 HOTA compared to the 61.3 HOTA of Deep OC-SORT on DanceTrack. On MOT17, which features less complex motion and less training data, heuristics-based methods outperform the proposed and prior learned tracking methods. While the method lags behind the state of the art in complex scenes, which follows the tracking-by-attention paradigm, it presents a novel approach and brings with it a new avenue of possible research. / Spårning av multipla objekt är ett typiskt ingenjörsproblem där ett system måste hålla reda på identiteterna hos en uppsättning på förhand okända objekt genom en sekvens, till exempel video. Att perfekt utföra denna uppgift skulle innebära inga felaktiga eller missade detektioner eller identiteter, inte heller utbytta identiteter. För att mäta prestanda hos spårningssystem används ofta metriken HOTA, som tar hänsyn till både detektions- och associationsnoggrannhet. Tidigare arbete inom monokulär vision-baserad flerobjektsspårning har integrerat djupinlärning i olika grad, med detektorer baserade på djupinlärning och visuella funktionsutdragare som är vanliga tillsammans med rörelsemodeller av varierande komplexitet. Dessa metoder har historiskt kombinerat användningen av position och utseende i deras associationsfas med hjälp av handgjorda heuristiker, med alltmer komplexa algoritmer för att uppnå högre prestanda i spårningen. Med ett intresse för att förenkla spårningsalgoritmer, vänder vi oss till fältet för representationsinlärning. Vi presenterar en ny metod som använder en prediktiv arkitektur med gemensam inbäddning, tränad genom ett kontrastivt mål, där vi lär oss objekt representationer initierade av detektioner från en förtränad detektor. Resultatet är en funktion som sammansmälter både position och visuel information. När vi jämför vår metod på det komplexa DanceTrack och det relativt enklare MOT17-datasetet med det mest presterande heuristikbaserade alternativet, Deep OC-SORT, ser vi en betydande förbättring på 66,1 HOTA jämfört med 61,3 HOTA för Deep OC-SORT på DanceTrack. På MOT17, som har mindre komplex rörelse och mindre träningsdata, presterar heuristikbaserade metoder bättre än den föreslagna och tidigare lärande spårningsmetoderna. Även om metoden ligger efter den senaste utvecklingen i komplexa scener, som följer paradigm för spårning-genom-uppmärksamhet, presenterar den ett nytt tillvägagångssätt och för med sig möjligheter för ny forskning.
|
408 |
Towards Representation Learning for Robust Network Intrusion Detection SystemsRyan John Hosler (18369510) 03 June 2024 (has links)
<p dir="ltr">This research involves numerous network intrusion techniques through novel applications of graph representation learning and image representation learning. The methods are tested on multiple publicly available network flow datasets.</p>
|
409 |
Applied Retrieval Augmented Generation Within Service Desk AutomationCederlund, Oscar January 2024 (has links)
Background. New ways of modeling abstract concepts have been enabled due to the recent boom in generative machine learning brought on by transformer architecture. By modeling abstract concepts within high-dimensional vectors their semantic meaning can be inferred and compared, which allows for methods such as embedding-based retrieval and the groundwork for a retrieval-augmented generation. Large language models can augment their parametric generative capabilities by introducing non-parametric information through retrieval processes. Objectives. Previous studies have explored different uses of embedding-based retrieval and retrieval-augmented generation, and this study examines the impact of these methods when used as an aid to support technicians. Methods. By developing and deploying a proof-of-concept system using embedding-based retrieval and retrieval-augmented generation to the Södra ITs service desk, the thesis could monitor system performance. Introducing a system to the service desk that generates instructional solutions to the support tickets and presenting them to the technician. The thesis investigates both systems' perceived performance based on the participating IT technician's input along with the retention of generated solutions and the quality of the solutions. Results. With 75.4% of the systems generated solutions being classified as reasonable solutions to ticket problems the system was deployed to the service desk. After an evaluation period where the technicians had been working with the system, it was shown that the solutions had a retention rate of 38.4%. These results were validated by a survey conducted at the service desk where the inputs were gathered from the technicians, showing a great deal degree of user engagement but a varying opinion on the system's helpfulness. Conclusions. Despite the varying degrees of opinion on the usefulness of the system among the technicians the numbers from the production test show that a significant amount of tickets were solved with the help of the system. Still, there's a huge dependency on seamless integration with the technicians and ticket quality from the requester. / Bakgrund. Nya sätt att modellera abstrakta begrepp har möjliggjorts tack vare den senaste tidens tillväxt inom generativ maskininlärning tack vare transformatorarkitekturen. Genom att modellera abstrakta begrepp i högdimensionella vektorer kan deras semantiska innebörd tolkas och jämföras, vilket möjliggör metoder som inbäddningsbaserad hämtning och grunden för en hämtningsförstärkt generation. Stora språkmodeller kan utvidga sina parametriska generativa förmågor genom att införa icke-parametrisk information genom hämtningsprocesser. Syfte. Tidigare studier har behandlat olika användningsområden för inbäddningsbaserad hämtning och hämtningsförstärkt generering, och i det här examensarbetet undersöks vilken inverkan dessa metoder har när de används som ett hjälpmedel för supporttekniker. Metod. Genom att utveckla och driftsätta ett prototypsystem som använder inbäddningsbaserad hämtning och hämtningsförstärkt generering till Södra ITs servicedesk, kunde examensarbetet övervaka systemets prestanda. Detta genom att införa ett system i servicedesken som genererar instruktionslösningar till supportärendena och presentera dem för teknikern. Examensarbetet undersöker både systemens upplevda prestanda baserat på den deltagande IT-teknikerns synpunkter tillsammans med kvarhållandet av genererade lösningar och kvaliteten på lösningarna. Resultat. Då 75,4% av de systemgenererade lösningarna klassificerades som rimliga för problemen i ärendena driftsattes systemet i servicedesken. Efter en utvärderingsperiod där teknikerna hade arbetat med systemet visade det sig att lösningarna hade en kvarhållningsgrad på 38,4%. Dessa resultat validerades av en undersökning som utförts vid servicedesken där synpunkter samlades in från teknikerna, vilket visade på en hög grad av användarengagemang men en varierande syn på systemets användbarhet. Slutsatser. Trots de varierande synpunkterna på systemets användbarhet bland teknikerna visar siffrorna från produktionstestningen att en betydande mängd ärenden löstes med hjälp av systemet. Dock är man fortfarande mycket beroende av en smidig integration med teknikerna och en god kvalitet på ärendena från beställaren.
|
410 |
Evaluating approaches to solving proportional sentence analogiesBlain-Montesano, Yves 02 1900 (has links)
L'analogie, c'est-à-dire une correspondance entre deux entités, est considérée une capacité de raisonnement importante. L'analogie proportionnelle, écrite $a:b::c:d$ et qui se lit ``$a$ est à $b$ ce que $c$ est à $d$'', en est un cas particulier où la correspondance tient de par la relation entre les éléments de deux paires d'objets. Le mémoire évalue certaines méthodes issues de l'usage de représentations distributionnelles vectorielles dans la résolution d'analogies proportionnelles verbales et les mène à leur prolongement naturel, la phrase.
Nous ciblons la compétence de modèles de langue et des représentations qui peuvent en être extraites à la résolution d'analogies proportionnelles formées sur la base de relations syntaxiques, sémantiques, ou de connaissance encyclopédique. Peu d'ensembles de données existent pour les analogies de phrase et sinon comprennent pour la plupart des analogies au niveau de la forme, composées de phrases construites à partir de gabarits, ou bien variant peu dans les relations sémantiques qui tiennent entre les phrases. Nous construisons donc un ensemble de données contenant des phrases en paires relationnelles qui nous permet de construire des analogies en appariant deux paires. Nous essayons différentes variations de méthodes qui comportent un objectif de recouvrement par un modèle vectoriel. D'autres méthodes de résolution d'analogies proportionnelles sont explorées par voie de génération de texte. Nous expérimentons par le peaufinement du modèle de langue Flan-T5, pré-entraîné sur des paires instruction-réponse, sur nos analogies par une tâche séquence à séquence, ainsi que par l'incitation avec peu d'exemples en utilisant des versions de ce modèle en variant la capacité jusque dans la gamme des milliards de paramètres. En somme, la performance observée est faible pour toutes les tâches. Nous concluons, de l'utilisation de plongements de phrase, quelques mises en garde similaires à celles que l'on trouve avec la résolution d'analogies verbales par plongements lexicaux. Nos expérimentations génératives démontrent l'importance de données à la fois de bonne qualité et de bonne quantité, ainsi que le potentiel de l'apprentissage en contexte. Nous ajoutons à cela un aperçu qualitatif de la disparité entre l'habileté de modèles probabilistes entraînés pour prédire, à partir d'une instruction, la séquence correcte, et celle d'un modèle peaufiné par la méthode d'apprentissage par renforcement avec commentaires humains, à savoir ChatGPT. / Analogy, the correspondence between two things, has been hailed as an important reasoning capability. Proportional analogy, denoted $a:b::c:d$, read ``$a$ is to $b$ as $c$ is to $d$'' is a special case of this where a correspondence is made in the relation that holds between the elements of two pairs. This thesis evaluates methods originating in the recent use of distributional vector representations for solving four-part word analogies, bringing them to their natural extension, sentences. Few datasets of proportional sentence analogies exist, typically comprising purely formal analogies or sentences constructed by templates, and where semantic relations are typically limited in the variety we would hope to capture. Thus, for the purposes of our experiments, we curate a dataset of pairs of sentences for which a given relation holds and from which analogies can be constructed by matching pairs within a relation together. We target the analogy-solving ability of language models and representations derived therefrom, specifically as regards proportional sentence analogies formed on the basis of syntax, semantics, or encyclopedic knowledge. Different variations on previous methods are explored, all based on retrieval of the solution in a vector space model. Other methods of solving proportional sentence analogies by generation are attempted. We experiment with finetuning the instruction-trained Flan-T5 language model on sentence analogies as a sequence-to-sequence task, as well as prompting model checkpoints up into the billion-parameter range with few-shot examples. Overall performance at the task is poor in both settings. We find that similar caveats which apply to analogical reasoning with word vectors apply to sentence embeddings as well. Our generative experiments show the importance of data of suitable quality and quantity, as well the potential of in-context learning. Some qualitative insights are shown as to the disparity in task ability of instruction-trained probabilistic language models and one finetuned by reinforcement learning with human feedback, namely ChatGPT.
|
Page generated in 0.0764 seconds