Spelling suggestions: "subject:"finetuning"" "subject:"detuning""
31 |
Event-Cap – Event Ranking and Transformer-based Video Captioning / Event-Cap – Event rankning och transformerbaserad video captioningCederqvist, Gabriel, Gustafsson, Henrik January 2024 (has links)
In the field of video surveillance, vast amounts of data are gathered each day. To be able to identify what occurred during a recorded session, a human annotator has to go through the footage and annotate the different events. This is a tedious and expensive process that takes up a large amount of time. With the rise of machine learning and in particular deep learning, the field of both image and video captioning has seen large improvements. Contrastive Language-Image Pretraining is capable of efficiently learning a multimodal space, thus able to merge the understanding of text and images. This enables visual features to be extracted and processed into text describing the visual content. This thesis presents a system for extracting and ranking important events from surveillance videos as well as a way of automatically generating a description of the event. By utilizing the pre-trained models X-CLIP and GPT-2 to extract visual information from the videos and process it into text, a video captioning model was created that requires very little training. Additionally, the ranking system was implemented to extract important parts in video, utilizing anomaly detection as well as polynomial regression. Captions were evaluated using the metrics BLEU, METEOR, ROUGE and CIDEr, and the model receives scores comparable to other video captioning models. Additionally, captions were evaluated by experts in the field of video surveillance, who rated them on accuracy, reaching up to 62.9%, and semantic quality, reaching 99.2%. Furthermore the ranking system was also evaluated by the experts, where they agree with the ranking system 78% of the time. / Inom videoövervakning samlas stora mängder data in varje dag. För att kunna identifiera vad som händer i en inspelad övervakningsvideo så måste en människa gå igenom och annotera de olika händelserna. Detta är en långsam och dyr process som tar upp mycket tid. Under de senaste åren har det setts en enorm ökning av användandet av olika maskininlärningsmodeller. Djupinlärningsmodeller har fått stor framgång när det kommer till att generera korrekt och trovärdig text. De har också använts för att generera beskrivningar för både bilder och video. Contrastive Language-Image Pre-training har gjort det möjligt att träna en multimodal rymd som kombinerar förståelsen av text och bild. Detta gör det möjligt att extrahera visuell information och skapa textbeskrivningar. Denna master uppsatts beskriver ett system som kan extrahera och ranka viktiga händelser i en övervakningsvideo samt ett automatiskt sätt att generera beskrivningar till dessa. Genom att använda de förtränade modellerna X-CLIP och GPT-2 för att extrahera visuell information och textgenerering, har en videobeskrivningsmodell skapats som endast behöver en liten mängd träning. Dessutom har ett rankingsystem implementerats för att extrahera de viktiga delarna i en video genom att använda anomalidetektion och polynomregression. Video beskrivningarna utvärderades med måtten BLEU, METOER, ROUGE och CIDEr, där modellerna får resultat i klass med andra videobeskrivningsmodeller. Fortsättningsvis utvärderades beskrivningarna också av experter inom videoövervakningsområdet där de fick besvara hur bra beskrivningarna var i måtten: beskrivningsprecision som uppnådde 62.9% och semantisk kvalité som uppnådde 99.2%. Ranknignssystemet utvärderades också av experterna. Deras åsikter överensstämde till 78% med rankningssystemet.
32 |
Direct Preference Optimization for Improved Technical WritingAssistance : A Study of How Language Models Can Support the Writing of Technical Documentation at Saab / En studie i hur språkmodeller kan stödja skrivandet av teknisk dokumentation på SaabBengtsson, Hannes, Habbe, Patrik January 2024 (has links)
This thesis explores the potential of Large Language Models (LLMs) to assist in the technical documentation process at Saab. With the increasing complexity and regulatory demands on such documentation, the objective is to investigate advanced natural language processing techniques as a means of streamlining the creation of technical documentation. Although many standards exist, this thesis particularly focuses on the standard ASD-STE100, Simplified Technical English abbrv. STE, a controlled language for technical documentation. STE's primary aim is to ensure that technical documents are understandable to individuals regardless of their native language or English proficiency. The study focuses on the implementation of Direct Preference Optimization (DPO) and Supervised Instruction Fine-Tuning (SIFT) to refine the capabilities of LLMs in producing clear and concise outputs that comply with STE. Through a series of experiments, we investigate the effectiveness of LLMs in interpreting and simplifying technical language, with a particular emphasis on adherence to STE standards. The study utilizes a dataset comprised of target data paired with synthetic source data generated by a LLM. We apply various model training strategies, including zero-shot performance, supervised instruction fine-tuning, and direct preference optimization. We evaluate the various models' output using established quantitative metrics for text simplification and substitute human evaluators with company internal software for evaluating adherence to company standards and STE. Our findings suggest that while LLMs can significantly contribute to the technical writing process, the choice of training methods and the quality of data play crucial roles in the model's performance. This study shows how LLMs can improve productivity and reduce manual work. It also looks at the problems and suggests ways to make technical documentation automation better in the future.
33 |
Ανάπτυξη και χρήση υπολογιστικών μεθόδων για την σχετικιστική μελέτη των αστέρων νετρονίων / Development and use of calculating methods for the relativistic study of neutron starsΣφαέλος, Ιωάννης 20 April 2011 (has links)
Βασικός άξονας της παρούσας διατριβής είναι οι σχετικιστικοί υπολογισμοί πολυτροπικών μοντέλων περιστρεϕόμενων αστέρων νετρονίων. Επειδή δεν υπάρχει ακριβής αναλυτική λύση των εξισώσεων του Einstein για το ϐαρυτικό πεδίο ενός περιστρεϕόμενου αστέρα νετρονίων, επιχειρούμε την αϱιθμητική επίλυση στο μιγαδικό επίπεδο όλων των διαϕορικών εξισώσεων, που εμπεριέχονται στην διαταρακτική μέθοδο του Hartle. Δίνουμε έμϕαση στον υπολογισμό φυσικών ποσοτήτων, που περιγράϕουν την γεωμετρία ταχέως περιστρεϕόμενων μοντέλων. Συγκρίνοντας τα αριθμητικά αποτελέσματα που ϐρίσκουμε με ορισμένες πολύπλοκες επαναληπτικές μεθόδους, ελέγχουμε την αξιόλογη ϐελτίωση των αποτελεσμάτων μας, έναντι εκείνων που
δίνονται από το κλασσικό διαταρακτικό σχήμα του Hartle. Η παρούσα διατριβή χωρίζεται σε τέσσερα μέρη, που αναπτύσσονται στα κεϕάλαια 1, 2, 3 και 4.
Στο πρώτο κεϕάλαιο, ϑα εστιάσουμε την προσοχή μας στο σύστημα διαφορικών εξισώσεων Oppenheimer − Volkov, που εξάγονται από τις εξισώσεις πεδίου του Einstein. Σε συνδυασμό με μια καταστατική εξίσωση περιγράφουμε σχετικιστικά πολυτροπικά μοντέλα μη περιστρεϕόμενων αστέρων νετρονίων σε υδροστατική ισορροπία. Ακολούθως, περιγράϕουμε ένα καθαϱά σχετικιστικό φαινόμενο, τον συρμό των αδρανειακών συστημάτων λόγω της περιστροϕής του αστέρα. Στην συνέχεια, χρησιμοποιούμε την μέθοδο
διαταραχής του Hartle, σύμϕωνα με την οποία δεχόμαστε ότι ο στατικός αστέρας είναι το αδιατάρακτο σύστημα, πάνω στο οποίο εϕαρμόζουμε μικρές διαταραχές (ϑεωρώντας την ομοιόμορϕη περιστροϕή ως διαταραχή) και έτσι
υπολογίζουμε τις διορθώσεις στην μάζα και την ακτίνα, λόγω των σϕαιρικών και τετραπολικών παραμορϕώσεων. Τέλος, εϕαρμόζουμε μία διαταρακτική
προσέγγιση με όρους τρίτης τάξης στην γωνιακή ταχύτητα.
Στο δεύτερο κεϕάλαιο, ϑα κάνουμε μια εκτενή περιγραϕή της στρατηγικής του μιγαδικού επιπέδου (Complex-Plane Strategy, εν συντομία CPS).
Σύμϕωνα με αυτή την μέθοδο, η αριθμητική ολοκλήρωση των διαϕορικών εξισώσεων γίνεται στο μιγαδικό επίπεδο και όλες οι εμπλεκόμενες συναρτήσεις του προβλήματός μας είναι μιγαδικές, μιγαδικής μεταβλητής. Συνεπώς, για την αποϕυγή διαϕόρων ιδιομορϕιών ή και απροσδιόριστων μορϕών, που
προκύπτουν από τις οριακές συνθήκες του προβλήματος, κυρίως στο κέντρο και στην επιϕάνεια του αστέρα, μας δίνεται η δυνατότητα να επιλέξουμε ένα κατάλληλο μιγαδικό μονοπάτι για την εκτέλεση πάνω σ΄ αυτό της αριθμητικής ολοκλήρωσης των διαϕορικών εξισώσεων. Επιπλέον, οι αριθμητικές ολοκληϱώσεις όλων των διαϕορικών εξισώσεων του προβλήματος συνεχίζονται πολύ
πέραν της επιϕάνειας του αδιατάρακτου μοντέλου, με αποτέλεσμα η ακτίνα
υπολογίζεται εύκολα ως η ϱίζα του πραγματικού μέρους της συνάρτησης της
πυκνότητας (χωρίς να είμαστε αναγκασμένοι να εκτελέσουμε οποιεσδήποτε αριθμητικές προεκβολές, που είναι γνωστό ότι επιϕέρουν σημαντικά σϕάλματα).
Στο τρίτο κεϕάλαιο, υπολογίζουμε σημαντικές φυσικές ποσότητες που αφορούν τον αστέρα νετρονίων, ολοκληρώνοντας αριθμητικά ένα σύστημα διαφορικών εξισώσεων πρώτης τάξης. Ιδιαίτερα, υπολογίζουμε το σύνορο της
περιστρεϕόμενης αστρικής δομής με δύο τρόπους. Ο πρώτος είναι με ϐάση την κλασική διαπραγμάτευση της διαταρακτικής μεθόδου του Hartle και ο δεύτερος με τον αλγόριθμο λεπτής ϱύθμισης που αναπτύσσουμε με την
ϐοήθεια του οποίου παίρνουμε αξιόλογα αριθμητικά αποτελέσματα. Στην συνέχεια περιγράϕουμε το λογισμικό πακέτο ATOMFT System. Ακολούθως, με την ϐοήθεια των λύσεων των διαϕορικών εξισώσεων τρίτης τάξης ως προς
την γωνιακή ταχύτητα, υπολογίζουμε τις διορθώσεις στην στροϕορμή, την ϱοπή αδράνειας, την περιστροϕική κινητική ενέργεια και την ϐαρυτική δυναμική ενέργεια του αστέρα. Εϕαρμόζοντας τέλος μια κατάλληλη μέθοδο, υπολογίζουμε το όριο της μάζας διαϕυγής.
Στο τέταρτο κεϕάλαιο, εκθέτουμε πίνακες αποτελεσμάτων και κάποιες σημαντικές γραϕικές παραστάσεις. Δίνουμε επίσης ορισμένες λεπτομέρειες της εϕαρμογής του προγράμματός μας. Επιπλέον, δίνουμε έμϕαση στο γνωστό «παράδοξο» που αϕορά την μέθοδο διαταραχών του Hartle,σύμϕωνα με την
οποία αυτή η μέθοδος αν και αντιπροσωπεύει μια προσέγγιση αργής πεϱιστροϕής ενός αστέρα νετρονίων, δίνει αξιόλογα αποτελέσματα ακόμη και όταν εϕαρμόζεται σε ταχέως περιστρεϕόμενα μοντέλα. Στην παρούσα έρευνα
αϕαιρέσαμε τον κρίσιμο περιορισμό του τερματισμού των αριθμητικών ολοκληρώσεων λίγο πριν από την επιϕάνεια του μη περιστρεϕόμενου αστέρα, συνεχίζοντας την ολοκλήρωση αρκετά πέραν του συνόρου του. Αυτό σημαίνει ότι η CPS ¨γνωρίζει¨ την παραμόρϕωση που προκαλείται από την περιστροϕή για ένα αρκετά εκτεταμένο διάστημα που περιβάλλει την αρχικά σϕαιρική
μορϕή του αστέρα. Συνεπώς, για τους υπολογισμούς που απαιτούνται για
τον περιστρεϕόμενο αστέρα, η CPS δεν προεκβάλλει ποτέ, με αποτέλεσμα τα
σϕάλματα των υπολογισμών είναι πολύ μικρά. Τέλος, λαμβάνοντας υπόψη κατάλληλα στους υπολογισμούς μας ένα ορισμένο αριθμό συνθηκών, συνδυάζοντας την κλασική διαπραγμάτευση του διαταρακτικού σχήματος του Hartle και τις σχέσεις που απορρέουν από την δομή της στρατηγικής του μιγαδικού επιπέδου, οδηγηθήκαμε τελικά στην επινόηση του αλγόριθμου λεπτής ϱύθμισης, αποτέλεσμα του οποίου είναι η σημαντική ϐελτίωση της
ακρίβειας των αριθμητικών αποτελεσμάτων που αϕορούν την γεωμετρία του συνόρου του αστέρα νετρονίων. ΄Αμεση συνέπεια όλων αυτών είναι ο υπολογισμός με ικανοποιητική ακρίβεια του ορίου της μάζας διαϕυγής, εϕαρμόζοντας μια κατάλληλη μέθοδο. / In the present dissertation we solve numerically in the complex plane all the differential equations involved in Hartle’s perturbation method for computing general-relativistic polytropic models of rotating neutron stars.
We give emphasis on computing quantities describing the geometry of models in rapid rotation. Compared to numerical results obtained by certain sophisticated iterative methods, we verify appreciable improvement of our results vs to those given by the classical Hartle’s perturbative scheme. The description of the present investigation is constituted by four parts and has as follows.
In the first chapter, we start to describe the nonrotating neutron star model. Then, according to "Hartle’s perturbation method", the solid rotation is added as a perturbation. So, the equations of structure for uniformly rotating stars are given up to second order in the angular velocity and the distortions to mass and radius are calculated as corrections owing to spherical and quadrupole deformations. Subsequently, the equations are given up to third order in the angular velocity.
In the second chapter, we describe extensively the numerical method called Complex-Plane Strategy (abbreviated CPS). According to this method, we solve numerically in the complex plane all the differential equations involved in Hartle’s perturbation method. Any function of our problem is interpreted as a complex-valued function of a complex variable. CPS offers an alternative for avoiding any singularities and/or indeterminate forms, especially near the center and the surface of the nonrotating star, by performing numerical integration along a proper complex path. Moreover, the numerical integrations of all the differential equations governing the problem are continued well beyond the surface of the nonrotating star, thus, the radius is readily calculated as root of the density function (without been forced to perform any numerical extrapolations).
In the third chapter, we solve numerically in the complex plane the system of first-order differential equations resulting from Hartle’s perturbation method. We give emphasis on computing the boundary of the rotating configuration by the so-called fine tuning algorithm which gives appreciably improved results. Then, we describe the software systems that we use in our investigation, with emphasis on the ATOMFT System. Finally, we compute the third order corrections in the uniform angular velocity for the angular momentum, moment of inertia, rotational kinetical energy and gravitational potential energy. Furthermore, we describe a method for computing the mass-shedding limit.
In the fourth chapter, we present several numerical results and some significant graphical representations. We also give certain details of our program implementation. Concluding, we emphasize on the well-known "paradox" concerning Hartle’s perturbation method, according to which this method, although representing a slow-rotation approximation, gives remarkably accurate results even when applied to rapidly rotating models.
In the present work, we have removed the certain critical limitations of terminating integrations below the radius of the star. Instead, the numerical integration of our problem continues well beyond the boundary of the star. This means that CPS knows the distortion to be caused by rotation over a sufficiently extended space surrounding the initially spherical configuration. So, to the computation of a particular rotating configuration, CPS never extrapolates beyond the end of the function tables computed by such extended numerical integrations. It is exactly the avoidance of
any extrapolation which keeps the error in the computations appreciably small. Finally, we have properly taken into account certain conditions matching Hartle’s perturbative scheme and the relations arising in the framework of the Complex-Plane Strategy. This treatment has led to the fine tuning algorithm which, in turn, has improved appreciably the accuracy of our numerical results related to the geometry of the star’s boundary.
Consequently, the mass-shedding limit can be calculated using a proper procedure which gives remarkably accurate results.
34 |
Better representation learning for TPMSRaza, Amir 10 1900 (has links)
Avec l’augmentation de la popularité de l’IA et de l’apprentissage automatique, le nombre
de participants a explosé dans les conférences AI/ML. Le grand nombre d’articles soumis
et la nature évolutive des sujets constituent des défis supplémentaires pour les systèmes
d’évaluation par les pairs qui sont cruciaux pour nos communautés scientifiques. Certaines
conférences ont évolué vers l’automatisation de l’attribution des examinateurs pour
les soumissions, le TPMS [1] étant l’un de ces systèmes existants. Actuellement, TPMS
prépare des profils de chercheurs et de soumissions basés sur le contenu, afin de modéliser
l’adéquation des paires examinateur-soumission.
Dans ce travail, nous explorons différentes approches pour le réglage fin auto-supervisé
des transformateurs BERT pour les données des documents de conférence. Nous démontrons
quelques nouvelles approches des vues d’augmentation pour l’auto-supervision dans le
traitement du langage naturel, qui jusqu’à présent était davantage axée sur les problèmes de
vision par ordinateur. Nous utilisons ensuite ces représentations d’articles individuels pour
construire un modèle d’expertise qui apprend à combiner la représentation des différents
travaux publiés d’un examinateur et à prédire leur pertinence pour l’examen d’un article
soumis. Au final, nous montrons que de meilleures représentations individuelles des papiers
et une meilleure modélisation de l’expertise conduisent à de meilleures performances dans
la tâche de prédiction de l’adéquation de l’examinateur. / With the increase in popularity of AI and Machine learning, participation numbers have
exploded in AI/ML conferences. The large number of submission papers and the evolving
nature of topics constitute additional challenges for peer-review systems that are crucial for
our scientific communities. Some conferences have moved towards automating the reviewer
assignment for submissions, TPMS [1] being one such existing system. Currently, TPMS
prepares content-based profiles of researchers and submission papers, to model the suitability
of reviewer-submission pairs.
In this work, we explore different approaches to self-supervised fine-tuning of BERT
transformers for conference papers data. We demonstrate some new approaches to augmentation
views for self-supervision in natural language processing, which till now has
been more focused on problems in computer vision. We then use these individual paper
representations for building an expertise model which learns to combine the representation
of different published works of a reviewer and predict their relevance for reviewing
a submission paper. In the end, we show that better individual paper representations
and expertise modeling lead to better performance on the reviewer suitability prediction task.
35 |
Instrumental techniques for improving the measurements based on Quartz Crystal Microbalances (Técnicas instrumentales para mejorar las mediciones con microbalanzas de cuarzo)Torres Villa, Robinsón Alberto 01 October 2012 (has links)
L'Electrogravimetria AC empra una microbalança de quars electroquímica (EQCM) en règim dinàmic. En l'EQCM un dels elèctrodes d'or depositats sobre el cristall és recobert amb una fina pelolícula d'un polímer electroactiv i és emprat com a elèctrode de treball (WE) dins d'una celola electroquímica. Les variacions de la freqüència de ressonància de la microbalança de quars (QCM) permeten obtindre la resposta massa associada amb la transferència de càrrega que es dóna en la interfície polímer-electròlit. L'Electrogravimetria AC va ser proposta a fi de caracteritzar i separadament identificar el moviment dels ions i el solvent en la interfície polímer-electròlit. En esta tècnica s'analitza en el domine de la freqüència la resposta de massa davant de xicotetes pertorbacions de voltatge gràcies a l'ocupació de la microbalança de quars en règim dinàmic. Per a este propòsit s'aplica una xicoteta pertorbació sinusoidal superposada a una tensió contínua, entre l'elèctrode de referència i l'elèctrode de treball de la celola. Posteriorment, es pot dibuixar la funció de transferència electrogravimètrica (EGTF), definida esta com la raó (?m/?E) entre l'amplitud dels canvis de massa induïts (?m) i l'amplitud de la pertorbació sinusoïdal aplicada (?E). Esta funció de transferència se dibuixa en un pla complex per a cada una de les freqüències de la senyal de pertorbació. Les distintes espècies iònicas involucrades són identificades en el pla complex per mitjà de bucles característics sempre que els bucles no se superposen.
Per mitjà d'esta tesi doctoral es proposa un nou sistema de conversió de freqüència-tensió basat en un doble ajust de freqüència implementat amb un PLL mesclant elements analògics i digitals (AD PLL). Els resultats trobats tant en la caracterització electrònica del dispositiu com en la fase experimental proven la fiabilitat del sistema per als mesuraments realitzats en la tècnica d'Electrogravimetria AC. / Torres Villa, RA. (2007). Instrumental techniques for improving the measurements based on Quartz Crystal Microbalances (Técnicas instrumentales para mejorar las mediciones con microbalanzas de cuarzo) [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/17323
36 |
Fundus image analysis for automatic screening of ophthalmic pathologiesColomer Granero, Adrián 26 March 2018 (has links)
En los ultimos años el número de casos de ceguera se ha reducido significativamente. A pesar de este hecho, la Organización Mundial de la Salud estima que un 80% de los casos de pérdida de visión (285 millones en 2010) pueden ser evitados si se diagnostican en sus estadios más tempranos y son tratados de forma efectiva. Para cumplir esta propuesta se pretende que los servicios de atención primaria incluyan un seguimiento oftalmológico de sus pacientes así como fomentar campañas de cribado en centros proclives a reunir personas de alto riesgo. Sin embargo, estas soluciones exigen una alta carga de trabajo de personal experto entrenado en el análisis de los patrones anómalos propios de cada enfermedad. Por lo tanto, el desarrollo de algoritmos para la creación de sistemas de cribado automáticos juga un papel vital en este campo. La presente tesis persigue la identificacion automática del daño retiniano provocado por dos de las patologías más comunes en la sociedad actual: la retinopatía diabética (RD) y la degenaración macular asociada a la edad (DMAE). Concretamente, el objetivo final de este trabajo es el desarrollo de métodos novedosos basados en la extracción de características de la imagen de fondo de ojo y clasificación para discernir entre tejido sano y patológico. Además, en este documento se proponen algoritmos de pre-procesado con el objetivo de normalizar la alta variabilidad existente en las bases de datos publicas de imagen de fondo de ojo y eliminar la contribución de ciertas estructuras retinianas que afectan negativamente en la detección del daño retiniano. A diferencia de la mayoría de los trabajos existentes en el estado del arte sobre detección de patologías en imagen de fondo de ojo, los métodos propuestos a lo largo de este manuscrito evitan la necesidad de segmentación de las lesiones o la generación de un mapa de candidatos antes de la fase de clasificación. En este trabajo, Local binary patterns, perfiles granulométricos y la dimensión fractal se aplican de manera local para extraer información de textura, morfología y tortuosidad de la imagen de fondo de ojo. Posteriormente, esta información se combina de diversos modos formando vectores de características con los que se entrenan avanzados métodos de clasificación formulados para discriminar de manera óptima entre exudados, microaneurismas, hemorragias y tejido sano. Mediante diversos experimentos, se valida la habilidad del sistema propuesto para identificar los signos más comunes de la RD y DMAE. Para ello se emplean bases de datos públicas con un alto grado de variabilidad sin exlcuir ninguna imagen. Además, la presente tesis también cubre aspectos básicos del paradigma de deep learning. Concretamente, se presenta un novedoso método basado en redes neuronales convolucionales (CNNs). La técnica de transferencia de conocimiento se aplica mediante el fine-tuning de las arquitecturas de CNNs más importantes en el estado del arte. La detección y localización de exudados mediante redes neuronales se lleva a cabo en los dos últimos experimentos de esta tesis doctoral. Cabe destacar que los resultados obtenidos mediante la extracción de características "manual" y posterior clasificación se comparan de forma objetiva con las predicciones obtenidas por el mejor modelo basado en CNNs. Los prometedores resultados obtenidos en esta tesis y el bajo coste y portabilidad de las cámaras de adquisión de imagen de retina podrían facilitar la incorporación de los algoritmos desarrollados en este trabajo en un sistema de cribado automático que ayude a los especialistas en la detección de patrones anomálos característicos de las dos enfermedades bajo estudio: RD y DMAE. / In last years, the number of blindness cases has been significantly reduced. Despite this promising news, the World Health Organisation estimates that 80% of visual impairment (285 million cases in 2010) could be avoided if diagnosed and treated early. To accomplish this purpose, eye care services need to be established in primary health and screening campaigns should be a common task in centres with people at risk. However, these solutions entail a high workload for trained experts in the analysis of the anomalous patterns of each eye disease. Therefore, the development of algorithms for automatic screening system plays a vital role in this field. This thesis focuses on the automatic identification of the retinal damage provoked by two of the most common pathologies in the current society: diabetic retinopathy (DR) and age-related macular degeneration (AMD). Specifically, the final goal of this work is to develop novel methods, based on fundus image description and classification, to characterise the healthy and abnormal tissue in the retina background. In addition, pre-processing algorithms are proposed with the aim of normalising the high variability of fundus images and removing the contribution of some retinal structures that could hinder in the retinal damage detection. In contrast to the most of the state-of-the-art works in damage detection using fundus images, the methods proposed throughout this manuscript avoid the necessity of lesion segmentation or the candidate map generation before the classification stage. Local binary patterns, granulometric profiles and fractal dimension are locally computed to extract texture, morphological and roughness information from retinal images. Different combinations of this information feed advanced classification algorithms formulated to optimally discriminate exudates, microaneurysms, haemorrhages and healthy tissues. Through several experiments, the ability of the proposed system to identify DR and AMD signs is validated using different public databases with a large degree of variability and without image exclusion. Moreover, this thesis covers the basics of the deep learning paradigm. In particular, a novel approach based on convolutional neural networks is explored. The transfer learning technique is applied to fine-tune the most important state-of-the-art CNN architectures. Exudate detection and localisation tasks using neural networks are carried out in the last two experiments of this thesis. An objective comparison between the hand-crafted feature extraction and classification process and the prediction models based on CNNs is established. The promising results of this PhD thesis and the affordable cost and portability of retinal cameras could facilitate the further incorporation of the developed algorithms in a computer-aided diagnosis (CAD) system to help specialists in the accurate detection of anomalous patterns characteristic of the two diseases under study: DR and AMD. / En els últims anys el nombre de casos de ceguera s'ha reduït significativament. A pesar d'este fet, l'Organització Mundial de la Salut estima que un 80% dels casos de pèrdua de visió (285 milions en 2010) poden ser evitats si es diagnostiquen en els seus estadis més primerencs i són tractats de forma efectiva. Per a complir esta proposta es pretén que els servicis d'atenció primària incloguen un seguiment oftalmològic dels seus pacients així com fomentar campanyes de garbellament en centres regentats per persones d'alt risc. No obstant això, estes solucions exigixen una alta càrrega de treball de personal expert entrenat en l'anàlisi dels patrons anòmals propis de cada malaltia. Per tant, el desenrotllament d'algoritmes per a la creació de sistemes de garbellament automàtics juga un paper vital en este camp. La present tesi perseguix la identificació automàtica del dany retiniano provocat per dos de les patologies més comunes en la societat actual: la retinopatia diabètica (RD) i la degenaración macular associada a l'edat (DMAE) . Concretament, l'objectiu final d'este treball és el desenrotllament de mètodes novedodos basats en l'extracció de característiques de la imatge de fons d'ull i classificació per a discernir entre teixit sa i patològic. A més, en este document es proposen algoritmes de pre- processat amb l'objectiu de normalitzar l'alta variabilitat existent en les bases de dades publiques d'imatge de fons d'ull i eliminar la contribució de certes estructures retinianas que afecten negativament en la detecció del dany retiniano. A diferència de la majoria dels treballs existents en l'estat de l'art sobre detecció de patologies en imatge de fons d'ull, els mètodes proposats al llarg d'este manuscrit eviten la necessitat de segmentació de les lesions o la generació d'un mapa de candidats abans de la fase de classificació. En este treball, Local binary patterns, perfils granulometrics i la dimensió fractal s'apliquen de manera local per a extraure informació de textura, morfologia i tortuositat de la imatge de fons d'ull. Posteriorment, esta informació es combina de diversos modes formant vectors de característiques amb els que s'entrenen avançats mètodes de classificació formulats per a discriminar de manera òptima entre exsudats, microaneurismes, hemorràgies i teixit sa. Per mitjà de diversos experiments, es valida l'habilitat del sistema proposat per a identificar els signes més comuns de la RD i DMAE. Per a això s'empren bases de dades públiques amb un alt grau de variabilitat sense exlcuir cap imatge. A més, la present tesi també cobrix aspectes bàsics del paradigma de deep learning. Concretament, es presenta un nou mètode basat en xarxes neuronals convolucionales (CNNs) . La tècnica de transferencia de coneixement s'aplica per mitjà del fine-tuning de les arquitectures de CNNs més importants en l'estat de l'art. La detecció i localització d'exudats per mitjà de xarxes neuronals es du a terme en els dos últims experiments d'esta tesi doctoral. Cal destacar que els resultats obtinguts per mitjà de l'extracció de característiques "manual" i posterior classificació es comparen de forma objectiva amb les prediccions obtingudes pel millor model basat en CNNs. Els prometedors resultats obtinguts en esta tesi i el baix cost i portabilitat de les cambres d'adquisión d'imatge de retina podrien facilitar la incorporació dels algoritmes desenrotllats en este treball en un sistema de garbellament automàtic que ajude als especialistes en la detecció de patrons anomálos característics de les dos malalties baix estudi: RD i DMAE. / Colomer Granero, A. (2018). Fundus image analysis for automatic screening of ophthalmic pathologies [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/99745
37 |
KERMIT: Knowledge Extractive and Reasoning Model usIng TransformersHameed, Abed Alkarim, Mäntyniemi, Kevin January 2024 (has links)
In the rapidly advancing field of artificial intelligence, Large Language Models (LLMs) like GPT-3, GPT-4, and Gemini have revolutionized sectors by automating complex tasks. Despite their advancements, LLMs and more noticeably smaller language models (SLMs) still face challenges, such as generating unfounded content "hallucinations." This project aims to enhance SLMs for broader accessibility without extensive computational infrastructure. By supervised fine-tuning of smaller models with new datasets, SQUAD-ei and SQUAD-GPT, the resulting model, KERMIT-7B, achieved superior performance in TYDIQA-GoldP, demonstrating improved information extraction while retaining generative quality. / Inom det snabbt växande området artificiell intelligens har stora språkmodeller (LLM) som GPT-3, GPT-4 och Gemini revolutionerat sektorer genom att automatisera komplexa uppgifter. Trots sina framsteg stårdessa modeller, framför allt mindre språkmodeller (SLMs) fortfarande inför utmaningar, till exempel attgenerera ogrundat innehåll "hallucinationer". Denna studie syftar till att förbättra SLMs för bredare till-gänglighet utan krävande infrastruktur. Genom supervised fine-tuning av mindre modeller med nya data-set, SQUAD-ei och SQUAD-GPT, uppnådde den resulterande modellen, KERMIT-7B, överlägsen pre-standa i TYDIQA-GoldP, vilket visar förbättrad informationsutvinning samtidigt som den generativa kva-liteten bibehålls.
Page generated in 0.0648 seconds