From confusion noise to active learning : playing on label availability in linear classification problems / Du bruit de confusion à l’apprentissage actif : jouer sur la disponibilité des étiquettes dans les problèmes de classification linéaire

Louche, Ugo 04 July 2016 (has links)
Les travaux présentés dans cette thèse relèvent de l'étude des méthodes de classification linéaires, c'est à dire l'étude de méthodes ayant pour but la catégorisation de données en différents groupes à partir d'un jeu d'exemples, préalablement étiquetés, disponible en amont et appelés ensemble d'apprentissage. En pratique, l'acquisition d'un tel ensemble d'apprentissage peut être difficile et/ou couteux, la catégorisation d'un exemple étant de fait plus ardu que l'obtention de dudit exemple. Cette disparité entre la disponibilité des données et notre capacité à constituer un ensemble d'apprentissage étiqueté a été un des problèmes centraux de l'apprentissage automatique et ce manuscrit s’intéresse à deux solutions usuellement considérées pour contourner ce problème : l'apprentissage en présence de données bruitées et l'apprentissage actif. / The works presented in this thesis fall within the general framework of linear classification, that is the problem of categorizing data into two or more classes based on on a training set of labelled data. In practice though acquiring labeled examples might prove challenging and/or costly as data are inherently easier to obtain than to label. Dealing with label scarceness have been a motivational goal in the machine learning literature and this work discuss two settings related to this problem: learning in the presence of noise and active learning.

Развој алгоритма и система за дедуктивну предикцију и анализу кретања кошаркашких судија / Razvoj algoritma i sistema za deduktivnu predikciju i analizu kretanja košarkaških sudija / Development of an algorithm and a system for deductive prediction and analysis of movment of basketball referees

Pecev Predrag 04 May 2017 (has links)
<p>Докторска дисертација припада области информационих система, са јасним акцентом на употребу неуронских мрежа за решавање проблема вишеструких зависних временских серија&nbsp; који је у&nbsp; овом докторату дефинисан.Основни циљ дисертације је креирање система у форми едукативног софтвера путем којег ће се обучавати младе кошаркашке судије</p><p>Један од кључих елемената овог&nbsp; доктората јесте симулација хоризонталног видног поља на основу којег се&nbsp; утврђује да ли је резоновано кретање кошаркашких судија било адекватно&nbsp; или није. Стога развијени софтвер поседује споменуту едукативну примену.</p><p>Како би се реализовао споменути софтвер спроведено је истраживање које је обухватило обучавање великог броја традиционалних вишеслојних перцептрона као и формирање посебне&nbsp; LTR&nbsp; &ndash;&nbsp; MDTS структуре неуронске мреже за коју се сматра да је погодна за решавање постојећег проблема. За реализацију симулације хоризонталног видног поља разматрано је више алгоритама из области рачунарске графике&nbsp; а&nbsp; Sweep and Prune&nbsp; алгоритам је парцијално пружио основу за развијени и тренутно&nbsp; имплементирани алгоритам.</p> / <p>Doktorska disertacija pripada oblasti informacionih sistema, sa jasnim akcentom na upotrebu neuronskih mreža za rešavanje problema višestrukih zavisnih vremenskih serija&nbsp; koji je u&nbsp; ovom doktoratu definisan.Osnovni cilj disertacije je kreiranje sistema u formi edukativnog softvera putem kojeg će se obučavati mlade košarkaške sudije</p><p>Jedan od ključih elemenata ovog&nbsp; doktorata jeste simulacija horizontalnog vidnog polja na osnovu kojeg se&nbsp; utvrđuje da li je rezonovano kretanje košarkaških sudija bilo adekvatno&nbsp; ili nije. Stoga razvijeni softver poseduje spomenutu edukativnu primenu.</p><p>Kako bi se realizovao spomenuti softver sprovedeno je istraživanje koje je obuhvatilo obučavanje velikog broja tradicionalnih višeslojnih perceptrona kao i formiranje posebne&nbsp; LTR&nbsp; &ndash;&nbsp; MDTS strukture neuronske mreže za koju se smatra da je pogodna za rešavanje postojećeg problema. Za realizaciju simulacije horizontalnog vidnog polja razmatrano je više algoritama iz oblasti računarske grafike&nbsp; a&nbsp; Sweep and Prune&nbsp; algoritam je parcijalno pružio osnovu za razvijeni i trenutno&nbsp; implementirani algoritam.</p> / <p>Doctoral dissertation belongs to the field of information systems, with a clear&nbsp; emphasis on the use of neural networks for solving the problem of multiple dependent time series, which is defined in this doctorate. The main objective of the&nbsp; thesis is to create a system in the form of educational software that will be used druring the training of young basketball referees.One of the key elements of this doctorate is a simulation of a horizontal field of&nbsp; vision&nbsp; on the basis of which it is determined whether the movement of&nbsp; reasoned&nbsp; basketball referees was adequate &nbsp; or not.&nbsp; Therefore developed software has&nbsp; aforementioned educational use. In order&nbsp; to realize the aforementioned software, a&nbsp; research&nbsp; was conducted that included training of a large number of traditional multilayer perceptron neural networks and the&nbsp; formation of special LTR&nbsp; -&nbsp; MDTS&nbsp; neural network&nbsp; structure which is considered to be&nbsp; suitable&nbsp; for solving the presented problem. For the realization of the simulation&nbsp; of the horizontal field of vision a large number of algorithms in the field of computer graphis was considered&nbsp; and Sweep and Prune algorithm partially provided the basis for the developed and&nbsp; currently implemented algorithm.</p>

Preprocesserings påverkan på prediktiva modeller : En experimentell analys av tidsserier från fjärrvärme / Impact of preprocessing on predictive models : An experimental analysis of time series from district heating

Andersson, Linda, Laurila, Alex, Lindström, Johannes January 2021 (has links)
Värme står för det största energibehovet inom hushåll och andra byggnader i samhället och olika tekniker används för att kunna reducera mängden energi som går åt för att spara på både miljö och pengar. Ett angreppssätt på detta problem är genom informatiken, där maskininlärning kan användas för att analysera och förutspå värmebehovet. I denna studie används maskininlärning för att prognostisera framtida energiförbrukning för fjärrvärme utifrån historisk fjärrvärmedata från ett fjärrvärmebolag tillsammans med exogena variabler i form av väderdata från Sveriges meteorologiska och hydrologiska institut. Studien är skriven på svenska och utforskar effekter av preprocessering hos prediktionsmodeller som använder tidsseriedata för att prognostisera framtida datapunkter. Stegen som utförs i studien är normalisering, interpolering, hantering av numeric outliers och missing values, datetime feature engineering, säsongsmässighet, feature selection, samt korsvalidering. Maskininlärningsmodellen som används i studien är Multilayer Perceptron som är en subkategori av artificiellt neuralt nätverk. Forskningsfrågan som besvaras fokuserar på effekter av preprocessering och feature selection för prediktiva modellers prestanda inom olika datamängder och kombinationer av preprocesseringsmetoder. Modellerna delades upp i tre olika datamängder utifrån datumintervall: 2009, 2007–2011, samt 2007–2017, där de olika kombinationerna utgörs av preprocesseringssteg som kombineras inom en iterativ process. Procentuella ökningar på R2-värden för dessa olika intervall har uppnått 47,45% för ett år, 9,97% för fem år och 32,44% för 11 år. I stora drag bekräftar och förstärker resultatet befintlig teori som menar på att preprocessering kan förbättra prediktionsmodeller. Ett antal mindre observationer kring enskilda preprocesseringsmetoders effekter har identifierats och diskuterats i studien, såsom DateTime Feature Engineerings negativa effekter på modeller som tränats med ett mindre antal iterationer. / Heat accounts for the greatest energy needs in households and other buildings in society. Effective production and distribution of heat energy require techniques for minimising economic and environmental costs. One approach to this problem is through informatics where machine learning is used to analyze and predict the heating needs with the help of historical data from a district heating company and exogenous variables in the form of weather data from Sweden's Meteorological and Hydrological Institute (SMHI). This study is written in Swedish and explores the importance of preprocessing practices before training and using prediction models which utilizes time-series data to predict future energy consumption. The preprocessing steps explored in this study consists of normalization, interpolation, identification and management of numerical outliers and missing values, datetime feature engineering, seasonality, feature selection and cross-validation. The machine learning model used in this study is Multilayer Perceptron which is a subcategory of artificial neural network. The research question focuses on the effects of preprocessing and feature selection for predictive model performance within different datasets and combinations of preprocessing methods. The models were divided into three different data sets based on date ranges: 2009, 2007–2011, and 2007–2017, where the different combinations consist of preprocessing steps that are combined within an iterative process. Percentage increases in R2 values for these different ranges have reached 47,45% for one year, 9,97% for five years and 32,44% for 11 years. The results broadly confirm and reinforce the existing theory that preprocessing can improve prediction models. A few minor observations about the effects of individual preprocessing methods have been identified and discussed in the study, such as DateTime Feature Engineering having a detrimental effect on models with very few training iterations.

