Global ETD Search

Return to search

"Konstrukcija i analiza klaster algoritma sa primenom u definisanju bihejvioralnih faktora rizika u populaciji odraslog stanovništva Srbije" / "Construction and analysis of cluster algorithmwith application in defining behavioural riskfactors in Serbian adult population"

Klaster analiza ima dugu istoriju i mada se primenjuje u mnogim oblastima i dalje ostaju značajni izazovi. U disertaciji je prikazan uvod u neglatki optimizacioni pristup u klasterovanju, sa osvrtom na problem klasterovanja velikih skupova podataka. Međutim, ovi optimizacioni algoritmi bolje funkcioni&scaron;u u radu sa neprekidnim podacima. Jedan od glavnih izazova u klaster analizi je rad sa velikim skupovima podataka sa kategorijalnim i kombinovanim (numerički i kategorijalni) tipovima promenljivih. Rad sa velikim brojem instanci (objekata) i velikim brojem dimenzija (promenljivih), može predstavljati problem u klaster analizi, zbog vremenske složenosti. Jedan od načina re&scaron;avanja ovog problema je redukovanje broja instanci, bez gubitka informacija. Prvi cilj disertacije je bio upoređivanje rezultata klasterovanja na celom skupu i prostim slučajnim uzorcima sa kategorijalnim i kombinovanim podacima, za različite veličine uzorka i različit broj klastera. Nije utvrđena značajna razlika (p>0.05) u rezultatima klasterovanja na uzorcima obima 0.03m,0.05m,0.1m,0.3m (gde je m obim posmatranog skupa) i celom skupu. Drugi cilj disertacije je bio konstrukcija efikasnog postupka klasterovanja velikih skupova podataka sa kategorijalnim i kombinovanim tipovima promenljivih. Predloženi postupak se sastoji iz sledećih koraka: 1. klasterovanje na prostim slučajnim uzorcima određene kardinalnosti; 2. određivanje najboljeg klasterskog re&scaron;enja na uzorku, primenom odgovarajućeg kriterijuma validnosti; 3. dobijeni centri klastera iz ovog uzorka služe za klasterovanje ostatka skupa. Treći cilj disertacije predstavlja primenu klaster analize u definisanju klastera bihejvioralnih faktora rizika u populaciji odraslog stanovni&scaron;tva Srbije, kao i analizu sociodemografskih karakteristika dobijenih klastera. Klaster analiza je primenjena na velikom reprezentativnom uzorku odraslog stanovni&scaron;tva Srbije, starosti 20 i vi&scaron;e godina. Izdvojeno je pet jasno odvojenih klastera sa karakterističnim kombinacijama bihejvioralnih faktora rizika: Bez rizičnih faktora, &Scaron;tetna upotreba alkohola i druge rizične navike, Nepravilna ishrana i druge rizične navike, Nedovoljna fizička aktivnost, Pu&scaron;enje. Rezultati multinomnog logističkog regresionog modela ukazuju da ispitanici koji nisu u braku, lo&scaron;ijeg su materijalnog stanja, nižeg obrazovanja i žive u Vojvodini imaju veću &scaron;ansu za prisustvo vi&scaron;estrukih bihejvioralnih faktora rizika. / The cluster analysis has a long history and a large number of clustering techniques have been developed in many areas, however, significant challenges still remain. In this thesis we have provided a introduction to nonsmooth optimization approach to clustering with reference to clustering large datasets. Nevertheless, these optimization clustering algorithms work much better when a dataset contains only vectors with continuous features. One of the main challenges is clustering of large datasets with categorical and mixed (numerical and categorical) data. Clustering deals with a large number of instances (objects) and a large number of dimensions (variables) can be problematic because of time complexity. One of the ways to solve this problem is by reducing the number of instances, without the loss of information. The first aim of this thesis was to compare the results of cluster algorithms on the whole dataset and on simple random samples with categorical and mixed data, in terms of validity, for different number of clusters and for different sample sizes. There were no significant differences (p>0.05) between the obtained results on the samples of the size of 0.03m,0.05m,0.1m,0.3m (where m is the size of the dataset) and the whole dataset. The second aim of this thesis was to develop an efficient clustering procedure for large datasets with categorical and mixed (numeric and categorical) values. The proposed procedure consists of the following steps: 1. clustering on simple random samples of a given cardinality; 2. finding the best cluster solution on a sample (by appropriate validity measure); 3. using cluster centers from this sample for clustering of the remaining data. The third aim of this thesis was to examine clustering of four lifestyle risk factors and to examine the variation across different socio-demographic groups in a Serbian adult population. Cluster analysis was carried out on a large representative sample of Serbian adults aged 20 and over. We identified five homogenous health behaviour clusters with specific combination of risk factors: 'No Risk Behaviours', 'Drinkers with Risk Behaviours', 'Unhealthy diet with Risk Behaviours', 'Smoking'. Results of multinomial logistic regression indicated that single adults, less educated, with low socio-economic status and living in the region of Vojvodina are most likely to be a part of the clusters with a high-risk profile.

Identifer	oai:union.ndltd.org:uns.ac.rs/oai:CRISUNS:(BISIS)99629
Date	23 June 2016
Creators	Dragnić Nataša
Contributors	Lužanin Zorana, Ač-Nikolić Eržebet, Tepavčević Andreja, Krejić Nataša, Kvrgić Svetlana, Grujić Vera
Publisher	Univerzitet u Novom Sadu, Doktorske disertacije iz interdisciplinarne odnosno multidisciplinarne oblasti na Univerzitetu u Novom Sadu, University of Novi Sad, Doctoral dissertations in the interdisciplinary or multidisciplinary field
Source Sets	University of Novi Sad
Language	Serbian
Detected Language	Unknown
Type	PhD thesis

Page generated in 0.0069 seconds

"Konstrukcija i analiza klaster algoritma sa primenom u definisanju bihejvioralnih faktora rizika u populaciji odraslog stanovništva Srbije" / "Construction and analysis of cluster algorithmwith application in defining behavioural riskfactors in Serbian adult population"

Description

Links & Downloads

Tags

Additional Fields