Back to Search
Start Over
Konstrukcija i analiza klaster algoritma sa primenom u definisanju bihejvioralnih faktora rizika u populaciji odraslog stanovništva Srbije
- Publication Year :
- 2016
-
Abstract
- Klaster analiza ima dugu istoriju i mada se primenjuje u mnogim oblastima i dalje ostaju značajni izazovi. U disertaciji je prikazan uvod u neglatki optimizacioni pristup u klasterovanju, sa osvrtom na problem klasterovanja velikih skupova podataka. Međutim, ovi optimizacioni algoritmi bolje funkcionišu u radu sa neprekidnim podacima. Jedan od glavnih izazova u klaster analizi je rad sa velikim skupovima podataka sa kategorijalnim i kombinovanim (numerički i kategorijalni) tipovima promenljivih. Rad sa velikim brojem instanci (objekata) i velikim brojem dimenzija (promenljivih), može predstavljati problem u klaster analizi, zbog vremenske složenosti. Jedan od načina rešavanja ovog problema je redukovanje broja instanci, bez gubitka informacija. Prvi cilj disertacije je bio upoređivanje rezultata klasterovanja na celom skupu i prostim slučajnim uzorcima sa kategorijalnim i kombinovanim podacima, za različite veličine uzorka i različit broj klastera. Nije utvrđena značajna razlika (p>0.05) u rezultatima klasterovanja na uzorcima obima 0.03m,0.05m,0.1m,0.3m (gde je m obim posmatranog skupa) i celom skupu. Drugi cilj disertacije je bio konstrukcija efikasnog postupka klasterovanja velikih skupova podataka sa kategorijalnim i kombinovanim tipovima promenljivih. Predloženi postupak se sastoji iz sledećih koraka: 1. klasterovanje na prostim slučajnim uzorcima određene kardinalnosti; 2. određivanje najboljeg klasterskog rešenja na uzorku, primenom odgovarajućeg kriterijuma validnosti; 3. dobijeni centri klastera iz ovog uzorka služe za klasterovanje ostatka skupa. Treći cilj disertacije predstavlja primenu klaster analize u definisanju klastera bihejvioralnih faktora rizika u populaciji odraslog stanovništva Srbije, kao i analizu sociodemografskih karakteristika dobijenih klastera. Klaster analiza je primenjena na velikom reprezentativnom uzorku odraslog stanovništva Srbije, starosti 20 i više godina. Izdvojeno je pet jasno odvojenih klastera sa karakterističnim kombinacija<br />The cluster analysis has a long history and a large number of clustering techniques have been developed in many areas, however, significant challenges still remain. In this thesis we have provided a introduction to nonsmooth optimization approach to clustering with reference to clustering large datasets. Nevertheless, these optimization clustering algorithms work much better when a dataset contains only vectors with continuous features. One of the main challenges is clustering of large datasets with categorical and mixed (numerical and categorical) data. Clustering deals with a large number of instances (objects) and a large number of dimensions (variables) can be problematic because of time complexity. One of the ways to solve this problem is by reducing the number of instances, without the loss of information. The first aim of this thesis was to compare the results of cluster algorithms on the whole dataset and on simple random samples with categorical and mixed data, in terms of validity, for different number of clusters and for different sample sizes. There were no significant differences (p>0.05) between the obtained results on the samples of the size of 0.03m,0.05m,0.1m,0.3m (where m is the size of the dataset) and the whole dataset. The second aim of this thesis was to develop an efficient clustering procedure for large datasets with categorical and mixed (numeric and categorical) values. The proposed procedure consists of the following steps: 1. clustering on simple random samples of a given cardinality; 2. finding the best cluster solution on a sample (by appropriate validity measure); 3. using cluster centers from this sample for clustering of the remaining data. The third aim of this thesis was to examine clustering of four lifestyle risk factors and to examine the variation across different socio-demographic groups in a Serbian adult population. Cluster analysis was carried out on a large representative sample of Serbian adults aged 20 and over. We ident
Details
- Database :
- OAIster
- Publication Type :
- Electronic Resource
- Accession number :
- edsoai.on1461992377
- Document Type :
- Electronic Resource