3 results on '"NONPARAMETRIC ESTIMATION"'
Search Results
2. Probability density estimation using data projection
- Author
-
Mindaugas Kavaliauskas
- Subjects
projection pursuit ,probability density function ,nonparametric estimation ,projection index ,Mathematics ,QA1-939 - Abstract
Nonparametric estimation of multivariate multimodal probability density is analysed. The projection pursuit density estimator was proposed by J.H. Friedman. Author of this paper proposes the modifications of original Friedman algorithm: employing a kernel density estimator, and a projection index based on Kolmogorov–Smirnov statistic. The efficiency of proposed modifications is analysed using computer simulation technique.
- Published
- 2009
- Full Text
- View/download PDF
3. Application of nonlinear statistics for distribution density estimation of random vectors
- Author
-
Šmidtaitė, Rasa, Saulis, Leonas, Valakevičius, Eimutis, Aksomaitis, Algimantas Jonas, Janilionis, Vytautas, Navickas, Zenonas, Pekarskas, Vidmantas Povilas, Rudzkis, Rimantas, Ruzgas, Tomas, Dučinskas, Kęstutis, and Kaunas University of Technology
- Subjects
Monte Karlo metodas ,daugiamatis pasiskirstymo tankis ,neparametrinis vertinimas ,klasterizavimas ,Canonical coefficients ,nonparametric estimation ,Daugiamatis pasiskirstymo tankis ,Multivariate density ,kanoniniai koeficientai ,Monte-Carlo method ,Cluster analysis ,multivariate density ,Kanoniniai koeficientai ,Klasterizavimas ,Nonparametric estimation ,canonical coefficients ,Mathematics ,cluster analysis ,Neparametrinis vertinimas - Abstract
Statistikoje ir jos taikyme vienas dažniausiai sprendžiamų uždavinių yra daugiamačių tankių vertinimas.Tankių vertinimas skirstomas į parametrinį ir neparametrinį vertinimą. Parametriniame vertinime daroma prielaida, kad tankio funkcija f, apibūdinanti duomenis yi, kai i kinta nuo 1 iki n, priklauso tam tikrai gan siaurai funkcijų šeimai f(•;θ), kuri priklauso nuo nedidelio kiekio parametrų θ=(θ1, θ2, …, θk). Tankis, apskaičiuojamas pagal parametrinį vertinimą, gaunamas iš pradžių apskaičiavus parametro θ įvertį θ0 ir f0=f(•;θ). Toks traktavimas statistiniu požiūriu yra labai efektyvus, tačiau jeigu nei vienas šeimos f(•;θ) narys nėra artimas funkcijai f, rezultatai gali būti gauti labai netikslūs. Neparametriniam tankio vertinimui jokios parametrinės prielaidos apie f nėra reikalingos, tačiau vietoj to daromos kitos prielaidos, pavyzdžiui, apie funkcijos f tolydumą arba, kad f yra integruojama. Tankio funkcijos forma yra nustatoma iš turimų duomenų.Turint dideles imtis, tankis f gali būti apskaičiuotas pakankamai tiksliai. Šiuolaikinėje duomenų analizėje naudojama daugybė neparametrinių metodų, skirtų daugiamačių atsitiktinių dydžių pasiskirstymo tankio statistiniam vertinimui. Ypač plačiai paplitę branduoliniai įvertiniai, populiarūs ir splaininiai bei pusiau parametriniai algoritmai. Taikant daugumą populiarių neparametrinio įvertinimo procedūrų praktikoje susiduriama su jų parametrų optimalaus parinkimo problema. Branduolinių įvertinių konstrukcijos svarbiausiu elementu yra glodinimo plotis, splaininiams įvertiniams nelengva parinkti mazgus ir t.t. Ir nors yra sukurta nemažai adaptyvių minėtų parametrų parinkimo procedūrų, tačiau jos nėra pakankamai efektyvios, kai imties tūris nėra didelis. Pastaruoju atveju tikslinga taikyti duomenų projektavimą, nes parametrų parinkimo uždavinys tuo sunkesnis, kuo didesnė stebimų atsitiktinių vektorių dimensija. Vienas iš būdų mėginti padidinti įverčių tikslumą yra daugiamodalinio tankio analizės suvedimas į vienamodalinių tankių vertinimą, traktuojant tiriamą tankį kaip vienamodalinių tankių mišinį. Siūlome pirmame tyrimų etape imtį klasterizuoti ir po to kiekvieną klasterį atitinkančius skirstinių mišinio komponentus įvertinti atskirai.Klasterizavimas gali būti tiek tikimybinis, tiek geometrinis, tačiau šiame darbe apsiribosime tik pastaruoju. Duomenų klasterizavimui naudojami hierarchiniai ir nehierarchiniai klasterizavimo metodai. Hierarchinio klasterizavimo algoritmai prastai apdoroja išskirtis bei imtis, kuriose labai skiriasi stebinių išsibarstymas įvairiomis kryptimis (dimensijomis). Dėl šios priežasties rezultatai tampa labai priklausomi nuo atstumo tarp klasterių skaičiavimo metodo parinkimo. Kad būtų išvengta šių sunkumų taikomas klasterių sferizavimas. Nors sferizavimas išsprendžia keletą anksčiau minėtų problemų, tačiau jis nesumažina įvertinio jautrumo nuo branduolių skaičiaus, branduolio glodinimo parametrų, imties dydžio parinkimo ir t.t. Šiame darbe Monte Karlo metodu buvo siekiama atlikti įvairių neparametrinių įvertinių tikslumo lyginamąją analizę tuo atveju, kai stebėjimų skirstinio tankis yra daugiamodalinis, ir nustatyti, ar tikslinga tokio tipo tankių vertinime atlikti preliminarų imties suskaidymą į klasterius., Most algorithms work properly if the probability densities of the multivariate vectors are known. Unfortunately, in reality these densities are usually not available, and parametric or non-parametric estimation of the densities becomes critically needed. In parametric estimation one assumes that the density f underlying the data yi where i varies from 1 to n, belongs to some rather restricted family of functions f(•;θ) indexed by a small number of parameters θ=(θ1, θ2, …, θk). An example is the family of multivariate normal densities which is parameterized by the mean vector and the covariance matrix. A density estimate in the parametric approach is obtained by computing from the data an estimate θ0 of θ and setting f0=f(•;θ). Such an approach is statistically and computationally very efficient but can lead poor results if none of the family members f(•;θ) is close to f. In nonparametric density estimation no parametric assumptions about f are made and one assumes instead that f, for example, has some smoothness properties (e.g. two continuous derivatives) or that it is square integrable. The shape of the density estimate is determined by the data and, in principle, given enough data, arbitrary densities f can be estimated accurately. Most popular methods are the kernel estimator based on local smoothing of the data. Quite popular are histospline, semiparametric and projection pursuit algorithms. While constructing various probability density estimation methods the most difficult task is to find optimal parameters, e.g. for kernel algorithm it is a problem to find smoothing parameter, for histospline method difficulty is to produce the points with estimated densities, etc. Even though many papers are written related to this subject and offer various methods for parameters determination but those procedures are not very suitable for small size data. In this case it would be effective to use data projections because the task to choose best fitting parameters becomes more complicated when the dimension of data grows. One of the ways to improve the accuracy of probability density estimation is multi-mode density treating as the mixture of single-mode one. In this paper we offer to use data clustering in the first place and to estimate density in every cluster separately. To objectively compare the performance, Monte Carlo approximation is used for ten types Gaussian mixtures. While using various methods to evaluate the accuracy of probability density estimations we tried to use clustered and not clustered data. In this paper we also tried to reveal the usefulness of cluster preprocessing.
- Published
- 2008
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.