Estimativa de densidade kernel

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa
Wikitext.svg
Esta página ou seção precisa ser wikificada (desde fevereiro de 2014).
Por favor ajude a formatar esta página de acordo com as diretrizes estabelecidas.

Em estatística, estimativa de densidade Kernel (EDK) é uma forma não-paramétrica para estimar a função de densidade de probabilidade de uma variável aleatória. Estimação da densidade Kernel é um problema fundamental de suavização de dados onde inferências sobre a população são feitas, com base numa amostra de dados finita. Em alguns campos, como o processamento de sinais e econometria é também denominado o método da janela de Parzen-Rosenblatt, recebendo o nome de Emanuel Parzen e Murray Rosenblatt, que geralmente são creditados por criá-lo de forma independente em sua forma atual[1] [2] .

Definição[editar | editar código-fonte]

Seja (x1, x2, ..., xn) uma amostra iid tirada de alguma distribuição com uma densidade ƒ desconhecida. Estamos interessados ​​em estimar a forma desta função ƒ. O estimador de densidade Kernel é

Onde K ( • ) é o kernel - uma função simétrica , mas não necessariamente positivo que integra a uma - e h > 0 é um parâmetro de alisamento chamado de largura de banda . Um kernel com índice h é chamado de kernel dimensionado e definido como Kh ( x ) = 1 / h K ( x / h ) . Intuitivamente se quer escolher h tão pequeno como os dados permitem , no entanto , há sempre um trade-off entre o viés do estimador e sua variância , mais na escolha da largura de banda abaixo.

Uma gama de funções do kernel são comumente usadas ​​: uniforme , triangular, biweight , triweight , Epanechnikov , normal, e outras. O kernel Epanechnikov é o ideal no sentido de variância mínima[3] , embora a perda de eficiência seja pequena para as funções kernel listadas anteriormente[4] , e devido às suas propriedades matemáticas convenientes , o kernel normal é muitas vezes usado K ( x) = φ ( x ) , onde φ é a função de densidade normal padrão .

A construção de uma estimativa de densidade kernel encontra interpretações em campos fora da estimativa da densidade . Por exemplo , em termodinâmica , este é equivalente à quantidade de calor gerado quando os kernels de calor ( a solução fundamental para a equação de calor ) são colocados em cada localização de pontos de dados xi . Métodos similares são usados ​​para construir operadores de Laplace discretos em nuvens de pontos para a manifold learning.

Exemplo[editar | editar código-fonte]

Estimativas de densidade kernel estão intimamente relacionados com os histogramas, mas pode ser dotado de propriedades como suavidade ou continuidade usando um kernel adequado . Para ver isto, nós comparamos a construção do histograma e da estimação de densidade do kernel , usando estes 6 pontos de dados : x1 = -2.1 , x2 = -1,3 , -0,4 = x3 , x4 = 1,9, x5 = 5,1, x6 = 6,2 . Para o histograma , o primeiro eixo horizontal é dividido em sub- intervalos ou caixas que cobrem a gama dos dados . Neste caso , temos 6 caixas de cada um de largura 2. Sempre que um ponto de dados cai dentro deste intervalo , colocamos uma caixa de altura 1/12 . Se mais do que um ponto de dados cai dentro da mesma caixa, as caixas são empilhadas uma em cima das outras .

Para o cálculo de densidade de Kernel , coloca-se um kernel normal com variância 2,25 ( indicado pela linha tracejada vermelha ) em cada um dos pontos de dados xi . Os kernels são somados para fazer a estimativa de densidade de kernel ( curva azul sólida) . A suavidade da estimativa de densidade kernel é evidente em comparação com a singularidade do histograma ,a medida que estimativas de densidade de kernel convergem mais rapidamente para a verdadeira densidade subjacente para variáveis ​​aleatórias contínuas[5] .

Gráfico [1]

Seleção de largura de banda[editar | editar código-fonte]

Gráfico[2]

A largura de banda do kernel é um parâmetro livre que apresenta uma forte influência sobre a estimativa resultante. Para ilustrar o seu efeito, vamos dar uma amostra aleatória simulada a partir da distribuição normal (plotados nos pontos azuis na trama tapete no eixo horizontal). A curva de cinza é a verdadeira densidade (a densidade normal com média 0 e variância 1). Em comparação, a curva é pouco suavizada vermelho, uma vez que contém demasiados artefactos de dados espúrios decorrentes da utilização de uma largura de banda = 0,05 h que é muito pequeno. A curva verde é muito suavizada desde usando a largura de banda h = 2 obscurece grande parte da estrutura subjacente. A curva de preto com uma largura de banda de h = 0,337 é considerada para ser perfeitamente alisada desde a sua estimativa da densidade é próxima da densidade verdadeira.

O critério de otimização mais comum usado para selecionar este parâmetro é a função de risco L2 esperado, também denominado a média integrada erro quadrático

Sob premissas fracas sobre ƒ e K[6] [7] , MISE (h) = AMISE(h) + o(1/(nh) + h4) onde o é a little o notation. A AMISE é a MISE Assimptótica que consiste em os dois termos principais

Onde para a função g, e ƒ'' é a segunda derivada de ƒ. O mínimo dessa AMISE é a solução para esta equação diferencial.

ou

Nem o AMISE nem as fórmulas hAMISE são capazes de serem usadas diretamente , dado que envolvem a desconhecida função de densidade ƒ ou a sua segunda derivada ƒ'' , de modo que uma variedade de métodos automáticos, à base de dados, foram desenvolvidos para selecionar a largura de banda . Muitos estudos de revisão foram realizados para comparar as suas eficiências[8] [9] [10] [11] [12] with the general consensus that the plug-in selectors[13] and cross validation selectors[14] [15] [16] , com o consenso geral de que o seletores plug-in e seletores de validação cruzada são os mais úteis sobre uma vasta gama de conjuntos de dados .

Substituindo qualquer largura de banda h que tem a mesma ordem assintótican−1/5 por hAMISE na AMISE que dá AMISE ( h ) = O (n -4 /5) , em que S é a grande o notação . Pode ser mostrado que , com base em hipóteses fracas , não pode existir um estimador não paramétrico que converge a uma taxa mais rápida do que o estimador de kernel[17] . Note-se que a taxa de n- 4/5 é mais lento do que o normal n- 1 convergência taxa de métodos paramétricos .

Se a largura de banda não é mantida fixa, mas é variável dependendo da localização da estimativa ( estimador de balão ) ou das amostras ( pontual estimador ), este produz um método particularmente eficaz denominado adaptativa ou estimativa de densidade de kernel de largura de banda variável.

Estimativa prática da largura de banda[editar | editar código-fonte]

Se funções de base gaussianas são usados ​​para aproximar dados univariados, e a densidade a ser estimada é de base gaussiana, então ele pode ser mostrado que a escolha ideal para h é[18]

Onde é o desvio padrão das amostras Essa aproximação é chamado de aproximação normal de distribuição, a aproximação de Gauss, ou regra de Silverman's.

Relação com a função característica do estimador de densidade[editar | editar código-fonte]

Dada a amostra (x1, x2, …, xn) é natural estimar a função característica φ(t) = E[eitX] como

Conhecendo a função característica, é possível encontrar a função de densidade de probabilidade correspondente através da inversa da transformada de Fourier. Uma dificuldade com a aplicação desta fórmula é que ele leva a um integral divergente uma vez que a estimativa não é confiável para t’s grandes. Para contornar este problema, o estimador de é multiplicado por uma função de amortecimentoψh(t) = ψ(ht), que é igual a 1, na origem, e, em seguida, cai para 0 até ao infinito. O parâmetro "largura de banda" h controla quão rápido vamos tentar amortecer a função . Em particular, quando h é pequena, então ψh(t) irá ser cerca de um para um grande intervalo de t’s, o que significa que permanece praticamente inalterada na região mais importante de oft’s.

A escolha mais comum para a função ψ ou é a função uniforme ψ(t) = 1{−1 ≤ t ≤ 1}, o que efetivamente significa truncar o intervalo de integração na fórmula de inversão para [−1/h, 1/h], ou o função gaussiana ψ(t) = e−π t2. Uma vez que a função ψ tenha sido escolhido, a fórmula de inversão pode ser aplicada, e o estimador de densidade será

Onde K é a transformada inversa de fourier da função de amortecimento ψ. Assim, o estimador de densidade de kernel coincide com o estimador de densidade da função característica.

Implementação estatística[editar | editar código-fonte]

Implementação em MATLAB-Octave[editar | editar código-fonte]

Para este exemplo, os dados são de uma amostra de 50 pontos sintéticos desenhados a partir da normal padrão e 50 pontos a partir de uma distribuição normal com média de 3.5 e variância 1. A seleção automática da largura de banda e a estimação da densidade com kernels normais é realizada por kde.m

 randn('seed',8192);
 x = [randn(50,1); randn(50,1)+3.5];
 [h, fhat, xgrid] = kde(x, 401);
 figure;
 hold on;
 plot(xgrid, fhat, 'linewidth', 2, 'color', 'black');
 plot(x, zeros(100,1), 'b+');
 xlabel('x')
 ylabel('Density function')
 hold off;

Implementação em R[editar | editar código-fonte]

Este exemplo é baseado no Old Faithful , uma atração turística localizada no parque nacional de Yellowstone. Este conjunto de dados famoso contendo 272 registros consiste em duas variáveis, duração erupção , e tempo de espera até a próxima erupção, tanto em questão de minutos , incluído na distribuição base do R. Analisamos os tempos de espera , utilizando a biblioteca ks uma vez que tem uma ampla gama de opções de visualização . A função de largura de banda é hpi, que por sua vez chama a função dpik na biblioteca KernSmooth: estas funções implementam o plug-in seletor [13] . a densidade kernel estimada usando o kernel normal é calculado usando kde que chama bkde de KernSmooth. O função plot permite a adição de pontos de dados como uma trama de tapete no eixo horizontal. A estrutura bimodal na estimativa da densidade dos tempos de espera pode ser visto claramente , em contraste com o "terreno de tapete" onde esta estrutura não é aparente .

 library(KernSmooth)
 attach(faithful)
 fhat <- bkde(x=waiting)
 plot (fhat, xlab="x", ylab="Density function")

Referências

  1. Rosenblatt, Murray. (1956-09-01). "Remarks on Some Nonparametric Estimates of a Density Function" (em EN). The Annals of Mathematical Statistics 27 (3): 832-837. DOI:10.1214/aoms/1177728190. ISSN 0003-4851.
  2. Parzen, Emanuel. (1962-09-01). "On Estimation of a Probability Density Function and Mode" (em EN). The Annals of Mathematical Statistics 33 (3): 1065-1076. DOI:10.1214/aoms/1177704472. ISSN 0003-4851.
  3. Epanechnikov, V.A. (1969). «Non-parametric estimation of a multivariate probability density». Theory of Probability and its Applications [S.l.: s.n.] 14: 153–158. doi:10.1137/1114019. 
  4. Wand, M.P; Jones, M.C. (1995). Kernel Smoothing (London: Chapman & Hall/CRC). ISBN 0-412-55270-1. 
  5. Scott, D. (1979). «On optimal and data-based histograms». Biometrika [S.l.: s.n.] 66 (3): 605–610. doi:10.1093/biomet/66.3.605. 
  6. Rosenblatt, Murray. (1956-09-01). "Remarks on Some Nonparametric Estimates of a Density Function" (em EN). The Annals of Mathematical Statistics 27 (3): 832-837. DOI:10.1214/aoms/1177728190. ISSN 0003-4851.
  7. Parzen, Emanuel. (1962-09-01). "On Estimation of a Probability Density Function and Mode" (em EN). The Annals of Mathematical Statistics 33 (3): 1065-1076. DOI:10.1214/aoms/1177704472. ISSN 0003-4851.
  8. Park, B.U.; Marron, J.S. (1990). «Comparison of data-driven bandwidth selectors». Journal of the American Statistical Association [S.l.: s.n.] 85 (409): 66–72. doi:10.1080/01621459.1990.10475307. JSTOR 2289526. 
  9. Park, B.U.; Turlach, B.A. (1992). «Practical performance of several data driven bandwidth selectors (with discussion)». Computational Statistics [S.l.: s.n.] 7: 251–270. 
  10. Cao, R.; Cuevas, A.; Manteiga, W. G. (1994). «A comparative study of several smoothing methods in density estimation». Computational Statistics and Data Analysis [S.l.: s.n.] 17 (2): 153–176. doi:10.1016/0167-9473(92)00066-Z. 
  11. Jones, M.C.; Marron, J.S.; Sheather, S. J. (1996). «A brief survey of bandwidth selection for density estimation». Journal of the American Statistical Association [S.l.: s.n.] 91 (433): 401–407. doi:10.2307/2291420. JSTOR 2291420. 
  12. Sheather, S.J. (1992). «The performance of six popular bandwidth selection methods on some real data sets (with discussion)». Computational Statistics [S.l.: s.n.] 7: 225–250, 271–281. 
  13. a b Sheather, S.J.; Jones, M.C. (1991). «A reliable data-based bandwidth selection method for kernel density estimation». Journal of the Royal Statistical Society, Series B [S.l.: s.n.] 53 (3): 683–690. JSTOR 2345597. 
  14. Rudemo, M. (1982). «Empirical choice of histograms and kernel density estimators». Scandinavian Journal of Statistics [S.l.: s.n.] 9 (2): 65–78. JSTOR 4615859. 
  15. Bowman, A.W. (1984). «An alternative method of cross-validation for the smoothing of density estimates». Biometrika [S.l.: s.n.] 71 (2): 353–360. doi:10.1093/biomet/71.2.353. 
  16. Hall, P.; Marron, J.S.; Park, B.U. (1992). «Smoothed cross-validation». Probability Theory and Related Fields [S.l.: s.n.] 92: 1–20. doi:10.1007/BF01205233. 
  17. Wahba, G. (1975). «Optimal convergence properties of variable knot, kernel, and orthogonal series methods for density estimation». Annals of Statistics [S.l.: s.n.] 3 (1): 15–29. doi:10.1214/aos/1176342997. 
  18. Silverman, B.W. (1998). Density Estimation for Statistics and Data Analysis (London: Chapman & Hall/CRC). p. 48. ISBN 0-412-24620-1.