Estimativa de densidade kernel

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa
A página está num processo de expansão ou reestruturação.
Esta página está a atravessar um processo de expansão ou reestruturação. A informação presente poderá mudar rapidamente, podendo conter erros que estão a ser corrigidos. Todos estão convidados a dar o seu contributo e a editar esta página. Caso esta não tenha sido editada durante vários dias, retire esta marcação.

Esta página foi editada pela última vez por Zoldyick (D C) 6 meses atrás. (Recarregar)

Wikitext.svg
Este artigo ou seção precisa ser wikificado (desde fevereiro de 2014).
Por favor ajude a formatar este artigo de acordo com as diretrizes estabelecidas no livro de estilo.

Em estatística, estimativa de densidade Kernel (EDK) é uma forma não-paramétrica para estimar a função de densidade de probabilidade de uma variável aleatória. Estimação da densidade Kernel é um problema fundamental de suavização de dados onde inferências sobre a população são feitas, com base numa amostra de dados finita. Em alguns campos, como o processamento e econometria sinal é também denominado o método da janela de Parzen-Rosenblatt,recebendo o nome de Emanuel Parzen e Murray Rosenblatt, que geralmente são creditados por criá-lo de forma independente em sua forma atual[1] [2] .

Definição[editar | editar código-fonte]

Seja (x1, x2, ..., xn) uma amostra iid tirada de alguma distribuição com uma densidade ƒ desconhecida. Estamos interessados ​​em estimar a forma desta função ƒ. O estimador de densidade Kernel é


    \hat{f}_h(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big),

Onde K ( • ) é o kernel - uma função simétrica , mas não necessariamente positivo que integra a uma - e h > 0 é um parâmetro de alisamento chamado de largura de banda . Um kernel com índice h é chamado de kernel dimensionado e definido como Kh ( x ) = 1 / h K ( x / h ) . Intuitivamente se quer escolher h tão pequeno como os dados permitem , no entanto , há sempre um trade-off entre o viés do estimador e sua variância , mais na escolha da largura de banda abaixo.

Uma gama de funções do kernel são comumente usadas ​​: uniforme , triangular, biweight , triweight , Epanechnikov , normal, e outras. O kernel Epanechnikov é o ideal no sentido de variância mínima[3] , embora a perda de eficiência seja pequena para as funções kernel listadas anteriormente[4] , e devido às suas propriedades matemáticas convenientes , o kernel normal é muitas vezes usado K ( x) = φ ( x ) , onde φ é a função de densidade normal padrão .

A construção de uma estimativa de densidade kernel encontra interpretações em campos fora da estimativa da densidade . Por exemplo , em termodinâmica , este é equivalente à quantidade de calor gerado quando os kernels de calor ( a solução fundamental para a equação de calor ) são colocados em cada localização de pontos de dados xi . Métodos similares são usados ​​para construir operadores de Laplace discretos em nuvens de pontos para a manifold learning.

Exemplo[editar | editar código-fonte]

Estimativas de densidade kernel estão intimamente relacionados com os histogramas, mas pode ser dotado de propriedades como suavidade ou continuidade usando um kernel adequado . Para ver isto, nós comparamos a construção do histograma e da estimação de densidade do kernel , usando estes 6 pontos de dados : x1 = -2.1 , x2 = -1,3 , -0,4 = x3 , x4 = 1,9, x5 = 5,1, x6 = 6,2 . Para o histograma , o primeiro eixo horizontal é dividido em sub- intervalos ou caixas que cobrem a gama dos dados . Neste caso , temos 6 caixas de cada um de largura 2. Sempre que um ponto de dados cai dentro deste intervalo , colocamos uma caixa de altura 1/12 . Se mais do que um ponto de dados cai dentro da mesma caixa, as caixas são empilhadas uma em cima das outras .

Para o cálculo de densidade de Kernel , coloca-se um kernel normal com variância 2,25 ( indicado pela linha tracejada vermelha ) em cada um dos pontos de dados xi . Os kernels são somados para fazer a estimativa de densidade de kernel ( curva azul sólida) . A suavidade da estimativa de densidade kernel é evidente em comparação com a singularidade do histograma ,a medida que estimativas de densidade de kernel convergem mais rapidamente para a verdadeira densidade subjacente para variáveis ​​aleatórias contínuas[5] .

Gráfico [[1]]

Seleção de largura de banda[editar | editar código-fonte]

Gráfico[[2]]

A largura de banda do kernel é um parâmetro livre que apresenta uma forte influência sobre a estimativa resultante. Para ilustrar o seu efeito, vamos dar uma amostra aleatória simulada a partir da distribuição normal (plotados nos pontos azuis na trama tapete no eixo horizontal). A curva de cinza é a verdadeira densidade (a densidade normal com média 0 e variância 1). Em comparação, a curva é pouco suavizada vermelho, uma vez que contém demasiados artefactos de dados espúrios decorrentes da utilização de uma largura de banda = 0,05 h que é muito pequeno. A curva verde é muito suavizada desde usando a largura de banda h = 2 obscurece grande parte da estrutura subjacente. A curva de preto com uma largura de banda de h = 0,337 é considerada para ser perfeitamente alisada desde a sua estimativa da densidade é próxima da densidade verdadeira.

O critério de otimização mais comum usado para selecionar este parâmetro é a função de risco L2 esperado, também denominado a média integrada erro quadrático

\operatorname{MISE} (h) = E \int (\hat{f}_h(x) - f(x))^2 \, dx.

Sob premissas fracas sobre ƒ e K[1] [2] , MISE (h) = AMISE(h) + o(1/(nh) + h4) onde o é a little o notation. A AMISE é a MISE Assimptótica que consiste em os dois termos principais

\operatorname{AMISE}(h) = \frac{R(K)}{nh} + \frac{1}{4} m_2(K)^2 h^4 R(f'')


Onde R(g) = \int g(x)^2 \, dx para a função g, m_2(K) = \int x^2 K(x) \, dx e ƒ'' é a segunda derivada de ƒ. O mínimo dessa AMISE é a solução para esta equação diferencial.

 \frac{\partial}{\partial h} \operatorname{AMISE}(h) = -\frac{R(K)}{nh^2} +  m_2(K)^2 h^3 R(f'') = 0

ou

h_{\operatorname{AMISE}} = \frac{ R(K)^{1/5}}{m_2(K)^{2/5}R(f'')^{1/5} n^{1/5}}.

Nem o AMISE nem as fórmulas hAMISE são capazes de serem usadas diretamente , dado que envolvem a desconhecida função de densidade ƒ ou a sua segunda derivada ƒ'' , de modo que uma variedade de métodos automáticos, à base de dados, foram desenvolvidos para selecionar a largura de banda . Muitos estudos de revisão foram realizados para comparar as suas eficiências[6] [7] [8] [9] [10] with the general consensus that the plug-in selectors[11] and cross validation selectors[12] [13] [14] , com o consenso geral de que o seletores plug-in e seletores de validação cruzada são os mais úteis sobre uma vasta gama de conjuntos de dados .

Substituindo qualquer largura de banda h que tem a mesma ordem assintótican−1/5 por hAMISE na AMISE que dá AMISE ( h ) = O (n -4 /5) , em que S é a grande o notação . Pode ser mostrado que , com base em hipóteses fracas , não pode existir um estimador não paramétrico que converge a uma taxa mais rápida do que o estimador de kernel[15] . Note-se que a taxa de n- 4/5 é mais lento do que o normal n- 1 convergência taxa de métodos paramétricos .

Se a largura de banda não é mantida fixa, mas é variável dependendo da localização da estimativa ( estimador de balão ) ou das amostras ( pontual estimador ), este produz um método particularmente eficaz denominado adaptativa ou estimativa de densidade de kernel de largura de banda variável.


Estimativa prática da largura de banda[editar | editar código-fonte]

Se funções de base gaussianas são usados ​​para aproximar dados univariados, e a densidade a ser estimada é de base gaussiana, então ele pode ser mostrado que a escolha ideal para h é[16]

h = \left(\frac{4\hat{\sigma}^5}{3n}\right)^{\frac{1}{5}} \approx 1.06 \hat{\sigma} n^{-1/5},

Onde \hat{\sigma} é o desvio padrão das amostras Essa aproximação é chamado de aproximação normal de distribuição, a aproximação de Gauss, ou regra de Silverman's.

Relação com a função característica do estimador de densidade[editar | editar código-fonte]

Dada a amostra (x1, x2, …, xn) é natural estimar a função característica φ(t) = E[eitX] como


    \hat\varphi(t) = \frac{1}{n} \sum_{j=1}^n e^{itx_j}

Conhecendo a função característica, é possível encontrar a função de densidade de probabilidade correspondente através da inversa da transformada de Fourier. Uma dificuldade com a aplicação desta fórmula é que ele leva a um integral divergente uma vez que a estimativa \scriptstyle\hat\varphi(t) não é confiável para t’s grandes. Para contornar este problema, o estimador de \scriptstyle\hat\varphi(t) é multiplicado por uma função de amortecimentoψh(t) = ψ(ht), que é igual a 1, na origem, e, em seguida, cai para 0 até ao infinito. O parâmetro "largura de banda" h controla quão rápido vamos tentar amortecer a função \scriptstyle\hat\varphi(t). Em particular, quando h é pequena, então ψh(t) irá ser cerca de um para um grande intervalo de t’s, o que significa que \scriptstyle\hat\varphi(t) permanece praticamente inalterada na região mais importante de oft’s.

A escolha mais comum para a função ψ ou é a função uniforme ψ(t) = 1{−1 ≤ t ≤ 1}, o que efetivamente significa truncar o intervalo de integração na fórmula de inversão para [−1/h, 1/h], ou o função gaussiana ψ(t) = e−π t2. Uma vez que a função ψ tenha sido escolhido, a fórmula de inversão pode ser aplicada, e o estimador de densidade será

\begin{align}
    \hat{f}(x) &= \frac{1}{2\pi} \int_{-\infty}^{+\infty} \hat\varphi(t)\psi_h(t) e^{-itx}dt
                = \frac{1}{2\pi} \int_{-\infty}^{+\infty} \frac{1}{n} \sum_{j=1}^n e^{it(x_j-x)} \psi(ht) dt \\
               &= \frac{1}{nh} \sum_{j=1}^n \frac{1}{2\pi} \int_{-\infty}^{+\infty} e^{-i(ht)\frac{x-x_j}{h}} \psi(ht) d(ht)
                = \frac{1}{nh} \sum_{j=1}^n K\Big(\frac{x-x_j}{h}\Big),
  \end{align}

Onde K é a transformada inversa de fourier da função de amortecimento ψ. Assim, o estimador de densidade de kernel coincide com o estimador de densidade da função característica.


Implementação estatística[editar | editar código-fonte]

Implementação em MATLAB-Octave[editar | editar código-fonte]

Para este exemplo, os dados são de uma amostra de 50 pontos sintéticos desenhados a partir da normal padrão e 50 pontos a partir de uma distribuição normal com média de 3.5 e variância 1. A seleção automática da largura de banda e a estimação da densidade com kernels normais é realizada por kde.m

 randn('seed',8192);
 x = [randn(50,1); randn(50,1)+3.5];
 [h, fhat, xgrid] = kde(x, 401);
 figure;
 hold on;
 plot(xgrid, fhat, 'linewidth', 2, 'color', 'black');
 plot(x, zeros(100,1), 'b+');
 xlabel('x')
 ylabel('Density function')
 hold off;

Implementação em R[editar | editar código-fonte]

Este exemplo é baseado no Old Faithful , uma atração turística localizada no parque nacional de Yellowstone. Este conjunto de dados famoso contendo 272 registros consiste em duas variáveis, duração erupção , e tempo de espera até a próxima erupção, tanto em questão de minutos , incluído na distribuição base do R. Analisamos os tempos de espera , utilizando a biblioteca ks uma vez que tem uma ampla gama de opções de visualização . A função de largura de banda é hpi, que por sua vez chama a função dpik na biblioteca KernSmooth: estas funções implementam o plug-in seletor [11] . a densidade kernel estimada usando o kernel normal é calculado usando kde que chama bkde de KernSmooth. O função plot permite a adição de pontos de dados como uma trama de tapete no eixo horizontal. A estrutura bimodal na estimativa da densidade dos tempos de espera pode ser visto claramente , em contraste com o "terreno de tapete" onde esta estrutura não é aparente .

 library(KernSmooth)
 attach(faithful)
 fhat <- bkde(x=waiting)
 plot (fhat, xlab="x", ylab="Density function")

Referências

  1. a b doi:10.1214/aoms/1177728190
    Esta citação será automaticamente completada em poucos minutos. Você pode furar a fila ou completar manualmente
  2. a b doi:10.1214/aoms/1177704472
    Esta citação será automaticamente completada em poucos minutos. Você pode furar a fila ou completar manualmente
  3. Epanechnikov, V.A.. (1969). "Non-parametric estimation of a multivariate probability density". Theory of Probability and its Applications 14: 153–158. DOI:10.1137/1114019.
  4. Kernel Smoothing. London: Chapman & Hall/CRC, 1995. ISBN 0-412-55270-1
  5. Scott, D.. (1979). "On optimal and data-based histograms". Biometrika 66 (3): 605–610. DOI:10.1093/biomet/66.3.605.
  6. (1990) "Comparison of data-driven bandwidth selectors". Journal of the American Statistical Association 85 (409): 66–72. DOI:10.1080/01621459.1990.10475307.
  7. (1992) "Practical performance of several data driven bandwidth selectors (with discussion)". Computational Statistics 7: 251–270.
  8. (1994) "A comparative study of several smoothing methods in density estimation". Computational Statistics and Data Analysis 17 (2): 153–176. DOI:10.1016/0167-9473(92)00066-Z.
  9. (1996) "A brief survey of bandwidth selection for density estimation". Journal of the American Statistical Association 91 (433): 401–407. DOI:10.2307/2291420.
  10. Sheather, S.J.. (1992). "The performance of six popular bandwidth selection methods on some real data sets (with discussion)". Computational Statistics 7: 225–250, 271–281.
  11. a b (1991) "A reliable data-based bandwidth selection method for kernel density estimation". Journal of the Royal Statistical Society, Series B 53 (3): 683–690.
  12. Rudemo, M.. (1982). "Empirical choice of histograms and kernel density estimators". Scandinavian Journal of Statistics 9 (2): 65–78.
  13. Bowman, A.W.. (1984). "An alternative method of cross-validation for the smoothing of density estimates". Biometrika 71 (2): 353–360. DOI:10.1093/biomet/71.2.353.
  14. (1992) "Smoothed cross-validation". Probability Theory and Related Fields 92: 1–20. DOI:10.1007/BF01205233.
  15. Wahba, G.. (1975). "Optimal convergence properties of variable knot, kernel, and orthogonal series methods for density estimation". Annals of Statistics 3 (1): 15–29. DOI:10.1214/aos/1176342997.
  16. Silverman, B.W.. Density Estimation for Statistics and Data Analysis. London: Chapman & Hall/CRC, 1998. p. 48. ISBN 0-412-24620-1