Se o kernel Epanechnikov é teoricamente ideal ao fazer a estimativa de densidade do kernel, por que não é mais comumente usado?

Eu li (por exemplo, aqui ) que o núcleo Epanechnikov é ideal, pelo menos em um sentido teórico, ao fazer uma estimativa da densidade do núcleo. Se isso for verdade, por que o Gaussiano aparece com tanta frequência quanto o kernel padrão ou, em muitos casos, o único kernel, nas bibliotecas de estimativa de densidade?

nonparametric kernel-smoothing John Rauser
fonte

Duas questões se entrelaçaram aqui: por que não usar mais comumente? por que o Gaussian geralmente é o kernel padrão / único? Pode parecer trivial, mas o nome Epanechnikov pode parecer difícil de soletrar e pronunciar corretamente para pessoas que não são fluentes nesse idioma. (Eu não tenho certeza se E. era russo; não encontrei detalhes biográficos.) Além disso, se eu mostrar (por exemplo) um peso biológico, comente sua forma de sino, largura finita e comportamento nas bordas, que parecem mais fácil de vender. Epanechnikov é o padrão no Stata kdensity.

Nick Cox

Eu acrescentaria que essa otimização teórica tem pouca influência na prática, se houver.

Xian

É um nome familiar. Se faz sentido usar um kernel que não possui suporte finito, você deve preferir. No que diz respeito à minha experiência, não faz sentido; portanto, a escolha parece social, não técnica.

Nick Cox

@ NickCox, sim, E era um cara russo, não é uma abreviação :) Ele era uma pessoa enigmática, isso é tudo que você pode encontrar sobre ele. Lembro-me também um muito útil livro alguém com seu nome escrito em calculadoras programáveis, sim, foi uma grande coisa no momento

Aksakal

@amoeba Ele trabalhou no Институт радиотехники e электроники Российской Академии Наук им. Котельникова, eu aposto que ele fez uma pesquisa classificada, nome completo é Епанечников Виктор Александрович

Aksakal

Respostas:

A razão pela qual o kernel Epanechnikov não é universalmente usado por sua otimização teórica pode muito bem ser que o kernel Epanechnikov não é realmente teoricamente ideal . Tsybakov critica explicitamente o argumento de que o núcleo Epanechnikov é "teoricamente ótimo" nas páginas 16-19 da Introdução à estimativa não paramétrica (seção 1.2.4).

Tentando resumir, sob algumas suposições sobre o kernel $K$ e uma densidade fixa $p$ one, temos que o erro quadrado integrado médio é, da forma

\begin{matrix} (1) & \frac{1}{n h} \int K^{2} (u) d u + \frac{h^{4}}{4} S_{K}^{2} \int (p^{″} (x))^{2} d x . \end{matrix}

$\frac{1}{nh} \int K^2 (u) du + \frac{h^4}{4}S_K^2 \int (p''(x))^2 dx \,. \tag{1}$

A principal crítica a Tsybakov parece estar minimizando os núcleos não negativos, pois muitas vezes é possível obter estimadores com melhor desempenho, que são até negativos, sem restringir os núcleos não negativos.

O primeiro passo do argumento para o kernel Epanechnikov começa minimizando $(1)$ sobre $h$ todos os kernels não negativos (em vez de todos os kernels de uma classe mais ampla) para obter uma largura de banda "ideal" para $K$

h^{M I S E} (K) = {(\frac{\int K^{2}}{n S_{K}^{2} \int (p^{″})^{2}})}^{1 / 5}

$h^{MISE}(K) = \left( \frac{\int K^2}{nS_K^2 \int (p'')^2} \right)^{1/5}$

e o kernel "ideal" (Epanechnikov)

K^{*} (u) = \frac{3}{4} (1 - u^{2})_{+}

$K^*(u) = \frac{3}{4}(1-u^2)_+$

cujo erro quadrado integrado médio é:

h^{M I S E} (K^{*}) = {(\frac{15}{n \int (p^{″})^{2}})}^{1 / 5} .

$h^{MISE}(K^*) = \left( \frac{15}{n \int (p'')^2} \right)^{1/5} \,.$

Porém, essas escolhas não são viáveis, pois dependem do conhecimento (via $p''$ ) da densidade desconhecida $p$ - portanto, são quantidades "oraculares".

Uma proposição feita por Tsybakov implica que o MISE assintótico para o oráculo de Epanechnikov é:

\begin{matrix} (2) & lim_{n \to \infty} n^{4 / 5} E_{p} \int (p_{n}^{E} (x) - p (x))^{2} d x = \frac{3^{4 / 5}}{5^{1 / 5} 4} {(\int (p^{″} (x))^{2} d x)}^{1 / 5} . \end{matrix}

$\lim_{n \to \infty} n^{4/5} \mathbb{E}_p \int (p_n^E (x) - p(x))^2 dx = \frac{3^{4/5}}{5^{1/5}4} \left( \int (p''(x))^2 dx \right)^{1/5} \,. \tag{2}$

Tsybakov diz que (2) costuma ser considerado o MISE mais viável, mas depois mostra que é possível usar kernels da ordem 2 (para os quais ) para construir estimadores de kernel, para cada , de modo que $S_K =0$ $\varepsilon >0$

\underset{n \to \infty}{lim sup} n^{4 / 5} E_{p} \int ({\hat{p}}_{n} (x) - p (x))^{2} d x \leq ε .

$\limsup_{n \to \infty} n^{4/5} \mathbb{E}_p \int (\hat{p}_n (x) - p(x))^2 dx \le \varepsilon \,.$

Mesmo que não seja necessariamente não negativo, ainda há o mesmo resultado para o estimador de peças positivo, (que é garantido seja negativo, mesmo que não seja): $\hat{p}_n$ $p_n^+ := \max(0, \hat{p}_n)$ $K$

\underset{n \to \infty}{lim sup} n^{4 / 5} E_{p} \int (p_{n}^{+} (x) - p (x))^{2} d x \leq ε .

$\limsup_{n \to \infty} n^{4/5} \mathbb{E}_p \int (p_n^+ (x) - p(x))^2 dx \le \varepsilon \,.$

Portanto, para pequeno o suficiente, existem estimadores verdadeiros que possuem MISE assintótico menor que o oráculo Epanechnikov , mesmo usando as mesmas premissas na densidade desconhecida . $\varepsilon$ $p$

Em particular, resulta-se que o menor valor do MISE assintótico para um fixo sobre todos os estimadores de kernel (ou partes positivas dos estimadores de kernel) é . Portanto, o oráculo de Epanechnikov não está nem perto de ser o ideal, mesmo quando comparado aos verdadeiros estimadores. $p$ $0$

A razão pela qual as pessoas avançaram no argumento para o oráculo de Epanechnikov é que muitas vezes se argumenta que o próprio núcleo não deveria ser negativo, porque a densidade em si não era negativa. Mas, como Tsybakov aponta, não é preciso assumir que o núcleo não é negativo para obter estimadores de densidade não negativos e, ao permitir que outros kernels possam ser estimadores de densidade não negativos que (1) não são oráculos e (2) ter um desempenho arbitrariamente melhor que o oráculo Epanechnikov para um fixo $p$ . Tsybakov usa essa discrepância para argumentar que não faz sentido defender a otimização em termos de um fixo , mas apenas as propriedades de otimização uniformes em uma classe $p$ de densidades. Ele também aponta que o argumento ainda funciona ao usar o MSE em vez do MISE.

EDIT: Ver também Corolário 1.1. na p.25, onde o núcleo de Epanechnikov se mostra inadmissível com base em outro critério. Tsybakov realmente parece não gostar do núcleo Epanechnikov.

Chill2Macht
fonte

+1 para uma leitura interessante, mas isso não responde por que o kernel gaussiano é usado com mais frequência que o kernel Epanechnikov: ambos são não negativos.

Ameba diz Reinstate Monica

@amoeba Isso é verdade. No mínimo, isso responde à pergunta no título, que é apenas sobre o kernel Epanechnikov. (Ou seja, ele aborda a premissa para a questão e mostra que ela é falsa.)

Chill2Macht

(+1) Uma coisa a ter em atenção com o esquema de Tsybakov de tomar a parte positiva de uma estimativa do núcleo possivelmente negativa - que é pelo menos a minha memória de sua sugestão - é que, embora o estimador de densidade resultante possa dar uma melhor convergência do MSE à densidade real , a estimativa de densidade em geral não será uma densidade válida (já que você está cortando a massa e não se integra mais a 1). Se você realmente se importa apenas com o MSE, isso não importa, mas às vezes isso será um problema significativo.

Dougal

O núcleo gaussiano é usado, por exemplo, na estimativa de densidade através de derivadas:

\frac{d^{i} f}{d x^{i}} (x) \approx \frac{1}{b a n d w i d t h} \sum_{j = 1}^{N} \frac{d^{i} k}{d x^{i}} (X_{j}, x)

$\frac{d^if}{dx^i}(x)\approx \frac{1}{bandwidth}\sum_{j=1}^N \frac{d^ik}{dx^i}(X_j,x)$

Isso ocorre porque o kernel Epanechnikov possui 3 derivadas antes de ser identicamente zero, ao contrário do Gaussiano, que possui infinitas derivações (que não são zero). Veja a seção 2.10 no seu link para mais exemplos.

Alex R.
fonte

A primeira derivada do kernel Epanechnikov (observe o segundo n , a propósito) não é contínua onde a função cruza os próprios limites do kernel; isso pode ser mais um problema.

Glen_b -Reinstala Monica

i

$i$

@AlexR. Embora o que você diz seja verdade, não entendo como isso explica por que o Gaussiano é tão comum na estimativa de densidade comum (em oposição a estimar a derivada da densidade). E mesmo ao estimar derivadas, a seção 2.10 sugere que o gaussiano nunca é o núcleo preferido.

John Rauser

@ JohnRauser: Lembre-se de que você precisa usar kernels Epanechnikov de ordem superior para otimizar. Geralmente, as pessoas usam um gaussiano porque é mais fácil trabalhar com e tem propriedades melhores.

Alex R.

@AlexR eu discutia sobre "[u] geralmente as pessoas usam um gaussiano"; você tem dados sistemáticos sobre a frequência de uso ou isso é apenas uma impressão baseada no trabalho que você vê? Eu vejo pesos pesados com frequência, mas não reivindicaria mais do que isso.

Nick Cox