Estimadores adaptativos de densidade de kernel?

12

Alguém pode relatar sua experiência com um estimador de densidade de kernel adaptável?
(Existem muitos sinônimos: adaptável | variável | largura variável, KDE | histograma | interpolador ...)

A estimativa da densidade variável do kernel diz "variamos a largura do kernel em diferentes regiões do espaço de amostra. Existem dois métodos ..." na verdade, mais: vizinhos em algum raio, vizinhos KNN mais próximos (K geralmente fixo), árvores Kd, multigrid ...
É claro que nenhum método isolado pode fazer tudo, mas os métodos adaptativos parecem atraentes.
Veja, por exemplo, a bela imagem de uma malha 2D adaptativa no método de elementos finitos .

Gostaria de ouvir o que funcionou / o que não funcionou para dados reais, especialmente> = 100k pontos de dados dispersos em 2D ou 3D.

Adicionado em 2 de novembro: aqui está um gráfico de uma densidade "desajeitada" (por partes x ^ 2 * y ^ 2), uma estimativa do vizinho mais próximo e o KDE Gaussiano com o fator de Scott. Enquanto um (1) exemplo não prova nada, mostra que o NN pode caber em colinas afiadas razoavelmente bem (e, usando árvores KD, é rápido em 2D, 3D ...) texto alternativo

denis
fonte
Você pode dar um pouco mais de contexto ao que você entende por "o que funciona" ou aos objetivos específicos do seu projeto em questão. Eu os usei para visualizar processos de pontos espaciais, mas duvido que seja isso que você tinha em mente ao fazer esta pergunta.
Andy W

Respostas:

7

n450np4p é o número de dimensões) como as configurações nas quais o método variável do kernel se torna competitivo com os de largura fixa (a julgar pela sua pergunta, você não está nessas configurações).

A intuição por trás desses resultados é que, se você não estiver em ambientes muito escassos, a densidade local simplesmente não varia o suficiente para que o ganho de viés supere a perda de eficiência (e, portanto, o AMISE do kernel de largura variável aumenta em relação ao AMISE de largura fixa). Além disso, dado o grande tamanho de amostra que você possui (e as pequenas dimensões), o kernel de largura fixa já será muito local, diminuindo qualquer ganho potencial em termos de viés.

user603
fonte
Obrigado Kwak. "... para variáveis ​​aleatórias distribuídas gaussianas"; você conheceria um trabalho mais recente para distribuições "desajeitadas"?
Denis #
@ Denis:> 'Clumpy' =? Concentrado =? Com ​​caudas mais estreitas que o gaussiano?
user603
Não sou especialista, mas, como "clumpiness do conjunto de dados" no artigo Lang et al., "Insights sobre algoritmos rápidos de Estimativa de Densidade do Kernel", 2004, 8p
denis
@ Denis:> eu diria que piora o problema (ou seja, o NN kernel deve funcionar melhor em dados menos irregulares). Eu tenho uma explicação intuitiva, mas ela não se encaixa aqui. Além disso, você pode fazer isso na placa principal como uma pergunta separada (com link para esta) para obter opiniões adicionais.
user603
0

O papel

Maxim V. Shapovalov, Roland L. Dunbrack Jr., uma biblioteca de rotâmeros dependente da espinha dorsal para proteínas derivadas de estimativas e regressões de densidade adaptativa do núcleo, Estrutura, Volume 19, Edição 6, 8 de junho de 2011, Páginas 844-858, ISSN 0969- 2126, 10.1016 / j.str.2011.03.019.

usa estimativa adaptativa da densidade do kernel para facilitar a estimativa da densidade em regiões onde os dados são escassos.

momeara
fonte
-1

Loess / lowess é basicamente um método variável do KDE, com a largura do kernel sendo definida pela abordagem do vizinho mais próximo. Descobri que funciona muito bem, certamente muito melhor do que qualquer modelo de largura fixa quando a densidade dos pontos de dados varia acentuadamente.

Uma coisa a ter em conta no KDE e nos dados multidimensionais é a maldição da dimensionalidade. Sendo outras coisas iguais, há muito menos pontos dentro de um raio definido quando p ~ 10 do que quando p ~ 2. Isso pode não ser um problema para você se você tiver apenas dados 3D, mas é algo a ter em mente.

Hong Ooi
fonte
3
Loess é um método REGRESSION variável do kernel. A pergunta feita sobre a estimativa variável de densidade do kernel.
Rob Hyndman
Opa, você está certo. Leia mal a pergunta.
Hong Ooi
@ Rob, desculpe minhas perguntas ingênuas: se a variação da largura do kernel é (algumas vezes) boa para regressão local / suavização do kernel, por que é ruim para a estimativa de densidade? A estimativa de densidade não é um caso de estimativa de f () para f () == densidade ()?
denis
@ Hong Ooi, quantos pontos em que Ndim você usou? Graças
denis
@Denis. Ótima pergunta. Você pode adicioná-lo como uma pergunta adequada no site e veremos quais respostas as pessoas podem apresentar.
Rob Hyndman