Estimativa da densidade do kernel incorporando incertezas

12

Ao visualizar dados unidimensionais, é comum usar a técnica de Estimativa de densidade do kernel para contabilizar larguras de compartimento escolhidas incorretamente.

Quando meu conjunto de dados unidimensional tem incertezas de medição, existe uma maneira padrão de incorporar essas informações?

Por exemplo (e me perdoe se meu entendimento for ingênuo), o KDE envolve um perfil gaussiano com as funções delta das observações. Esse núcleo Gaussiano é compartilhado entre cada local, mas o parâmetro Gaussian pode variar para corresponder às incertezas da medição. Existe uma maneira padrão de fazer isso? Espero refletir valores incertos com amplos núcleos.σ

Eu implementei isso simplesmente em Python, mas não conheço um método ou função padrão para fazer isso. Há algum problema nessa técnica? Noto que ele fornece alguns gráficos estranhos! Por exemplo

Comparação do KDE

Nesse caso, os valores baixos têm incertezas maiores e tendem a fornecer kernels amplos e largos, enquanto o KDE sobrecarrega os valores baixos (e incertos).

Simon Walker
fonte
Você está dizendo que as curvas vermelhas são gaussianas de largura variável e a curva verde é sua soma? (Isso não parece plausível a partir desses gráficos.)
whuber
você sabe qual é o erro de medição para cada observação?
Aksakal
@whuber as curvas vermelhas são as gaussianas de largura variável e as curva azul é sua soma. A linha verde representa o KDE com uma largura constante, a pena de confusão
Simon Walker
@Aksakal sim, cada medição tem uma incerteza diferente
Simon Walker
Um problema secundário, mas não é uma definição de estimativa da densidade do kernel que você usa kernels gaussianos. Você pode usar qualquer kernel que você como integrar a 1, embora alguns kernels são mais sensíveis ou úteis do que outros ....
Nick Cox

Respostas:

6

Faz sentido variar as larguras, mas não necessariamente para combinar a largura do kernel com a incerteza.

Considere o propósito da largura de banda ao lidar com variáveis ​​aleatórias para as quais as observações não têm incerteza (por exemplo, onde você pode observá-las o suficiente para exatamente) - mesmo assim, o kde não usará largura de banda zero, porque a largura de banda está relacionada ao variabilidade na distribuição, em vez da incerteza na observação (ou seja, variação 'entre observações', não incerteza 'dentro da observação').

O que você tem é essencialmente uma fonte adicional de variação (sobre o caso "sem observação-incerteza") que é diferente para cada observação.

σi

Uma maneira alternativa de analisar o problema seria tratar cada observação como um pequeno núcleo (como você fez, o que representará onde a observação poderia estar), mas envolver o núcleo comum (kde-) (geralmente com largura fixa, mas não precisa estar) com o núcleo de observação-incerteza e faça uma estimativa de densidade combinada. (Acredito que esse seja o mesmo resultado que sugeri acima.)

Glen_b -Reinstate Monica
fonte
2

Eu aplicaria o estimador de densidade de kernel de largura de banda variável, por exemplo, seletores de largura de banda local para o papel de estimativa de densidade de kernel de deconvolução tenta criar a janela adaptativa do KDE quando a distribuição de erros de medição é conhecida. Você declarou que conhece a variação do erro, portanto, essa abordagem deve ser aplicável ao seu caso. Aqui está outro artigo sobre uma abordagem semelhante com uma amostra contaminada: SELEÇÃO DE LARGURA DE BANDA DE BOOTSTRAP NA ESTIMATIVA DE DENSIDADE DE KERNEL A PARTIR DE UMA AMOSTRA CONTAMINADA

Aksakal
fonte
Seu primeiro link me leva a ms.unimelb.edu.au , não é o jornal. Eu acho que você quer dizer link.springer.com/article/10.1007/s11222-011-9247-y
Adi Ro
Essas soluções estão ótimas! você conhece um código implementando isso?
Adi Ro
@AdiRo, eu consertei o link quebrado. Eu não tenho o código #
21419 Aksakal
0

Você pode consultar o capítulo 6 em "Estimativa de densidade multivariada: teoria, prática e visualização", de David W. Scott, 1992, Wiley.

h=(4/3)1/5σn1/5(6.17)
σnhσ

f^(x)=1nhi=1nK(xxih)
K()
user29652
fonte
0

Na verdade, acho que o método que você propôs se chama Gráfico de Densidade de Probabilidade (PDP), usado amplamente em geociência, veja um artigo aqui: https://www.sciencedirect.com/science/article/pii/S0009254112001878

No entanto, existem desvantagens, conforme mencionado no documento acima. Por exemplo, se os erros medidos forem pequenos, haverá picos no PDF que você obtém no final. Mas também é possível suavizar o PDP da mesma maneira que o KDE, assim como o que o @ Glen_b ♦ mencionou

CyTex
fonte