Ao visualizar dados unidimensionais, é comum usar a técnica de Estimativa de densidade do kernel para contabilizar larguras de compartimento escolhidas incorretamente.
Quando meu conjunto de dados unidimensional tem incertezas de medição, existe uma maneira padrão de incorporar essas informações?
Por exemplo (e me perdoe se meu entendimento for ingênuo), o KDE envolve um perfil gaussiano com as funções delta das observações. Esse núcleo Gaussiano é compartilhado entre cada local, mas o parâmetro Gaussian pode variar para corresponder às incertezas da medição. Existe uma maneira padrão de fazer isso? Espero refletir valores incertos com amplos núcleos.
Eu implementei isso simplesmente em Python, mas não conheço um método ou função padrão para fazer isso. Há algum problema nessa técnica? Noto que ele fornece alguns gráficos estranhos! Por exemplo
Nesse caso, os valores baixos têm incertezas maiores e tendem a fornecer kernels amplos e largos, enquanto o KDE sobrecarrega os valores baixos (e incertos).
fonte
Respostas:
Faz sentido variar as larguras, mas não necessariamente para combinar a largura do kernel com a incerteza.
Considere o propósito da largura de banda ao lidar com variáveis aleatórias para as quais as observações não têm incerteza (por exemplo, onde você pode observá-las o suficiente para exatamente) - mesmo assim, o kde não usará largura de banda zero, porque a largura de banda está relacionada ao variabilidade na distribuição, em vez da incerteza na observação (ou seja, variação 'entre observações', não incerteza 'dentro da observação').
O que você tem é essencialmente uma fonte adicional de variação (sobre o caso "sem observação-incerteza") que é diferente para cada observação.
Uma maneira alternativa de analisar o problema seria tratar cada observação como um pequeno núcleo (como você fez, o que representará onde a observação poderia estar), mas envolver o núcleo comum (kde-) (geralmente com largura fixa, mas não precisa estar) com o núcleo de observação-incerteza e faça uma estimativa de densidade combinada. (Acredito que esse seja o mesmo resultado que sugeri acima.)
fonte
Eu aplicaria o estimador de densidade de kernel de largura de banda variável, por exemplo, seletores de largura de banda local para o papel de estimativa de densidade de kernel de deconvolução tenta criar a janela adaptativa do KDE quando a distribuição de erros de medição é conhecida. Você declarou que conhece a variação do erro, portanto, essa abordagem deve ser aplicável ao seu caso. Aqui está outro artigo sobre uma abordagem semelhante com uma amostra contaminada: SELEÇÃO DE LARGURA DE BANDA DE BOOTSTRAP NA ESTIMATIVA DE DENSIDADE DE KERNEL A PARTIR DE UMA AMOSTRA CONTAMINADA
fonte
Você pode consultar o capítulo 6 em "Estimativa de densidade multivariada: teoria, prática e visualização", de David W. Scott, 1992, Wiley.
fonte
Na verdade, acho que o método que você propôs se chama Gráfico de Densidade de Probabilidade (PDP), usado amplamente em geociência, veja um artigo aqui: https://www.sciencedirect.com/science/article/pii/S0009254112001878
No entanto, existem desvantagens, conforme mencionado no documento acima. Por exemplo, se os erros medidos forem pequenos, haverá picos no PDF que você obtém no final. Mas também é possível suavizar o PDP da mesma maneira que o KDE, assim como o que o @ Glen_b ♦ mencionou
fonte