Vantagem da estimativa da densidade do kernel sobre a estimativa paramétrica

10

Existe algum motivo específico para você escolher a estimativa da densidade do kernel em vez da estimativa paramétrica? Eu estava aprendendo a ajustar a distribuição aos meus dados. Esta pergunta veio a mim.

Meu tamanho de dados é relavamente grande com 7500 pontos de dados. Reivindicações automáticas. Meu objetivo é ajustá-lo a uma distribuição (não paramétrica ou paramétrica). Em seguida, use-o para simular dados de reivindicação automática e calcular o VaR ou TVaR.

Eu usei o log para transformar os dados para torná-los relativamente normais. Eu ajustei muitas distribuições, incluindo normal, lognormal, gama, t, etc ... Eu usei AIC e loglikehood para identificar o melhor ajuste. Mas nada disso foi aprovado no teste KS (valor p extremamente pequeno, com e-10).

Por isso perguntei em que situação eu deveria mudar para o KDE.

MegaChunk
fonte
Parece-me que ajustar um grande conjunto de dados à distribuição paramétrica é bastante difícil. Mesmo que eu possa ver que o ajuste é muito bom no histograma e no qqplot, ainda recebo um valor de p muito baixo no teste KS. ? Mas não KDE realmente resolver este problema (que eu nunca tentar)
MegaChunk
@MegaChunk AFAIK o valor p do teste KS não é muito informativo, pois a distribuição nunca é perfeitamente normal e, portanto, se você tiver um número suficiente de pontos de dados, a hipótese nula quase sempre será rejeitada.
22412

Respostas:

8

A pergunta de resposta é "por que você modela seus dados como uma amostra de uma distribuição?" Se você quiser aprender algo sobre o fenômeno por trás de seus dados, como ao melhorar uma teoria científica ou testar uma hipótese científica, usar um estimador não paramétrico de kernel não diz muito mais do que os dados em si. Enquanto um modelo parametrizado pode dizer muito mais claramente (a) se os dados e o modelo concordam ou não e (b) quais são os valores prováveis ​​dos parâmetros. Dependendo de seus objetivos, orienta qual abordagem você deve preferir.

Xi'an
fonte
6

Poderia ser. A estimativa da densidade do núcleo é uma abordagem não paramétrica. A estimativa paramétrica requer que uma família paramétrica de distribuições baseada em alguns parâmetros seja assumida. Se você tem uma base para acreditar que o modelo está aproximadamente correto, é vantajoso fazer inferência paramétrica. Por outro lado, é possível que os dados não se ajustem bem a nenhum membro da família. Nesse caso, é melhor usar a estimativa de densidade do kernel, pois ela construirá uma densidade que se encaixa razoavelmente nos dados. Não requer nenhuma suposição sobre famílias paramétricas.

Esta descrição pode ser um pouco simplificada demais para maior clareza. Deixe-me dar um exemplo específico para tornar isso concreto. Suponha que a família paramétrica seja a distribuição normal que é definida pelos dois parâmetros desconhecidos: média e variância. Toda distribuição na família é simétrica e em forma de sino, com a média igual à mediana e ao modo. Agora sua amostra não parece simétrica e a média da amostra é muito diferente da mediana da amostra. Então você tem evidências para pensar que sua suposição está errada. Portanto, você precisa encontrar uma transformação que converta os dados para caber em uma boa família paramétrica (possivelmente o normal) ou encontrar uma família paramétrica alternativa. Se essas abordagens paramétricas alternativas não parecem funcionar, a abordagem de densidade do kernel é uma alternativa que funcionará. Existem alguns problemas (1) a forma do kernel, (2) a largura de banda do kernel que determina o nível de suavidade e (3) possivelmente um tamanho de amostra maior do que o que você pode precisar para uma família paramétrica. A edição 1 demonstrou na literatura ser praticamente sem importância. A edição 2 é importante. A edição 3 depende do tamanho de uma amostra que você pode dar ao luxo de coletar. Embora esses problemas existam juntamente com a suposição implícita de que a distribuição tem uma densidade, essas suposições podem ser mais fáceis de aceitar do que as suposições paramétricas restritivas. A edição 3 depende do tamanho de uma amostra que você pode dar ao luxo de coletar. Embora esses problemas existam juntamente com a suposição implícita de que a distribuição tem uma densidade, essas suposições podem ser mais fáceis de aceitar do que as suposições paramétricas restritivas. A edição 3 depende do tamanho de uma amostra que você pode dar ao luxo de coletar. Embora esses problemas existam juntamente com a suposição implícita de que a distribuição tem uma densidade, essas suposições podem ser mais fáceis de aceitar do que as suposições paramétricas restritivas.

Michael R. Chernick
fonte