Como ajustar um PDF aproximado (isto é, estimativa de densidade) usando os primeiros momentos k (empíricos)?

11

Eu tenho uma situação em que sou capaz de estimar (o primeiro) momentos de um conjunto de dados e gostaria de usá-lo para produzir uma estimativa da função de densidade.k

Eu já me deparei com a distribuição da Pearson , mas percebi que ela depende apenas dos 4 primeiros momentos (com algumas restrições nas possíveis combinações de momentos).

Também entendo que qualquer conjunto finito de momentos não é suficiente para "definir" uma distribuição específica, quando não se usa mais suposições. No entanto, eu ainda gostaria de ter uma classe mais geral de distribuições (além da família de distribuições Pearson). Olhando para outras questões, não consegui encontrar essa distribuição (veja: aqui , aqui , aqui , aqui , aqui e aqui ).

Existe alguma família de distribuição generalizada ("simples") que pode ser definida para qualquer conjunto de momentos? (talvez um conjunto de transformações que possam pegar uma distribuição normal padrão e transformá-la até confirmar com todo o conjunto de momentos)kkk

(Não me importo muito se assumirmos que os outros momentos são 0 ou não)k+1

Obrigado.

ps: eu ficaria feliz por um exemplo extenso. De preferência com um exemplo de código R.

Tal Galili
fonte
2
Os primeiros momentos definem as primeiras derivadas da função característica em zero: . Então você conhece os primeiros termos da expansão de Taylor da função característica em torno de zero. Você poderá usar os teoremas de inversão para derivar a densidade. k E [ X k ] = ( - i ) k ϕ ( k ) X ( 0 ) kkkE[Xk]=(i)kϕX(k)(0)k
10139 Stephanie Kassassa
Obrigado @StephanKolassa - alguma chance de uma resposta estendida / um exemplo de código R?
Tal Galili #
Caro @whuber, você poderia sugerir um exemplo de código R? (também, faz isso ir com a resposta de wolfies?)
Tal Galili
Essa é uma abordagem completamente diferente daquela resposta.
whuber

Respostas:

11

Método 1: Sistemas Pearson de ordem superior

O sistema Pearson é, por convenção, considerado a família de soluções para a equação diferencial:p(x)

dp(x)dx=(a+x)c0+c1x+c2x2p(x)

onde os quatro parâmetros de Pearson podem ser expressos em termos dos quatro primeiros momentos da população.(a,c0,c1,c2)

Em vez de basear o sistema Pearson no quadrático , pode-se considerar o uso de polinômios de ordem superior como a pedra fundamental. Assim, por exemplo, pode-se considerar um sistema no estilo Pearson baseado em um polinômio cúbico. Esta será a família de soluções para a equação diferencial: p ( x )c0+c1x+c2x2p(x)

dp(x)dx=(a+x)c0+c1x+c2x2+c3x3p(x)

que produz a solução:

insira a descrição da imagem aqui

Eu resolvi isso por diversão há algum tempo (tendo o mesmo sistema de pensamento do OP): a derivação e a solução são apresentadas no capítulo 5 do nosso livro; se estiver interessado, um download gratuito está disponível aqui:

http://www.mathstatica.com/book/bookcontents.html

Observe que, enquanto a família Pearson de segunda ordem (quadrática) pode ser expressa em termos dos 4 primeiros momentos, a família de estilo Pearson de terceira ordem (cúbica) requer os 6 primeiros momentos.

Método 2: expansões de Gram-Charlier

Expansões Gram-Charlier também são discutidos no mesmo capítulo 5 (ver secção 5.4) ... e também permitem construir uma densidade equipada, com base em arbitrariamente grandes momentos. Como o OP sugere, a expansão de Gram-Charlier expressa o pdf ajustado em função de uma série de derivadas do pdf normal normal, conhecido como polinômio Hermite. Os coeficientes de Gram-Charlier são resolvidos em função dos momentos da população ... e quanto maior a expansão, mais momentos são necessários. Você também pode querer analisar as expansões relacionadas à Edgeworth.kth

Momentos da população ou momentos da amostra?

Para o sistema no estilo Pearson: se os momentos da população são conhecidos, o uso de momentos mais altos deve produzir de forma inequívoca um melhor ajuste. Se, no entanto, os dados observados forem uma amostra aleatória retirada da população, existe um trade-off: um polinômio de ordem superior implica que momentos de ordem superior são necessários, e as estimativas deste último podem não ser confiáveis ​​(têm alta variação), a menos que o tamanho da amostra seja 'grande'. Em outras palavras, dados de amostra fornecidos, o ajuste usando momentos mais altos pode se tornar 'instável' e produzir resultados inferiores. O mesmo vale para as expansões de Gram-Charlier: adicionar um termo extra pode realmente resultar em um ajuste pior, portanto, é necessário algum cuidado.

wolfies
fonte
Caro @wolfies - obrigado pela resposta! Se bem entendi, as expansões de Gram-Charlier estão mais alinhadas com o que estou procurando (embora seja interessante saber a distribuição mais generalizada de Pearson). Eu olhei para o seu livro (capítulo 5, começando na página 175), e vejo você de fato dando uma descrição detalhada (com também menções de como lidar com momentos estimados, que é o meu caso). A única coisa é que não posso usar seu código (já que sou um usuário R). Obrigado pela sua resposta (e também para o seu livro que parece impressionante e interessante em geral)
Tal Galili
2
Acabei de encontrar um pacote R para lidar com os vários métodos: cran.us.r-project.org/web/packages/PDQutils/vignettes/…
Tal Galili