Percebo nos métodos de estatística / aprendizado de máquina que uma distribuição é frequentemente aproximada por um gaussiano e, em seguida, que gaussiano é usado para amostragem. Eles começam calculando os dois primeiros momentos da distribuição e os usam para estimar e . Então eles podem provar a partir desse gaussiano.
Parece-me que quanto mais momentos eu calculo, melhor devo ser capaz de aproximar a distribuição que desejo provar.
E se eu calcular 3 momentos ... como posso usá-los para obter amostras da distribuição? E isso pode ser estendido para N momentos?
probability
sampling
moments
curious_dan
fonte
fonte
Respostas:
Três momentos não determinam uma forma distributiva; se você escolher uma família de distribuição com três parâmetros relacionados aos três primeiros momentos da população, poderá fazer a correspondência de momentos ("método dos momentos") para estimar os três parâmetros e gerar valores a partir dessa distribuição. Existem muitas dessas distribuições.
Às vezes, nem ter todos os momentos é suficiente para determinar uma distribuição. Se a função geradora de momento existir (em uma vizinhança de 0), ela identifica exclusivamente uma distribuição (você pode, em princípio, fazer uma transformação de Laplace inversa para obtê-la).
[Se alguns momentos não são finitos, isso significa que o mgf não existe, mas também existem casos em que todos os momentos são finitos, mas o mgf ainda não existe em uma vizinhança de 0.]
Dado que há uma escolha de distribuições, pode-se ficar tentado a considerar uma solução de entropia máxima com a restrição nos três primeiros momentos, mas não há distribuição na linha real que a atinja (já que o cubo resultante no expoente será ilimitado).
Como o processo funcionaria para uma escolha específica de distribuição
Podemos simplificar o processo de obter uma distribuição correspondente a três momentos, ignorando a média e a variância e trabalhando com um terceiro momento escalado - a do momento ( ).γ1= μ3/ μ3 / 22
Podemos fazer isso porque, ao selecionar uma distribuição com a assimetria relevante, podemos recuperar a média e a variação desejadas, escalando e deslocando.
Vamos considerar um exemplo. Ontem, criei um grande conjunto de dados (que ainda está na minha sessão R) cuja distribuição não tentei calcular a forma funcional de (é um grande conjunto de valores do log da variação de amostra de um Cauchy em n = 10) Temos os três primeiros momentos brutos como 1.519, 3.597 e 11.479, respectivamente, ou correspondentemente uma média de 1.518, um desvio padrão * de 1.136 e uma assimetria de 1.429 (portanto, esses são valores de amostra de uma amostra grande).
Formalmente, o método dos momentos tentaria corresponder aos momentos brutos, mas o cálculo é mais simples se começarmos com a assimetria (transformar a resolução de três equações em três incógnitas na resolução de um parâmetro de cada vez, uma tarefa muito mais simples).
* Vou afastar a distinção entre usar um denominador n na variação - como corresponderia ao método formal de momentos - e um denominador n-1 e simplesmente usar cálculos de amostra.
Essa inclinação (~ 1,43) indica que buscamos uma distribuição que esteja correta. Eu poderia escolher, por exemplo, uma distribuição lognormal deslocada (três parâmetros lognormal, shape , scale e location-shift ) com os mesmos momentos. Vamos começar combinando a assimetria. A assimetria da população de um lognormal de dois parâmetros é:σ μ γ
Mas poderíamos facilmente escolher uma distribuição de gama deslocada ou Weibull deslocada (ou F-deslocada ou qualquer número de outras opções) e executar essencialmente o mesmo processo. Cada um deles seria diferente.
[Para a amostra com a qual eu estava lidando, uma gama deslocada provavelmente seria uma escolha consideravelmente melhor do que uma lognormal deslocada, uma vez que a distribuição dos logs dos valores foi mantida inclinada e a distribuição de sua raiz cúbica era muito próxima da simétrica; eles são consistentes com o que você verá com densidades gama (não deslocadas), mas uma densidade inclinada à esquerda dos logs não pode ser alcançada com nenhum lognormal alterado.]
Pode-se até pegar o diagrama de assimetria-curtose em um gráfico de Pearson e traçar uma linha na assimetria desejada e, assim, obter uma distribuição de dois pontos, uma sequência de distribuições beta, uma distribuição gama, uma sequência de distribuições beta-prime, um inverso- distribuição gama e uma sequência de distribuições de Pearson tipo IV, todas com a mesma assimetria.
Mais momentos
Os momentos não definem muito bem as distribuições; portanto, mesmo se você especificar muitos momentos, ainda haverá muitas distribuições diferentes (principalmente em relação ao comportamento extremo) que as corresponderão.
É claro que você pode escolher uma família distributiva com pelo menos quatro parâmetros e tentar corresponder mais de três momentos; por exemplo, as distribuições de Pearson acima nos permitem corresponder aos quatro primeiros momentos, e existem outras opções de distribuições que permitiriam um grau de flexibilidade semelhante.
Pode-se adotar outras estratégias para escolher distribuições que correspondam aos recursos de distribuição - distribuições de mistura, modelagem da densidade de log usando splines e assim por diante.
Freqüentemente, no entanto, se alguém voltar ao objetivo inicial para o qual estava tentando encontrar uma distribuição, geralmente acontece que algo melhor pode ser feito do que o tipo de estratégia descrita aqui.
fonte
Portanto, a resposta geralmente é NÃO, você não pode fazer isso, mas às vezes pode.
Quando você não pode
As razões pelas quais você não pode fazer isso geralmente são duas dobras.
Primeiro, se você tiver N observações, então, no máximo, poderá calcular N momentos. E os outros momentos? Você não pode simplesmente configurá-los para zero.
Quando puder
Agora, às vezes você pode obter a distribuição a partir de momentos. É quando você faz uma suposição sobre a distribuição de algum tipo. Por exemplo, você declara que é normal. Nesse caso, tudo o que você precisa são apenas dois momentos, que geralmente podem ser calculados com precisão decente. Observe que a distribuição normal tem momentos mais altos, de fato, por exemplo, curtose, mas não precisamos deles. Se você calculasse todos os momentos da distribuição normal (sem supor que seja normal) e tentasse recuperar a função característica para amostrar a partir da distribuição, ela não funcionaria. No entanto, quando você esquece os momentos mais altos e se mantém nos dois primeiros, ele funciona.
fonte