Digamos que você tenha um conjunto de valores e deseja saber se é mais provável que eles tenham sido amostrados de uma distribuição gaussiana (normal) ou amostrados de uma distribuição lognormal?
É claro que, idealmente, você saberia algo sobre a população ou sobre as fontes de erro experimental, para ter informações adicionais úteis para responder à pergunta. Mas aqui, suponha que só temos um conjunto de números e nenhuma outra informação. O que é mais provável: amostragem de uma distribuição gaussiana ou amostragem de uma distribuição lognormal? Quanto mais provável? O que eu estou esperando é um algoritmo para selecionar entre os dois modelos, e espero quantificar a probabilidade relativa de cada um.
normal-distribution
lognormal
Harvey Motulsky
fonte
fonte
Respostas:
Você pode adivinhar o tipo de distribuição ajustando cada distribuição (normal ou normal de log) aos dados pela probabilidade máxima e comparando a probabilidade de log em cada modelo - o modelo com a maior probabilidade de log sendo o mais adequado. Por exemplo, em R:
Agora gere números a partir de uma distribuição normal e ajuste uma distribuição normal por ML:
Produz:
Compare a probabilidade de log para o ajuste de ML das distribuições normal e lognormal:
Tente com uma distribuição lognormal:
A atribuição não será perfeita, dependendo de n, média e sd:
fonte
p(X|\theta)
). Não estamos transformando os dados. Imprimimos a distribuição cuja probabilidade de observação dos dados é mais alta. Essa abordagem é legítima, mas tem a desvantagem de não inferirmos a probabilidade do modelo dado os dadosp(M|X)
, ou seja, a probabilidade de os dados serem de uma distribuição normal vs lognormal (por exemplo, p (normal) = 0,1, p (lognormal) = 0,9), diferentemente da abordagem bayesiana.A parte difícil é obter a probabilidade marginal ,
Exemplo:
Segundo Murphy (2007) (Equação 203), a probabilidade marginal da distribuição normal é então dada por
Eu uso os mesmos hiperparâmetros para a distribuição log-normal,
Para uma probabilidade anterior do log-normal de0,1 , P( M= Log-normal ) = 0,1 e dados extraídos da seguinte distribuição log-normal,
o posterior se comporta assim:
A linha sólida mostra a probabilidade mediana posterior para diferentes desenhos deN Os pontos de dados. Observe que, para pouco ou nenhum dado, as crenças estão próximas das crenças anteriores. Para cerca de 250 pontos de dados, o algoritmo quase sempre tem certeza de que os dados foram extraídos de uma distribuição log-normal.
Ao implementar as equações, seria uma boa ideia trabalhar com densidades de log em vez de densidades. Mas, caso contrário, deve ser bem direto. Aqui está o código que eu usei para gerar os gráficos:
https://gist.github.com/lucastheis/6094631
fonte
Parece que você está procurando algo bastante pragmático para ajudar analistas que provavelmente não são estatísticos profissionais e precisam de algo para levá-los a fazer o que deveriam ser técnicas exploratórias padrão, como analisar gráficos de qq, gráficos de densidade, etc.
Nesse caso, por que não fazer simplesmente um teste de normalidade (Shapiro-Wilk ou o que quer que seja) nos dados originais e um nos dados transformados em log, e se o segundo valor de p for maior, levante um sinalizador para o analista considerar usar uma transformação de log ? Como bônus, cuspa um gráfico 2 x 2 do gráfico da linha de densidade e do gráfico qqnorm dos dados brutos e transformados.
Tecnicamente, isso não responderá sua pergunta sobre a probabilidade relativa, mas me pergunto se é tudo o que você precisa.
fonte