Eu peguei os dados, plotei a distribuição dos dados e uso a função qqnorm, mas parece que não segue uma distribuição normal, então qual distribuição devo usar para descrever os dados?
Função de distribuição cumulativa empírica
distributions
PepsiCo
fonte
fonte
Respostas:
Eu sugiro que você dê heavy-tail Lambert W x F ou enviesada Lambert W x F distribuições uma tentativa (disclaimer: Eu sou o autor). Em R, eles são implementados no pacote LambertW .
Se você não quiser usar o Gaussian como sua linha de base, poderá criar outras versões Lambert W da sua distribuição favorita, por exemplo, t, uniforme, gama, exponencial, beta, ... No entanto, para o seu conjunto de dados, um double heavy- A distribuição de Lambert W x Gaussian (ou Lambert W xt) parece ser um bom ponto de partida.
Como essa geração de cauda pesada é baseada em transformações bijetivas de RVs / dados, você pode remover as caudas pesadas dos dados e verificar se elas são boas agora, ou seja, se são gaussianas (e teste usando testes de normalidade).
Isso funcionou muito bem para o conjunto de dados simulado. Eu sugiro que você tente e veja se você também pode
Gaussianize()
seus dados .No entanto, como @whuber apontou, a bimodalidade pode ser um problema aqui. Então, talvez você queira verificar os dados transformados (sem as caudas pesadas) o que está acontecendo com essa bimodalidade e, assim, fornecer informações sobre como modelar seus dados (originais).
fonte
Parece uma distribuição assimétrica que possui caudas mais longas, em ambas as direções, do que a distribuição normal.
Você pode ver a cauda longa porque os pontos observados são mais extremos do que os esperados na distribuição normal, no lado esquerdo e direito (ou seja, estão abaixo e acima da linha, respectivamente).
Você pode ver a assimetria porque, na cauda direita, a extensão em que os pontos são mais extremos do que o que seria esperado na distribuição normal é maior do que na cauda esquerda.
Não consigo pensar em nenhuma distribuição "enlatada" que tenha esse formato, mas não é muito difícil "preparar" uma distribuição com as propriedades declaradas acima.
Aqui está um exemplo simulado (em
R
):Este exemplo produz um qqplot e CDF empírico bastante semelhante (qualitativamente) ao que você está vendo:
fonte
Para descobrir qual distribuição é a mais adequada, primeiro identificaria algumas possíveis distribuições de destino: pensaria no processo do mundo real que gerou os dados, depois ajustaria algumas densidades em potencial aos dados e compararia suas pontuações de probabilidade de log para ver qual distribuição potencial se encaixa melhor. Isso é fácil no R com a função fitdistr na biblioteca MASS.
Se seus dados são como z da Macro, então:
Portanto, isso fornece a distribuição t como a mais adequada (daquelas que tentamos) para os dados da Macro. confirme isso com alguns qqplots usando os parâmetros de fitdistr.
Em seguida, compare esse gráfico com os outros ajustes de distribuição.
fonte