Gostaria de verificar R
se meus dados se encaixam nas distribuições log-normal ou Pareto. Como eu pude fazer isso? Talvez ks.test
pudesse me ajudar a fazer isso, mas como eu poderia obter os parâmetros e para a distribuição de Pareto para meus dados?
11
Respostas:
... Acabei de perceber que você tem a tag 'regressão' lá. Se você tem um problema de regressão, não pode olhar para a distribuição univariada da resposta para avaliar a forma distributiva, pois depende do padrão dos xs. Se você está perguntando sobre verificar se uma variável de resposta (y) em algum tipo de regressão ou GLM tem uma distribuição lognormal ou Pareto em que os meios diferem na observação, essa é uma pergunta muito diferente (mas basicamente se resume a tipos semelhantes de análise nos resíduos). Você pode esclarecer se é um problema de regressão. Minha resposta, atualmente, refere-se à avaliação univariada de lognormal ou Pareto
Você tem algumas perguntas bem diferentes lá.
Faça registros e faça um gráfico QQ normal. Veja e veja se a distribuição está próxima o suficiente para seus propósitos.
Aceite desde o início que nenhuma das distribuições que você considera será uma descrição exata. Você está procurando um modelo razoável. Isso significa que, em tamanhos de amostra pequenos, você não rejeitará nenhuma opção razoável, mas com tamanho de amostra suficiente, você rejeitará todas. Pior, com um tamanho de amostra grande, você rejeitará modelos perfeitamente decentes, enquanto que em tamanhos de amostra pequenos não rejeitará modelos ruins.
Esses testes não são realmente uma base útil para a seleção de modelos.
Em resumo, sua pergunta de interesse - algo como "o que é um bom modelo para esses dados, um que seja próximo o suficiente para tornar útil a inferência subsequente?" simplesmente não é respondido por testes de qualidade. No entanto, em alguns casos, estatísticas de qualidade de ajuste (em vez de decisões que saem de regras de rejeição baseadas nelas) podem, em alguns casos, fornecer um resumo útil de tipos específicos de falta de ajuste.
Não. Primeiro, há o problema que acabei de mencionar e, segundo, um teste de Kolmogorov-Smirnov é um teste para uma distribuição completamente especificada. Você não tem um desses.
Em muitos casos, eu recomendaria gráficos de QQ e telas semelhantes. Para casos assimétricos corretos como esse, eu tenderia a trabalhar com logs (um lognormal parecerá normal, enquanto um Pareto parecerá exponencial). Em tamanhos razoáveis de amostra, não é difícil distinguir visualmente se os dados parecem mais normais do que exponenciais ou vice-versa. Primeiro, obtenha alguns dados reais de cada um e plote-os - digamos meia dúzia de amostras, pelo menos, para saber como eles são.
Veja um exemplo abaixo
Se você precisar estimar parâmetros, use o MLE ... mas não faça isso para decidir entre Pareto e lognormal.
Você pode dizer qual deles é lognormal e qual é Pareto?
Observe que, com os gráficos QQ normais (coluna da esquerda), vemos que os logs do conjunto de dados 1 fornecem uma linha bastante reta, enquanto o conjunto de dados 2 mostra a inclinação correta. Com os gráficos exponenciais, os logs do conjunto de dados 1 mostram uma cauda direita mais leve que a exponencial, enquanto o conjunto de dados 2 mostra uma linha bastante reta (os valores na cauda direita tendem a se mover um pouco, mesmo quando o modelo está correto; não é incomum com caudas pesadas; é uma das razões pelas quais você precisa plotar várias amostras de tamanho semelhante ao que está vendo para ver como as plotagens normalmente se parecem)
Código usado para realizar esses quatro gráficos:
Se você tiver um problema de tipo de regressão - aquele em que os meios mudam com outras variáveis, você pode realmente apenas avaliar a adequação de qualquer suposição distributiva na presença de um modelo adequado para a média.
fonte
É uma questão de seleção de modelos , é claro, supondo que você queira apenas verificar se seus dados provêm de um modelo ou de outro e que seu objetivo não é encontrar o modelo certo no oceano dimensional infinito das distribuições. Portanto, uma opção é usar o AIC (que favorece modelos com o menor valor do AIC, e não tentarei descrever aqui). Dê uma olhada no exemplo a seguir com dados simulados:
fonte
Talvez fitdistr ()?
fonte