Estou tentando determinar se meu conjunto de dados de dados contínuos segue uma distribuição gama com os parâmetros shape 1.7 e rate 0.000063.
O problema é que quando eu uso R para criar um gráfico QQ do meu conjunto de dados relação à distribuição teórica gama (1,7, 0,000063), recebo um gráfico que mostra que os dados empíricos concordam aproximadamente com a distribuição gama. O mesmo acontece com o gráfico ECDF.
No entanto, quando executo um teste de Kolmogorov-Smirnov, ele me fornece um valor- razoavelmente pequeno de .
Em que devo escolher acreditar? A saída gráfica ou o resultado do teste KS?
pdf
kolmogorov-smirnov
cdf
qq-plot
user22119
fonte
fonte
Respostas:
Não vejo sentido em "não acreditar" no enredo QQ (se você o produziu corretamente); é apenas uma representação gráfica da realidade de seus dados, justaposta à distribuição de definição. Claramente, não é uma combinação perfeita, mas se for boa o suficiente para seus propósitos, pode ser mais ou menos o fim da história. Você pode querer verificar esta pergunta relacionada: O teste de normalidade é 'essencialmente inútil'?
Se os seus dados são muito diferentes de uma distribuição gama para os objetivos pretendidos é outra questão. Somente o teste KS não pode respondê-lo (porque o resultado dependerá do tamanho da amostra, entre outros motivos), mas o gráfico QQ pode ajudá-lo a decidir. Você também pode procurar alternativas robustas para quaisquer outras análises que planeja executar, e se você é particularmente sério em considerar a sensibilidade de qualquer análise subsequente a desvios da distribuição gama, convém fazer alguns testes de simulação também .
fonte
O que você pode fazer é criar várias amostras da sua distribuição teórica e plotar aquelas no fundo do seu QQ-plot. Isso lhe dará uma idéia de que tipo de variabilidade você pode razoavelmente esperar de apenas amostragem.
Você pode estender essa ideia para criar um envelope em torno da linha teórica, usando o exemplo das páginas 86-89 de:
Venables, WN e Ripley, BD 2002. Estatísticas modernas aplicadas com S. New York: Springer.
Este será um envelope pontual. Você pode estender ainda mais essa idéia para criar um envelope geral usando as idéias das páginas 151-154 de:
Davison, AC e Hinkley, DV 1997. Métodos de inicialização e sua aplicação. Cambridge: Cambridge University Press.
No entanto, para a exploração básica, acho que apenas plotar algumas amostras de referência no plano de fundo do seu QQ-plot será mais que suficiente.
fonte
O teste KS assume parâmetros específicos da sua distribuição. Ele testa a hipótese "os dados são distribuídos de acordo com essa distribuição específica". Você pode ter especificado esses parâmetros em algum lugar. Caso contrário, alguns padrões não correspondentes podem ter sido usados. Observe que o teste KS se tornará conservador se os parâmetros estimados forem conectados à hipótese.
No entanto, a maioria dos testes de ajuste é usada de maneira errada. Se o teste KS não tivesse mostrado significância, isso não significa que o modelo que você queria provar é apropriado. Foi o que @Nick Stauner disse sobre um tamanho de amostra muito pequeno. Esse problema é semelhante aos testes de hipótese pontual e de equivalência.
Então, no final: considere apenas os gráficos QQ.
fonte
QQ Plot é uma técnica de análise de dados exploratória e deve ser tratada como tal - assim como todas as outras parcelas da EDA. Eles servem apenas para fornecer informações preliminares sobre os dados disponíveis. Você nunca deve decidir ou interromper sua análise com base em gráficos da EDA, como o gráfico QQ. É um conselho errado considerar apenas gráficos QQ. Você definitivamente deve seguir técnicas quantitativas como o KS Test. Suponha que você tenha outro gráfico de QQ para um conjunto de dados semelhante. Como você compararia os dois sem uma ferramenta quantitativa? O próximo passo certo para você, após o teste EDA e KS, é descobrir por que o teste KS está fornecendo baixo valor de p (no seu caso, pode até ser devido a algum erro).
As técnicas de EDA NÃO devem servir como ferramentas de tomada de decisão. Na verdade, eu diria que mesmo as estatísticas inferenciais são apenas exploratórias. Eles fornecem indicações sobre a direção em que sua análise estatística deve prosseguir. Por exemplo, um teste t em uma amostra forneceria apenas um nível de confiança de que a amostra pode (ou não) pertencer à população; você ainda pode prosseguir com base nesse insight sobre a qual distribuição seus dados pertencem e a que são seus parâmetros etc. De fato, quando alguns afirmam que mesmo as técnicas implementadas como parte das bibliotecas de aprendizado de máquina também são de natureza exploratória !!! Espero que eles falem sério nesse sentido ...!
Concluir decisões estatísticas com base em gráficos ou técnicas de visualização é zombar dos avanços da ciência estatística. Se você me perguntar, você deve usar esses gráficos como ferramentas para comunicar as conclusões finais com base em sua análise estatística quantitativa.
fonte