Interpretação QQ plot

Considere o seguinte código e saída:

  par(mfrow=c(3,2))
  # generate random data from weibull distribution
  x = rweibull(20, 8, 2)
  # Quantile-Quantile Plot for different distributions
  qqPlot(x, "log-normal")
  qqPlot(x, "normal")
  qqPlot(x, "exponential", DB = TRUE)
  qqPlot(x, "cauchy")
  qqPlot(x, "weibull")
  qqPlot(x, "logistic")

insira a descrição da imagem aqui

Parece que o gráfico de QQ para log-normal é quase o mesmo que o gráfico de QQ para weibull. Como podemos distingui-los? Além disso, se os pontos estiverem dentro da região definida pelas duas linhas pretas externas, isso indica que eles seguem a distribuição especificada?

r data-visualization interpretation qq-plot próton
fonte

Eu acredito que você está usando o pacote de carro , não é? Nesse caso, você deve incluir a declaração library(car)no seu código para facilitar o acompanhamento pelas pessoas. Em geral, você também pode querer definir a semente (por exemplo, set.seed(1)) para tornar o exemplo reproduzível, para que qualquer pessoa possa obter exatamente os mesmos pontos de dados que você obteve, embora provavelmente não seja tão importante aqui.

gung - Reintegrar Monica

Isso não será executado no meu computador conforme escrito. Por exemplo, qqPlot do pacote veicular quer norma para normal e lnorm para log-normal. o que estou perdendo?

Tom

@ Tom, eu estava enganado sobre o pacote. Evidentemente, é o pacote qualityTools . Além disso, o exemplo parece ser retirado daqui .

gung - Restabelece Monica

Uma alternativa interessante é o gráfico Cullen e Frey, ver stats.stackexchange.com/questions/243973/... para um exemplo

b Kjetil HALVORSEN

Respostas:

Há algumas coisas a serem ditas aqui:

a forma do CDF para o log-normal é semelhante o suficiente para a forma do CDF do Weibull para torná-los mais difíceis de distinguir do que o nível de similaridade entre o Weibull e os outros.
as linhas pretas externas formam uma faixa de confiança . O uso da faixa de confiança na inferência é o mesmo que qualquer outra forma padrão de inferência estatística freqüentista. Ou seja, quando os valores se enquadram na banda, não podemos rejeitar a hipótese nula de que a distribuição posposta é a correta. Não é o mesmo que dizer que sabemos que a distribuição posposta é a correta. (Observe que este é um ótimo exemplo do que discuti em outra resposta aqui de uma situação em que a perspectiva dos pescadores sobre o teste de hipóteses seria preferível ao Neyman-Pearson.)
você precisa de mais dados; seu tem apenas 20 aqui. $N$

Repor a Monica
fonte

Existem maneiras de examinar distribuições para amostras pequenas?

Proton

de fato, parece que os pontos estão nas faixas de confiança de todas as distribuições. Então não podemos distinguir as distribuições?

Proton

Existem testes para a adequação de um conjunto de dados a uma distribuição teórica, mas eu costumo pensar que eles são inferiores aos gráficos de qq. Basicamente, você não será capaz de distinguir entre essas distribuições com . Se você pensar nisso em termos de poder estatístico, sua capacidade de rejeitar cada um dos nulos falsos aqui é . Pode ajudar você a ler a resposta que eu vinculei no ponto 2.

n = 20

$n=20$

\approx 5 %

$\approx 5\%$

gung - Restabelece Monica

+1 no tamanho pequeno da amostra. Usar 300 amostras ajudaria a distinguir bastante as coisas. Proton: Não, você não pode realmente distinguir distribuições com uma pequena amostra. Como você pode? É como tentar identificar um rosto com 20 pixels.

Wayne

Parece que o gráfico de QQ para log-normal é quase o mesmo que o gráfico de QQ para weibull.

Sim.

Como podemos distingui-los?

Nesse tamanho de amostra, você provavelmente não pode.

Além disso, se os pontos estiverem dentro da região definida pelas duas linhas pretas externas, isso indica que eles seguem a distribuição especificada?

Não. Indica apenas que você não pode diferenciar a distribuição dos dados dessa distribuição. É falta de evidência de uma diferença, não evidência de falta de diferença.

Você pode ter quase certeza de que os dados são de uma distribuição que não é uma das que você considerou (por que seriam exatamente de algum deles?).

Glen_b -Reinstate Monica
fonte

Como o fraseado: "É falta de evidência de diferença, não evidência de falta de diferença".

precisa saber é o seguinte