Quais são os testes estatísticos padrão para verificar se os dados seguem distribuições exponenciais ou normais?

12

Quais são os testes estatísticos padrão para verificar se os dados seguem distribuições exponenciais ou normais?

smo
fonte
2
O melhor teste provavelmente depende de por que exatamente você está testando a normalidade / exponencial (portanto, alguns antecedentes seriam úteis), mas você sempre pode usar o teste Kolmogorov Smirnov para testar se um determinado conjunto de dados se encaixa em qualquer distribuição pré-especificada ( pt.wikipedia .org / wiki / Kolmogorov% E2% 80% 93Smirnov_test ). Existem muitos métodos usados ​​especificamente para a distribuição normal: en.wikipedia.org/wiki/Normality_test
Macro
As variáveis ​​com as quais estou lidando provavelmente seguem distribuições normais ou exponenciais. Além disso, tenho um fator que não me interessa. No entanto, impõe algumas variabilidades aos meus dados. Por isso, gostaria de normalizar as variáveis ​​para suprimir o efeito desse fator incômodo. Então, achei melhor normalizar cada variável com base em sua distribuição subjacente. É por isso que preciso de um teste para decidir entre essas duas distribuições.
smo
1
O que normalizar significa nesta frase: achei melhor normalizar cada variável com base em sua distribuição subjacente ?
Macro
2
Embora não seja um teste, os gráficos de QQ são impressionantes para fazer uma inspeção intuitiva rápida se seus dados correspondem a uma distribuição.
naught101

Respostas:

13

Parece que você está tentando decidir se deseja modelar seus dados usando a distribuição normal ou a exponencial. Isso me parece um pouco estranho, pois essas distribuições são muito diferentes umas das outras.

A distribuição normal é simétrica, enquanto a distribuição exponencial é fortemente inclinada para a direita, sem valores negativos. Normalmente, uma amostra da distribuição exponencial conterá muitas observações relativamente próximas de e algumas observações que se desviam muito para a direita de . Essa diferença geralmente é fácil de ver graficamente.00

Aqui está um exemplo em que simulei observações de uma distribuição normal com média e variância e uma distribuição exponencial com média e variância :2 4 2 4n=1002424

Normal vs exponencial: dados simulados

A simetria da distribuição normal e a assimetria do exponencial podem ser vistas usando histogramas, gráficos de caixa e gráficos de dispersão, conforme ilustrado na figura acima.

Outra ferramenta muito útil é um gráfico QQ . No exemplo abaixo, os pontos devem seguir aproximadamente a linha se a amostra vier de uma distribuição normal. Como você pode ver, esse é o caso dos dados normais, mas não dos dados exponenciais.

Gráficos QQ para dados simulados

Se, por algum motivo, o exame gráfico não for suficiente, você ainda poderá usar um teste para determinar se sua distribuição é normal ou exponencial. Como a distribuição normal é uma família de escala e localização, convém usar um teste invariável sob alterações de escala e localização (ou seja, o resultado do teste não deve mudar se você alterar suas medidas de polegadas para centímetros ou adicionar a todas as suas observações).+1

ˉ x x(1)s

TE,N=x¯x(1)s
x¯x(1)sTE,N

Este teste é na verdade uma versão unilateral do teste de Grubbs para discrepâncias . Você encontrará isso implementado na maioria dos softwares estatísticos (mas certifique-se de usar a versão correta - existem várias estatísticas de teste alternativas usadas para o teste outlier!).

TE,N

MånsT
fonte
O OP perguntou se você testaria a normalidade que teste escolheria e em uma situação separada se testasse exponencialmente qual teste usaria. Não li na declaração que ele sugeria tentar os dois testes no mesmo conjunto de dados.
22960 Michael Michael Chernick
Eu o interpretei dessa maneira, já que em um comentário posterior à pergunta, o OP escreveu "As variáveis ​​com as quais estou lidando provavelmente seguem distribuições normais ou exponenciais. [...] É por isso que preciso de um teste para decidir entre essas duas distribuições ".
MånsT
Eu não percebi isso. Nesse caso, sua resposta é muito apropriada. Eu estava respondendo como se ele estivesse testando um de cada vez.
22760 Michael Michael Chernick
@ Michael: Eu interpretei dessa maneira quando li a pergunta original também, mas decidi escrever minha resposta depois de ler o comentário. Caso contrário, não creio que haja muito a acrescentar à sua resposta (+1) (além das pequenas observações que fiz em um comentário).
MånsT
5

BnY¯logY¯Yi

Bn=bn×{logY¯logY¯}bn=2n×{1+(n+1)/(6n)}1
Bnχ2(n1)

Veja KC Kapur e LR Lamberson Confiabilidade no projeto de engenharia . Wiley 1977.

Yves
fonte
2
Me deparei com alguns recursos mais recentes e abrangentes sobre o teste de exponencialidade. 1) Um artigo: A Henze, N. e Meintanis, SG (2005): 'Testes clássicos e recentes de exponencialidade: uma revisão parcial com comparações'. Metrika, vol. 61, pp. 29–45. 2) Um pacote CRAN R chamado 'exptest' implementando os testes do artigo mencionado.
Yves
A distribuição de B_n não é muito clara. É Chi quadrado com n-1 df ou Chi quadrado com n-1 df multiplicado por n-1?
Dovini Jayasinghe 15/03/19
Funciona como está escrito. Você pode verificá-lo usando algumas linhas de código R.
Yves
Obrigado. Então deve ser a multiplicação que eu pude ver. No sentido, os graus de liberdade devem ser n-1?
Dovini Jayasinghe
Bnn1
4

Por normalidade, Anderson-Darling e Shapiro-Wilk são considerados os melhores. Para o teste exponencial de Lillerfors, foi projetado especificamente para ele.

Michael R. Chernick
fonte
5
essa resposta pode ser melhorada com um pequeno detalhe sobre por que cada teste é considerado bom / melhor que outros.
naught101
Esses testes são melhores no sentido de que são os mais poderosos para desviar do normal (Anderson-Darling) e exponencial (Lillefors). Não acho fácil, com base na forma do teste, fornecer uma explicação intuitiva.
Michael R. Chernick
3
@ Michael: O teste de normalidade de Anderson-Darling (como o Shapiro-Wilk mencionado aqui) tem um poder respeitável contra uma ampla gama de alternativas, mas certamente não é o mais poderoso (nem em geral nem em média). A escolha do teste deve depender da alternativa em questão. Eu nunca ouvi falar do teste de Lillerfors - você quis dizer o teste de Lilliefors (que na verdade é um teste de normalidade e não um teste de exponencialidade)?
MånsT
É claro que eu estava me referindo ao teste de Lillefors para exponencialidade, pois era o que eu estava sugerindo para suposições de distribuição exponencial. Listei Shapiro-Wilk e Anderson-Darling porque, pelo que sei, eles estão entre os mais poderosos entre os testes de normalidade. Quais são os testes mais poderosos aos quais você está se referindo?
22960 Michael Michael Chernick
1
Depende do tipo de alternativa que você possui. Contra alternativas de distorção, por exemplo, a distorção da amostra geralmente é mais poderosa que SW e AD. Os últimos são testes omnibus que são muito bons, em média, mas se você sabe com que tipo de não normalidade está se preocupando, é melhor usar um teste direcionado (como o teste de skewness de amostra, que é direcionado a alternativas de skew) .
MånsT
4

Você já considerou métodos gráficos para ver como os dados se comportam?

As técnicas dos gráficos de probabilidade geralmente envolvem a classificação dos dados, a aplicação do CDF inverso e a plotagem dos resultados no plano cartesiano. Isso permite que você veja se vários valores se desviam da distribuição hipotética e possivelmente explicam o motivo do desvio.

Schenectady
fonte