O que acontecerá se eu usar um teste não paramétrico com dados normalmente distribuídos?

8

Foi-me perguntado se um erro do tipo I no teste Shapiro-Wilk impactaria a análise principal e se o teste errado foi usado se isso importaria ou não se meus dados fossem normalmente distribuídos ...

DaisyRiver
fonte
@a_statistician - pode querer expandir um pouco isso e publicá-lo como resposta, pois é!
jbowman

Respostas:

14

Na análise estatística, se seus dados seguem uma distribuição paramétrica, você deve utilizar o benefício de conhecer a distribuição e empregar os métodos estatísticos com base nessa distribuição.

Mas, às vezes, não sabemos a distribuição da variável aleatória; portanto, os métodos estatísticos não paramétricos foram desenvolvidos para abranger a ampla gama de distribuições e sacrificar alguma eficiência.

Dado que você conhece a distribuição da variável aleatória e usa o método estatístico não paramétrico, em vez de métodos estatísticos paramétricos baseados no conhecimento da distribuição, será ineficiente, ou seja, o poder do teste diminuirá, o erro padrão aumentará e os intervalos de confiança aumentarão. ser mais amplo do que com o método paramétrico.

user158565
fonte
12

Se seus dados foram extraídos de uma população normal (e as outras suposições usuais para um teste t comum se aplicarem), o teste funcionará como deveria (é não paramétrico, deve funcionar). Não há drama nesse sentido.

Se você sabe o suficiente que está confiante em assumir a normalidade, poderá aproveitar esse conhecimento, mas, para muitos testes, isso não ajuda muito.

Se você estiver fazendo um dos testes de localização comuns (teste de classificação assinado Wilcoxon, teste de Wilcoxon-Mann-Whitney), você não perde quase nada (em termos de energia) em um teste de mudança de local ignorando a normalidade. [Você precisa de uma observação extra para cada 21 observações para corresponder ao poder do teste mais poderoso quando todas as suas suposições se mantiverem.]

Se você está lidando com outros testes, isso pode importar um pouco mais (embora alguns possam importar ainda menos). Um exemplo em que faz uma diferença um pouco maior é usar um teste de Friedman em comparação com o teste ANOVA correspondente em um design de blocos aleatórios.

Glen_b -Reinstate Monica
fonte
Esses testes não são apenas testes de mudança de local se as distribuições tiverem a mesma forma (normal aqui) e a mesma variação?
Alexis #
11
@Alexis A suposição sob o nulo para um teste de permutação é permutabilidade (a permutação de etiquetas / sinais etc., conforme necessário, não altera a distribuição da estatística); normalmente, a "distribuição identicamente independente" um pouco mais forte é assumida para H0, fornecendo cálculos convenientes de nível de significância para testes de classificação. Combinado com uma alternativa de mudança de local (que já está especificada na minha resposta), isso fornece a identificação da forma e a extensão que você mencionou. Talvez eu preciso para escrever algebricamente o que significa "local mudança alternativos" algebricamente que as pessoas possam vê-lo coberto
Glen_b -Reinstate Monica
11
Se não estivermos dispostos a especificar uma alternativa de mudança de local (ou pelo menos dizer "é contra isso que estamos interessados ​​em ver o poder), eu diria que não deveríamos realizar um teste t como base de comparação em primeiro lugar, pois também seria impactado se não tivéssemos uma alternativa de mudança de local.Se abandonarmos a parte do deslocamento de localização da comparação, até especificarmos uma sequência de alternativas que nos interessam em, ficamos com uma pergunta que especifica muito pouco para calcular a energia.
Glen_b -Reinstala Monica 11/11
11
@ Alexis Na verdade, pensando bem, acho que vou incluir álgebra e mais explicações; é importante esclarecer o que está implícito nas circunstâncias já apresentadas na pergunta e resposta, infelizmente não posso fazer isso agora. Obrigado pelo seu comentário, deixa claro que não explico o suficiente aqui.
Glen_b -Reinstala Monica 11/11