Como faço para testar se duas distribuições (não normais) diferem?

13

Eu li sobre o teste t de Student, mas parece funcionar quando podemos assumir que as distribuições originais são normalmente distribuídas. No meu caso, eles definitivamente não são.

Além disso, se eu tiver 13 distribuições, preciso fazer 13^2testes?

Aqui está uma amostra de duas distribuições.  Existem 13 distribuições.

Martin Velez
fonte
@Glen_b Os dados não são discretos. Os valores variam de -2 a 2. #
266 Martin Velez

Respostas:

19

Existem vários sentidos dos quais "depende".

(Uma preocupação em potencial é que parece que os dados originais talvez sejam discretos; isso deve ser esclarecido.)

  1. dependendo do tamanho da amostra, a não normalidade pode não ser tão grande quanto a do teste t. Para amostras grandes, pelo menos geralmente há boa robustez de nível - as taxas de erro do tipo I não devem ser muito afetadas se não estiver muito longe do normal. Poder pode ser mais um problema com caudas pesadas.

  2. Se você estiver procurando por algum tipo de diferença na distribuição, um teste de ajuste de qualidade de duas amostras, como o teste de Kolmogorov-Smirnov de duas amostras, pode ser adequado (embora outros testes possam ser realizados).

  3. Se você estiver procurando por diferenças de tipo de local em uma família de locais ou diferenças de escala em uma família de escalas, ou mesmo apenas uma relação do tipo P (X> Y)> P (Y> X), uma Wilcoxon-Mann-Whitney teste de duas amostras pode ser adequado.

  4. Você pode considerar testes de reamostragem, como testes de permutação ou autoinicialização, se conseguir encontrar uma estatística adequada para o (s) tipo (s) de diferenças às quais deseja ter sensibilidade.

Além disso, se eu tiver 13 distribuições, preciso fazer 13 ^ 2 testes?

Bem, não .

Em primeiro lugar, você não precisa testar vs B e B vsAB BA

Em segundo lugar, você não precisa testar vsAA

Essas duas coisas reduziram as comparações de pares de 169 para 78.

Em terceiro lugar, seria muito mais usual (mas não obrigatório) testar coletivamente quaisquer diferenças e, talvez, examinar diferenças pareadas em testes post-hoc pares a pares se o primeiro nulo fosse rejeitado.

Por exemplo, no lugar de um Wilcoxon-Mann-Whitney como no item 3. acima, pode-se fazer um teste de Kruskal-Wallis, que é sensível a quaisquer diferenças na localização entre os grupos.

Há também versões de amostra k do teste de Kolmogorov-Smirnov , e testes semelhantes de alguns dos outros testes de ajuste de qualidade de duas amostras podem existir ou ser construídos.

Também existem versões de amostra k de testes de reamostragem e de teste t (ou seja, ANOVA, o que pode ser bom se o tamanho da amostra for razoavelmente grande).


Seria muito bom obter mais informações sobre o que estamos lidando e em que tipos de diferenças você está mais interessado; ou, na sua falta, para visualizar gráficos QQ de algumas das amostras.

Glen_b -Reinstate Monica
fonte
(+1) Gostaria de acrescentar que o teste WMW é interpretado como um teste de dominância estocástica, se você estiver preparado para assumir que as CDFs da população não se cruzam. As pessoas da OMI gostariam mais disso se soubessem.
Scortchi - Restabelecer Monica
1
P(X<Y)12
@Glen_b Os dados não são discretos. Os valores variam de -2 a 2. #
268 Martin Velez
Uau - informações importantes! Eles estão limitados a esse intervalo (2.1 é impossível) ou simplesmente aconteceu que os valores estão nesse intervalo?
Glen_b -Reinstala Monica
Eles são limitados a esse intervalo.
Martin Velez
5

Sim, acho que você não pode fazer melhor do que testar cada distribuição contra as outras ...

Se você acha que sua pergunta está relacionada a esta: Comparação de 2 distribuições

Você deve usar o teste Kolmogorov-Sminorv ou o teste Cramér-Von Mises. Ambos são testes de adequação muito clássicos.

Em R, a função ks.testno pacote de estatísticas implementa o primeiro. O segundo pode ser encontrado em pacotes como cramer.

Para aprender sobre esses dois testes: http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test http://en.wikipedia.org/wiki/Cram%C3%A9r%E2%80%93von_Mises_criterion

Pop
fonte
2

Você pode tentar a análise de variação unidirecional de Kruskal – Wallis

"É usado para comparar mais de duas amostras independentes ou não relacionadas"

Violações de normalidade na ANOVA foram discutidas em
Rutherford Apresentando Anova e Ancova: uma abordagem GLM 9.1.2 Violações de normalidade

A primeira linha é "Embora a maioria das fontes relate que a ANOVA ... é robusta em relação às violações da suposição de normalidade ..."

abbat_VL
fonte
Obrigado! Parece que é preciso executar este teste antes de fazer comparações aos pares.
Martin Velez