Tenho dados de teste em que tenho várias amostras grandes de distribuições discretas que estou usando como distribuições empíricas. Estou querendo testar se as distribuições são realmente diferentes e qual é a diferença de meios para as distribuições que são realmente diferentes.
Como são distribuições discretas, meu entendimento é que o teste de Kolmogorov-Smirnov é inválido devido à suposição de distribuição contínua subjacente. O teste do qui-quadrado seria o teste correto para saber se as distribuições são realmente diferentes?
Que teste eu usaria para a diferença de médias? Uma abordagem melhor seria coletar amostras das distribuições e tirar a diferença e, em seguida, realizar análises sobre a distribuição da diferença?
chi-squared
kolmogorov-smirnov
Wallhood
fonte
fonte
Respostas:
1) O Kolmogorov-Smirnov ainda pode ser usado, mas se você usar os valores críticos tabulados, será conservador (o que é apenas um problema porque diminui sua curva de potência). Melhor obter a distribuição de permutação da estatística, para que seus níveis de significância sejam como você os escolhe. Isso só fará uma grande diferença se houver muitos laços. Essa mudança é realmente fácil de implementar. (Mas o teste KS não é a única comparação possível; se alguém estiver computando distribuições de permutação de qualquer maneira, há outras possibilidades.)
2) os testes de adequação de qui-quadrado de baunilha para dados discretos geralmente são, na minha opinião, uma péssima idéia. Se a potencial perda de energia acima o impediu de usar o teste KS, o problema com o qui-quadrado é geralmente muito pior - ele lança as informações mais críticas, que são as ordens entre as categorias (os valores de observação), diminuindo seu poder espalhando-o por alternativas que não consideram a ordem, para piorar a detecção de alternativas suaves - como uma mudança de localização e escala, por exemplo). Mesmo com os maus efeitos dos laços pesados acima, o teste KS, em muitos casos, ainda possui melhor potência (enquanto reduz a taxa de erro do tipo I).
O qui-quadrado também pode ser modificado para levar em consideração a ordem (particione o quadrado em componentes lineares, quadráticos, cúbicos etc. por meio de polinômios ortogonais e use apenas os termos de baixa ordem - 4 a 6 são escolhas comuns). Artigos de Rayner e Best (e outros) discutem essa abordagem, que surge dos testes suaves de Neyman-Barton. Essa é uma boa abordagem, mas se você não tiver acesso ao software, poderá demorar um pouco.
Qualquer uma das abordagens modificadas deve ser adequada, mas se você não quiser modificar nenhuma dessas abordagens, não é necessariamente o caso que o qui-quadrado seja melhor que o teste KS - em algumas situações, pode ser melhor ... ou pode ser substancialmente pior.
Se os laços não forem pesados (ou seja, existem muitos valores diferentes obtidos pelos dados), consideraria o KS como está. Se forem moderados, eu tentaria calcular a distribuição de permutação. Se eles são muito pesados (ou seja, os dados levam apenas alguns valores diferentes), o qui-quadrado simples pode ser competitivo.
fonte