Avaliações de "Aproximadamente Normal" para testes t

12

Estou testando a igualdade de meios usando o teste t de Welch. A distribuição subjacente está longe de ser normal (mais distorcida que o exemplo em uma discussão relacionada aqui ). Posso obter mais dados, mas gostaria de alguma maneira baseada em princípios de determinar até que ponto fazê-lo.

  1. Existe uma boa heurística para avaliar se a distribuição da amostra é aceitável? Quais desvios da normalidade são mais preocupantes?
  2. Existem outras abordagens - por exemplo, confiar em um intervalo de confiança de autoinicialização para a estatística de amostra - que faria mais sentido?
cohoz
fonte
2
Esta é uma grande pergunta. Além de O teste de normalidade é "essencialmente inútil"? (já vinculado), mais duas questões relacionadas são: Como escolher entre o teste t ou teste não paramétrico, por exemplo, Wilcoxon em pequenas amostras? e teste T para não normal quando N> 50? Uma boa resposta a essa pergunta seria potencialmente valiosa para os leitores dessas duas perguntas relacionadas.
Silverfish
Até onde eu sei, não existem maneiras de determinar quantos dados você precisa para que a distribuição seja "suficientemente normal". Isso ocorre porque "normal o suficiente" é difícil de definir e dependeria de quão não normal é a distribuição subjacente, além da maneira particular pela qual você está se afastando da normalidade. Se você tiver dados seriamente fora do normal, basta usar um teste não paramétrico. A desvantagem é que você não seria capaz de obter intervalos de confiança que são mais úteis do que testes de hipóteses isoladas.
dsaxton
2
Concordo que "normal o suficiente" é difícil de definir, mas todo profissional deve fazer a avaliação antes de raciocinar sobre dados empíricos, e é por isso que estou surpreso com a pouca discussão que consegui descobrir (talvez esteja procurando nos lugares errados) . Para os casos de uso que tenho em mente aqui (que parecem bastante comuns), os testes não paramétricos são insatisfatórios em comparação com a coleta de mais dados para garantir uma distribuição de amostragem "suficientemente normal".
cohoz

Respostas:

1

Como o teste t assume normalidade e suas distribuições subjacentes não são normais, não pode haver uma maneira baseada em princípios de determinar se a distribuição da amostra é aceitável. No entanto, à medida que o tamanho da amostra fica "grande", o Teorema do Limite Central entra em ação, e você pode usar um teste z de amostra grande, que essencialmente fornecerá a mesma resposta que um teste t, porque t se aproxima da distribuição normal com grandes amostras.

Os livros / cursos de estatísticas geralmente implicam que, em um tamanho de amostra de 25 ou 30, o CLT entra em jogo de uma maneira útil. No entanto, minha experiência foi que, mesmo com tamanhos de amostra nas centenas de grandes testes z de amostra, ainda pode ser muito ruim (por exemplo, com dados de contagem).

Na minha opinião, um teste de permutação é um bom ajuste para o seu problema. Ele deve ter potência igual ou melhor que os testes não paramétricos enlatados (por exemplo, Mann-Whitney) e você não precisa se preocupar com o problema da normalidade. E, eles são divertidos de escrever.

Tim
fonte