Escolhendo entre teste e teste

20

Antecedentes: estou fazendo uma apresentação para colegas de trabalho no teste de hipóteses e entendo muito bem, mas há um aspecto que estou me atrapalhando tentando entender e explicar aos outros.

Isso é o que eu acho que sei (corrija se estiver errado!)

  • Estatísticas que seriam normais se a variação fosse conhecida, siga uma distribuição se a variação for desconhecidat
  • CLT (Teorema do Limite Central): A distribuição amostral da média da amostra é aproximadamente normal para suficientemente grande (pode ser , pode ser até para distribuições altamente assimétricas)30 300n30300
  • A distribuição pode ser considerada Normal para graus de liberdade> 30t>30

Você usa o -test se:z

  1. População normal e variação conhecida (para qualquer tamanho de amostra)
  2. População normal, variância desconhecida (devido a CLT)n>30
  3. Binômio populacional, ,n q > 10np>10nq>10

Você usa o teste se:t

  1. População normal, variância desconhecidan<30
  2. Nenhum conhecimento sobre população ou variação en , mas os dados da amostra parecem normais / passam nos testes etc.n<30

Então fiquei com:

  • Para amostras e (?), Nenhum conhecimento sobre população e variância é conhecido / desconhecido.< 300>30<≈300

Então, minhas perguntas são:

  1. Em que tamanho de amostra você pode assumir (onde não há conhecimento sobre a distribuição ou variação da população) que a distribuição amostral da média é normal (ou seja, a CLT entrou em ação) quando a distribuição amostral parece não normal? Eu sei que algumas distribuições precisam de , mas alguns recursos parecem usar o teste sempre que ...z n > 30n>300zn>30

  2. Nos casos em que não tenho certeza, presumo que observe os dados em busca de normalidade. Agora, se os dados da amostra parecerem normais, eu uso o teste (desde que a população seja normal e desde )?n > 30zn>30

  3. E onde os dados de amostra dos casos em que tenho dúvidas não parecem normais? Existem circunstâncias em que você ainda usaria um teste ou ou você sempre procura transformar / usar testes não paramétricos? Eu sei que, devido ao CLT, em algum valor de a distribuição amostral da média se aproximará do normal, mas os dados da amostra não me dirão qual é esse valor de ; os dados da amostra podem não ser normais, enquanto a média da amostra segue um normal / . Existem casos em que você estaria transformando / usando um teste não paramétrico quando, na verdade, a distribuição amostral da média era normal / mas você não sabia? z n n t ttznntt

Hatti
fonte
4
" pode chegar a 300 para distribuições altamente distorcidas " ... em alguns casos, pode ser muito mais; ou isso nunca pode acontecer. Escolha qualquer e mostrarei um caso em que não é suficiente. n
Glen_b -Reinstala Monica
Obrigado Glen_b - portanto, sempre verifique se os dados da amostra parecem normais para usar paramétricos?
Hatti
@Hatti nope! O teste T é válido quando os dados parecem não normais.
AdamO

Respostas:

24

O @AdamO está certo, você simplesmente sempre usa o teste se não souber o desvio padrão da população a priori. Você não precisa se preocupar em mudar para o teste , porque a distribuição 'alterna' para você. Mais especificamente, o -Distribuição converge para o normal, por isso, é a distribuição correcta para utilização em todos os . tzttNN

Também há uma confusão aqui sobre o significado da linha tradicional em . Existem dois tipos de convergência sobre os quais as pessoas falam: N=30

  1. A primeira é que a distribuição amostral da estatística de teste (ou seja, ) calculada a partir de dados brutos normalmente distribuídos (dentro do grupo) converge para uma distribuição normal como apesar do fato de o SD ser estimado a partir dos dados. (A distribuição cuida disso para você, como observado acima.) tNt
  2. A segunda é que a distribuição amostral da média dos dados brutos não normalmente distribuídos (dentro do grupo) converge para uma distribuição normal (mais lentamente que acima) como . As pessoas contam com o Teorema do Limite Central para cuidar disso. No entanto, não há garantia de que convergirá para qualquer tamanho razoável de amostra - certamente não há razão para acreditar que (ou ) seja o número mágico. Dependendo da magnitude e natureza da não normalidade, pode levar muito tempo (consulte a resposta da @ Macro aqui: Regressão quando os resíduos de OLS normalmente não são distribuídos normalmenteN30 300 L L t30300) Se você acredita que seus dados brutos (dentro do grupo) não são muito normais, pode ser melhor usar um tipo de teste diferente, como o teste Mann-Whitneyvocê . Observe que, com dados não normais, é provável que o teste Mann-Whitney seja mais poderoso que o teste , e pode ser assim mesmo que o CLT tenha entrado em ação. (Também é importante ressaltar que o teste de normalidade é provável que você se desvie, veja: O teste de normalidade é 'essencialmente inútil'? )vocêt

De qualquer forma, para responder suas perguntas de forma mais explícita, se você acredita que seus dados brutos (dentro do grupo) não são normalmente distribuídos, use o teste Mann-Whitney ; se você acredita que seus dados são normalmente distribuídos, mas não conhece o SD a priori, use o teste ; e se você acredita que seus dados são normalmente distribuídos e conhece o SD a priori, use o teste . vocêtz

Pode ajudar você a ler a resposta recente de @ GregSnow aqui: Interpretação do valor-p na comparação de proporções entre dois pequenos grupos em R com relação a essas questões também.

- Reinstate Monica
fonte
Obrigado, isso foi realmente útil, eu sabia que estava complicando demais, pois o teste t para n maior se aproxima do normal. Então, estritamente falando, mesmo que n fosse 1000, o teste t deve ser usado se o SD não for conhecido a priori?
Hatti
De nada. Estritamente falando, sim , mas observe que será muito difícil diferenciar a distribuição e a distribuição normal nesse ponto. t
gung - Restabelece Monica
Sim definitivamente. Desculpe por ter sido tão exigente, apenas difícil tentar pensar em como explicar isso para os outros de uma maneira bem em preto e branco. Agradecemos sua ajuda, obrigado!
Hatti
Observe também que o cálculo dos resultados do teste t é para todos os efeitos, sem custos computacionais adicionais significativos hoje em dia. Não estamos mais pesquisando estatísticas de teste em algumas tabelas de papel que não podem cobrir todos os casos, estamos apenas perguntando ao computador. Então, por que se preocupar e se você também pode obter os mesmos resultados usando um teste z?
Björn
11

t

ttz

tz

zt

AdamO
fonte
Use sempre um teste t para um teste não paramétrico de diferenças de médias. Você quer dizer paramétrico, não é?
Xavier Bourret Sicotte