Antecedentes: estou fazendo uma apresentação para colegas de trabalho no teste de hipóteses e entendo muito bem, mas há um aspecto que estou me atrapalhando tentando entender e explicar aos outros.
Isso é o que eu acho que sei (corrija se estiver errado!)
- Estatísticas que seriam normais se a variação fosse conhecida, siga uma distribuição se a variação for desconhecida
- CLT (Teorema do Limite Central): A distribuição amostral da média da amostra é aproximadamente normal para suficientemente grande (pode ser , pode ser até para distribuições altamente assimétricas)30 300
- A distribuição pode ser considerada Normal para graus de liberdade> 30
Você usa o -test se:
- População normal e variação conhecida (para qualquer tamanho de amostra)
- População normal, variância desconhecida (devido a CLT)
- Binômio populacional, ,n q > 10
Você usa o teste se:
- População normal, variância desconhecida
- Nenhum conhecimento sobre população ou variação en , mas os dados da amostra parecem normais / passam nos testes etc.
Então fiquei com:
- Para amostras e (?), Nenhum conhecimento sobre população e variância é conhecido / desconhecido.< ≈ 300
Então, minhas perguntas são:
Em que tamanho de amostra você pode assumir (onde não há conhecimento sobre a distribuição ou variação da população) que a distribuição amostral da média é normal (ou seja, a CLT entrou em ação) quando a distribuição amostral parece não normal? Eu sei que algumas distribuições precisam de , mas alguns recursos parecem usar o teste sempre que ...z n > 30
Nos casos em que não tenho certeza, presumo que observe os dados em busca de normalidade. Agora, se os dados da amostra parecerem normais, eu uso o teste (desde que a população seja normal e desde )?n > 30
E onde os dados de amostra dos casos em que tenho dúvidas não parecem normais? Existem circunstâncias em que você ainda usaria um teste ou ou você sempre procura transformar / usar testes não paramétricos? Eu sei que, devido ao CLT, em algum valor de a distribuição amostral da média se aproximará do normal, mas os dados da amostra não me dirão qual é esse valor de ; os dados da amostra podem não ser normais, enquanto a média da amostra segue um normal / . Existem casos em que você estaria transformando / usando um teste não paramétrico quando, na verdade, a distribuição amostral da média era normal / mas você não sabia? z n n t t
Respostas:
O @AdamO está certo, você simplesmente sempre usa o teste se não souber o desvio padrão da população a priori. Você não precisa se preocupar em mudar para o teste , porque a distribuição 'alterna' para você. Mais especificamente, o -Distribuição converge para o normal, por isso, é a distribuição correcta para utilização em todos os .t z t t NN
Também há uma confusão aqui sobre o significado da linha tradicional em . Existem dois tipos de convergência sobre os quais as pessoas falam:N= 30
De qualquer forma, para responder suas perguntas de forma mais explícita, se você acredita que seus dados brutos (dentro do grupo) não são normalmente distribuídos, use o teste Mann-Whitney ; se você acredita que seus dados são normalmente distribuídos, mas não conhece o SD a priori, use o teste ; e se você acredita que seus dados são normalmente distribuídos e conhece o SD a priori, use o teste .você t z
Pode ajudar você a ler a resposta recente de @ GregSnow aqui: Interpretação do valor-p na comparação de proporções entre dois pequenos grupos em R com relação a essas questões também.
fonte
fonte