Digamos que eu queira testar se duas amostras independentes têm meios diferentes. Eu sei que a distribuição subjacente não é normal .
Se eu entendi direito, minha estatística de teste é a média e, para tamanhos de amostra grandes o suficiente, a média deve se distribuir normalmente mesmo que as amostras não o sejam. Portanto, um teste de significância paramétrica deve ser válido neste caso, certo? Li informações conflitantes e confusas sobre isso, para que eu apreciasse alguma confirmação (ou explicação de por que estou errado).
Além disso, li que para amostras grandes, devo usar a estatística z em vez da estatística t. Mas, na prática, a distribuição t apenas convergirá para a distribuição normal e as duas estatísticas devem ser as mesmas, não?
Edit : Abaixo estão algumas fontes que descrevem o teste z. Ambos afirmam que as populações devem ser normalmente distribuídas:
Aqui , ele diz "Independentemente do tipo de teste Z usado, é assumido que as populações das quais as amostras são coletadas são normais". E aqui , os requisitos para o teste z são listados como "Duas populações normalmente distribuídas, mas independentes, σ é conhecida".
Respostas:
Eu acho que esse é um mal-entendido comum da CLT. O CLT não apenas não tem nada a ver com a preservação do erro do tipo II (que ninguém mencionou aqui), mas também não é aplicável quando você deve estimar a variação da população. A variação da amostra pode estar muito longe de uma distribuição qui-quadrado em escala quando os dados não são gaussianos, portanto, o CLT pode não se aplicar mesmo quando o tamanho da amostra exceder dezenas de milhares. Para muitas distribuições, o SD nem sequer é uma boa medida de dispersão.
Para realmente usar o CLT, uma das duas coisas deve ser verdadeira: (1) o desvio padrão da amostra funciona como uma medida de dispersão para a verdadeira distribuição desconhecida ou (2) o verdadeiro desvio padrão da população é conhecido. Muitas vezes não é esse o caso. E um exemplo de n = 20.000 sendo muito pequeno para o CLT "funcionar" vem do desenho de amostras da distribuição lognormal conforme discutido em outras partes deste site.
O desvio padrão da amostra "funciona" como uma medida de dispersão se, por exemplo, a distribuição for simétrica e não possuir caudas mais pesadas que a distribuição Gaussiana.
Não quero contar com o CLT para nenhuma das minhas análises.
fonte
Estou deixando este parágrafo para que os comentários façam sentido: provavelmente a suposição de normalidade nas populações originais é muito restritiva e pode ser perdida ao se concentrar na distribuição da amostra, e graças ao teorema do limite central, especialmente para amostras grandes.
A aplicação do teste é provavelmente uma boa ideia se (como é geralmente o caso) você não conhece a variação da população e, em vez disso, está usando as variações da amostra como estimadores. Observe que a suposição de variações idênticas pode precisar ser testada com um teste F de variações ou um teste de Lavene antes de aplicar uma variação combinada - eu tenho algumas notas no GitHub aqui .t
Como você mencionou, a distribuição t converge para a distribuição normal à medida que a amostra aumenta, pois esse gráfico R rápido demonstra:
Em vermelho, está o pdf de uma distribuição normal e, em roxo, é possível ver a mudança progressiva nas "caudas gordas" (ou caudas mais pesadas) do pdf da distribuição , à medida que os graus de liberdade aumentam até que finalmente se misture com o enredo normal.t
Portanto, aplicar um teste z provavelmente seria bom para amostras grandes.
Resolvendo os problemas com minha resposta inicial. Obrigado, Glen_b, por sua ajuda no OP (os prováveis novos erros de interpretação são inteiramente meus).
Deixando de lado as complexidades nas fórmulas para uma amostra versus duas amostras (emparelhadas e não emparelhadas), a estatística t geral focada no caso de comparar uma média amostral com uma média populacional é:
A tendência para a normalidade da distribuição amostral da amostra significa que o tamanho da amostra aumenta pode justificar a suposição de uma distribuição normal do numerador, mesmo que a população não seja normal. No entanto, ele não influencia as outras duas condições (distribuição quadrada do chi do denominador e independência do numerador do denominador).
Mas nem tudo está perdido, neste post é discutido como o teorema de Slutzky suporta a convergência assintótica em direção a uma distribuição normal, mesmo que a distribuição chi do denominador não seja alcançada.
No artigo "Um olhar mais realista sobre as propriedades de robustez e erro de tipo II do teste t para desvios da normalidade populacional", de Sawilowsky SS e Blair RC no Psychological Bulletin, 1992, vol. 111, No. 2, 352-360 , onde eles testaram distribuições menos ideais ou mais "do mundo real" (menos normais) para energia e erros do tipo I, as seguintes afirmações podem ser encontradas: "Apesar da natureza conservadora em relação ao Tipo No erro do teste t para algumas dessas distribuições reais, houve pouco efeito nos níveis de potência para a variedade de condições de tratamento e tamanhos de amostra estudados. Os pesquisadores podem facilmente compensar a leve perda de potência selecionando um tamanho de amostra um pouco maior " .
" A visão predominante parece ser a de que o teste t de amostras independentes é razoavelmente robusto, no que diz respeito a erros do tipo I, com uma forma de população não gaussiana, desde que (a) o tamanho da amostra seja igual ou quase igual, (b) amostra os tamanhos são razoavelmente grandes (Boneau, 1960, menciona tamanhos de amostra de 25 a 30) e (c) os testes são bicaudais em vez de unicaudais. Note também que, quando essas condições são atendidas, as diferenças entre alfa nominal e alfa real ocorrem, discrepâncias são geralmente de natureza conservadora e não liberal. "
Os autores enfatizam os aspectos controversos do tópico, e estou ansioso para trabalhar em algumas simulações baseadas na distribuição lognormal, conforme mencionado pelo professor Harrell. Eu também gostaria de fazer algumas comparações de Monte Carlo com métodos não paramétricos (por exemplo, teste U de Mann – Whitney). Portanto, é um trabalho em andamento ...
SIMULAÇÕES:
Aviso Legal: O que segue é um desses exercícios para "provar a mim mesmo" de uma maneira ou de outra. Os resultados não podem ser usados para fazer generalizações (pelo menos não por mim), mas acho que posso dizer que essas duas (provavelmente falhas) simulações de MC não parecem desanimador quanto ao uso do teste t nas circunstâncias descrito.
Erro tipo I:
Na questão dos erros do tipo I, executei uma simulação de Monte Carlo usando a distribuição Lognormal. Extrair o que seria considerado amostras maiores (n = 50 ) muitas vezes a partir de uma distribuição lognormal com parâmetros μ = 0 e σ= 1 , Calculei os valores te valores de p que resultariam se comparássemos as médias dessas amostras, todas provenientes da mesma população e do mesmo tamanho. O lognormal foi escolhido com base nos comentários e na assimetria marcada da distribuição à direita:
Definir um nível de significância de5 % a taxa de erro real do tipo I teria sido 4,5 % , não é tão ruim...
De fato, o gráfico da densidade dos testes t obtidos parecia se sobrepor ao pdf real da distribuição t:
A parte mais interessante foi examinar o "denominador" do teste t, a parte que deveria seguir uma distribuição qui-quadrado:
Aqui estamos usando o desvio padrão comum, como nesta entrada da Wikipedia :
E, surpreendentemente (ou não), o enredo era extremamente diferente do pdf qui-quadrado sobreposto:
Erro e energia do tipo II:
A distribuição da pressão arterial é possível log-normal , o que é extremamente útil para configurar um cenário sintético no qual os grupos de comparação são separados em valores médios por uma distância de relevância clínica, digamos em um estudo clínico que testa o efeito da pressão arterial medicamento com foco na PA diastólica, um efeito significativo pode ser considerado uma queda média10 mmHg (um DP de aproximadamente 9 mmHg foi escolhido):
A execução de testes t de comparação em uma simulação de Monte Carlo semelhante à dos erros do tipo I entre esses grupos fictícios e com um nível de significância de5 % acabamos com 0,024 % erros do tipo II, e um poder de apenas 99 % .
O código está aqui .
fonte