Teste t de amostras independentes: os dados realmente precisam ser normalmente distribuídos para tamanhos de amostras grandes?

13

Digamos que eu queira testar se duas amostras independentes têm meios diferentes. Eu sei que a distribuição subjacente não é normal .

Se eu entendi direito, minha estatística de teste é a média e, para tamanhos de amostra grandes o suficiente, a média deve se distribuir normalmente mesmo que as amostras não o sejam. Portanto, um teste de significância paramétrica deve ser válido neste caso, certo? Li informações conflitantes e confusas sobre isso, para que eu apreciasse alguma confirmação (ou explicação de por que estou errado).

Além disso, li que para amostras grandes, devo usar a estatística z em vez da estatística t. Mas, na prática, a distribuição t apenas convergirá para a distribuição normal e as duas estatísticas devem ser as mesmas, não?

Edit : Abaixo estão algumas fontes que descrevem o teste z. Ambos afirmam que as populações devem ser normalmente distribuídas:

Aqui , ele diz "Independentemente do tipo de teste Z usado, é assumido que as populações das quais as amostras são coletadas são normais". E aqui , os requisitos para o teste z são listados como "Duas populações normalmente distribuídas, mas independentes, σ é conhecida".

Lisa
fonte
O que você está dizendo faz sentido. Você está usando o teorema do limite central para assumir normalidade na distribuição das médias da amostra. Além disso, você está usando o teste t porque não possui a variação populacional e está estimando-o com base na variação da amostra. Mas você pode vincular ou postar alguma dessas fontes conflitantes?
Antoni Parellada 30/03
Obrigado pela sua resposta! Aqui, por exemplo, os requisitos para o teste z são listados como "Duas populações normalmente distribuídas, mas independentes, σ é conhecida", então elas estão falando sobre a distribuição da população, não sobre a média - isso está errado?
30516 Lisa
@AntoniParellada Incorporei algumas fontes no post original!
30516 Lisa
Verifique na Wikipedia
Antoni Parellada
Se se sabe que as populações originais são normais, temos uma situação perfeita e inquestionável. No entanto, o CLT geralmente está presente, principalmente em amostras grandes, para evitar a dependência dessa ordem muito alta de condições indicada no papel vinculado.
Antoni Parellada 30/03

Respostas:

7

Eu acho que esse é um mal-entendido comum da CLT. O CLT não apenas não tem nada a ver com a preservação do erro do tipo II (que ninguém mencionou aqui), mas também não é aplicável quando você deve estimar a variação da população. A variação da amostra pode estar muito longe de uma distribuição qui-quadrado em escala quando os dados não são gaussianos, portanto, o CLT pode não se aplicar mesmo quando o tamanho da amostra exceder dezenas de milhares. Para muitas distribuições, o SD nem sequer é uma boa medida de dispersão.

Para realmente usar o CLT, uma das duas coisas deve ser verdadeira: (1) o desvio padrão da amostra funciona como uma medida de dispersão para a verdadeira distribuição desconhecida ou (2) o verdadeiro desvio padrão da população é conhecido. Muitas vezes não é esse o caso. E um exemplo de n = 20.000 sendo muito pequeno para o CLT "funcionar" vem do desenho de amostras da distribuição lognormal conforme discutido em outras partes deste site.

O desvio padrão da amostra "funciona" como uma medida de dispersão se, por exemplo, a distribuição for simétrica e não possuir caudas mais pesadas que a distribuição Gaussiana.

Não quero contar com o CLT para nenhuma das minhas análises.

Frank Harrell
fonte
3
O CLT pode ser um pouco de um arenque vermelho. Muitas vezes, pode acontecer que a média da amostra tenha uma distribuição decididamente não normal e que o SD da amostra tenha uma forma decididamente não qui, mas, no entanto, a estatística t é utilmente aproximada por uma distribuição t de Student (em parte devido à dependência entre as duas Estatisticas). Se esse é o caso, deve ser avaliado em qualquer situação. No entanto, como o CLT afirma pouco sobre amostras finitas (e não diz absolutamente nada quantitativo sobre elas), sua invocação em apoio a suposições distributivas é geralmente inválida.
whuber
Seria justo dizer que estamos discutindo (e aprendendo no meu caso) um procedimento (comparando duas amostras de distribuições desconhecidas com um teste t) que é realizado rotineiramente (e possivelmente sem pensar) diariamente em todos os lugares, embora seu justificativa pode ser fraca? E, na prática, existem usos do CLT que seriam toleráveis ​​/ aceitáveis, mesmo que não sejam ideais?
Antoni Parellada 31/03
O estatístico muitas vezes tem uma distribuição muito distante da distribuição t quando os dados vêm de uma distribuição não gaussiana. E sim, eu diria que a justificativa para usar o teste t é mais fraca do que muitos praticantes pensam. É por isso que prefiro métodos semi- e não paramétricos. ttt
Frank Harrell
2
O CLT é realmente uma afirmação assintótica, e quando a maioria das pessoas o invoca, suspeito que a ideia em sua cabeça seja algo parecido com o teorema de Berry-Esseen (eles acreditam que a convergência à normalidade acontece a uma taxa "razoável" e, portanto, o tamanho da amostra é "bom o suficiente"). Mas mesmo esse raciocínio um pouco mais sofisticado pode levar a uma conclusão incorreta sobre a validade do teste t. Gostaria de saber se vale a pena mencionar / enfatizar nesta resposta que mesmo Berry-Esseen não "salva" o apelo falacioso à CLT.
Silverfish
3
@FrankHarrell O que você quer dizer com "o desvio padrão da amostra funciona como uma medida de dispersão para a verdadeira distribuição desconhecida"? Seria útil se você adicionasse uma breve explicação (possivelmente apenas uma frase) à sua resposta.
mark999
9

Estou deixando este parágrafo para que os comentários façam sentido: provavelmente a suposição de normalidade nas populações originais é muito restritiva e pode ser perdida ao se concentrar na distribuição da amostra, e graças ao teorema do limite central, especialmente para amostras grandes.

A aplicação do teste é provavelmente uma boa ideia se (como é geralmente o caso) você não conhece a variação da população e, em vez disso, está usando as variações da amostra como estimadores. Observe que a suposição de variações idênticas pode precisar ser testada com um teste F de variações ou um teste de Lavene antes de aplicar uma variação combinada - eu tenho algumas notas no GitHub aqui .t

Como você mencionou, a distribuição t converge para a distribuição normal à medida que a amostra aumenta, pois esse gráfico R rápido demonstra:

insira a descrição da imagem aqui

Em vermelho, está o pdf de uma distribuição normal e, em roxo, é possível ver a mudança progressiva nas "caudas gordas" (ou caudas mais pesadas) do pdf da distribuição , à medida que os graus de liberdade aumentam até que finalmente se misture com o enredo normal.t

Portanto, aplicar um teste z provavelmente seria bom para amostras grandes.


Resolvendo os problemas com minha resposta inicial. Obrigado, Glen_b, por sua ajuda no OP (os prováveis ​​novos erros de interpretação são inteiramente meus).

  1. A ESTATÍSTICA SEGUE NA DISTRIBUIÇÃO SOB A SUPOSIÇÃO DE NORMALIDADE:

Deixando de lado as complexidades nas fórmulas para uma amostra versus duas amostras (emparelhadas e não emparelhadas), a estatística t geral focada no caso de comparar uma média amostral com uma média populacional é:

(1)teste t=X¯-μsn=X¯-μσ/ns2σ2=X¯-μσ/nx=1n(X-X¯)2n-1σ2

Xμσ2

  1. (1) N(1,0 0)
  2. (1)s2/σ2n-11n-1χn-12(n-1)s2/σ2χn-12
  3. O numerador e o denominador devem ser independentes.

estatística tt(df=n-1)

  1. TEOREMA DO LIMITE CENTRAL:

A tendência para a normalidade da distribuição amostral da amostra significa que o tamanho da amostra aumenta pode justificar a suposição de uma distribuição normal do numerador, mesmo que a população não seja normal. No entanto, ele não influencia as outras duas condições (distribuição quadrada do chi do denominador e independência do numerador do denominador).

Mas nem tudo está perdido, neste post é discutido como o teorema de Slutzky suporta a convergência assintótica em direção a uma distribuição normal, mesmo que a distribuição chi do denominador não seja alcançada.

  1. ROBUSTEZA:

No artigo "Um olhar mais realista sobre as propriedades de robustez e erro de tipo II do teste t para desvios da normalidade populacional", de Sawilowsky SS e Blair RC no Psychological Bulletin, 1992, vol. 111, No. 2, 352-360 , onde eles testaram distribuições menos ideais ou mais "do mundo real" (menos normais) para energia e erros do tipo I, as seguintes afirmações podem ser encontradas: "Apesar da natureza conservadora em relação ao Tipo No erro do teste t para algumas dessas distribuições reais, houve pouco efeito nos níveis de potência para a variedade de condições de tratamento e tamanhos de amostra estudados. Os pesquisadores podem facilmente compensar a leve perda de potência selecionando um tamanho de amostra um pouco maior " .

" A visão predominante parece ser a de que o teste t de amostras independentes é razoavelmente robusto, no que diz respeito a erros do tipo I, com uma forma de população não gaussiana, desde que (a) o tamanho da amostra seja igual ou quase igual, (b) amostra os tamanhos são razoavelmente grandes (Boneau, 1960, menciona tamanhos de amostra de 25 a 30) e (c) os testes são bicaudais em vez de unicaudais. Note também que, quando essas condições são atendidas, as diferenças entre alfa nominal e alfa real ocorrem, discrepâncias são geralmente de natureza conservadora e não liberal. "

Os autores enfatizam os aspectos controversos do tópico, e estou ansioso para trabalhar em algumas simulações baseadas na distribuição lognormal, conforme mencionado pelo professor Harrell. Eu também gostaria de fazer algumas comparações de Monte Carlo com métodos não paramétricos (por exemplo, teste U de Mann – Whitney). Portanto, é um trabalho em andamento ...


SIMULAÇÕES:

Aviso Legal: O que segue é um desses exercícios para "provar a mim mesmo" de uma maneira ou de outra. Os resultados não podem ser usados ​​para fazer generalizações (pelo menos não por mim), mas acho que posso dizer que essas duas (provavelmente falhas) simulações de MC não parecem desanimador quanto ao uso do teste t nas circunstâncias descrito.

Erro tipo I:

Na questão dos erros do tipo I, executei uma simulação de Monte Carlo usando a distribuição Lognormal. Extrair o que seria considerado amostras maiores (n=50.) muitas vezes a partir de uma distribuição lognormal com parâmetros μ=0 0 e σ=1, Calculei os valores te valores de p que resultariam se comparássemos as médias dessas amostras, todas provenientes da mesma população e do mesmo tamanho. O lognormal foi escolhido com base nos comentários e na assimetria marcada da distribuição à direita:

insira a descrição da imagem aqui

Definir um nível de significância de 5% a taxa de erro real do tipo I teria sido 4.5%, não é tão ruim...

De fato, o gráfico da densidade dos testes t obtidos parecia se sobrepor ao pdf real da distribuição t:

insira a descrição da imagem aqui

A parte mais interessante foi examinar o "denominador" do teste t, a parte que deveria seguir uma distribuição qui-quadrado:

(n-1)s2/σ2=98(49.(SDUMA2+SDUMA2))/98(eσ2-1)e2μ+σ2
.

Aqui estamos usando o desvio padrão comum, como nesta entrada da Wikipedia :

SX1X2=(n1-1)SX12+(n2-1)SX22n1+n2-2

E, surpreendentemente (ou não), o enredo era extremamente diferente do pdf qui-quadrado sobreposto:

insira a descrição da imagem aqui

Erro e energia do tipo II:

A distribuição da pressão arterial é possível log-normal , o que é extremamente útil para configurar um cenário sintético no qual os grupos de comparação são separados em valores médios por uma distância de relevância clínica, digamos em um estudo clínico que testa o efeito da pressão arterial medicamento com foco na PA diastólica, um efeito significativo pode ser considerado uma queda média10 mmHg (um DP de aproximadamente 9 mmHg foi escolhido):

insira a descrição da imagem aqui A execução de testes t de comparação em uma simulação de Monte Carlo semelhante à dos erros do tipo I entre esses grupos fictícios e com um nível de significância de 5% acabamos com 0,024% erros do tipo II, e um poder de apenas 99%.

O código está aqui .

Antoni Parellada
fonte
1
Eu acho que esse é um mal-entendido comum da CLT. O CLT não apenas não tem nada a ver com preservar o erro do tipo II (que ninguém mencionou aqui), mas também não é aplicável quando você deve estimar a variação da população. A variação da amostra pode estar muito longe de uma distribuição qui-quadrado em escala quando os dados não são gaussianos, portanto, o CLT pode não se aplicar mesmo quando o tamanho da amostra exceder dezenas de milhares. Para muitas distribuições, o SD nem sequer é uma boa medida de dispersão.
Frank Harrell
1
Professor Harrell, ficarei feliz em derrubar o post, se estiver incorreto. Isso pode muito bem ser um mal-entendido muito fundamental. Eu estava sugerindo que o CLT aplicado à distribuição da amostra significa que valida, em amostras grandes, a comparação de médias com um teste z ou teste t, independentemente da distribuição de origem das amostras. Isso não está correto?
Antoni Parellada 30/03
1
Isso seria correto se (1) o desvio padrão da amostra funcionar como uma medida de dispersão para a verdadeira distribuição desconhecida ou (2) o verdadeiro desvio padrão da população for conhecido. Muitas vezes não é esse o caso. E um exemplo de n = 20.000 sendo muito pequeno demais para a CLT para "trabalho" vem de extrair amostras a partir da distribuição lognormal. O mal-entendido sobre esses pontos é galopante entre os doutores em estatística com 20 anos de experiência.
Frank Harrell
5
A questão, Lisa, é se você precisa comparar meios ou apenas deseja comparar os locais de duas populações. Em algumas aplicações, o interesse se concentra em uma média ou soma, de modo que a substituição por outro parâmetro seria de pouca utilidade. Este é especialmente o caso em que a população é uma quantidade naturalmente cumulativa, como dinheiro ou contaminação ambiental.
whuber
3
Antoni, sua última seção sobre robustez é bastante apropriada. Fiz muitos estudos semelhantes aos descritos por Sawilosky e Blair e li muito mais e, portanto, suspeito que suas conclusões devam ser limitadas a tipos muito especiais de dados. O teste t falha miseravelmente, especialmente em termos de potência, na presença de distribuições altamente distorcidas. O que me surpreendeu ao longo dos anos é que ele é realmente bastante robusto a outros desvios da normalidade, a tal ponto que vejo alguma validade nas alegações de que é um procedimento não paramétrico.
whuber