Qual a robustez do teste t de amostras independentes quando as distribuições das amostras não são normais?

24

Eu li que o teste t é "razoavelmente robusto" quando as distribuições das amostras saem da normalidade. Obviamente, é a distribuição amostral das diferenças que são importantes. Eu tenho dados para dois grupos. Um dos grupos é altamente inclinado na variável dependente. O tamanho da amostra é bastante pequeno para os dois grupos (n = 33 em um e 45 no outro). Devo assumir que, nessas condições, meus teste t será robusto a violações da suposição de normalidade?

Archaeopteryx
fonte
3
"Claro, é a distribuição amostral das diferenças que é importante" - Diferenças em quê? Fiquei tentado a editar isso fora de questão, pois temo ser enganoso para futuros leitores (e tangencial ao ponto principal). Meu primeiro pensamento foi uma referência equivocada a um teste t emparelhado , onde assumimos que as diferenças entre pares são normais, mas isso não se aplica a um teste de amostras independentes. Nem sequer temos pares para diferença! Talvez se pretenda "diferença nos meios"? O restante do Q considera a normalidade das duas amostras, sem diferenças.
Silverfish
A questão de quão robusto é o teste t para tais violações é importante e legítimo. Mas um problema relacionado é que não é recomendável verificar se há violações nos seus dados e somente depois decidir se aplica um teste t ou algum teste alternativo. Esse procedimento de várias etapas possui características operacionais incertas. Veja este tópico: Um método de princípio para escolher entre o teste t ou não paramétrico, por exemplo, Wilcoxon em amostras pequenas
Silverfish
O que é uma fonte credível? (Presumo que ambos concordamos que não existe uma fonte oficial). Estamos olhando para robustez de nível ou também poder? E se 'também poder' ... de que tipo de alternativa estamos falando ?
Glen_b -Reinstala Monica
@Glen_b Desculpe, a mensagem de recompensa "fontes oficiais" é claramente mais para StackOverflow! Eu só acho que esse tópico é praticamente importante (além de muito tráfego e pouco tráfego na Wikipedia) para merecer algumas citações. O modelo de recompensa de "resposta canônica" seria inadequado, como mostra claramente a resposta de Peter Flom. Tenho a sensação de que há um "corpo de conhecimento comum" sobre esse tópico - se me perguntassem esse Q de imediato , minha lista seria muito parecida com a de Dallal (eu teria adicionado a curtose, mas não arriscaria o mesmo tamanho de amostra). protege contra a não normalidade geral)
Silverfish
@Glen_b Sua resposta é similar, então parece que existem alguns pontos básicos amplamente conhecidos / aceitos. Meu diploma cobriu suposições, mas não as conseqüências da violação: meu conhecimento é extraído de diversas fontes, bits e bobs espalhados (livros do tipo "estatísticas para psicólogos" podem prestar mais atenção às consequências do que muitos textos da teoria das estatísticas) - caso contrário, eu teria publicado uma resposta não uma recompensa! Se alguém souber um resumo decente de uma página em um bom livro, isso me faria bem. Se houver alguns papéis com resultados de simulação, tudo bem também. Qualquer coisa que os futuros leitores possam se referir e citar.
Silverfish

Respostas:

16

Perguntas sobre robustez são muito difíceis de responder bem - porque as suposições podem ser violadas de várias maneiras e, em cada sentido, em diferentes graus. O trabalho de simulação pode apenas amostrar uma parcela muito pequena das possíveis violações.

Dado o estado da computação, acho que muitas vezes vale a pena executar os dois a paramétrico e um teste não paramétrico, se ambos estão disponíveis. Você pode comparar os resultados.

Se você é realmente ambicioso, pode até fazer um teste de permutação.

E se Alan Turing tivesse feito seu trabalho antes de Ronald Fisher? :-).

Peter Flom - Restabelece Monica
fonte
11
Peter, você me inspirou a escrever ficção histórica para responder exatamente a essa pergunta!
Sycorax diz Restabelecer Monica
12

@PeterFlom acertou a unha com sua primeira frase.

Vou tentar dar um resumo aproximado dos estudos que eu vi (se você quiser links, pode demorar um pouco):

No geral, o teste t de duas amostras é razoavelmente robusto em termos de energia para uma não normalidade simétrica (a verdadeira taxa de erro tipo I é afetada de alguma forma pela curtose, o poder é impactado principalmente por isso).

Quando as duas amostras estão levemente inclinadas na mesma direção, o teste t unicaudal não é mais imparcial. A estatística t é inclinada de maneira oposta à distribuição e tem muito mais poder se o teste estiver em uma direção do que se estiver na outra. Se estiverem inclinados em direções opostas, a taxa de erro do tipo I poderá ser fortemente afetada.

A assimetria pesada pode ter impactos maiores, mas de modo geral, a assimetria moderada com uma bicaudal teste não é muito ruim se você não se importar com o teste, em essência, alocar mais de seu poder em uma direção que a outra.

Em resumo - o teste t bicaudal e duas amostras é razoavelmente robusto para esse tipo de coisa, se você puder tolerar algum impacto no nível de significância e algum leve viés.

Existem muitas, muitas maneiras de as distribuições não serem normais, porém, que não são cobertas por esses comentários.

Glen_b -Reinstate Monica
fonte
Não sei se é correto dizer que é razoavelmente robusto em termos de energia! É razoavelmente robusto em nível, o nível de significância será aproximadamente correto, mas, por exemplo, os testes wilcoxon podem ter um poder muito maior para que as alternativas razoavelmente próximas da normalidade sejam difíceis de detectar. Isso também depende de fatores como se houver um número igual de observações em cada grupo: a robustez é muito mais frágil no caso desigual-n!
Kjetil b halvorsen 9/10/12
11
@kjetilbhalvorsen Os estudos que eu vi - incluindo algumas simulações que eu mesmo fiz (e eu não os olho há um bom tempo; você pode ter visto algo que eu não tenho) - a maior parte do efeito no poder parecia estar empurrando o nível para cima e para baixo (o que não afetou o Wilcoxon). Dadas as geralmente boas propriedades de potência do Wilcoxon nessas circunstâncias (principalmente com caudas pesadas), isso é suficiente para que o Wilcoxon conquiste a potência - se você ajustar os níveis para que sejam semelhantes, me surpreendeu o quão bem- fez.
Glen_b -Reinstar Monica
7

O @PeterFlom já mencionou que os estudos de simulação nunca podem cobrir todos os cenários e possibilidades e, portanto, não podem levar a uma resposta definitiva. No entanto, ainda acho útil explorar um problema como esse realizando algumas simulações (esse também é exatamente o tipo de exercício que eu gosto de usar ao apresentar aos alunos a ideia dos estudos de simulação de Monte Carlo). Então, vamos realmente tentar isso. Vou usar R para isso.

O código

n1 <- 33
n2 <- 45
mu1 <- 0
mu2 <- 0
sd1 <- 1
sd2 <- 1

iters <- 100000
p1 <- p2 <- p3 <- p4 <- p5 <- rep(NA, iters)

for (i in 1:iters) {

   ### normal distributions
   x1 <- rnorm(n1, mu1, sd1)
   x2 <- rnorm(n2, mu2, sd2)
   p1[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the right
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p2[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the left
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p3[i] <- t.test(x1, x2)$p.value

   ### first skewed to the left, second skewed to the right
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2)      * sd2 + mu2
   p4[i] <- t.test(x1, x2)$p.value

   ### first skewed to the right, second skewed to the left
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2)      * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p5[i] <- t.test(x1, x2)$p.value

}

print(round((apply(cbind(p1, p2, p3, p4, p5), 2, function(p) mean(p <= .05))), 3))

Explicação

  1. Primeiro, definimos o tamanho do grupo ( n1e n2), o verdadeiro grupo significa ( mu1e mu2) e os verdadeiros desvios padrão ( sd1e sd2).

  2. Em seguida, definimos o número de iterações a serem executadas e configuramos vetores para armazenar os valores-p.

  3. Em seguida, simulo dados em cinco cenários:

    1. Ambas as distribuições são normais.
    2. Ambas as distribuições são inclinadas para a direita.
    3. Ambas as distribuições estão inclinadas para a esquerda.
    4. A primeira distribuição é inclinada para a esquerda, a segunda para a direita.
    5. A primeira distribuição é inclinada para a direita, a segunda para a esquerda.

    Observe que estou usando distribuições qui-quadrado para gerar as distribuições inclinadas. Com um grau de liberdade, essas são distribuições fortemente distorcidas. Como a verdadeira média e variância de uma distribuição qui-quadrado com um grau de liberdade é igual a 1 e 2, respectivamente ( consulte a Wikipedia ), eu redimensiono essas distribuições para primeiro ter a média 0 e o desvio padrão 1 e depois redimensiono-as para obter o valor média verdadeira desejada e desvio padrão (isso pode ser feito em uma etapa, mas fazê-lo dessa maneira pode ser mais claro).

  4. Em cada caso, aplico o teste t (versão de Welch - é claro que também se pode considerar a versão de Student que assume variações iguais nos dois grupos) e salva o valor-p nos vetores configurados anteriormente.

  5. Finalmente, depois que todas as iterações estiverem completas, calculo para cada vetor com que frequência o valor-p é igual ou inferior a 0,05 (ou seja, o teste é "significativo"). Essa é a taxa de rejeição empírica.

Alguns Resultados

  1. Simular exatamente como descrito acima produz:

       p1    p2    p3    p4    p5 
    0.049 0.048 0.047 0.070 0.070
    

    α=.05

  2. Se mudarmos o código para mu1 <- .5, obtemos:

       p1    p2    p3    p4    p5 
    0.574 0.610 0.606 0.592 0.602
    

    Portanto, comparado ao caso em que ambas as distribuições são normais (como assumido pelo teste), a energia realmente parece ser um pouco maior quando a assimetria está na mesma direção! Se você se surpreender com isso, convém executar novamente algumas vezes (é claro, sempre obtendo resultados ligeiramente diferentes), mas o padrão permanecerá.

    Observe que precisamos ter cuidado ao interpretar os valores de potência empírica nos dois cenários em que a assimetria está em direções opostas, pois a taxa de erro do tipo I não é bem nominal (como um caso extremo, suponha que eu sempre rejeite, independentemente do que os dados show; então sempre terei um teste com potência máxima, mas é claro que o teste também possui uma taxa de erro do tipo I bastante inflada).

Pode-se começar a explorar uma gama de valores para mu1(e mu2- mas o que realmente importa é a diferença entre os dois) e, mais importante, começar a mudar os verdadeiros desvios padrão dos dois grupos (ie, sd1e sd2) e, especialmente, torná-los desiguais. Eu também fiquei com os tamanhos de amostra mencionados pelo OP, mas é claro que isso também poderia ser ajustado. E a distorção poderia, obviamente, assumir muitas outras formas além da que vemos em uma distribuição qui-quadrado com um grau de liberdade. Eu ainda acho que abordar as coisas dessa maneira é útil, apesar de não poder dar uma resposta definitiva.

Wolfgang
fonte
2
Como temos hoje uma série de métodos semi-paramétricos robustos, por que essa discussão vale tanto a pena?
Frank Harrell
(+1) Acho que valeria a pena incluir o caso em que uma amostra foi retirada de uma população distorcida e a outra não, pois era o que o OP achava que poderia estar acontecendo com seus dados. Mas é bom ver uma resposta com código explícito. (Uma ligeira generalização permitiria ao leitor investigar o quão bem os métodos robustos se comparam ao teste t tradicional, que é um exercício pedagógico útil se você estiver tentando ensinar a alguém os perigos de aplicar um teste cujas suposições foram violadas. .)
Silverfish
2

Na sua situação, o teste t provavelmente será robusto em termos de taxa de erro do tipo I, mas não da taxa de erro do tipo II. Você provavelmente obteria mais poder através de a) um teste de Kruskal-Wallis ou b) uma transformação de normalização antes de um teste t.

Estou baseando essa conclusão em dois estudos de Monte Carlo. No primeiro ( Khan e Rayner, 2003 ), a inclinação e a curtose foram manipuladas indiretamente através dos parâmetros da família de distribuição g-and-k, e o poder resultante foi examinado. É importante ressaltar que o poder do teste de Kruskal-Wallis foi menos danificado pela não normalidade, particularmente para n> = 15.

Algumas advertências / qualificações sobre este estudo: A energia costumava ser prejudicada pela alta curtose, mas era menos afetada pela inclinação. À primeira vista, esse padrão pode parecer menos relevante para a sua situação, uma vez que você observou um problema com inclinação, não com curtose. No entanto, aposto que o excesso de curtose também é extremo no seu caso. Lembre-se de que a curtose em excesso será pelo menos tão alta quanto a inclinação ^ 2 - 2. (Deixe a curtose em excesso igual ao quarto momento padronizado menos 3, para que a curtose em excesso = 0 para uma distribuição normal.) Observe também que Khan e Rayner ( 2003) examinaram ANOVAs com 3 grupos, mas é provável que seus resultados generalizem para um teste t de duas amostras.

Um segundo estudo relevante ( Beasley, Erikson & Allison, 2009) examinou os erros do tipo I e do tipo II com várias distribuições não normais, como um qui-quadrado (1) e Weibull (1, 0,5). Para tamanhos de amostra de pelo menos 25, o teste t controlou adequadamente a taxa de erro do tipo I no nível alfa nominal ou abaixo dele. No entanto, o poder foi maior com o teste de Kruskal-Wallis ou com a transformação Inverse Normal baseada em Rank (escores de Blom) aplicada antes do teste t. Beasley e colegas geralmente argumentaram contra a abordagem de normalização, mas deve-se notar que a abordagem de normalização controlava a taxa de erro Tipo I para n> = 25, e seu poder às vezes excedia levemente o do teste de Kruskal-Wallis. Ou seja, a abordagem de normalização parece promissora para a sua situação. Consulte as tabelas 1 e 4 em seu artigo para obter detalhes.

Referências:

Khan, A. e Rayner, GD (2003) . Robustez à não normalidade de testes comuns para o problema de localização de muitas amostras. Jornal de Matemática Aplicada e Ciências da Decisão, 7 , 187-206.

Beasley, TM, Erickson, S. e Allison, DB (2009) . As transformações normais inversas baseadas em classificação são cada vez mais usadas, mas são merecidas? Behavioral Genetics, 39 , 580-595.

Anthony
fonte
curtose (excesso)inclinar2-2é verdade para uma população; também é verdade para estimativas de uma amostra?
Silverfish
Parece uma pergunta digna de discussão. Talvez sua preocupação seja que a curtose excessiva seja enviesada para baixo em pequenas amostras? Obviamente, esse também foi o caso nos estudos de simulação acima, e a curtose ainda causou baixa potência no teste t nessas situações. Sua pergunta aponta para uma limitação mais geral da maioria dos estudos de Monte Carlo: as conclusões geralmente são baseadas nas características da população, características que o pesquisador aplicado não pode observar. Seria mais útil para ser capaz de prever poder relativo baseado em desvio de amostra, curtose, etc.
Anthony
Publiquei
Anthony
0

Antes de tudo, se você presumir que a distribuição das duas amostras é diferente, verifique se está usando a versão de Welch do teste t, que assume variações desiguais entre os grupos. Isso pelo menos tentará explicar algumas das diferenças que ocorrem devido à distribuição.

Se olharmos para a fórmula do teste t de Welch:

t=X¯1 1-X¯2sX¯1 1-X¯2

Onde sX¯1 1-X¯2 é

sX¯1 1-X¯2=s1 12n1 1+s22n2

podemos ver que toda vez que há um s sabemos que a variação está sendo levada em consideração. Vamos imaginar que as duas variações são de fato as mesmas, mas uma é distorcida, levando a uma estimativa de variação diferente. Se essa estimativa da variação não for realmente representativa dos seus dados devido à inclinação, o efeito de polarização será essencialmente a raiz quadrada da polarização dividida pelo número de pontos de dados usados ​​para calculá-los. Assim, o efeito de maus estimadores de variância é abafado um pouco pela raiz quadrada e um n mais alto, e é provavelmente por isso que o consenso é que ele permanece um teste robusto.

A outra questão das distribuições distorcidas é que o cálculo da média também será afetado, e é provavelmente aqui que estão os problemas reais das violações de suposições de teste, pois os meios são relativamente sensíveis à distorção. E a robustez do teste pode ser determinada aproximadamente pelo cálculo da diferença de médias, comparada à diferença de medianas (como uma ideia). Talvez você possa até tentar substituir a diferença de médias pela diferença de medianas no teste t como uma medida mais robusta (tenho certeza de que alguém discutiu isso, mas não consegui encontrar algo no google com rapidez suficiente para vincular).

Eu também sugeriria executar um teste de permutação se tudo que você está fazendo é um teste t. O teste de permutação é um teste exato, independente das premissas de distribuição. Mais importante ainda, os testes de permutação e o teste t levarão a resultados idênticos se as premissas do teste paramétrico forem atendidas . Portanto, a medida de robustez que você procura pode ser 1 - a diferença entre os valores p de permutação e teste-t, em que uma pontuação de 1 implica robustez perfeita e 0 não implica nenhuma robustez.

Mensen
fonte