Eu li que o teste t é "razoavelmente robusto" quando as distribuições das amostras saem da normalidade. Obviamente, é a distribuição amostral das diferenças que são importantes. Eu tenho dados para dois grupos. Um dos grupos é altamente inclinado na variável dependente. O tamanho da amostra é bastante pequeno para os dois grupos (n = 33 em um e 45 no outro). Devo assumir que, nessas condições, meus teste t será robusto a violações da suposição de normalidade?
t-test
assumptions
normality-assumption
robust
Archaeopteryx
fonte
fonte
Respostas:
Perguntas sobre robustez são muito difíceis de responder bem - porque as suposições podem ser violadas de várias maneiras e, em cada sentido, em diferentes graus. O trabalho de simulação pode apenas amostrar uma parcela muito pequena das possíveis violações.
Dado o estado da computação, acho que muitas vezes vale a pena executar os dois a paramétrico e um teste não paramétrico, se ambos estão disponíveis. Você pode comparar os resultados.
Se você é realmente ambicioso, pode até fazer um teste de permutação.
E se Alan Turing tivesse feito seu trabalho antes de Ronald Fisher? :-).
fonte
@PeterFlom acertou a unha com sua primeira frase.
Vou tentar dar um resumo aproximado dos estudos que eu vi (se você quiser links, pode demorar um pouco):
No geral, o teste t de duas amostras é razoavelmente robusto em termos de energia para uma não normalidade simétrica (a verdadeira taxa de erro tipo I é afetada de alguma forma pela curtose, o poder é impactado principalmente por isso).
Quando as duas amostras estão levemente inclinadas na mesma direção, o teste t unicaudal não é mais imparcial. A estatística t é inclinada de maneira oposta à distribuição e tem muito mais poder se o teste estiver em uma direção do que se estiver na outra. Se estiverem inclinados em direções opostas, a taxa de erro do tipo I poderá ser fortemente afetada.
A assimetria pesada pode ter impactos maiores, mas de modo geral, a assimetria moderada com uma bicaudal teste não é muito ruim se você não se importar com o teste, em essência, alocar mais de seu poder em uma direção que a outra.
Em resumo - o teste t bicaudal e duas amostras é razoavelmente robusto para esse tipo de coisa, se você puder tolerar algum impacto no nível de significância e algum leve viés.
Existem muitas, muitas maneiras de as distribuições não serem normais, porém, que não são cobertas por esses comentários.
fonte
O @PeterFlom já mencionou que os estudos de simulação nunca podem cobrir todos os cenários e possibilidades e, portanto, não podem levar a uma resposta definitiva. No entanto, ainda acho útil explorar um problema como esse realizando algumas simulações (esse também é exatamente o tipo de exercício que eu gosto de usar ao apresentar aos alunos a ideia dos estudos de simulação de Monte Carlo). Então, vamos realmente tentar isso. Vou usar R para isso.
O código
Explicação
Primeiro, definimos o tamanho do grupo (
n1
en2
), o verdadeiro grupo significa (mu1
emu2
) e os verdadeiros desvios padrão (sd1
esd2
).Em seguida, definimos o número de iterações a serem executadas e configuramos vetores para armazenar os valores-p.
Em seguida, simulo dados em cinco cenários:
Observe que estou usando distribuições qui-quadrado para gerar as distribuições inclinadas. Com um grau de liberdade, essas são distribuições fortemente distorcidas. Como a verdadeira média e variância de uma distribuição qui-quadrado com um grau de liberdade é igual a 1 e 2, respectivamente ( consulte a Wikipedia ), eu redimensiono essas distribuições para primeiro ter a média 0 e o desvio padrão 1 e depois redimensiono-as para obter o valor média verdadeira desejada e desvio padrão (isso pode ser feito em uma etapa, mas fazê-lo dessa maneira pode ser mais claro).
Em cada caso, aplico o teste t (versão de Welch - é claro que também se pode considerar a versão de Student que assume variações iguais nos dois grupos) e salva o valor-p nos vetores configurados anteriormente.
Finalmente, depois que todas as iterações estiverem completas, calculo para cada vetor com que frequência o valor-p é igual ou inferior a 0,05 (ou seja, o teste é "significativo"). Essa é a taxa de rejeição empírica.
Alguns Resultados
Simular exatamente como descrito acima produz:
Se mudarmos o código para
mu1 <- .5
, obtemos:Portanto, comparado ao caso em que ambas as distribuições são normais (como assumido pelo teste), a energia realmente parece ser um pouco maior quando a assimetria está na mesma direção! Se você se surpreender com isso, convém executar novamente algumas vezes (é claro, sempre obtendo resultados ligeiramente diferentes), mas o padrão permanecerá.
Observe que precisamos ter cuidado ao interpretar os valores de potência empírica nos dois cenários em que a assimetria está em direções opostas, pois a taxa de erro do tipo I não é bem nominal (como um caso extremo, suponha que eu sempre rejeite, independentemente do que os dados show; então sempre terei um teste com potência máxima, mas é claro que o teste também possui uma taxa de erro do tipo I bastante inflada).
Pode-se começar a explorar uma gama de valores para
mu1
(emu2
- mas o que realmente importa é a diferença entre os dois) e, mais importante, começar a mudar os verdadeiros desvios padrão dos dois grupos (ie,sd1
esd2
) e, especialmente, torná-los desiguais. Eu também fiquei com os tamanhos de amostra mencionados pelo OP, mas é claro que isso também poderia ser ajustado. E a distorção poderia, obviamente, assumir muitas outras formas além da que vemos em uma distribuição qui-quadrado com um grau de liberdade. Eu ainda acho que abordar as coisas dessa maneira é útil, apesar de não poder dar uma resposta definitiva.fonte
Na sua situação, o teste t provavelmente será robusto em termos de taxa de erro do tipo I, mas não da taxa de erro do tipo II. Você provavelmente obteria mais poder através de a) um teste de Kruskal-Wallis ou b) uma transformação de normalização antes de um teste t.
Estou baseando essa conclusão em dois estudos de Monte Carlo. No primeiro ( Khan e Rayner, 2003 ), a inclinação e a curtose foram manipuladas indiretamente através dos parâmetros da família de distribuição g-and-k, e o poder resultante foi examinado. É importante ressaltar que o poder do teste de Kruskal-Wallis foi menos danificado pela não normalidade, particularmente para n> = 15.
Algumas advertências / qualificações sobre este estudo: A energia costumava ser prejudicada pela alta curtose, mas era menos afetada pela inclinação. À primeira vista, esse padrão pode parecer menos relevante para a sua situação, uma vez que você observou um problema com inclinação, não com curtose. No entanto, aposto que o excesso de curtose também é extremo no seu caso. Lembre-se de que a curtose em excesso será pelo menos tão alta quanto a inclinação ^ 2 - 2. (Deixe a curtose em excesso igual ao quarto momento padronizado menos 3, para que a curtose em excesso = 0 para uma distribuição normal.) Observe também que Khan e Rayner ( 2003) examinaram ANOVAs com 3 grupos, mas é provável que seus resultados generalizem para um teste t de duas amostras.
Um segundo estudo relevante ( Beasley, Erikson & Allison, 2009) examinou os erros do tipo I e do tipo II com várias distribuições não normais, como um qui-quadrado (1) e Weibull (1, 0,5). Para tamanhos de amostra de pelo menos 25, o teste t controlou adequadamente a taxa de erro do tipo I no nível alfa nominal ou abaixo dele. No entanto, o poder foi maior com o teste de Kruskal-Wallis ou com a transformação Inverse Normal baseada em Rank (escores de Blom) aplicada antes do teste t. Beasley e colegas geralmente argumentaram contra a abordagem de normalização, mas deve-se notar que a abordagem de normalização controlava a taxa de erro Tipo I para n> = 25, e seu poder às vezes excedia levemente o do teste de Kruskal-Wallis. Ou seja, a abordagem de normalização parece promissora para a sua situação. Consulte as tabelas 1 e 4 em seu artigo para obter detalhes.
Referências:
Khan, A. e Rayner, GD (2003) . Robustez à não normalidade de testes comuns para o problema de localização de muitas amostras. Jornal de Matemática Aplicada e Ciências da Decisão, 7 , 187-206.
Beasley, TM, Erickson, S. e Allison, DB (2009) . As transformações normais inversas baseadas em classificação são cada vez mais usadas, mas são merecidas? Behavioral Genetics, 39 , 580-595.
fonte
Antes de tudo, se você presumir que a distribuição das duas amostras é diferente, verifique se está usando a versão de Welch do teste t, que assume variações desiguais entre os grupos. Isso pelo menos tentará explicar algumas das diferenças que ocorrem devido à distribuição.
Se olharmos para a fórmula do teste t de Welch:
OndesX¯¯¯¯¯1 1- X¯¯¯¯¯2 é
podemos ver que toda vez que há um s sabemos que a variação está sendo levada em consideração. Vamos imaginar que as duas variações são de fato as mesmas, mas uma é distorcida, levando a uma estimativa de variação diferente. Se essa estimativa da variação não for realmente representativa dos seus dados devido à inclinação, o efeito de polarização será essencialmente a raiz quadrada da polarização dividida pelo número de pontos de dados usados para calculá-los. Assim, o efeito de maus estimadores de variância é abafado um pouco pela raiz quadrada e um n mais alto, e é provavelmente por isso que o consenso é que ele permanece um teste robusto.
A outra questão das distribuições distorcidas é que o cálculo da média também será afetado, e é provavelmente aqui que estão os problemas reais das violações de suposições de teste, pois os meios são relativamente sensíveis à distorção. E a robustez do teste pode ser determinada aproximadamente pelo cálculo da diferença de médias, comparada à diferença de medianas (como uma ideia). Talvez você possa até tentar substituir a diferença de médias pela diferença de medianas no teste t como uma medida mais robusta (tenho certeza de que alguém discutiu isso, mas não consegui encontrar algo no google com rapidez suficiente para vincular).
Eu também sugeriria executar um teste de permutação se tudo que você está fazendo é um teste t. O teste de permutação é um teste exato, independente das premissas de distribuição. Mais importante ainda, os testes de permutação e o teste t levarão a resultados idênticos se as premissas do teste paramétrico forem atendidas . Portanto, a medida de robustez que você procura pode ser 1 - a diferença entre os valores p de permutação e teste-t, em que uma pontuação de 1 implica robustez perfeita e 0 não implica nenhuma robustez.
fonte