Testes de equivalência para dados não normais?

9

Eu tenho alguns dados que não posso necessariamente assumir que foram extraídos de distribuições normais e gostaria de realizar testes de equivalência entre grupos. Para dados normais, existem técnicas como TOST (dois testes t unilaterais). Existe algo análogo ao TOST para dados não normais?

Ryan C. Thompson
fonte
11
Não estou familiarizado com o TOST, mas você está procurando o Mann-Whitney? Este é um teste não paramétrico (no sentido de que não são feitas suposições sobre as distribuições) que pode fornecer evidências de que dois grupos vêm de distribuições diferentes.
precisa saber é o seguinte
11
Estou procurando um teste em que a hipótese nula é a de que há uma diferença, e a hipótese alternativa é a de que não há (quase) nenhuma diferença.
Ryan C. Thompson
Para amostras pequenas, consulte as respostas em stats.stackexchange.com/questions/49782/… . Para amostras maiores, a abordagem clássica com testes t é boa, graças ao Teorema do Limite Central.
Michael M
3
Nada na frase "Dois testes unilaterais" - nem a lógica subjacente implica na teoria normal. Deveria ser perfeitamente possível adaptá-lo a uma alternativa de mudança de local com uma distribuição não normal. Mas cuidado: em muitos casos, com dados não normais, o que você realmente deseja é um tipo de teste de equivalência de mudança de escala e, com outros tipos de dados, algo mais. Saber o que é realmente necessário depende do que você está medindo e do problema que está resolvendo. Em vez de tentar espremer seu pino em um buraco redondo, vale a pena examiná-lo.
Glen_b -Reinstala Monica

Respostas:

8

A lógica do TOST empregada nas estatísticas de teste t e z do tipo Wald (por exemplo, e , respectivamente) pode ser aplicada às aproximações z para testes não paramétricos, como o sinal , testes de classificação e soma de testes. Por simplicidade, assumo que a equivalência seja expressa simetricamente com um único termo, mas estender minha resposta a termos de equivalência assimétrica é direto.θ/sθθ/σθ

Um problema que surge ao fazer isso é que, se alguém está acostumado a expressar o termo de equivalência (digamos, ) nas mesmas unidades que , o termo de equivalência deve ser expresso em unidades do sinal específico, classificação assinada, ou estatística do rank soma, que é tanto hermético, e dependente em N .Δθ

No entanto, também é possível expressar termos de equivalência TOST em unidades da própria estatística de teste. Considere que em TOST, se , então e . Se deixarmos , então e . (As estatísticas expressas aqui são avaliadas na cauda direita : e .) Usando unidades de zz=θ/σθz1=(Δθ)/σθz2=(θ+Δ)/σθε=Δ/σθz1=εzz2=z+εp 1 = P ( Z > z 1 ) p 2 = P (p1=P(Z>z1)p2=P(Z>z2) a distribuição para definir o limiar de equivalência / relevância pode ser preferível para testes não paramétricos, uma vez que a alternativa define o limiar em unidades de classificações assinadas ou somas de classificação, que podem ser substancialmente sem sentido para os pesquisadores e difíceis de interpretar.

Se reconhecermos que (para intervalos de equivalência simétricos) não é possível rejeitar nenhuma hipótese nula TOST quando , poderemos continuar a tomar decisões sobre o tamanho apropriado do termo de equivalência de acordo. Por exemplo .εz1αε=z1α+0.5

Essa abordagem foi implementada com opções para correção de continuidade etc. no pacote tost para Stata (que agora inclui implementações TOST específicas para os testes Shapiro-Wilk e Shapiro-Francia), que você pode acessar digitando Stata:

Edit: Por que a lógica do TOST é sólida e as formações de teste de equivalência foram aplicadas a testes omnibus, fiquei convencido de que minha solução se baseava em um profundo mal-entendido das estatísticas aproximadas dos testes Shapiro-Wilk e Shapiro-Francia

Alexis
fonte
3

Não é um TOST per se, mas o teste de Komolgorov-Smirnov permite testar a significância da diferença entre uma distribuição de amostra e uma segunda distribuição de referência que você pode especificar. Você pode usar esse teste para descartar um tipo específico de distribuição diferente, mas não distribuições diferentes em geral (pelo menos, não sem controlar a inflação de erros nos testes de todas as alternativas possíveis ... se isso for possível). A hipótese alternativa para qualquer teste continuará sendo a hipótese menos específica, como de costume.

Se você pode se contentar com um teste de diferenças distributivas entre dois grupos em que a hipótese nula é de que os dois grupos são distribuídos equivalentemente, você pode usar o teste de Komolgorov-Smirnov para comparar a distribuição de um grupo com a do outro grupo. Essa é provavelmente a abordagem convencional: ignore as diferenças se elas não forem estatisticamente significativas e justifique essa decisão com uma estatística de teste.

De qualquer forma, convém considerar alguns problemas mais profundos decorrentes da abordagem "tudo ou nada" para rejeitar uma hipótese nula. Um desses problemas é muito popular aqui no Cross Validated: " O teste de normalidade é 'essencialmente inútil'? " As pessoas gostam de responder a perguntas de teste de normalidade com uma pergunta: "Por que você deseja testar isso?" A intenção, presumo, é geralmente invalidar o motivo do teste, que pode levar à direção certa. A essência das respostas úteis para a pergunta que vinculei aqui parece ser a seguinte:

  1. Se você estiver preocupado com violações de suposições de testes paramétricos, encontre um teste não paramétrico que não faça suposições distributivas. Não teste se você precisa usar o teste não paramétrico; apenas use-o!
  2. Você deve substituir a pergunta "Minha distribuição é significativamente não normal?" com "Quão não normal é minha distribuição e como isso afeta minhas análises de interesse?" Por exemplo, testes relacionados à tendência central (especialmente envolvendo meios) podem ser mais sensíveis à assimetria do que à curtose e vice-versa para testes relacionados à (co) variância. No entanto, existem alternativas robustas para a maioria dos propósitos analíticos que não são muito sensíveis a nenhum tipo de não normalidade.

Se você ainda deseja realizar um teste de equivalência, aqui está outra discussão popular sobre o Validado Cruzado que envolve o teste de equivalência.

Nick Stauner
fonte
11
O teste de equivalência está bem estabelecido e você não entende suas hipóteses nulas, que geralmente têm a forma H . Essa é uma hipótese de intervalo que pode ser traduzida, por exemplo, em dois testes unilaterais (TOST): H ou H . Se alguém rejeitar H e H , deverá concluir que , ou seja, seus grupos são equivalentes dentro do intervalo . 0:|θθ0|Δ01:θθ0Δ01:θθ0Δ0102Δ<θθ0<Δ[Δ,Δ]
Alexis24
Justo; Eu provavelmente fui um pouco enganador. Eu removi as partes às quais você parece se opor. No entanto, acho que você escreveu seu comentário com muita força. Apesar do dicotômico forçado fail to/ rejectabordagem estar bem estabelecido, a maioria das amostras não pode excluir completamente a possibilidade de que o nulo seja verdadeiro. Quase sempre há alguma chance de erro de falsa rejeição se alguém insistir na rejeição, o que geralmente não é literalmente necessário. Esse foi provavelmente o ponto mais importante que pretendi fazer originalmente. Esperemos que ele é um pouco mais claro agora, sem o material apagado
Nick Stauner
2
Bem, na minha opinião, a força dos testes de equivalência (por exemplo, H ) vem da combinação deles com os testes familiares de diferença (por exemplo, H ). Confira: (1) Rejeite H e não rejeite H , conclua a diferença relevante ; (2) Não Rejeite H e Rejeite H , conclua a equivalência (para ); (3) Rejeite H e Rejeite H , conclua a diferença trivial (isto é, está lá, mas você não se importa); e (4) Não rejeitar H e não rejeitar H+ 0 + 0 - 0 + 0 - 0 Δ + 0 - 0 + 0 - 000+0+00+0Δ0+00+0, conclua indeterminação _ / _ testes de baixa potência . Coloca poder útil na análise.
Alexis24 /
Obviamente, questões de sensibilidade e especificidade, PPV e NPV não desaparecem.
Alexis24
-1

Equivalência nunca é algo que possamos testar . Pense na hipótese: vs . A teoria do NHST nos diz que, sob o nulo, podemos escolher qualquer coisa em que melhor se ajuste aos dados. Isso significa que quase sempre podemos chegar arbitrariamente perto da distribuição. Por exemplo, se eu quiser testar , o modelo de probabilidade que permite distribuições separadas de e sempre será mais provável em nulo, uma violação de suposições críticas de teste. Mesmo se a amostraH 1 : f x = f y H 0 f x ~ N (0,1) f X f Y X=Y f y f xH0:fxfyH1:fx=fyH0fxN(0,1)f^xf^yX=Yidenticamente, posso obter uma taxa de probabilidade arbitrariamente próxima de 1 com .fyfx

Se você conhece um modelo de probabilidade adequado para os dados, pode usar um critério de informações penalizadas para classificar modelos alternativos. Uma maneira é usar os BICs dos dois modelos de probabilidade (o estimado em e . Eu usei um modelo de probabilidade normal, mas você pode facilmente obter um BIC de qualquer tipo do procedimento de máxima verossimilhança, manualmente ou usando o GLM.Este post do Stackoverflow recebe detalhes básicos para distribuições apropriadas.Um exemplo de como fazer isso é o seguinte:H 1H0H1

set.seed(123)
p <- replicate(1000, { ## generate data under the null
  x <- rnorm(100)
  g <- sample(0:1, 100, replace=T)
  BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)

> mean(p)
[1] 0.034

p aqui é a proporção de vezes que o BIC do modelo nulo (modelos separados) é melhor (menor) que o modelo alternativo (modelo equivalente). Isso é notavelmente próximo do nível nominal de 0,05 dos testes estatísticos.

Por outro lado, se tomarmos:

set.seed(123)
p <- replicate(1000, { ## generate data under the null
  x <- rnorm(100)
  g <- sample(0:1, 100, replace=T)
  x <- x + 0.4*g
  BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)

Dá:

> mean(p)
[1] 0.437

Como no NHST, existem questões sutis de poder e taxas de erro falso positivo que devem ser exploradas com simulação antes de se tirar conclusões definitivas.

Penso que um método semelhante (talvez mais geral) está usando estatísticas bayesianas para comparar a estimativa posterior em qualquer modelo de probabilidade.

AdamO
fonte
2
AdamO, você parece estar conflitando "testando igualdade" com "testando equivalência". Há décadas e literatura sólida nos métodos e na aplicação destes últimos.
Alexis3
11
Ver, por exemplo, Wellek, S. (2010). Testando hipóteses estatísticas de equivalência e não inferioridade . Chapman e Hall / CRC Press, segunda edição.
Alexis3
@Alexis hmm, infelizmente não temos acesso a uma biblioteca. Você está dizendo que equivalência é a mesma não inferioridade, na medida em que as estimativas dentro de uma margem são consideradas equivalentes?
Adamo
11
Não é bem assim: a não inferioridade é um teste unilateral para determinar se um novo tratamento tem desempenho pior do que algum padrão menos uma menor diferença relevante especificada a priori . Testes de equivalência são testes da hipótese nula de que duas (ou mais) quantidades são diferentes - em qualquer direção - por mais do que a menor diferença relevante especificada a priori . Alguns documentos seminais:
Alexis
Schuirmann, DA (1987). Uma comparação do procedimento de dois testes unilaterais e a abordagem de poder para avaliar a equivalência da biodisponibilidade média . Journal of Pharmacokinetics and Biopharmaceutics , 15 (6): 657–680.
Alexis4