Eu tenho alguns dados que não posso necessariamente assumir que foram extraídos de distribuições normais e gostaria de realizar testes de equivalência entre grupos. Para dados normais, existem técnicas como TOST (dois testes t unilaterais). Existe algo análogo ao TOST para dados não normais?
hypothesis-testing
equivalence
tost
Ryan C. Thompson
fonte
fonte
Respostas:
A lógica do TOST empregada nas estatísticas de teste t e z do tipo Wald (por exemplo, e , respectivamente) pode ser aplicada às aproximações z para testes não paramétricos, como o sinal , testes de classificação e soma de testes. Por simplicidade, assumo que a equivalência seja expressa simetricamente com um único termo, mas estender minha resposta a termos de equivalência assimétrica é direto.θ/sθ θ/σθ
Um problema que surge ao fazer isso é que, se alguém está acostumado a expressar o termo de equivalência (digamos, ) nas mesmas unidades que , o termo de equivalência deve ser expresso em unidades do sinal específico, classificação assinada, ou estatística do rank soma, que é tanto hermético, e dependente em N .Δ θ
No entanto, também é possível expressar termos de equivalência TOST em unidades da própria estatística de teste. Considere que em TOST, se , então e . Se deixarmos , então e . (As estatísticas expressas aqui são avaliadas na cauda direita : e .) Usando unidades de zz=θ/σθ z1=(Δ−θ)/σθ z2=(θ+Δ)/σθ ε=Δ/σθ z1=ε−z z2=z+ε p 1 = P ( Z > z 1 ) p 2 = P (p1=P(Z>z1) p2=P(Z>z2) a distribuição para definir o limiar de equivalência / relevância pode ser preferível para testes não paramétricos, uma vez que a alternativa define o limiar em unidades de classificações assinadas ou somas de classificação, que podem ser substancialmente sem sentido para os pesquisadores e difíceis de interpretar.
Se reconhecermos que (para intervalos de equivalência simétricos) não é possível rejeitar nenhuma hipótese nula TOST quando , poderemos continuar a tomar decisões sobre o tamanho apropriado do termo de equivalência de acordo. Por exemplo .ε≤z1−α ε=z1−α+0.5
Essa abordagem foi implementada com opções para correção de continuidade etc. no pacote tost para Stata (que agora inclui implementações TOST específicas para os testes Shapiro-Wilk e Shapiro-Francia), que você pode acessar digitando Stata:Edit: Por que a lógica do TOST é sólida e as formações de teste de equivalência foram aplicadas a testes omnibus, fiquei convencido de que minha solução se baseava em um profundo mal-entendido das estatísticas aproximadas dos testes Shapiro-Wilk e Shapiro-Francia
fonte
Não é um TOST per se, mas o teste de Komolgorov-Smirnov permite testar a significância da diferença entre uma distribuição de amostra e uma segunda distribuição de referência que você pode especificar. Você pode usar esse teste para descartar um tipo específico de distribuição diferente, mas não distribuições diferentes em geral (pelo menos, não sem controlar a inflação de erros nos testes de todas as alternativas possíveis ... se isso for possível). A hipótese alternativa para qualquer teste continuará sendo a hipótese menos específica, como de costume.
Se você pode se contentar com um teste de diferenças distributivas entre dois grupos em que a hipótese nula é de que os dois grupos são distribuídos equivalentemente, você pode usar o teste de Komolgorov-Smirnov para comparar a distribuição de um grupo com a do outro grupo. Essa é provavelmente a abordagem convencional: ignore as diferenças se elas não forem estatisticamente significativas e justifique essa decisão com uma estatística de teste.
De qualquer forma, convém considerar alguns problemas mais profundos decorrentes da abordagem "tudo ou nada" para rejeitar uma hipótese nula. Um desses problemas é muito popular aqui no Cross Validated: " O teste de normalidade é 'essencialmente inútil'? " As pessoas gostam de responder a perguntas de teste de normalidade com uma pergunta: "Por que você deseja testar isso?" A intenção, presumo, é geralmente invalidar o motivo do teste, que pode levar à direção certa. A essência das respostas úteis para a pergunta que vinculei aqui parece ser a seguinte:
Se você ainda deseja realizar um teste de equivalência, aqui está outra discussão popular sobre o Validado Cruzado que envolve o teste de equivalência.
fonte
fail to
/reject
abordagem estar bem estabelecido, a maioria das amostras não pode excluir completamente a possibilidade de que o nulo seja verdadeiro. Quase sempre há alguma chance de erro de falsa rejeição se alguém insistir na rejeição, o que geralmente não é literalmente necessário. Esse foi provavelmente o ponto mais importante que pretendi fazer originalmente. Esperemos que ele é um pouco mais claro agora, sem o material apagadoEquivalência nunca é algo que possamos testar . Pense na hipótese: vs . A teoria do NHST nos diz que, sob o nulo, podemos escolher qualquer coisa em que melhor se ajuste aos dados. Isso significa que quase sempre podemos chegar arbitrariamente perto da distribuição. Por exemplo, se eu quiser testar , o modelo de probabilidade que permite distribuições separadas de e sempre será mais provável em nulo, uma violação de suposições críticas de teste. Mesmo se a amostraH 1 : f x = f y H 0 f x ~ N (0,1) f X f Y X=Y f y ≈ f xH0:fx≠fy H1:fx=fy H0 fx∼N(0,1) f^x f^y X=Y identicamente, posso obter uma taxa de probabilidade arbitrariamente próxima de 1 com .fy≈fx
Se você conhece um modelo de probabilidade adequado para os dados, pode usar um critério de informações penalizadas para classificar modelos alternativos. Uma maneira é usar os BICs dos dois modelos de probabilidade (o estimado em e . Eu usei um modelo de probabilidade normal, mas você pode facilmente obter um BIC de qualquer tipo do procedimento de máxima verossimilhança, manualmente ou usando o GLM.Este post do Stackoverflow recebe detalhes básicos para distribuições apropriadas.Um exemplo de como fazer isso é o seguinte:H 1H0 H1
dá
Por outro lado, se tomarmos:
Dá:
Como no NHST, existem questões sutis de poder e taxas de erro falso positivo que devem ser exploradas com simulação antes de se tirar conclusões definitivas.
Penso que um método semelhante (talvez mais geral) está usando estatísticas bayesianas para comparar a estimativa posterior em qualquer modelo de probabilidade.
fonte