Como testar a hipótese de não haver diferenças de grupo?

39

Imagine que você tenha um estudo com dois grupos (por exemplo, homens e mulheres) observando uma variável dependente numérica (por exemplo, resultados de testes de inteligência) e tenha a hipótese de que não há diferenças entre os grupos.

Questão:

Qual é uma boa maneira de testar se não há diferenças de grupo?
Como você determinaria o tamanho da amostra necessário para testar adequadamente se não há diferenças de grupo?

Pensamentos iniciais:

Não seria suficiente fazer um teste t padrão porque uma falha na rejeição da hipótese nula não significa que o parâmetro de interesse seja igual ou próximo de zero; este é particularmente o caso de pequenas amostras.
Eu poderia examinar o intervalo de confiança de 95% e verificar se todos os valores estão dentro de um intervalo suficientemente pequeno; talvez mais ou menos 0,3 desvios padrão.

hypothesis-testing t-test equivalence tost Jeromy Anglim
fonte

o que você quer dizer com "isso pressupõe que a hipótese nula seja verdadeira"?

precisa saber é o seguinte

Se você deseja controlar a probabilidade de declarar incorretamente "há uma diferença", é necessário separar as duas hipóteses (eu já mencionei que amo essa frase: stats.stackexchange.com/questions/726/… ;))

Robin girard

@Robin o valor p de um teste de significância de hipótese nula é a probabilidade de ver dados tão ou mais extremos do que os observados assumindo que a hipótese nula é verdadeira; mas talvez eu pudesse formular melhor a afirmação acima.

precisa saber é o seguinte

@Robin eu modifiquei a questão para tentar fazer o meu ponto mais claro

Jeromy Anglim

20

Eu acho que você está perguntando sobre o teste de equivalência . Basicamente, você precisa decidir qual é a diferença aceitável para concluir ainda que os dois grupos são efetivamente equivalentes. Essa decisão define os limites do intervalo de confiança de 95% (ou outro) e os cálculos do tamanho da amostra são feitos com base nisso.

Há um livro inteiro sobre o assunto.

Um "equivalente" clínico muito comum dos testes de equivalência é um teste / julgamento de não inferioridade . Nesse caso, você "prefere" um grupo ao outro (um tratamento estabelecido) e projeta seu teste para mostrar que o novo tratamento não é inferior ao tratamento estabelecido em algum nível de evidência estatística.

Acho que preciso dar crédito a Harvey Motulsky pelo site GraphPad.com (em "Biblioteca" ).

Thylacoleo
fonte

16

Além da possibilidade já mencionada de algum tipo de teste de equivalência , dos quais a maioria deles, até onde eu sei, é roteada principalmente na boa e velha tradição freqüentista, existe a possibilidade de realizar testes que realmente fornecem uma quantificação de evidências. a favor de hipóteses nulas, nomeadamente testes bayesianos .

Uma implementação de um teste t bayesiano pode ser encontrada aqui: Wetzels, R., Raaijmakers, JGW, Jakab, E. & Wagenmakers, E.-J. (2009). Como quantificar o suporte a favor e contra a hipótese nula: Uma implementação flexível do WinBUGS de um teste t bayesiano padrão. Psychonomic Bulletin & Review, 16, 752-760.

Há também um tutorial sobre como fazer tudo isso no R:

http://www.ruudwetzels.com/index.php?src=SDtest

Uma alternativa (talvez uma abordagem mais moderna) de um teste t bayesiano é fornecida (com código) neste artigo por Kruschke:

Kruschke, JK (2013). A estimativa bayesiana substitui o teste t . Journal of Experimental Psychology: General , 142 (2), 573-603. doi: 10.1037 / a0029146

Todos os adereços para esta resposta (antes da adição de Kruschke) devem ser enviados ao meu colega David Kellen. Eu roubei a resposta dele dessa pergunta .

Henrik
fonte

Eu queria saber se alguém forneceria uma abordagem bayesiana. Excelente. Obrigado.

Jeromy Anglim

1

Pode valer a pena atualizar esta resposta para incluir uma referência ao incrível pacote BayesFactor para R.

crsh

13

Seguindo a resposta de Thylacoleo, fiz uma pequena pesquisa.

O pacote de equivalência em R tem a tost()função

Veja Robinson e Frose (2004) " Validação de modelo usando testes de equivalência " para obter mais informações.

Jeromy Anglim
fonte

Obrigado pelo link e o ponteiro para o equivalencepacote.

chl

8

Sei que existem alguns documentos que podem ser úteis para você:

Tryon, WW (2001). Avaliando diferença estatística, equivalência e indeterminação usando intervalos de confiança inferenciais: Um método alternativo integrado de realização de testes estatísticos de hipóteses nulas. Psychological Methods, 6, 371-386. ( PDF GRATUITO )

E uma correção:
Tryon, WW, & Lewis, C. (2008). Um método de intervalo de confiança inferencial para estabelecer equivalência estatística que corrige o fator de redução de Tryon (2001). Psychological Methods, 13, 272-278. ( PDF GRATUITO )

Além disso:

Seaman, MA e Serlin, RC (1998). E intervalos de confiança quivalence para comparações de dois grupos de meios . Psychological Methods, Vol. 3 (4), 403-411.

Henrik
fonte

Há toneladas de papéis e até livros sobre esse assunto.

Michael R. Chernick

7

Recentemente, pensei em uma maneira alternativa de "teste de equivalência" com base na distância entre as duas distribuições e não entre suas médias.

Existem alguns métodos que fornecem intervalos de confiança para a sobreposição de duas distribuições gaussianas: insira a descrição da imagem aqui

$O(P_1,P_2)$ $P_1$ $P_2$

1 - O (P_{1}, P_{2}) = T V (P_{1}, P_{2})

$1-O(P_1,P_2)= TV(P_1,P_2)$

T V (P_{1}, P_{2}) = sup_{A} | P_{1} (A) - P_{2} (A) |

$TV(P_1,P_2) = \sup_A \big|P_1(A) - P_2(A) \big|$

P_{1}

$P_1$

P_{2}

$P_2$

$O(P_1,P_2)>0.9$ $P_1$ $P_2$ $0.1$ $10\%$

$\mu_1$ $\mu_2$

$|\mu_1 - \mu_2|$ $TV(P_1,P_2)$

$\frac{|\mu_1-\mu_2|}{\sigma}$

Stéphane Laurent
fonte

Você tem algum recurso mostrando sobreposição sendo usado em alguns problemas reais? Isso parece incrivelmente promissor, mas não está claro para mim como a aplicaria em um problema real (onde suas conclusões são potencialmente várias etapas removidas de "essa distribuição é bem parecida com o X"), tornando um pouco difícil ver como isso 10% da TV se traduz em tamanho de impacto nas inferências).

Stumpy Joe Pete

1

@StumpyJoePete Eu escrevi algo com o mesmo espírito no meu blog: stla.github.io/stlapblog/posts/…

Stéphane Laurent

5

Nas ciências médicas, é preferível usar uma abordagem de intervalo de confiança em oposição a dois testes unilaterais (tost). Também recomendo representar graficamente as estimativas pontuais, os ICs e as margens de equivalência pré-determinadas para deixar as coisas muito claras.

Sua pergunta provavelmente seria abordada por essa abordagem.

As diretrizes do CONSORT para estudos de não inferioridade / equivalência são bastante úteis nesse sentido.

Veja Piaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ e CONSORT Group. Relato de ensaios randomizados de não inferioridade e equivalência: uma extensão da declaração CONSORT. JAMA. 8 de março de 2006; 295 (10): 1152-60. (Link para o texto completo.)

pmgjones
fonte

1

Eu não diria necessariamente que os intervalos de confiança são preferidos. De fato, os intervalos de confiança correspondem a testes de hipóteses. O TOST pode ser alcançado observando os intervalos de confiança obtidos pela interseção dos dois intervalos de confiança unilaterais que correspondem aos dois testes t unilaterais utilizados no procedimento.

Michael R. Chernick

4

Sim. Este é um teste de equivalência. Basicamente, você inverte a hipótese nula e alternativa e baseia o tamanho da amostra no poder para mostrar que a diferença dos meios está dentro da janela de equivalência. Blackwelder chamou de "Provando a hipótese nula". Isso geralmente é feito em ensaios clínicos farmacêuticos em que a equivalência de um medicamento genérico ao medicamento comercializado é testada ou um medicamento aprovado é comparado a uma nova formulação (geralmente chamada de bioequivalência). A versão unilateral é chamada de não inferioridade. Algumas vezes, um medicamento pode ser aprovado apenas mostrando que o novo medicamento não é inferior ao concorrente comercializado. Shao e Pigeot desenvolveram uma abordagem consistente de autoinicialização para a bioequivalência usando desenhos de crossover.

Michael R. Chernick
fonte

0

Diferenças de inicialização (por exemplo, a diferença entre as médias) entre os 2 grupos da amostra e verifique a significância estatística. Uma descrição mais detalhada dessa abordagem, embora em um contexto diferente, pode ser encontrada aqui http://www.automated-trading-system.com/a-different-application-of-the-bootstrap/

babelproofreader
fonte

1

Você está confundindo a falácia de aceitar a hipótese nula de nenhuma diferença e encontrando evidências de que duas quantidades são equivalentes .

Alexis

Como testar a hipótese de não haver diferenças de grupo?

Respostas: