Como testar a hipótese de não haver diferenças de grupo?

39

Imagine que você tenha um estudo com dois grupos (por exemplo, homens e mulheres) observando uma variável dependente numérica (por exemplo, resultados de testes de inteligência) e tenha a hipótese de que não há diferenças entre os grupos.

Questão:

  • Qual é uma boa maneira de testar se não há diferenças de grupo?
  • Como você determinaria o tamanho da amostra necessário para testar adequadamente se não há diferenças de grupo?

Pensamentos iniciais:

  • Não seria suficiente fazer um teste t padrão porque uma falha na rejeição da hipótese nula não significa que o parâmetro de interesse seja igual ou próximo de zero; este é particularmente o caso de pequenas amostras.
  • Eu poderia examinar o intervalo de confiança de 95% e verificar se todos os valores estão dentro de um intervalo suficientemente pequeno; talvez mais ou menos 0,3 desvios padrão.
Jeromy Anglim
fonte
o que você quer dizer com "isso pressupõe que a hipótese nula seja verdadeira"?
precisa saber é o seguinte
Se você deseja controlar a probabilidade de declarar incorretamente "há uma diferença", é necessário separar as duas hipóteses (eu já mencionei que amo essa frase: stats.stackexchange.com/questions/726/… ;))
Robin girard
@Robin o valor p de um teste de significância de hipótese nula é a probabilidade de ver dados tão ou mais extremos do que os observados assumindo que a hipótese nula é verdadeira; mas talvez eu pudesse formular melhor a afirmação acima.
precisa saber é o seguinte
@Robin eu modifiquei a questão para tentar fazer o meu ponto mais claro
Jeromy Anglim

Respostas:

20

Eu acho que você está perguntando sobre o teste de equivalência . Basicamente, você precisa decidir qual é a diferença aceitável para concluir ainda que os dois grupos são efetivamente equivalentes. Essa decisão define os limites do intervalo de confiança de 95% (ou outro) e os cálculos do tamanho da amostra são feitos com base nisso.

Há um livro inteiro sobre o assunto.

Um "equivalente" clínico muito comum dos testes de equivalência é um teste / julgamento de não inferioridade . Nesse caso, você "prefere" um grupo ao outro (um tratamento estabelecido) e projeta seu teste para mostrar que o novo tratamento não é inferior ao tratamento estabelecido em algum nível de evidência estatística.

Acho que preciso dar crédito a Harvey Motulsky pelo site GraphPad.com (em "Biblioteca" ).

Thylacoleo
fonte
16

Além da possibilidade já mencionada de algum tipo de teste de equivalência , dos quais a maioria deles, até onde eu sei, é roteada principalmente na boa e velha tradição freqüentista, existe a possibilidade de realizar testes que realmente fornecem uma quantificação de evidências. a favor de hipóteses nulas, nomeadamente testes bayesianos .

Uma implementação de um teste t bayesiano pode ser encontrada aqui: Wetzels, R., Raaijmakers, JGW, Jakab, E. & Wagenmakers, E.-J. (2009). Como quantificar o suporte a favor e contra a hipótese nula: Uma implementação flexível do WinBUGS de um teste t bayesiano padrão. Psychonomic Bulletin & Review, 16, 752-760.

Há também um tutorial sobre como fazer tudo isso no R:

http://www.ruudwetzels.com/index.php?src=SDtest


Uma alternativa (talvez uma abordagem mais moderna) de um teste t bayesiano é fornecida (com código) neste artigo por Kruschke:

Kruschke, JK (2013). A estimativa bayesiana substitui o teste t . Journal of Experimental Psychology: General , 142 (2), 573-603. doi: 10.1037 / a0029146


Todos os adereços para esta resposta (antes da adição de Kruschke) devem ser enviados ao meu colega David Kellen. Eu roubei a resposta dele dessa pergunta .

Henrik
fonte
Eu queria saber se alguém forneceria uma abordagem bayesiana. Excelente. Obrigado.
Jeromy Anglim
1
Pode valer a pena atualizar esta resposta para incluir uma referência ao incrível pacote BayesFactor para R.
crsh
8

Sei que existem alguns documentos que podem ser úteis para você:

Tryon, WW (2001). Avaliando diferença estatística, equivalência e indeterminação usando intervalos de confiança inferenciais: Um método alternativo integrado de realização de testes estatísticos de hipóteses nulas. Psychological Methods, 6, 371-386. ( PDF GRATUITO )

E uma correção:
Tryon, WW, & Lewis, C. (2008). Um método de intervalo de confiança inferencial para estabelecer equivalência estatística que corrige o fator de redução de Tryon (2001). Psychological Methods, 13, 272-278. ( PDF GRATUITO )

Além disso:

Seaman, MA e Serlin, RC (1998). E intervalos de confiança quivalence para comparações de dois grupos de meios . Psychological Methods, Vol. 3 (4), 403-411.

Henrik
fonte
Há toneladas de papéis e até livros sobre esse assunto.
Michael R. Chernick
7

Recentemente, pensei em uma maneira alternativa de "teste de equivalência" com base na distância entre as duas distribuições e não entre suas médias.

Existem alguns métodos que fornecem intervalos de confiança para a sobreposição de duas distribuições gaussianas:insira a descrição da imagem aqui

O(P1,P2)P1P2

1O(P1,P2)=TV(P1,P2)
TV(P1,P2)=supA|P1(A)P2(A)|P1P2

O(P1,P2)>0.9P1P20.110%

μ1μ2

|μ1μ2|TV(P1,P2)

|μ1μ2|σ

Stéphane Laurent
fonte
Você tem algum recurso mostrando sobreposição sendo usado em alguns problemas reais? Isso parece incrivelmente promissor, mas não está claro para mim como a aplicaria em um problema real (onde suas conclusões são potencialmente várias etapas removidas de "essa distribuição é bem parecida com o X"), tornando um pouco difícil ver como isso 10% da TV se traduz em tamanho de impacto nas inferências).
Stumpy Joe Pete
1
@StumpyJoePete Eu escrevi algo com o mesmo espírito no meu blog: stla.github.io/stlapblog/posts/…
Stéphane Laurent
5

Nas ciências médicas, é preferível usar uma abordagem de intervalo de confiança em oposição a dois testes unilaterais (tost). Também recomendo representar graficamente as estimativas pontuais, os ICs e as margens de equivalência pré-determinadas para deixar as coisas muito claras.

Sua pergunta provavelmente seria abordada por essa abordagem.

As diretrizes do CONSORT para estudos de não inferioridade / equivalência são bastante úteis nesse sentido.

Veja Piaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ e CONSORT Group. Relato de ensaios randomizados de não inferioridade e equivalência: uma extensão da declaração CONSORT. JAMA. 8 de março de 2006; 295 (10): 1152-60. (Link para o texto completo.)

pmgjones
fonte
1
Eu não diria necessariamente que os intervalos de confiança são preferidos. De fato, os intervalos de confiança correspondem a testes de hipóteses. O TOST pode ser alcançado observando os intervalos de confiança obtidos pela interseção dos dois intervalos de confiança unilaterais que correspondem aos dois testes t unilaterais utilizados no procedimento.
Michael R. Chernick
4

Sim. Este é um teste de equivalência. Basicamente, você inverte a hipótese nula e alternativa e baseia o tamanho da amostra no poder para mostrar que a diferença dos meios está dentro da janela de equivalência. Blackwelder chamou de "Provando a hipótese nula". Isso geralmente é feito em ensaios clínicos farmacêuticos em que a equivalência de um medicamento genérico ao medicamento comercializado é testada ou um medicamento aprovado é comparado a uma nova formulação (geralmente chamada de bioequivalência). A versão unilateral é chamada de não inferioridade. Algumas vezes, um medicamento pode ser aprovado apenas mostrando que o novo medicamento não é inferior ao concorrente comercializado. Shao e Pigeot desenvolveram uma abordagem consistente de autoinicialização para a bioequivalência usando desenhos de crossover.

Michael R. Chernick
fonte
0

Diferenças de inicialização (por exemplo, a diferença entre as médias) entre os 2 grupos da amostra e verifique a significância estatística. Uma descrição mais detalhada dessa abordagem, embora em um contexto diferente, pode ser encontrada aqui http://www.automated-trading-system.com/a-different-application-of-the-bootstrap/

babelproofreader
fonte
1
Você está confundindo a falácia de aceitar a hipótese nula de nenhuma diferença e encontrando evidências de que duas quantidades são equivalentes .
Alexis