Discordância entre valores-p e intervalos de confiança

Esta é uma pergunta sobre o teste t no SPSS.

Eu tenho dois grupos e quero testar se as duas médias são iguais. Estou usando o teste t com bootstrapping. No final, obtive um valor p <0,005, o que geralmente me levaria a rejeitar a hipótese nula de que as médias das duas populações são iguais, mas, no meu caso, o zero está dentro dos intervalos de confiança de auto-inicialização de 95% BCa, com base em 1000 amostras .

Ainda rejeito a hipótese de meios iguais?

confidence-interval t-test p-value spss Liza Vieira
fonte

Para esclarecer, você realizou um teste t de inicialização a partir do qual agora está comparando o valor de p e IC de 95% ou executou um teste t padrão (não de inicialização) para obter o valor de p e usou apenas a inicialização para o CI?

Rose Hartman

Respostas:

Advertência: Esta resposta assume que a pergunta é sobre a interpretação de valores-p e ICs com bootstrap. Uma comparação entre um valor p tradicional (não inicializado) e um IC inicializado seria um problema diferente.

Com um teste t tradicional (não inicializado), o IC de 95% e a posição do valor p em relação ao ponto de corte de 0,05 para significância sempre dirão a mesma coisa. Isso ocorre porque ambos são baseados nas mesmas informações: a distribuição t para seus graus de liberdade e o erro médio e padrão observado em sua amostra (ou diferença entre média e erro padrão, no caso de um t-amostra de duas amostras). teste). Se o seu IC não se sobrepuser a 0, seu valor-p será necessariamente <0,05 - a menos que, é claro, haja um erro no software ou um erro do usuário na implementação ou interpretação do teste.

Com um teste t de inicialização, o valor de IC ep é calculado diretamente a partir da distribuição empírica gerada pela inicialização: o valor de p é simplesmente o percentual de diferenças entre os grupos de inicialização é mais extremo que a diferença observada original; o IC95% é o 95% médio das diferenças entre os grupos iniciados. Não é impossível para o valor p e o IC discordarem sobre a significância em um teste de inicialização.

Você aceita ou rejeita a hipótese nula?

No contexto de um teste de inicialização, o valor p (em comparação com o IC) reflete mais diretamente o espírito do teste de hipótese, portanto, faz mais sentido confiar nesse valor para decidir se deve ou não rejeitar o nulo em o alfa desejado (geralmente 0,05). Portanto, no seu caso, onde o valor de p é menor que 0,05, mas o IC de 95% contém zero, recomendo rejeitar a hipótese nula .

Tudo isso pula as grandes idéias sobre o quão importante a "significância" realmente deve ser e se o teste de significância de hipóteses nula é ou não realmente útil para uma ferramenta. Resumidamente, eu sempre recomendo elogiar qualquer análise de teste de significância com estimativa de tamanhos de efeito (para um teste t de duas amostras, a melhor estimativa de tamanho de efeito provavelmente será o d de Cohen ), que pode fornecer algum contexto adicional para ajudar você a entender seus resultados.

Post útil relacionado: Qual é o significado de um intervalo de confiança obtido de reamostragens com bootstrap?

Rose Hartman
fonte

Essa é uma ótima resposta (+1), mas alguns conselhos sobre como o OP se aproxima, se ele aceita ou rejeita o Nulo, completariam a resposta para a pergunta final do OP.

Ashe

@ Ashe Obrigado! Você está certo que eu não resolvi a questão central de frente. Vou editar para melhorar isso.

Rose Hartman

"para um teste t de duas amostras, a melhor estimativa do tamanho do efeito provavelmente será o d de Cohen" Isso é específico para o bootstrap? Como eu pensaria em um teste t normal, o intervalo de confiança fornece as melhores informações sobre o tamanho do efeito na escala real em que você testou.

David Ernst

O d de Cohen é para qualquer diferença de dois grupos; iniciar ou não é irrelevante. Os ICs geralmente não são considerados estimativas do "tamanho do efeito", pois dependem do tamanho da amostra (por exemplo, en.wikipedia.org/wiki/… : "Diferente da estatística do teste t, o tamanho do efeito visa estimar um parâmetro populacional e não é afetado. pelo tamanho da amostra. ") Talvez você esteja se perguntando sobre estimativas de tamanho de efeito padronizadas versus não padronizadas? O tamanho do efeito não padronizado para dois grupos é apenas a diferença bruta entre médias.

Rose Hartman

Muito Obrigado! Sua explicação sobre o valor-p e o IC no contexto de um teste t com bootstrap foi muito útil. Como você sugere, eu determinei o d de Cohen, uma estatística muito útil para entender meus resultados.

Liza Vieira

Se o valor p da hipótese nula for menor que 0,05, o zero não deverá estar contido no intervalo de confiança em 0,05 do parâmetro que você supõe ser zero na hipótese nula. Isso é a mesma coisa. Portanto, há um erro ou você não testa a mesma hipótese.

EDIT , como as outras respostas e o comentário abaixo indicam corretamente, essa não é a história completa. No entanto, ainda acho que, se um teste indica que os grupos têm média diferente (p <0,005) e o outro não rejeita (p> 0,05), provavelmente os testes estão realmente verificando uma coisa diferente.

Embora teoricamente essa diferença possa ser devida a assintóticos (bootstraps são aproximações em amostras finitas, outros testes são aproximações baseadas em suposições de normalidade), essa diferença é surpreendentemente grande. Argumento que é assustadoramente grande e, sem descobrir o que está acontecendo com isso, você ainda não deve tirar conclusões. Também é exatamente isso que você está fazendo, postando a pergunta aqui. Talvez você possa compartilhar os números e tornar essa pergunta interessante um pouco mais concreta.

Gijs
fonte

Discordo. Um intervalo de confiança de inicialização pode não seguir os resultados de um teste t, pois é um tipo totalmente diferente de procedimento (nesse caso, com base na diferença de médias do grupo). Especialmente quando é feito o intervalo de confiança de inicialização auto-corrigido e corrigido, coisas como intervalos de confiança assimétricos em torno da estimativa original (ou seja, diferença de médias de grupo nesse caso) podem ocorrer.

IWS