Devemos abordar vários ajustes de comparações ao usar intervalos de confiança?

Suponha que tenhamos um cenário de múltiplas comparações, como inferência post hoc em estatísticas aos pares ou como uma regressão múltipla, na qual estamos fazendo um total de comparações. Suponha também que gostaríamos de apoiar a inferência nesses múltiplos usando intervalos de confiança. $m$

1. Aplicamos vários ajustes de comparação aos ICs? Ou seja, assim como várias comparações compelem uma redefinição de à taxa de erro familiar (FWER) ou à taxa de falsas descobertas (FDR), o significado de confiança (ou credibilidade ¹ , ou incerteza, ou previsão, ou inferencial ... escolha seu intervalo) seja similarmente alterado por várias comparações? Percebo que uma resposta negativa aqui discutirá minhas perguntas restantes. $\alpha$

2. Existem traduções diretas de procedimentos de ajuste de comparação múltipla, desde teste de hipóteses até estimativa de intervalo? Por exemplo, os ajustes se concentrariam na alteração do termo no intervalo de confiança: ? $\text{CI-level}$ $\text{CI}_{\theta} = (\hat{\theta} \pm t_{(1-\text{CI-level)/2}}\hat{\sigma}_{\theta})$

3. Como abordaríamos os procedimentos de controle de aumento ou redução de ICs? Alguns ajustes de taxa de erro familiar da abordagem de teste de hipóteses para inferência são 'estáticos', na medida em que exatamente o mesmo ajuste é feito para cada inferência separada. Por exemplo, o ajuste de Bonferroni é feito alterando o critério de rejeição de:

rejeite se para: $p\le \frac{\alpha}{2}$
rejeite se , $p\le \frac{\frac{\alpha}{2}}{m}$

mas o ajuste de reforço de Holm-Bonferroni não é "estático", mas sim feito por:

primeiro ordenando os valores de menor para o maior e, em seguida, $p$
rejeite se $p\le 1 - (1- \frac{\alpha}{2})^{\frac{1}{m+1-i}}$ (em $i$ indexa a ordem dos valores de $p$ ) até
falhamos em rejeitar uma hipótese nula e automaticamente rejeitamos todas as hipóteses nulas subsequentes.

Como a rejeição / falha na rejeição não está acontecendo com os ICs (mais formalmente, consulte as referências abaixo), isso significa que os procedimentos passo a passo não são traduzidos (ou seja, incluindo todos os métodos de FDR)? Eu devia ressalva aqui que estou não perguntar como traduzir CIs em testes de hipóteses (os representantes da literatura 'visual hipótese testing' citados abaixo chegar a essa pergunta não-trivial).

4. E quanto a qualquer outro intervalo que eu mencionei entre parênteses em 1?

¹ Puxa, espero que não tenha problemas com aqueles estilos Bayesianos doces usando a palavra aqui. :)

Referências
Afshartous, D. e Preston, R. (2010). Intervalos de confiança para dados dependentes: equiparar não sobreposição com significância estatística. Estatística Computacional e Análise de Dados , 54 (10): 2296-2305.

Cumming, G. (2009). Inferência pelo olho: lendo a sobreposição de intervalos de confiança independentes. Statistics In Medicine , 28 (2): 205-220.

Payton, ME, Greenstone, MH e Schenker, N. (2003). Intervalos de confiança sobrepostos ou intervalos de erro padrão: O que eles significam em termos de significância estatística? Journal of Insect Science , 3 (34): 1–6.

Tryon, WW e Lewis, C. (2008). Um método de intervalo de confiança inferencial para estabelecer equivalência estatística que corrige o fator de redução de Tryon (2001). Psychological Methods , 13 (3): 272–277.

confidence-interval multiple-comparisons inference Alexis
fonte

Não tenho tempo para pesquisar uma resposta completa agora, então responderei em um comentário.

Harvey Motulsky

[O último comentário foi truncado. [Não tenho tempo para pesquisar uma resposta completa agora, então responderei em um comentário. 1) Sim, faz sentido nas mesmas situações, pois faz sentido fazer comparações múltiplas para o teste de hipóteses. 2. As comparações múltiplas de Bonferroni, Tukey e Dunnet podem ser facilmente adaptadas para fazer intervalos de confiança nos quais o nível de confiança se aplica a toda a família. 3. Até onde eu sei, não há possibilidade de fazer intervalos de confiança a partir do método Holm. 4. Eu não tenho idéia!

precisa saber é o seguinte

p

$p$

α

$\alpha$

Respostas:

Um excelente tópico que, infelizmente, não recebe atenção suficiente.

Ao discutir vários parâmetros e intervalos de confiança, deve-se fazer uma distinção entre inferência simultânea e inferência seletiva . Ref. [2] dá uma excelente demonstração do assunto.

$1-\alpha$

Esses dois conceitos podem ser combinados: Digamos que você construa intervalos apenas em parâmetros para os quais você rejeitou a hipótese nula. Você está claramente lidando com inferência seletiva. Você pode garantir uma cobertura simultânea dos parâmetros selecionados ou uma cobertura marginal dos parâmetros selecionados. O primeiro seria a contrapartida do controle da FWER e a segunda do controle da FDR.

Agora, mais ao ponto: nem todos os procedimentos de teste têm seus intervalos de acompanhamento. Para procedimentos da FWER e os respectivos intervalos, consulte [3]. Infelizmente, essa referência está um pouco desatualizada. Para a contrapartida com intervalo do controle BH FDR, consulte [1] e uma aplicação em [4] (que também inclui uma breve revisão do assunto). Observe que este é um campo de pesquisa novo e ativo, para que você possa esperar mais resultados em um futuro próximo.

[1] Benjamini, Y. e D. Yekutieli. “Intervalos de confiança múltipla ajustados por taxa de descoberta falsa para parâmetros selecionados.” Jornal da Associação Estatística Americana 100, no. 469 (2005): 71-81.

[2] Cox, DR “Uma observação sobre métodos de comparação múltipla.” Technometrics 7, no. 2 (1965): 223-24.

[3] Hochberg, Y. e AC Tamhane. Procedimentos de comparação múltipla. Nova York, NY, EUA: John Wiley & Sons, Inc., 1987.

[4] Rosenblatt, JD e Y. Benjamini. Correlações seletivas; Não é vodu. ”NeuroImage 103 (dezembro de 2014): 401–10.

JohnRos
fonte

Eu nuncaajuste os intervalos de confiança para vários testes. Não sou muito fã de valores-p, porque acredito que estimar parâmetros é um melhor uso da estatística do que testar hipóteses que nunca são exatamente verdadeiras. No entanto, eu admito que o teste de hipóteses tem seu valor, digamos, um estudo controlado randomizado, no qual pelo menos alguém possa argumentar que assintoticamente, se um tratamento não funcionar, a hipótese nula é verdadeira. No entanto, como eu disse em outro lugar [1], geralmente isso envolve ter um resultado primário. No entanto, os intervalos de confiança, na definição freqüentista, não envolvem hipóteses e, portanto, não precisam de ajustes para outras comparações potencialmente irrelevantes. Suponha que eu estivesse testando fenótipos associados a um gene específico, como altura e pressão arterial. EU' gostaria de saber quão grande é a diferença de altura entre aqueles com e sem o gene, e quão bem eu o estimei. Não vejo que o fato de eu também medir a pressão arterial tenha algo a ver com isso. O que importa é que, se esses dois fossem os únicos significativos de centenas, testamos. Então é provável que as diferenças sejam, por acaso, maiores do que os experimentos contrafatuais esperados, onde apenas medimos altura e pressão arterial, mas fizemos centenas de experimentos. No entanto, nessas circunstâncias, nenhum ajuste simples funcionaria, e melhor fornecer a estimativa não ajustada, mas ficar claro como você conseguiu essas comparações. Também publicamos alguns resultados sobre intervalos de confiança sobrepostos. [2] Vejo que o fato de eu também medir a pressão arterial tem algo a ver com isso. O que importava é que, se esses dois fossem os únicos significativos de centenas, testamos. Então é provável que as diferenças sejam, por acaso, maiores do que os experimentos contrafatuais esperados, onde apenas medimos altura e pressão arterial, mas fizemos centenas de experimentos. No entanto, nessas circunstâncias, nenhum ajuste simples funcionaria, e melhor fornecer a estimativa não ajustada, mas ficar claro como você conseguiu essas comparações. Também publicamos alguns resultados sobre intervalos de confiança sobrepostos. [2] Vejo que o fato de eu também medir a pressão arterial tem algo a ver com isso. O que importava é que, se esses dois fossem os únicos significativos de centenas, testamos. Então é provável que as diferenças sejam, por acaso, maiores do que os experimentos contrafatuais esperados, onde apenas medimos altura e pressão arterial, mas fizemos centenas de experimentos. No entanto, nessas circunstâncias, nenhum ajuste simples funcionaria, e melhor fornecer a estimativa não ajustada, mas ficar claro como você conseguiu essas comparações. Também publicamos alguns resultados sobre intervalos de confiança sobrepostos. [2] maior do que os experimentos contrafactuais esperados, onde medimos apenas a altura e a pressão sanguínea, mas fizemos centenas de experimentos. No entanto, nessas circunstâncias, nenhum ajuste simples funcionaria, e melhor fornecer a estimativa não ajustada, mas ficar claro como você conseguiu essas comparações. Também publicamos alguns resultados sobre intervalos de confiança sobrepostos. [2] maior do que os experimentos contrafactuais esperados, onde medimos apenas a altura e a pressão sanguínea, mas fizemos centenas de experimentos. No entanto, nessas circunstâncias, nenhum ajuste simples funcionaria, e melhor fornecer a estimativa não ajustada, mas ficar claro como você conseguiu essas comparações. Também publicamos alguns resultados sobre intervalos de confiança sobrepostos. [2]

[1] Estatísticas de Campbell MJ e Swinscow TDV (2009) na Square One. 11a ed Oxford; BMJ Books Blackwell Publishing

[2] Julious SA, Campbell MJ, Walters SJ (2007) Prever onde estão os meios futuros com base nos resultados do julgamento atual. Contemporary Clinical Trials, 28, 352-357.

Mike Campbell
fonte

Obrigado pela resposta instigante, Mike. Benjamini, Hochberg e Yekutieli parecem argumentar que as comparações não são "irrelevantes", mas de fato simultâneas: "A cobertura simultânea também é necessária quando uma ação deve ser tomada com base no valor de todos os parâmetros. Assim, comparando os parâmetros primários entre dois é provável que os tratamentos em um ensaio clínico envolvam a inspeção de todos eles, sejam eles significativamente diferentes ou não. Essa é uma situação clara em que é necessária cobertura simultânea ". (Deixando de lado a questão da apresentação seletiva de apenas alguns ICs.)

Alexis

Aliás, dado que "eu não sou um grande fã de valores-p, porque acredito que estimar parâmetros é um uso melhor das estatísticas do que testar hipóteses que nunca são exatamente verdadeiras", você pode apreciar Por que os testes de hipóteses freqüentes se tornam tendenciosos para rejeitar o hipótese nula com amostras suficientemente grandes? . Felicidades.

Alexis

Embora eu concorde com você que os intervalos de confiança para os parâmetros são superiores aos valores de p para a maioria das formas de inferência, não tenho certeza se isso implica necessariamente que nenhuma correção para comparações múltiplas seja necessária com intervalos de confiança. A maioria dos intervalos de confiança é definida pelo uso de alfa, para especificar a cobertura. Mesmo divorciado da estrutura estrita de teste de hipóteses, parece-me (ingênuo, sem se preocupar em fazer simulações para verificar) que pode ser enganoso manter-se dogmaticamente na cobertura nominal (por exemplo, 95%, portanto, alfa = 0,05) quando comparações múltiplas são realizadas. envolvidos.

21716 Ryan Simmons

Mike Campbell disse que "os intervalos de confiança, na definição freqüentista, não envolvem hipóteses e, portanto, não precisam de ajustes para outras comparações potencialmente irrelevantes". Essa é uma afirmação estranha. Embora os ICs possam não refletir "testes de hipóteses" por si só, eles refletem testes estatísticos que têm uma certa taxa de erro (por exemplo, 0,05), e essa taxa de erro é inflada à medida que o número de testes aumenta - exatamente pela mesma matemática básica princípio que se aplica aos testes de hipótese nula. Não se escapa à questão de múltiplas comparações concentrando-se nos ICs, em vez dos valores-p.

Bonferroni 11/11