regressão múltipla e comparações múltiplas

10

Digamos que eu ajuste uma regressão múltipla de p variáveis ​​explicativas. O teste t me permitirá verificar se algum deles é significativo ( ). Eu posso fazer um teste F parcial para verificar se algum subconjunto deles é significativo ( ).H 0 : β i = β j = . . . = β k = 0H0:βi=0H0:βi=βj=...=βk=0

O que vejo frequentemente é que alguém obtém 5 valores de p em 5 testes t (assumindo que eles tinham 5 covariáveis) e mantém apenas aqueles com um valor de p <0,05. Isso parece um pouco incorreto, pois realmente deve haver uma comparação múltipla, não? É realmente justo dizer que algo como e são significativos, mas , e não são?β 2 β 3 β 4 β 5β1β2β3β4β5

Em uma nota relacionada, digamos que eu execute 2 regressões em 2 modelos separados (resultado diferente). Precisa haver uma verificação de comparação múltipla para parâmetros significativos entre os dois resultados?

Edit: Para diferenciar da pergunta similar, existe alguma outra interpretação para os valores p além de: "B_i é (in) significativo, ao se ajustar para todas as outras covariáveis"? Não parece que essa interpretação me permita olhar para todos os B_i e largar aqueles abaixo de 0,5 (o que é semelhante ao outro post).

Parece-me que uma maneira certa de testar se B_i e Y têm um relacionamento a seria obter um valor de p do coeficiente de correlação para cada covariável e depois fazer um multcomp (embora isso definitivamente perca o sinal).

Finalmente, digamos que calculei a correlação entre B1 / Y1, B2 / Y1 e B3 / Y1 (portanto, três valores de p). Sem relação, também fiz uma correlação entre T1 / Y2, T2 / Y2, T3 / Y2. Estou assumindo que o ajuste correto de Bonferroni seria 6 para todos os 6 testes juntos (em vez de 3 para o primeiro grupo e 3 para o segundo grupo - e, portanto, obtendo 2 valores p "semi-ajustados").

user1357015
fonte
11
Parece uma duplicata de (esta pergunta) [ stats.stackexchange.com/questions/3200/… se não estiver, por favor, diga por que não.
Peter Flom - Restabelece Monica
Oi, é semelhante, mas não exatamente o mesmo. Talvez uma pergunta melhor seria: quando se obtém a lista de valores-p, a única interpretação possível é a seguinte: "Controlando para todos os outros parâmetros, essa variável está em / significativa". Como você olharia para todos eles.
User1357015
Se você deseja editar sua pergunta, tudo bem, mas provavelmente é melhor fazê-lo na própria pergunta, para que as pessoas a vejam primeiro. Mas não estou processando o que significa "como você pareceria pensar em todos eles".
Peter Flom - Restabelece Monica

Respostas:

10

Você está certo. O problema de múltiplas comparações existe em toda parte, mas, devido à maneira como é tipicamente ensinado, as pessoas pensam apenas que se trata de comparar muitos grupos entre si por meio de vários testes . Na realidade, existem muitos exemplos em que o problema das comparações múltiplas existe, mas onde não se parece com muitas comparações aos pares; por exemplo, se você tiver muitas variáveis ​​contínuas e se perguntar se há alguma correlação, você terá um problema de múltiplas comparações (veja aqui: Veja e você encontrará uma correlação ). t

Outro exemplo é o que você cria. Se você executasse uma regressão múltipla com 20 variáveis ​​e usasse como limite, esperaria que uma de suas variáveis ​​fosse 'significativa' apenas por acaso, mesmo se todos os nulos fossem verdadeiros. O problema de múltiplas comparações simplesmente vem da matemática de executar muitas análises. Se todas as hipóteses nulas fossem verdadeiras e as variáveis ​​fossem perfeitamente não correlacionadas, a probabilidade de não rejeitar falsamente nenhuma nula verdadeira seria (por exemplo, com , é ). α=.051 - ( 1 - α ) p p = 5 0,231(1α)pp=5.23

A primeira estratégia para mitigar isso é realizar um teste simultâneo do seu modelo. Se você estiver ajustando uma regressão OLS, a maioria dos softwares fornecerá um teste global como parte padrão de sua saída. Se você estiver executando um modelo linear generalizado, a maioria dos softwares fornecerá um teste análogo de razão de verossimilhança global. Este teste fornecerá alguma proteção contra a inflação de erros do tipo I devido ao problema de múltiplas comparações (cf., minha resposta aqui: Significância dos coeficientes na regressão linear: teste t significativo versus estatística F não significativa ). Um caso semelhante é quando você tem uma variável categórica que é representada por vários códigos fictícios; você não gostaria de interpretar aquelesFtt, mas eliminaria todos os códigos fictícios e executaria um teste de modelo aninhado.

Outra estratégia possível é usar um procedimento de ajuste alfa, como a correção de Bonferroni. Você deve perceber que isso reduzirá sua energia e também a taxa de erro tipo I da família. Se essa troca vale a pena é uma decisão que você deve fazer. (FWIW, normalmente não uso correções alfa em regressão múltipla.)

Em relação à questão de usar valores- para fazer a seleção de modelos, acho que essa é uma péssima idéia. Eu não mudaria de um modelo com 5 variáveis ​​para um com apenas 2 porque os outros eram 'não significativos'. Quando as pessoas fazem isso, elas enviesam seu modelo. Pode ajudar você a ler minha resposta aqui: algoritmos para seleção automática de modelo para entender isso melhor. p

Em relação à sua atualização, não sugeriria que você avaliasse correlações univariadas primeiro para decidir quais variáveis ​​usar no modelo final de regressão múltipla. Isso resultará em problemas de endogeneidade, a menos que as variáveis ​​não estejam perfeitamente correlacionadas entre si. Eu discuti esse problema na minha resposta aqui: Estimando vez deb1x1+b2x2b1x1+b2x2+b3x3 .

No que diz respeito à questão de como lidar com análises com diferentes variáveis ​​dependentes, se você deseja usar algum tipo de ajuste é baseado em como vê as análises entre si. A idéia tradicional é determinar se eles são considerados significativamente uma "família". Isso é discutido aqui: O que pode ser uma definição clara e prática para uma "família de hipóteses"? Você também pode ler este tópico: Métodos para prever várias variáveis ​​dependentes .

- Reinstate Monica
fonte
Obrigado por isso. É exatamente o que eu precisava. Em relação ao seu comentário de edogeneidade. Isso faz sentido, mas parece que se eu fizer a correção conservadora de Bonferroni nos valores de p de correlação, mesmo que haja endegoneidade, a correção de Bonferroni deve explicar isso não?
User1357015
A correção de Bonferroni não tem relação com a endogeneidade. Se suas covariáveis ​​estiverem correlacionadas entre si, as correlações XY univariadas serão estimativas tendenciosas do relacionamento. Você deve ajustar o modelo que pretendia e parar por aí. Geralmente, não há necessidade real de ir mais longe. Se você precisar criar um modelo preditivo verdadeiro, use validação cruzada ou outras técnicas apropriadas para isso.
gung - Restabelece Monica
0

Em um nível prático, acho que é preciso considerar também se os Betas refletem os níveis de variáveis ​​categóricas (isto é, manequins). Nessas circunstâncias, é razoável estar interessado em saber se um determinado Beta é diferente em comparação com um referente (significativo) do Beta. Mas antes mesmo de fazer comparações aos pares, seria necessário saber se os níveis gerais da variável categórica são importantes (usando um teste F conjunto ou um teste de razão de verossimilhança). Fazer isso tem a vantagem de usar menos df

Thomas Speidel
fonte