As covariáveis ​​que não são estatisticamente significativas devem ser 'mantidas' ao criar um modelo?

39

Eu tenho várias covariáveis ​​no meu cálculo para um modelo e nem todas são estatisticamente significativas. Devo remover aqueles que não são?

Esta pergunta discute o fenômeno, mas não responde à minha pergunta: Como interpretar o efeito não significativo de uma covariável na ANCOVA?

Não há nada na resposta a essa pergunta que sugira que covariáveis ​​não significativas sejam retiradas; no entanto, neste momento estou inclinado a acreditar que elas devem permanecer. Antes mesmo de ler essa resposta, eu pensava o mesmo desde uma covariável. ainda é possível explicar parte da variação (e, portanto, ajudar o modelo) sem necessariamente explicar uma quantia além de algum limite (o limite de significância, que considero não aplicável às covariáveis).

Há outra pergunta em algum lugar no CV, para a qual a resposta parece implicar que as covariáveis ​​devem ser mantidas independentemente da importância, mas não está claro nisso. (Quero vincular a essa pergunta, mas não consegui encontrá-la novamente agora.)

Então ... As covariáveis ​​que não se mostram estatisticamente significativas devem ser mantidas no cálculo para o modelo? (Eu editei esta pergunta para esclarecer que as covariáveis ​​nunca estão na saída do modelo pelo cálculo de qualquer maneira.)

Para adicionar complicações, e se as covariáveis ​​forem estatisticamente significativas para alguns subconjuntos de dados (subconjuntos que precisam ser processados ​​separadamente). Eu teria como padrão manter essa covariável; caso contrário, modelos diferentes teriam que ser usados ​​ou você teria uma covariável estatisticamente significativa ausente em um dos casos. Se você também tiver uma resposta para este caso dividido, mencione-o.

SOU
fonte
6
De um modo geral, eu diria que você deve manter variáveis ​​que sejam teoricamente importantes ou que tenham sido significativas em estudos anteriores, mesmo que seus dados não suportem seus efeitos. Dito isto, para obter uma resposta mais específica, acho que você deve adicionar algumas linhas para explicar seu modelo e seu objetivo (por exemplo, identificar fatores de risco, fazer previsões, ...).
Ocram
Eu diria que depende. Testes são apenas indicadores. Se você acredita que deve haver uma pequena dependência, pense em manter o modelo. Se você também acredita que a dependência não deveria estar lá, deixe de fora.
Bene
OK, então vocês dois estão dizendo que a não significância não determina que uma covariável seja removida da consideração; portanto, ambos responderam à minha pergunta. Na verdade, devo reformular minha pergunta para indicar mais claramente que estou perguntando se o significado estastístico de uma covariável é uma condição necessária para mantê-la ("A não significância de uma covariável significa que ela deve ser removida ...") e Eu aceitaria qualquer um dos seus comentários como respostas.
AM
Antes de fazer isso, gostaria de ter certeza de que estou usando a terminologia correta. Originalmente, escrevi "mantido no modelo", mas isso não parecia certo porque as covariáveis ​​nunca aparecem no modelo. Eu decidi por "mantido no cálculo do modelo " (e "removido da consideração "), mas existe uma maneira melhor de dizer isso? Qual é o termo certo para o que a covariável está sendo mantida ou removida?
AM
3
Você precisaria validar o desempenho correto desses procedimentos de seleção. Outros falharam.
31713 Frank Ferguson em

Respostas:

32

Você já recebeu várias boas respostas. Existem razões para manter covariáveis ​​e razões para descartar covariáveis. A significância estatística não deve ser um fator-chave na grande maioria dos casos.

  1. As covariáveis ​​podem ser tão importantes que precisam estar lá.
  2. O tamanho do efeito de uma covariável pode ser alto, mesmo que não seja significativo.
  3. A covariável pode afetar outros aspectos do modelo.
  4. A covariável pode ser parte de como sua hipótese foi formulada.

Se você estiver em um modo muito exploratório e a covariável não for importante na literatura e o tamanho do efeito for pequeno e a covariável tiver pouco efeito sobre o seu modelo e a covariável não estiver em sua hipótese, provavelmente será possível excluí-lo apenas por simplicidade .

Peter Flom - Restabelece Monica
fonte
6
Uma situação muito importante, mas muitas vezes negligenciada, é abordada no item 4 aqui, mas vou explicá-la. Freqüentemente - de fato, geralmente - você deve comparar seus resultados com os de trabalhadores anteriores com dados semelhantes. Se outras pessoas encontrarem covariáveis ​​específicas que valem a pena incluir em seus modelos, você deve comparar seus resultados com os deles, independentemente de suas covariáveis ​​atingirem níveis de significância (convencionais). Observe que os casos aqui podem variar de modelo (s) de relatório que você decide não (especialmente) bom para modelo (s) de relatório que você considera bom.
Nick Cox
1
Definitivamente, eu estava inclinado a 'manter-se' (e não obtendo muito valor p para as covariáveis), mas sua resposta faz uma lista de verificação muito boa (bem ... duas) para uma minoria. O tamanho do efeito é algo que eu não havia considerado e, embora tenha considerado hipóteses, gosto muito que você o incluísse, pelas razões mencionadas pelo @NickCox e simplesmente para desencorajar a pesca.
AM
26

P

Frank Harrell
fonte
10
A resposta longa é "sim"! +1 e um LOL.
Peter Flom - Restabelece Monica
Se não os valores p, quais são os outros motivos para remover preditores? Você menciona a interpretação dos intervalos de confiança, mas parece que um "intervalo interessante" seria zero, o que significa que as pessoas interpretariam os ICs como valores-p (inclusão ou exclusão de zero).
Mark White
1
Quais são os motivos para remover preditores quando isso distorce as propriedades estatísticas? Não está claro em sua pergunta e no "zero".
Frank Harrell
7

Um insight útil é que não há realmente nada específico sobre uma covariável estatisticamente falando; consulte Por exemplo, Ajuda para escrever covariáveis ​​na fórmula de regressão . Aliás, isso pode explicar por que não há covariatetags. Consequentemente, o material aqui e em outros lugares sobre termos não significativos em um modelo linear é relevante, assim como os críticos bem conhecidos da regressão passo a passo, mesmo que a ANCOVA não seja mencionada explicitamente.

De um modo geral, é uma má idéia selecionar preditores com base apenas no significado. Se, por algum motivo, você não puder especificar o modelo antecipadamente, considere outras abordagens, mas, se planejou incluí-los em primeiro lugar, coletou os dados adequadamente e não está enfrentando problemas específicos (por exemplo, colinearidade), apenas mantenha-os.

Quanto aos motivos para mantê-los, as objeções que você apresentou parecem-me corretas. Outro motivo seria que a remoção de preditores não significativos influencia as inferências com base no modelo. Ainda outra maneira de analisar tudo isso é perguntar o que seria ganho com a remoção dessas covariáveis ​​após o fato.

Gala
fonte
4

Precisamos realmente de mais informações sobre seus objetivos para responder a essa pergunta. As regressões são usadas para dois propósitos principais:

  1. Predição
  2. Inferência

A previsão é quando seu objetivo é conseguir adivinhar os valores da variável de resultado para observações que não estão na amostra (embora geralmente elas estejam dentro do intervalo dos dados da amostra - caso contrário, às vezes usamos a palavra "previsão"). A previsão é útil para fins publicitários, financeiros, etc. Se você está apenas interessado em prever alguma variável de resultado, tenho pouco a oferecer.

Inferência é onde está a diversão (mesmo que não seja onde está o dinheiro). Inferência é onde você está tentando tirar conclusões sobre parâmetros específicos do modelo - geralmente para determinar o efeito causal de uma variável em outra. Apesar da percepção comum, a análise de regressão nunca é suficiente para inferência causal. Você sempre deve saber mais sobre o processo de geração de dados para saber se sua regressão captura o efeito causal. A questão principal para a inferência causal das regressões é se a média condicional do erro (condicional nos regressores) é zero. Isso não pode ser conhecido dos valores-p nos regressores. É possível ter estimadores de regressão imparciais ou consistentes, mas isso exige muito mais esforço do que apenas colocar alguns controles óbvios na regressão e esperar que você tenha os importantes.Dominando 'Métricas: O Caminho da Causa ao Efeito e Econometria Principalmente Inofensiva ). Mastering Metrics é a leitura mais fácil e barata, mas lembre-se de que não se trata de um tratamento de como fazer regressões, mas do que elas significam. Para uma boa cobertura de exemplos de projetos de pesquisa observacional bons e ruins, recomendo "Modelos Estatísticos e Couro de Calçado", de David Freedman (1991), Metodologia Sociológica , volume 21 (uma leitura curta e fácil com exemplos fascinantes).

Além disso: a obsessão com a técnica estatística sobre o bom projeto de pesquisa na maioria dos cursos universitários é uma das minhas preocupações pedagógicas.

Em segundo lugar, para motivar a importância atual dessa questão: a diferença entre previsão e inferência é o motivo pelo qual o big data não substitui a ciência.

Randy Cragun
fonte