Eu tenho várias covariáveis no meu cálculo para um modelo e nem todas são estatisticamente significativas. Devo remover aqueles que não são?
Esta pergunta discute o fenômeno, mas não responde à minha pergunta: Como interpretar o efeito não significativo de uma covariável na ANCOVA?
Não há nada na resposta a essa pergunta que sugira que covariáveis não significativas sejam retiradas; no entanto, neste momento estou inclinado a acreditar que elas devem permanecer. Antes mesmo de ler essa resposta, eu pensava o mesmo desde uma covariável. ainda é possível explicar parte da variação (e, portanto, ajudar o modelo) sem necessariamente explicar uma quantia além de algum limite (o limite de significância, que considero não aplicável às covariáveis).
Há outra pergunta em algum lugar no CV, para a qual a resposta parece implicar que as covariáveis devem ser mantidas independentemente da importância, mas não está claro nisso. (Quero vincular a essa pergunta, mas não consegui encontrá-la novamente agora.)
Então ... As covariáveis que não se mostram estatisticamente significativas devem ser mantidas no cálculo para o modelo? (Eu editei esta pergunta para esclarecer que as covariáveis nunca estão na saída do modelo pelo cálculo de qualquer maneira.)
Para adicionar complicações, e se as covariáveis forem estatisticamente significativas para alguns subconjuntos de dados (subconjuntos que precisam ser processados separadamente). Eu teria como padrão manter essa covariável; caso contrário, modelos diferentes teriam que ser usados ou você teria uma covariável estatisticamente significativa ausente em um dos casos. Se você também tiver uma resposta para este caso dividido, mencione-o.
Respostas:
Você já recebeu várias boas respostas. Existem razões para manter covariáveis e razões para descartar covariáveis. A significância estatística não deve ser um fator-chave na grande maioria dos casos.
Se você estiver em um modo muito exploratório e a covariável não for importante na literatura e o tamanho do efeito for pequeno e a covariável tiver pouco efeito sobre o seu modelo e a covariável não estiver em sua hipótese, provavelmente será possível excluí-lo apenas por simplicidade .
fonte
fonte
Um insight útil é que não há realmente nada específico sobre uma covariável estatisticamente falando; consulte Por exemplo, Ajuda para escrever covariáveis na fórmula de regressão . Aliás, isso pode explicar por que não há
covariate
tags. Consequentemente, o material aqui e em outros lugares sobre termos não significativos em um modelo linear é relevante, assim como os críticos bem conhecidos da regressão passo a passo, mesmo que a ANCOVA não seja mencionada explicitamente.De um modo geral, é uma má idéia selecionar preditores com base apenas no significado. Se, por algum motivo, você não puder especificar o modelo antecipadamente, considere outras abordagens, mas, se planejou incluí-los em primeiro lugar, coletou os dados adequadamente e não está enfrentando problemas específicos (por exemplo, colinearidade), apenas mantenha-os.
Quanto aos motivos para mantê-los, as objeções que você apresentou parecem-me corretas. Outro motivo seria que a remoção de preditores não significativos influencia as inferências com base no modelo. Ainda outra maneira de analisar tudo isso é perguntar o que seria ganho com a remoção dessas covariáveis após o fato.
fonte
Precisamos realmente de mais informações sobre seus objetivos para responder a essa pergunta. As regressões são usadas para dois propósitos principais:
A previsão é quando seu objetivo é conseguir adivinhar os valores da variável de resultado para observações que não estão na amostra (embora geralmente elas estejam dentro do intervalo dos dados da amostra - caso contrário, às vezes usamos a palavra "previsão"). A previsão é útil para fins publicitários, financeiros, etc. Se você está apenas interessado em prever alguma variável de resultado, tenho pouco a oferecer.
Inferência é onde está a diversão (mesmo que não seja onde está o dinheiro). Inferência é onde você está tentando tirar conclusões sobre parâmetros específicos do modelo - geralmente para determinar o efeito causal de uma variável em outra. Apesar da percepção comum, a análise de regressão nunca é suficiente para inferência causal. Você sempre deve saber mais sobre o processo de geração de dados para saber se sua regressão captura o efeito causal. A questão principal para a inferência causal das regressões é se a média condicional do erro (condicional nos regressores) é zero. Isso não pode ser conhecido dos valores-p nos regressores. É possível ter estimadores de regressão imparciais ou consistentes, mas isso exige muito mais esforço do que apenas colocar alguns controles óbvios na regressão e esperar que você tenha os importantes.Dominando 'Métricas: O Caminho da Causa ao Efeito e Econometria Principalmente Inofensiva ). Mastering Metrics é a leitura mais fácil e barata, mas lembre-se de que não se trata de um tratamento de como fazer regressões, mas do que elas significam. Para uma boa cobertura de exemplos de projetos de pesquisa observacional bons e ruins, recomendo "Modelos Estatísticos e Couro de Calçado", de David Freedman (1991), Metodologia Sociológica , volume 21 (uma leitura curta e fácil com exemplos fascinantes).
Além disso: a obsessão com a técnica estatística sobre o bom projeto de pesquisa na maioria dos cursos universitários é uma das minhas preocupações pedagógicas.
Em segundo lugar, para motivar a importância atual dessa questão: a diferença entre previsão e inferência é o motivo pelo qual o big data não substitui a ciência.
fonte