Uma '' variável significativa '' que não melhora as previsões fora da amostra - como interpretar?

10

Eu tenho uma pergunta que acho que será bastante básica para muitos usuários.

Estou usando modelos de regressão linear para (i) investigar a relação de várias variáveis ​​explicativas e minha variável de resposta e (ii) prever minha variável de resposta usando as variáveis ​​explicativas.

Uma variável explicativa X específica parece impactar significativamente minha variável de resposta. Para testar o valor agregado dessa variável explicativa X para o propósito das previsões fora da amostra da minha variável de resposta, usei dois modelos: modelo (a) que usou todas as variáveis ​​explicativas e modelo (b) que usou todas as variáveis exceto a variável X. Para ambos os modelos, apenas relato o desempenho fora da amostra. Parece que os dois modelos têm desempenho quase idêntico como bom. Em outras palavras, adicionar a variável explicativa X não melhora as previsões fora da amostra. Observe que eu também usei o modelo (a), ou seja, o modelo com todas as variáveis ​​explicativas, para descobrir que a variável explicativa X afeta significativamente minha variável de resposta.

Minha pergunta agora é: como interpretar essa descoberta? A conclusão direta é que, embora a variável X pareça influenciar significativamente minha variável de resposta usando modelos inferenciais, ela não melhora as previsões fora da amostra. No entanto, tenho problemas para explicar melhor esse achado. Como isso é possível e quais são algumas explicações para essa descoberta?

Desde já, obrigado!

Informações adicionais: com 'influência significativa', quero dizer que 0 não está incluído no intervalo de densidade posterior mais alto de 95% da estimativa do parâmetro (estou usando uma abordagem bayesiana). Em termos freqüentes, isso corresponde aproximadamente a ter um valor de p menor que 0,05. Estou usando apenas antecedentes difusos (não informativos) para todos os parâmetros de meus modelos. Meus dados têm uma estrutura longitudinal e contém cerca de 7000 observações no total. Para as previsões fora da amostra, usei 90% dos dados para ajustar meus modelos e 10% dos dados para avaliar os modelos usando várias repetições. Ou seja, realizei a divisão de teste de trem várias vezes e, eventualmente, relatei as métricas de desempenho médio.

dubvice
fonte
2
Como você está usando uma abordagem bayesiana, seus resultados dependem tanto do seu anterior quanto dos dados. Como a dependência do anterior diminui com o aumento da quantidade de dados e aumenta na medida em que os dados e o desacordo anterior, seria útil fornecer informações sobre a distribuição anterior, a quantidade de dados e a proximidade com que os dados estão em conformidade. para a distribuição anterior.
whuber
11
@whuber Esqueci de mencionar que só estou usando anteriores difusos (não informativos). Portanto, não acho que minha especificação anterior tenha algo a ver com minhas descobertas. Tenho certeza de que o ajuste de modelos de regressão linear freqüentista resultará exatamente nas mesmas descobertas.
dubvice
Obrigado - isso ajuda a descartar várias explicações possíveis.
whuber
11
Você está recolocando os modelos nos dados retidos ou usando os modelos adequados aos seus dados originais? Em ambos os casos, um possível problema é que você está cometendo um erro do Tipo II nos dados retidos; talvez a variável seja relevante, mas você estava com pouca potência originalmente (nesse caso, provavelmente está superestimando o efeito que poderia piorar as previsões). Ou a variável era irrelevante e você cometeu um erro do tipo I. Há muitas razões para esse tipo de coisa acontecer.
cara
11
Eu usei várias métricas: RSME, MAE e AUC (também estou tentando prever se minha variável depedente, que é contínua, está abaixo de um certo limite).
Dubvice

Respostas:

3

x1x2x1x2x1x2x1x2R2

A função é:

sim_ES <- function (effect_size = 1, sd = 2, n = 200) {
    # simulate some data
    DF <- data.frame(x1 = runif(n, -3, 3), x2 = runif(n, -3, 3))
    DF$y <- 2 + 5 * DF$x1 + (effect_size * sd) * DF$x2 + rnorm(n, sd = sd)

    # fit the models with and without x2
    fm1 <- lm(y ~ x1 + x2, data = DF)
    fm2 <- lm(y ~ x1, data = DF)

    # results
    list("95% CIs" = confint(fm1),
         "R2_X1_X2" = summary(fm1)$r.squared,
         "R2_only_X1" = summary(fm2)$r.squared)
}

Como exemplo, para os valores padrão que obtemos,

$`95% CIs`
               2.5 %   97.5 %
(Intercept) 1.769235 2.349051
x1          4.857439 5.196503
x2          1.759917 2.094877

$R2_X1_X2
[1] 0.9512757

$R2_only_X1
[1] 0.8238826

x2R2

Mas se definirmos o tamanho do efeito como 0,3, obtemos:

> sim_ES(effect_size = 0.3)
$`95% CIs`
                2.5 %    97.5 %
(Intercept) 1.9888073 2.5563233
x1          4.9383698 5.2547929
x2          0.3512024 0.6717464

$R2_X1_X2
[1] 0.9542341

$R2_only_X1
[1] 0.9450327

R2

Dimitris Rizopoulos
fonte
A dicotomia vaga entre significância estatística e desempenho preditivo é o banimento da minha vida analítica de várias maneiras. (+1 - e uma bem-vinda geral ao CV Prof.!)
usεr11852
-1

Isso é algo bastante normal para ocorrer em regressão múltipla. O motivo mais comum é que seus preditores estão relacionados entre si. Em outras palavras, você pode inferir X a partir dos valores dos outros preditores. Portanto, embora seja útil para previsões, se é o único preditor que você possui, depois de ter todos os outros preditores, ele não fornece muita informação extra. Você pode verificar se esse é o caso regredindo X nos outros preditores. Também me referiria ao capítulo sobre regressão linear no livro online gratuito, Elements of Statistical Learning.

Denziloe
fonte
11
Você parece estar descrevendo uma variável explicativa não significativa em vez de abordar as circunstâncias específicas descritas na pergunta.
whuber
Estou descrevendo uma variável explicativa que está significativamente relacionada à resposta por si só (ou seja, em uma regressão simples), que é o que presumo que a pergunta signifique "X parece impactar significativamente minha variável de resposta".
Denziloe
Mas, nesse caso, eu não teria achado que minha variável explicativa X afeta significativamente minha variável de resposta, certo? Talvez eu não tenha deixado claro em minha pergunta inicialmente, mas usei um modelo com todas as variáveis ​​explicativas para descobrir que a variável explicativa X tem uma influência significativa na minha variável de resposta.
dubvice
3
X
11
Sim whuber, você entendeu corretamente. É isso que eu quero dizer. Espero esclarecer isso bem o suficiente na minha pergunta.
Dubvice