A regressão passo a passo fornece uma estimativa tendenciosa da população r-square?

14

Na psicologia e em outros campos, geralmente é empregada uma forma de regressão gradual que envolve o seguinte:

  1. Observe os preditores restantes (não há nenhum no modelo a princípio) e identifique o preditivo que resulta na maior mudança no quadrado r;
  2. Se o valor p da alteração do quadrado r for menor que alfa (normalmente 0,05), inclua esse preditor e volte para a etapa 1, caso contrário, pare.

Por exemplo, consulte este procedimento no SPSS .

O procedimento é rotineiramente criticado por uma ampla variedade de razões (consulte esta discussão no site da Stata com referências ).

Em particular, o site Stata resume vários comentários de Frank Harrell. Estou interessado na reivindicação:

[regressão passo a passo] produz valores ao quadrado R muito tendenciosos para serem altos.

Especificamente, algumas das minhas pesquisas atuais concentram-se na estimativa do quadrado da população . Por quadrado da população, refiro-me à porcentagem de variância explicada pelos dados da população que geram a equação na população. Grande parte da literatura existente que estou revisando utilizou procedimentos de regressão passo a passo e quero saber se as estimativas fornecidas são tendenciosas e, em caso afirmativo, por quanto. Em particular, um estudo típico teria 30 preditores, n = 200, alfa de entrada de 0,05 e estimativas do quadrado-r em torno de 0,50.

O que eu sei:

  • Assintoticamente, qualquer preditor com coeficiente diferente de zero seria um preditor estatisticamente significativo e o quadrado r seria igual ao quadrado r ajustado. Assim, a regressão assintoticamente gradual deve estimar a verdadeira equação de regressão e a verdadeira população r-quadrado.
  • Com tamanhos de amostra menores, a possível omissão de alguns preditores resultará em um quadrado r menor do que todos os preditores foram incluídos no modelo. Mas também o viés usual do quadrado r para amostrar dados aumentaria o quadrado r. Assim, meu pensamento ingênuo é que, potencialmente, essas duas forças opostas poderiam, sob certas condições, resultar em um quadrado r imparcial. E, de maneira mais geral, a direção do viés dependeria de vários recursos dos dados e dos critérios de inclusão alfa.
  • Definir um critério de inclusão alfa mais rigoroso (por exemplo, .01, .001, etc.) deve diminuir o quadrado r estimado estimado, porque a probabilidade de incluir qualquer preditor em qualquer geração dos dados será menor.
  • Em geral, o quadrado-r é uma estimativa tendenciosa para cima da população-quadrado e o grau desse viés aumenta com mais preditores e tamanhos de amostra menores.

Questão

Então, finalmente, minha pergunta:

  • Até que ponto o quadrado r da regressão gradual resulta em uma estimativa tendenciosa da população quadrado r?
  • Até que ponto esse viés está relacionado ao tamanho da amostra, número de preditores, critério de inclusão alfa ou propriedades dos dados?
  • Há alguma referência sobre este tópico?
Jeromy Anglim
fonte
3
A versão principal do Stata FAQ que você mencionou antecedeu as estratégias de modelagem de regressão do livro de Frank Harrell, de 2001 . Nova York: Springer, que é a referência que eu começaria daqui.
Nick Cox
3
Eu recomendo a leitura do livro de @FrankHarrell que Nick Cox menciona lá; Atribuo regularmente meus alunos de pós-graduação e homenageio os alunos que leem dele (particularmente o capítulo 4). É fácil ver que o R ^ 2 é tendencioso na presença de seleção de variáveis, simulando muitos conjuntos de dados (por exemplo, n = 100, p = 50) que possuem correlação populacional de zero e, em seguida, executando qualquer procedimento de seleção de variável que você deseja mostrar sobre isso.
Glen_b -Reinstala Monica
5
Como os comentários nota, a simulação pode mostrar que, numa situação conhecida, de regressão vai superestimar , e eles podem mostrar o quanto. Mas não pode mostrar quanta inflação existe em uma situação em que você não sabe o que a população valoriza. Ou seja, não são apenas os resultados do desvio gradual, eles são enviesados ​​de maneiras muito difíceis (se não impossíveis) de estimar. R2
Peter Flom - Restabelece Monica
3
Se a população R ^ 2 for zero, eu acho que a amostra R ^ 2 é tendenciosa, mesmo que você não use a seleção gradual. Suspeito (mas não tenho certeza) que também seria enviesado se a população R ^ 2 fosse diferente de zero.
mark999
2
Para dizer que a população tem um e que estamos fazendo alguma forma de selecção do modelo é fazer algumas suposições particulares sobre a situação de amostragem - que há um modelo 'verdadeiro', e que tem um tamanho particular, que há mais variáveis ​​a serem consideradas do que no modelo verdadeiro (pelo menos potencialmente mais) e assim por diante. Eu acho que há até uma implicação de que nem todas as variáveis ​​estão igualmente fortemente relacionadas à resposta. Para esse fim, acho que todas as simulações que fazemos para investigar as propriedades precisam respeitar todas as implicações que elas estabelecem. R2
Glen_b -Reinstar Monica

Respostas:

5

R2R2R2

Frank Harrell
fonte
Especialmente quando o número de preditores candidatos excede o número de observações!
Alexis12:
2

Visão geral

R2ρ2 , pode-se dizer o seguinte: Embora isso seja verdade para algumas combinações de processo de geração de dados, tamanho da amostra, conjunto de preditores e critério de valor p da entrada do preditivo, não é verdade em todos os casos.

R2ρ2R2ρ2R2R2R2ρ2

R2

R2ρ2ρ2

Simulação

A simulação a seguir possui quatro preditores não correlacionados, onde a população r-square é de 40%. Dois dos preditores explicam 20% cada, e os outros dois preditores explicam 0%. A simulação gera 1000 conjuntos de dados e estima regressão quadrática r-quadrado como uma porcentagem para cada conjunto de dados.

# source("http://bioconductor.org/biocLite.R")
# biocLite("maSigPro") # provides stepwise regression function two.ways.stepfor 
library(maSigPro)
get_data <- function(n=100) {
    x1 <- rnorm(n, 0, 1)
    x2 <- rnorm(n, 0, 1)
    x3 <- rnorm(n, 0, 1)
    x4 <- rnorm(n, 0, 1)
    e  <- rnorm(n, 0, 1)
    y <- 1 * x1 + 1 * x2 + sqrt(3) * e
    data <- data.frame(y, x1, x2, x3, x4)
    data
}

get_rsquare <- function(x, alpha=.05) {
    fit <- two.ways.stepfor(x$y, subset(x, select=-y),  alfa=alpha)
        class(fit) <-'lm'
        summary.lm(fit)$r.square * 100
}

O código a seguir retorna o quadrado r com um alfa para entrada de .01, .001, .0001 e .00001.

set.seed(1234)
simulations <- 1000
datasets <- lapply(seq(simulations), function(X) get_data(n=100))
rsquares01 <- sapply(datasets, function(X) get_rsquare(X, alpha=.01))
rsquares001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.001))
rsquares0001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.0001))
rsquares00001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.00001))

Os resultados a seguir indicam o viés para cada um dos cinco alfa de entradas. Observe que eu multipliquei o quadrado de r por 100 para facilitar a visualização das diferenças.

mean(rsquares01) - 40 
mean(rsquares001) - 40 
mean(rsquares0001) - 40 
mean(rsquares00001) - 40 
sd(rsquares01)/sqrt(simulations) # approximate standard error in estimate of bias 

Os resultados sugerem que o alfa das entradas de .01 e .001 resulta em viés positivo e o alfa das entradas de .0001 e .00001 resulta em viés negativo. Portanto, presumivelmente, um alfa de entrada em torno de 0,0005 resultaria em uma regressão gradual imparcial.

> mean(rsquares01) - 40 
[1] 1.128996
> mean(rsquares001) - 40 
[1] 0.8238992
> mean(rsquares0001) - 40 
[1] -0.9681992
> mean(rsquares00001) - 40 
[1] -5.126225
> sd(rsquares01)/sqrt(simulations) # approximate standard error in estimate of bias
[1] 0.2329339

A principal conclusão que tirei disso é que a regressão gradual não é inerentemente tendenciosa em uma direção específica. Dito isto, será pelo menos um pouco tendencioso para todos, exceto um valor p da entrada do preditor. Entendo o argumento de Peter Flom de que, no mundo real, não conhecemos o processo de geração de dados. No entanto, imagino que uma exploração mais detalhada de como esse viés varia, n, alfa de entrada, processos de geração de dados e procedimento de regressão passo a passo (por exemplo, incluindo retroceder) poderia informar substancialmente a compreensão desse viés.

Referências

  • Harrell, FE (2001). Estratégias de modelagem de regressão: com aplicações em modelos lineares, regressão logística e análise de sobrevivência. Springer.
Jeromy Anglim
fonte
Ainda é tendencioso (eu diria), você reduziu bastante o viés.
Jeremy Miles
@JeremyMiles Sim. Mas não é inerentemente tendencioso em uma direção específica.
perfil completo de Jeromy Anglim
Eu ficaria muito interessado em ver a opinião de @FrankHarrell sobre isso.
Glen_b -Reinstala Monica
1
SW(p)R2ppSW(p)pSW(p)p
1
@whuber Alterei o parágrafo final para, com sorte, tornar alguns dos pontos mencionados mais claros.
Jeromy Anglim