A regressão passo a passo fornece uma estimativa tendenciosa da população r-square?

Na psicologia e em outros campos, geralmente é empregada uma forma de regressão gradual que envolve o seguinte:

Observe os preditores restantes (não há nenhum no modelo a princípio) e identifique o preditivo que resulta na maior mudança no quadrado r;
Se o valor p da alteração do quadrado r for menor que alfa (normalmente 0,05), inclua esse preditor e volte para a etapa 1, caso contrário, pare.

Por exemplo, consulte este procedimento no SPSS .

O procedimento é rotineiramente criticado por uma ampla variedade de razões (consulte esta discussão no site da Stata com referências ).

Em particular, o site Stata resume vários comentários de Frank Harrell. Estou interessado na reivindicação:

[regressão passo a passo] produz valores ao quadrado R muito tendenciosos para serem altos.

Especificamente, algumas das minhas pesquisas atuais concentram-se na estimativa do quadrado da população . Por quadrado da população, refiro-me à porcentagem de variância explicada pelos dados da população que geram a equação na população. Grande parte da literatura existente que estou revisando utilizou procedimentos de regressão passo a passo e quero saber se as estimativas fornecidas são tendenciosas e, em caso afirmativo, por quanto. Em particular, um estudo típico teria 30 preditores, n = 200, alfa de entrada de 0,05 e estimativas do quadrado-r em torno de 0,50.

O que eu sei:

Assintoticamente, qualquer preditor com coeficiente diferente de zero seria um preditor estatisticamente significativo e o quadrado r seria igual ao quadrado r ajustado. Assim, a regressão assintoticamente gradual deve estimar a verdadeira equação de regressão e a verdadeira população r-quadrado.
Com tamanhos de amostra menores, a possível omissão de alguns preditores resultará em um quadrado r menor do que todos os preditores foram incluídos no modelo. Mas também o viés usual do quadrado r para amostrar dados aumentaria o quadrado r. Assim, meu pensamento ingênuo é que, potencialmente, essas duas forças opostas poderiam, sob certas condições, resultar em um quadrado r imparcial. E, de maneira mais geral, a direção do viés dependeria de vários recursos dos dados e dos critérios de inclusão alfa.
Definir um critério de inclusão alfa mais rigoroso (por exemplo, .01, .001, etc.) deve diminuir o quadrado r estimado estimado, porque a probabilidade de incluir qualquer preditor em qualquer geração dos dados será menor.
Em geral, o quadrado-r é uma estimativa tendenciosa para cima da população-quadrado e o grau desse viés aumenta com mais preditores e tamanhos de amostra menores.

Questão

Então, finalmente, minha pergunta:

Até que ponto o quadrado r da regressão gradual resulta em uma estimativa tendenciosa da população quadrado r?
Até que ponto esse viés está relacionado ao tamanho da amostra, número de preditores, critério de inclusão alfa ou propriedades dos dados?
Há alguma referência sobre este tópico?

regression model-selection bias r-squared stepwise-regression Jeromy Anglim
fonte

A versão principal do Stata FAQ que você mencionou antecedeu as estratégias de modelagem de regressão do livro de Frank Harrell, de 2001 . Nova York: Springer, que é a referência que eu começaria daqui.

Nick Cox

Eu recomendo a leitura do livro de @FrankHarrell que Nick Cox menciona lá; Atribuo regularmente meus alunos de pós-graduação e homenageio os alunos que leem dele (particularmente o capítulo 4). É fácil ver que o R ^ 2 é tendencioso na presença de seleção de variáveis, simulando muitos conjuntos de dados (por exemplo, n = 100, p = 50) que possuem correlação populacional de zero e, em seguida, executando qualquer procedimento de seleção de variável que você deseja mostrar sobre isso.

Glen_b -Reinstala Monica

Como os comentários nota, a simulação pode mostrar que, numa situação conhecida, de regressão vai superestimar

, e eles podem mostrar o quanto. Mas não pode mostrar quanta inflação existe em uma situação em que você não sabe o que a população valoriza. Ou seja, não são apenas os resultados do desvio gradual, eles são enviesados de maneiras muito difíceis (se não impossíveis) de estimar.

R^{2}

$R^2$

Peter Flom - Restabelece Monica

Se a população R ^ 2 for zero, eu acho que a amostra R ^ 2 é tendenciosa, mesmo que você não use a seleção gradual. Suspeito (mas não tenho certeza) que também seria enviesado se a população R ^ 2 fosse diferente de zero.

mark999

Para dizer que a população tem um

e que estamos fazendo alguma forma de selecção do modelo é fazer algumas suposições particulares sobre a situação de amostragem - que há um modelo 'verdadeiro', e que tem um tamanho particular, que há mais variáveis a serem consideradas do que no modelo verdadeiro (pelo menos potencialmente mais) e assim por diante. Eu acho que há até uma implicação de que nem todas as variáveis estão igualmente fortemente relacionadas à resposta. Para esse fim, acho que todas as simulações que fazemos para investigar as propriedades precisam respeitar todas as implicações que elas estabelecem.

R^{2}

$R^2$

Glen_b -Reinstar Monica

Respostas:

$R^2$ $R^2$ $R^2$

Frank Harrell
fonte

Especialmente quando o número de preditores candidatos excede o número de observações!

Alexis12:

Visão geral

$R^2$ $\rho^2$ , pode-se dizer o seguinte: Embora isso seja verdade para algumas combinações de processo de geração de dados, tamanho da amostra, conjunto de preditores e critério de valor p da entrada do preditivo, não é verdade em todos os casos.

$R^2$ $\rho^2$ $R^2$ $\rho^2$ $R^2$ $R^2$ $R^2$ $\rho^2$

$R^2$

$R^2$ $\rho^2$ $\rho^2$

Simulação

A simulação a seguir possui quatro preditores não correlacionados, onde a população r-square é de 40%. Dois dos preditores explicam 20% cada, e os outros dois preditores explicam 0%. A simulação gera 1000 conjuntos de dados e estima regressão quadrática r-quadrado como uma porcentagem para cada conjunto de dados.

# source("http://bioconductor.org/biocLite.R")
# biocLite("maSigPro") # provides stepwise regression function two.ways.stepfor 
library(maSigPro)
get_data <- function(n=100) {
    x1 <- rnorm(n, 0, 1)
    x2 <- rnorm(n, 0, 1)
    x3 <- rnorm(n, 0, 1)
    x4 <- rnorm(n, 0, 1)
    e  <- rnorm(n, 0, 1)
    y <- 1 * x1 + 1 * x2 + sqrt(3) * e
    data <- data.frame(y, x1, x2, x3, x4)
    data
}

get_rsquare <- function(x, alpha=.05) {
    fit <- two.ways.stepfor(x$y, subset(x, select=-y),  alfa=alpha)
        class(fit) <-'lm'
        summary.lm(fit)$r.square * 100
}

O código a seguir retorna o quadrado r com um alfa para entrada de .01, .001, .0001 e .00001.

set.seed(1234)
simulations <- 1000
datasets <- lapply(seq(simulations), function(X) get_data(n=100))
rsquares01 <- sapply(datasets, function(X) get_rsquare(X, alpha=.01))
rsquares001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.001))
rsquares0001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.0001))
rsquares00001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.00001))

Os resultados a seguir indicam o viés para cada um dos cinco alfa de entradas. Observe que eu multipliquei o quadrado de r por 100 para facilitar a visualização das diferenças.

mean(rsquares01) - 40 
mean(rsquares001) - 40 
mean(rsquares0001) - 40 
mean(rsquares00001) - 40 
sd(rsquares01)/sqrt(simulations) # approximate standard error in estimate of bias

Os resultados sugerem que o alfa das entradas de .01 e .001 resulta em viés positivo e o alfa das entradas de .0001 e .00001 resulta em viés negativo. Portanto, presumivelmente, um alfa de entrada em torno de 0,0005 resultaria em uma regressão gradual imparcial.

> mean(rsquares01) - 40 
[1] 1.128996
> mean(rsquares001) - 40 
[1] 0.8238992
> mean(rsquares0001) - 40 
[1] -0.9681992
> mean(rsquares00001) - 40 
[1] -5.126225
> sd(rsquares01)/sqrt(simulations) # approximate standard error in estimate of bias
[1] 0.2329339

A principal conclusão que tirei disso é que a regressão gradual não é inerentemente tendenciosa em uma direção específica. Dito isto, será pelo menos um pouco tendencioso para todos, exceto um valor p da entrada do preditor. Entendo o argumento de Peter Flom de que, no mundo real, não conhecemos o processo de geração de dados. No entanto, imagino que uma exploração mais detalhada de como esse viés varia, n, alfa de entrada, processos de geração de dados e procedimento de regressão passo a passo (por exemplo, incluindo retroceder) poderia informar substancialmente a compreensão desse viés.

Referências

Harrell, FE (2001). Estratégias de modelagem de regressão: com aplicações em modelos lineares, regressão logística e análise de sobrevivência. Springer.

Jeromy Anglim
fonte

Ainda é tendencioso (eu diria), você reduziu bastante o viés.

Jeremy Miles

@JeremyMiles Sim. Mas não é inerentemente tendencioso em uma direção específica.

perfil completo de Jeromy Anglim

Eu ficaria muito interessado em ver a opinião de @FrankHarrell sobre isso.

Glen_b -Reinstala Monica

S W (p)

$SW(p)$

R^{2}

$R^2$

p

$p$

p

$p$

S W (p)

$SW(p)$

p

$p$

S W (p)

$SW(p)$

p

$p$

@whuber Alterei o parágrafo final para, com sorte, tornar alguns dos pontos mencionados mais claros.

Jeromy Anglim