Na psicologia e em outros campos, geralmente é empregada uma forma de regressão gradual que envolve o seguinte:
- Observe os preditores restantes (não há nenhum no modelo a princípio) e identifique o preditivo que resulta na maior mudança no quadrado r;
- Se o valor p da alteração do quadrado r for menor que alfa (normalmente 0,05), inclua esse preditor e volte para a etapa 1, caso contrário, pare.
Por exemplo, consulte este procedimento no SPSS .
O procedimento é rotineiramente criticado por uma ampla variedade de razões (consulte esta discussão no site da Stata com referências ).
Em particular, o site Stata resume vários comentários de Frank Harrell. Estou interessado na reivindicação:
[regressão passo a passo] produz valores ao quadrado R muito tendenciosos para serem altos.
Especificamente, algumas das minhas pesquisas atuais concentram-se na estimativa do quadrado da população . Por quadrado da população, refiro-me à porcentagem de variância explicada pelos dados da população que geram a equação na população. Grande parte da literatura existente que estou revisando utilizou procedimentos de regressão passo a passo e quero saber se as estimativas fornecidas são tendenciosas e, em caso afirmativo, por quanto. Em particular, um estudo típico teria 30 preditores, n = 200, alfa de entrada de 0,05 e estimativas do quadrado-r em torno de 0,50.
O que eu sei:
- Assintoticamente, qualquer preditor com coeficiente diferente de zero seria um preditor estatisticamente significativo e o quadrado r seria igual ao quadrado r ajustado. Assim, a regressão assintoticamente gradual deve estimar a verdadeira equação de regressão e a verdadeira população r-quadrado.
- Com tamanhos de amostra menores, a possível omissão de alguns preditores resultará em um quadrado r menor do que todos os preditores foram incluídos no modelo. Mas também o viés usual do quadrado r para amostrar dados aumentaria o quadrado r. Assim, meu pensamento ingênuo é que, potencialmente, essas duas forças opostas poderiam, sob certas condições, resultar em um quadrado r imparcial. E, de maneira mais geral, a direção do viés dependeria de vários recursos dos dados e dos critérios de inclusão alfa.
- Definir um critério de inclusão alfa mais rigoroso (por exemplo, .01, .001, etc.) deve diminuir o quadrado r estimado estimado, porque a probabilidade de incluir qualquer preditor em qualquer geração dos dados será menor.
- Em geral, o quadrado-r é uma estimativa tendenciosa para cima da população-quadrado e o grau desse viés aumenta com mais preditores e tamanhos de amostra menores.
Questão
Então, finalmente, minha pergunta:
- Até que ponto o quadrado r da regressão gradual resulta em uma estimativa tendenciosa da população quadrado r?
- Até que ponto esse viés está relacionado ao tamanho da amostra, número de preditores, critério de inclusão alfa ou propriedades dos dados?
- Há alguma referência sobre este tópico?
fonte
Respostas:
fonte
Visão geral
Simulação
A simulação a seguir possui quatro preditores não correlacionados, onde a população r-square é de 40%. Dois dos preditores explicam 20% cada, e os outros dois preditores explicam 0%. A simulação gera 1000 conjuntos de dados e estima regressão quadrática r-quadrado como uma porcentagem para cada conjunto de dados.
O código a seguir retorna o quadrado r com um alfa para entrada de .01, .001, .0001 e .00001.
Os resultados a seguir indicam o viés para cada um dos cinco alfa de entradas. Observe que eu multipliquei o quadrado de r por 100 para facilitar a visualização das diferenças.
Os resultados sugerem que o alfa das entradas de .01 e .001 resulta em viés positivo e o alfa das entradas de .0001 e .00001 resulta em viés negativo. Portanto, presumivelmente, um alfa de entrada em torno de 0,0005 resultaria em uma regressão gradual imparcial.
A principal conclusão que tirei disso é que a regressão gradual não é inerentemente tendenciosa em uma direção específica. Dito isto, será pelo menos um pouco tendencioso para todos, exceto um valor p da entrada do preditor. Entendo o argumento de Peter Flom de que, no mundo real, não conhecemos o processo de geração de dados. No entanto, imagino que uma exploração mais detalhada de como esse viés varia, n, alfa de entrada, processos de geração de dados e procedimento de regressão passo a passo (por exemplo, incluindo retroceder) poderia informar substancialmente a compreensão desse viés.
Referências
fonte