É uma idéia equivocada usar coeficientes padronizados para avaliar a importância relativa dos preditores de regressão?

9

Existem várias perguntas que falam dos méritos relativos de vários métodos para avaliar a importância dos preditores de regressão, por exemplo, este .

Percebi que, neste comentário, @gung refere-se à prática como uma "idéia equivocada", vinculando-se a essa resposta em apoio a essa afirmação. O parágrafo final da resposta é a parte relevante.

Sinto que esta questão merece uma pergunta própria e também estou um pouco insegura sobre alguns aspectos do raciocínio. O segmento mais importante do parágrafo em questão vai

a menos que r verdadeiro seja exatamente 0, o r estimado é impulsionado em grande parte pelo intervalo de valores covariáveis ​​que são usados.

Isso equivale a dizer que não devemos usar coeficientes padronizados para avaliar a importância, porque podemos ter amostrado aleatoriamente um intervalo restrito de valores X1 e um intervalo mais amplo de valores X2 ? Então, quando padronizamos esse problema, não desapareceu e acabamos pensando espiritualmente que X1 é um preditor mais fraco que X2 ?

Por que o problema desaparece se o verdadeiro r é exatamente 0?

Como outros métodos (por exemplo, olhando coeficientes semipartiais) eliminam esse problema?

user1205901 - Restabelecer Monica
fonte
2
Vou deixar para @gung explicar o que ele quis dizer. Há muita literatura sobre a importância relativa de variáveis ​​em regressão e os betas padronizados são definitivamente a resposta convencional dos estatísticos. Entre os pontos fracos dessa abordagem estão questões relacionadas ao erro padrão ou variabilidade nas estimativas para beta. Essas questões, bem como uma revisão completa da literatura e possíveis abordagens, são abordadas por Ulrike Gromping em seus artigos sobre esse tópico. Além disso, ela desenvolveu um módulo R, RELAIMPO ... prof.beuth-hochschule.de/groemping/relaimpo
Mike Hunter
Apenas uma nota para o OP que ter cuidado se ele / ela está nos EUA para baixar o pacote de CRAN não website da UG, consulte a restrição à @DJohnson página recomenda
mdewey

Respostas:

4

A resposta de Gungs é, a meu ver, uma crítica à idéia de comparar a força relativa de diferentes variáveis ​​em uma análise empírica sem ter um modelo em mente como essas variáveis ​​interagem ou como é a distribuição conjunta (verdadeira) de todas as variáveis ​​relevantes. Pense no exemplo da importância das menções de altura e peso do atleta. Ninguém pode provar que, por exemplo, uma regressão linear aditiva é uma boa aproximação da função de expectativa condicional ou, em outras palavras, altura e peso podem ser importantes de uma maneira muito complicada para o desempenho do atleta. Você pode executar uma regressão linear incluindo as duas variáveis ​​e comparar os coeficientes padronizados, mas não sabe se os resultados realmente fazem sentido.

Para dar um exemplo do Mickey Mouse, olhando para os escaladores esportivos (meus esportes favoritos), aqui está uma lista dos principais escaladores do sexo masculino, de acordo com alguma medida de desempenho obtida no site 8a.nu, com informações sobre altura, peso e ano de nascimento (apenas aqueles com informações disponíveis). Padronizamos previamente todas as variáveis ​​para podermos comparar diretamente a associação entre uma alteração de desvio padrão nos preditores e uma alteração de desvio padrão na distribuição de desempenho. Excluindo a ilustração o número um, Adam Ondra, de altura incomum, obtemos o seguinte resultado. :

    rm(list=ls(all=TRUE))
    # Show only two decimal places
    options(digits=2)
    # Read Data and attach
    climber<-read.table("https://drive.google.com/uc?export=&confirm=no_antivirus&id=0B70aDwYo0zuGNGJCRHNrY0ptSW8",sep="\t",header=T)
    head(climber)
    # Drop best climber Adam Ondra who is very tall (kind of outlier)
    climber<-subset(climber,name!="Adam Ondra")
    # Standardize Predictors
    climber$performance_std<-(climber$performance-mean(climber$performance))/sd(climber$performance)
    climber$height_std<-(climber$height-mean(climber$height))/sd(climber$height)
    climber$weight_std<-(climber$weight-mean(climber$weight))/sd(climber$weight)
    climber$born_std<-(climber$born-mean(climber$born))/sd(climber$born)
    # Simple Regression, excluding intercept because of the standardization
    lm(performance_std~height_std+weight_std-1,data=climber)$coef
height_std weight_std 
 -0.16      -0.25 

Ignorando erros padrão, etc., parece que o peso é mais importante que a altura ou igualmente importante. Mas alguém poderia argumentar que os escaladores se tornaram melhores com o tempo. Talvez devêssemos controlar os efeitos da coorte, por exemplo, oportunidades de treinamento através de melhores instalações internas? Vamos incluir o ano de nascimento!

    # Add year of birth
    lm(performance_std~height_std+weight_std+born_std-1,data=climber)$coef
height_std weight_std   born_std 
-0.293     -0.076      0.256

Agora, descobrimos que ser jovem e ser pequeno é mais importante do que ser esbelto. Mas agora outra pessoa poderia argumentar que isso vale apenas para os melhores escaladores? Poderia fazer sentido comparar os coeficientes padronizados em toda a distribuição de desempenho (por exemplo, através de regressão quantílica). E, claro, pode ser diferente para as alpinistas femininas, que são muito menores e mais esbeltas. Ninguém sabe.

Este é um exemplo do Mickey Mouse do que eu acho que se refere ao gung. Não sou tão cético, acho que pode fazer sentido olhar para os coeficientes padronizados, se você acha que especificou o modelo certo ou que a separabilidade aditiva faz sentido. Mas isso depende tantas vezes da questão em questão.

Em relação às outras questões:

Isso equivale a dizer que não devemos usar coeficientes padronizados para avaliar a importância, porque podemos ter amostrado aleatoriamente um intervalo restrito de valores X1 e um intervalo mais amplo de valores X2? Então, quando padronizamos esse problema, não desaparecemos e acabamos pensando espiritualmente que X1 é um preditor mais fraco que X2?

Sim, acho que você poderia dizer isso assim. O "intervalo mais amplo de valores X2" pode surgir através do viés de variável omitido , incluindo variáveis ​​importantes correlacionadas com X1, mas omitindo aquelas que estão correlacionadas com X2.

Por que o problema desaparece se o verdadeiro r é exatamente 0?

r

Como outros métodos (por exemplo, olhando coeficientes semipartiais) eliminam esse problema?

Outros modelos, como coeficientes semipartiais, enfrentam o mesmo problema. Se o seu conjunto de dados for grande o suficiente, você pode fazer, por exemplo, regressão não paramétrica e tentar estimar a distribuição conjunta completa sem suposições sobre a forma funcional (por exemplo, separabilidade aditiva) para justificar o que você está fazendo, mas isso nunca é uma prova.

Em resumo, acho que pode fazer sentido comparar coeficientes padronizados ou semipartiais, mas isso depende e você precisa raciocinar a si mesmo ou a outras pessoas por que acha que faz sentido.

Arne Jonas Warnke
fonte