Multicolinearidade quando as regressões individuais são significativas, mas os VIFs são baixos

13

Eu tenho 6 variáveis ​​( ) que estou usando para prever . Ao realizar minha análise de dados, tentei primeiro uma regressão linear múltipla. A partir disso, apenas duas variáveis ​​foram significativas. No entanto, quando eu executei uma regressão linear comparando cada variável individualmente com , todas, exceto uma, foram significativas ( entre menos de 0,01 e menos de 0,001). Foi sugerido que isso se devia à multicolinearidade. y y px1...x6yyp

Minha pesquisa inicial sobre isso sugere a verificação de multicolinearidade usando VIFs . Fiz o download do pacote apropriado do R e terminei com os VIFs resultantes: 3,35, 3,59, 2,64, 2,24 e 5,56. De acordo com várias fontes online, o ponto em que você deve se preocupar com a multicolinearidade com seus VIFs é 4 ou 5.

Agora estou perplexo com o que isso significa para meus dados. Eu tenho ou não tenho um problema de multicolinearidade? Se sim, como devo proceder? (Não posso coletar mais dados e as variáveis ​​são partes de um modelo que não estão obviamente relacionadas). Se não tiver esse problema, o que devo extrair dos meus dados, principalmente o fato de essas variáveis ​​serem altamente significativas? individualmente, mas não significativo quando combinados.

Edit: Algumas perguntas foram feitas sobre o conjunto de dados e, por isso, gostaria de expandir ...

Nesse caso em particular, procuramos entender como dicas sociais específicas (gesto, olhar etc.) afetam a probabilidade de alguém produzir outra sugestão. Gostaríamos que nosso modelo incluísse todos os atributos significativos, por isso estou desconfortável em remover alguns que parecem redundantes.

Não há nenhuma hipótese com isso agora. Em vez disso, o problema não é estudado e estamos buscando entender melhor quais atributos são importantes. Até onde eu sei, esses atributos devem ser relativamente independentes um do outro (você não pode simplesmente dizer que olhar e gestos são os mesmos ou um subconjunto do outro). Seria bom poder relatar valores de p para tudo, pois gostaríamos que outros pesquisadores entendessem o que foi analisado.

Edit 2: Como surgiu em algum lugar abaixo, meu é 24.n

cryptic_star
fonte
Supondo que você não tem multicolinearidade, você pode expandir, como @ rolando2 sugere, sobre a finalidade do modelo? É o caso de todos os preditores serem importantes para outros investigadores (nesse caso, você gostaria de relatar níveis de significância para cada um deles) ou poderia simplesmente jogar um ou dois deles fora?
@jlovegren Adicionei algumas informações acima - deixe-me saber se você precisar de mais informações.
cryptic_star
As variáveis ​​explicativas são medidas em uma escala contínua? Nesse caso, existem métodos para a residualização que não são muito difíceis. Se eles são categóricos, eu não sei, mas espero que alguém o faça (fiz uma pergunta semelhante neste site).
@jlovegren Cinco das seis variáveis ​​são contadas.
cryptic_star
mais uma coisa, só para ter certeza. as contagens têm um limite superior claro que é freqüentemente alcançado, ou se o valor máximo da contagem é ilimitado em princípio?

Respostas:

18

Para entender o que pode acontecer, é instrutivo gerar (e analisar) dados que se comportam da maneira descrita.

Por simplicidade, vamos esquecer a sexta variável independente. Portanto, a questão descreve regressões de uma variável dependente contra cinco variáveis ​​independentes x 1 , x 2 , x 3 , x 4 , x 5 , nas quaisyx1,x2,x3,x4,x5

  • Cada regressão comum é significativa em níveis de a menos de .yxi0,0010.010.001

  • A regressão múltipla produz coeficientes significativos apenas para e .x 1 x 2yx1++x5x1x2

  • Todos os fatores de inflação de variação (VIFs) são baixos, indicando bom condicionamento na matriz de projeto (ou seja, falta de colinearidade entre os ).xi

Vamos fazer isso acontecer da seguinte maneira:

  1. Gere valores normalmente distribuídos para e . (Nós escolheremos mais tarde.)x 1 x 2 nnx1x2n

  2. Seja que é um erro normal independente da média . São necessárias algumas tentativas e erros para encontrar um desvio padrão adequado para ; funciona bem (e é bastante dramático: está extremamente bem correlacionado com e , mesmo que apenas moderadamente correlacionado com e individualmente).ε 0 ε 1 / 100 y x 1 x 2 x 1 x 2y=x1+x2+εε0 0ε1/100yx1x2x1x2

  3. Seja = , , onde é um erro normal padrão independente. Isso torna apenas ligeiramente dependente de . No entanto, pela forte correlação entre e , isso induz uma pequena correlação entre e esses .x 1 / 5 + δ j = 3 , 4 , 5 δ x 3 , x 4 , x 5 x 1 x 1 y y x jxjx1/5+δj=3,4,5δx3,x4,x5x1x1yyxj

Aqui está o problema: se fizermos grande o suficiente, essas pequenas correlações resultarão em coeficientes significativos, embora seja quase inteiramente "explicado" apenas pelas duas primeiras variáveis.yny

Eu descobri que funciona muito bem para reproduzir os valores de p relatados. Aqui está uma matriz de dispersão de todas as seis variáveis:n=500

spm

Ao inspecionar a coluna da direita (ou a linha de baixo), você pode ver que tem uma boa correlação (positiva) com e mas pouca correlação aparente com as outras variáveis. Ao inspecionar o restante desta matriz, você pode ver que as variáveis ​​independentes parecem estar mutuamente correlacionadas (o aleatório mascara as pequenas dependências que sabemos que existem). Não há dados excepcionais - nada terrivelmente periférico ou com alta alavancagem. Os histogramas mostram que todas as seis variáveis ​​são aproximadamente normalmente distribuídas, a propósito: esses dados são tão comuns e simples como se poderia desejar.x 1 x 2 x 1 , , x 5 δyx1x2x1,,x5δ

Na regressão de contra e , os valores de p são essencialmente 0. Nas regressões individuais de contra , contra e contra , os valores de p são 0,0024, 0,0083 e 0,00064, respectivamente. : ou seja, eles são "altamente significativos". Mas, na regressão múltipla completa, os valores p correspondentes aumentam para 0,46, 0,36 e 0,52, respectivamente: nada significativos. A razão para isso é que, uma vez que tenha sido regredido em relação a ex 1 x 2 y x 3 y x 4 y x 5 y x 1 x 2yx1x2yx3yx4yx5yx1x2, a única coisa que resta para "explicar" é a pequena quantidade de erro nos resíduos, que se aproximará de , e esse erro não tem quase relação com o restante . ("Quase" está correto: há uma relação realmente minúscula induzida pelo fato de que os resíduos foram computados em parte a partir dos valores de e e , , têm alguma relação fraca com e Essa relação residual é praticamente indetectável, como vimos.)x i x 1 x 2 x i i = 3 , 4 , 5 x 1 x 2εxix1x2xii=3,4,5x1x2

O número de condicionamento da matriz de projeto é de apenas 2,17: é muito baixo, não mostrando nenhuma indicação de alta multicolinearidade. (A perfeita falta de colinearidade seria refletida em um número de condicionamento 1, mas na prática isso é visto apenas com dados artificiais e experimentos projetados. Os números de condicionamento no intervalo de 1 a 6 (ou até mais alto, com mais variáveis) não são dignos de nota.) Isso completa a simulação: reproduziu com sucesso todos os aspectos do problema.

Os insights importantes que essa análise oferece incluem

  1. Os valores-p não nos dizem nada diretamente sobre colinearidade. Eles dependem fortemente da quantidade de dados.

  2. As relações entre valores-p em regressões múltiplas e valores-p em regressões relacionadas (envolvendo subconjuntos da variável independente) são complexas e geralmente imprevisíveis.

Consequentemente, como outros argumentaram, os valores-p não devem ser seu único guia (ou mesmo seu principal guia) para a seleção de modelos.


Editar

Não é necessário que seja tão grande quanto para que esses fenômenos apareçam. n500 Inspirado por informações adicionais na pergunta, a seguir é um conjunto de dados construído de maneira semelhante com (neste caso para ). Isso cria correlações de 0,38 a 0,73 entre e . O número da condição da matriz de design é 9,05: um pouco alto, mas não terrível. (Algumas regras práticas dizem que números de condição tão altos quanto 10 são aceitáveis.) Os valores p das regressões individuais contran=24xj=0.4x1+0.4x2+δj=3,4,5x12x35x3,x4,x5são 0,002, 0,015 e 0,008: significativos a altamente significativos. Assim, está envolvida alguma multicolinearidade, mas não é tão grande que se trabalhe para alterá-la. O insight básico permanece o mesmo : significado e multicolinearidade são coisas diferentes; apenas leves restrições matemáticas se mantêm entre eles; e é possível que a inclusão ou exclusão de uma única variável tenha efeitos profundos em todos os valores de p, mesmo sem a multicolinearidade grave ser um problema.

x1 x2 x3 x4 x5 y
-1.78256    -0.334959   -1.22672    -1.11643    0.233048    -2.12772
0.796957    -0.282075   1.11182 0.773499    0.954179    0.511363
0.956733    0.925203    1.65832 0.25006 -0.273526   1.89336
0.346049    0.0111112   1.57815 0.767076    1.48114 0.365872
-0.73198    -1.56574    -1.06783    -0.914841   -1.68338    -2.30272
0.221718    -0.175337   -0.0922871  1.25869 -1.05304    0.0268453
1.71033 0.0487565   -0.435238   -0.239226   1.08944 1.76248
0.936259    1.00507 1.56755 0.715845    1.50658 1.93177
-0.664651   0.531793    -0.150516   -0.577719   2.57178 -0.121927
-0.0847412  -1.14022    0.577469    0.694189    -1.02427    -1.2199
-1.30773    1.40016 -1.5949 0.506035    0.539175    0.0955259
-0.55336    1.93245 1.34462 1.15979 2.25317 1.38259
1.6934  0.192212    0.965777    0.283766    3.63855 1.86975
-0.715726   0.259011    -0.674307   0.864498    0.504759    -0.478025
-0.800315   -0.655506   0.0899015   -2.19869    -0.941662   -1.46332
-0.169604   -1.08992    -1.80457    -0.350718   0.818985    -1.2727
0.365721    1.10428 0.33128 -0.0163167  0.295945    1.48115
0.215779    2.233   0.33428 1.07424 0.815481    2.4511
1.07042 0.0490205   -0.195314   0.101451    -0.721812   1.11711
-0.478905   -0.438893   -1.54429    0.798461    -0.774219   -0.90456
1.2487  1.03267 0.958559    1.26925 1.31709 2.26846
-0.124634   -0.616711   0.334179    0.404281    0.531215    -0.747697
-1.82317    1.11467 0.407822    -0.937689   -1.90806    -0.723693
-1.34046    1.16957 0.271146    1.71505 0.910682    -0.176185
whuber
fonte
Dado que estou trabalhando para explicar as relações entre essas variáveis ​​e sua importância na previsão de y, a falta de colinearidade me diz essencialmente o que a regressão linear múltipla inicial me disse: que apenas duas variáveis ​​são importantes? Se as variáveis ​​mostrassem colinearidade, isso significaria que várias são importantes, mas fornecem informações semelhantes? Por favor, deixe-me saber se estou completamente esquecido do assunto - não sou de forma alguma um especialista em estatísticas.
cryptic_star
Ah, e vou adicionar isso no meu post original, mas meu n é 24 (assuntos humanos funcionam, então isso é bem alto). Com base em sua postagem, posso assumir que é por isso que as pessoas multicolineares sugerem a obtenção de mais dados - para destacar melhor as diferenças.
cryptic_star
Eu forneço um novo exemplo mostrando como seus fenômenos podem acontecer mesmo quando . Poderia ser facilmente modificado para que todos os números envolvidos sejam números inteiros positivos: isso é importante. n=24
whuber
1
Re seu primeiro comentário: a colinearidade sugere que algumas das variáveis ​​explicativas (IVs) podem ser redundantes, mas esse não é necessariamente o caso. O que importa são as relações entre os IVs e a variável dependente (DV). É possível que um dos IVs seja fortemente dependente dos outros IVs, mas contenha informações exclusivamente úteis relacionadas ao DV. Este é um conceito fundamental: nenhuma quantidade de análise das relações entre os IVs vai dizer-lhe quais as variáveis que melhor explicam o DV. A falta de colinearidade - uma propriedade exclusiva dos IVs - não revela nada sobre o DV.
whuber
9

Eu tenho ou não tenho um problema de multicolinearidade? Se sim, como devo proceder?

Não é uma situação de um ou outro. E eu sou cético em relação à diretriz "4 ou 5". Para cada um dos seus preditores, o erro padrão do coeficiente é entre 2,2 e 5,6 vezes maior do que seria se o preditor não estivesse correlacionado com os outros. E a parte de um determinado preditor que não pode ser explicada pelos outros varia de 1 / 2,2 a 1 / 5,6, ou 18% a 45%. No geral, isso parece uma quantidade bastante substancial de colinearidade.

Mas vamos voltar um pouco. Você está realmente tentando prever * Y *, em vez de tentar explicá- lo? Se for o primeiro, acho que você não precisa se preocupar se o nível de significância de uma determinada variável muda quando outras pessoas estão presentes no modelo. Seu trabalho é realmente muito mais fácil do que seria se fosse necessária uma explicação verdadeira.

Se a explicação for o seu objetivo, você precisará considerar a maneira como essas variáveis ​​se relacionam - algo que requer mais do que informações estatísticas. Claramente eles se sobrepõem na forma como eles se relacionam com Y , e este collinearity fará com que seja difícil de estabelecer, por exemplo, a sua classificação por ordem de importância na contabilização de Y . Nesta situação, não há um caminho claro para você seguir.

De qualquer forma, espero que você esteja considerando métodos de validação cruzada.

rolando2
fonte
Essa resposta, como a de John, parece confundir baixos valores de p com alta correlação. Lembre-se: os erros padrão dos coeficientes diminuem com o aumento da quantidade de dados ( caeteris paribus ), de modo que os baixos valores de p podem ser alcançados com dados que quase não têm correlações, desde que haja observações suficientes.
whuber
Confundir baixos valores de p com alta correlação? Pas du tout!
Roland2
Então, por favor, explique como um conceito estritamente de valor p ("o erro padrão do coeficiente é entre 2,2 e 5,6 vezes maior que seria se o preditor não estivesse correlacionado com os outros") leva você a concluir "que parece bastante substancial quantidade de colinearidade ", que está fortemente relacionada à correlação (medidas de colinearidade são propriedades da matriz de correlação quando as variáveis ​​são padronizadas).
whuber
Eu vejo isso desta forma. Quando o VIF é 5,6, 82% da variação nesse preditor pode ser contabilizada pelos outros preditores. Não vejo como isso pode depender de N. #
rolando2 13/03/12
1
Como um contraponto a essa avaliação pessimista (que tem alguma justificativa nas regras práticas, como exigir de 5 a 10 vezes mais observações do que variáveis), é digno de nota que campos inteiros de modelagem e análise de dados cresceram em torno de problemas que têm poucos observações e muitos preditores, como o DACE (design e análise de experimentos em computador). Veja ressources-actuarielles.net/EXT/ISFA/1226.nsf/… para um artigo seminal.
whuber
6

Você tem multicolinearidade. Sua análise inicial demonstrou isso. Na medida em que isso é um problema, essa é outra pergunta que parece ter muitas respostas no seu caso.

Talvez se você entendesse melhor a questão básica, seria mais óbvio o que fazer? ...

Com a multicolinearidade, seus coeficientes de regressão são sobre as contribuições únicas (bem mais próximas das únicas) de cada variável ao seu modelo. Se alguns estão correlacionados, a contribuição única de cada um correlacionado é menor. Provavelmente, é parcialmente por isso que nenhum é significativo quando estão todos juntos, mas quando usados ​​sozinhos, podem ser.

A primeira coisa que você provavelmente precisa fazer é considerar o significado da intercorrelação entre suas variáveis. Por exemplo, você tem um monte de variáveis ​​que representam a mesma coisa? Você acabou de medir seus preditores em uma escala ruim e obter correlações incidentais? Não tente corrigir a regressão, tente entender suas variáveis.

Considere X1 e X2 com uma correlação muito forte entre eles, digamos r = 0,90. Se você colocar X1 no modelo e ele for um preditor significativo, outro modelo somente com X2 provavelmente também será significativo, porque eles são quase a mesma coisa. Se você colocá-los juntos no modelo, pelo menos um deles terá que sofrer porque a regressão múltipla resolverá suas contribuições exclusivas. Ambos podem não ser significativos. Mas esse não é o ponto, o ponto é reconhecer por que eles se sobrepõem tanto e se eles dizem algo diferente um do outro e se você precisa deles ou não? Talvez um exprima uma ideia mais significativa e mais relacionada à sua variável de resposta do que a outra. Talvez você conclua que eles são a mesma coisa com diferentes níveis de variabilidade.

Além disso, ao analisar modelos de qualquer tipo, mas especialmente com preditores intercorrelacionados, os valores-p são uma maneira terrível de saber se um novo preditivo faz uma contribuição significativa (se é isso que você está tentando fazer ... não sei o que está tentando fazer isso porque parece que você está apenas tentando simplificar a regressão A) ou B) do jeito que você quer ... nenhuma das quais é viável). Provavelmente, é melhor procurar a AIC para ajudá-lo a determinar quais preditores você deve manter e quais não contribuem com nada.

John
fonte
Como os baixos valores de p demonstram multicolinearidade? Os dois conceitos são completamente diferentes. Com dados suficientes, você pode ter baixos valores de p e quase nenhuma colinearidade.
whuber
É exatamente isso que estou contestando, John: você concluiu em sua primeira frase que o que o OP descreve implica "Você tem multicolinearidade". Mas é exatamente isso que o OP quer saber: "eu tenho ou não um problema de multicolinearidade"? Eu afirmo que a resposta correta é "você não nos forneceu informações suficientes, mas provavelmente não", porque os fenômenos descritos na pergunta são perfeitamente consistentes com problemas bem condicionados. De fato, os baixos VIFs relatados pelo OP sugerem que sua afirmação é falsa.
whuber
Eu não disse isso em lugar nenhum. Talvez você queira dizer o que eu disse sobre a análise inicial. A análise inicial foi de que os efeitos mudam muito, dependendo de quais outros efeitos foram adicionados. Isso ocorreu devido à multicolinearidade (embora não a quantifique). É claro que o significado é uma questão diferente. Eu realmente não sei no que você está falando?
John John
Desculpe o Whuber por atualizar o comentário, mas o seu funciona bem mesmo assim ... leitores, os dois últimos acima são revertidos e a culpa é minha. Whuber, eu estava focado apenas na palavra "problema". Multicolinearidade é algo que você quantifica. Há algum. Isso sugere pensar bastante sobre as variáveis, independentemente. Também sugere que a razão pela qual os preditores aditivos estão mudando quando adicionados ou removidos se deve a essa multicolinearidade. Não tive a impressão de que o questionador realmente queria uma resposta sobre ser um "problema" de cálculo.
John John
É possível que interpretemos a questão de maneiras diferentes, John. Como não quero deixar o assunto possivelmente confuso com meus comentários aqui, adicionei uma resposta para explicar meu argumento.
whuber
2

Pessoalmente, eu usaria índices de condição e a tabela explicada pela variação para analisar a colinearidade.

Também não usaria valores p como critério para a construção de modelos e, ao comparar modelos com 6 IVs com modelos com 1, observaria alterações no tamanho do efeito do parâmetro para a variável que é ambas.

Mas você certamente pode ter os resultados mencionados sem colinearidade. Colinearidade é apenas sobre as variáveis ​​X e seu relacionamento. Mas duas variáveis ​​podem se relacionar fortemente com Y enquanto não se relacionam fortemente entre si.

Peter Flom - Restabelece Monica
fonte
1
Isso me parece pouco intuitivo, pois duas variáveis ​​poderiam se relacionar fortemente com Y sem se relacionar fortemente entre si. Existe um exemplo para o qual você poderia me apontar ou uma explicação mais longa?
cryptic_star
@ Peter - com 1- (1 / 5,6) = 82% da variação no último preditor explicado pelos outros, por que você diz que pode não haver colinearidade?
Rolando2 11/03/12
3
x1x2y=x1+x2yx1x2x1x2
0

Em relação à multicolinearidade, existem vários limites mencionados, geralmente convergindo em torno de um VIF de 10, correspondente a um valor R quadrado de 0,90 subjacente entre a variável testada e as demais variáveis ​​independentes. Os VIFs de suas variáveis ​​parecem aceitáveis ​​e você pode tecnicamente mantê-los em um modelo.

No entanto, eu usaria um método de regressão passo a passo para ver qual é a melhor combinação de variáveis ​​e quanto mais explicações (aumento incremental no quadrado R) você obtém adicionando variáveis. O benchmark de arbitragem deve ser o valor de R Square ajustado que ajusta o valor de R Square para baixo, penalizando o modelo pela adição de variáveis.

Suas variáveis ​​estão um pouco correlacionadas entre si. Isso é inevitável, é apenas uma questão de grau. Dados os VIFs que você mencionou, desconfio intuitivamente que você obterá a grande maioria do bit de informações / explicações da melhor combinação de 2 variáveis. E que a adição de variáveis ​​pode adicionar apenas um valor incremental marginal.

Ao olhar para a combinação de variáveis ​​que são selecionadas pelo processo de regressão passo a passo, eu também examinaria quais variáveis ​​são selecionadas e se seus sinais de coeficiente de regressão são consistentes com sua correlação com y. Caso contrário, pode ser devido a uma interação legítima entre as variáveis. Mas, também pode ser o resultado do ajuste excessivo do modelo e que os coeficientes de regressão são espúrios. Eles refletem um ajuste matemático, mas não têm sentido em termos de causalidade subjacente.

Outra maneira de selecionar suas variáveis ​​é decidir, do ponto de vista lógico, quais são as 2 ou 3 variáveis ​​principais que devem estar no modelo. Você começa com eles e verifica quanto mais informações obtém adicionando uma variável. Verifique o quadrado R ajustado, a consistência do coeficiente de regressão em relação à regressão original e, obviamente, teste todos os modelos com período de espera. Em breve, ficará evidente qual é o seu melhor modelo.

Sympa
fonte
4
Rumadj2
Muitos dos problemas que você descreve são comuns ao modelo de regressões lineares em geral. Não tenho certeza de que esses problemas técnicos sejam razões para jogar fora todos os métodos de regressão gradual e regressão linear em geral. Não sei por que a regressão gradual "é selecionada com base em uma variável aleatória, o que causa muitos problemas". O Stepwise encontra o melhor ajuste, como qualquer modelo. O que eu acho mais importante é garantir que o ajuste matemático corresponda à teoria ou lógica subjacente do problema que você está resolvendo.
Sympa
3
R2, Rumadj2, F, p, etc. são variáveis ​​aleatórias: se você obtiver mais dados do mesmo processo de geração de dados e ajustar um modelo idêntico repetidamente, esses valores variarão. A seleção de um modelo baseado neles incorpora o erro de maneira a eliminar o valor do modelo. Eu concordo com o uso de teoria e lógica para selecionar um modelo.
gung - Restabelece Monica
não sei se estamos falando da mesma coisa. Estou usando a regressão por etapas de duas maneiras. Um é manual, você constrói um modelo usando o melhor regressor. E você adiciona usando a segunda melhor variável que melhor explica o erro do primeiro modelo. E você continua até que sua pontuação na AIC se deteriora. O segundo método que usei é usar o software XLStat que automatiza o processo e foi desenvolvido por Thierry Fahmy e sua equipe. Ele entendeu um doutorado em matemática junto com outros de sua equipe. E não estou confiante de que eles teriam caído em todas as armadilhas que você mencionou.
Sympa 31/03
2
Gaetan, acho que o que @gung está tentando dizer é que os métodos passo a passo podem causar danos graves à estrutura de regressão estatística inicial (função de perda, valores de p, etc.). Veja a resposta e os comentários de Frank Harrell aqui . A regressão penalizada, conforme discutido em vários threads, pode ser uma boa alternativa. "(...) software que automatiza o processo" me lembra R fortune(224): sem trolls aqui, apenas quero destacar que você não precisa necessariamente confiar no que o software oferece (ou oferece) automaticamente como opção.
chl
0

Se suas variáveis ​​explicativas são dados de contagem e não é razoável supor que elas sejam normalmente distribuídas, você pode transformá-las em variáveis ​​normais padrão usando o scalecomando R. Fazer isso pode reduzir a colinearidade. Mas isso provavelmente não resolverá todo o problema.

Um lote útil de comandos R para analisar e lidar com a colinearidade é encontrado no blog de Florian Jaeger , incluindo:

z. <- function (x) scale(x)
r. <- function (formula, ...) rstandard(lm(formula, ...))

A z.função converte um vetor em uma variável normal padrão. A r.função retorna resíduos padronizados para regredir um preditor contra outro. Você pode usar isso para efetivamente dividir o desvio do modelo em tranches diferentes, de modo que apenas algumas variáveis ​​tenham acesso à parcela mais sênior e, em seguida, a próxima parcela será oferecida às variáveis ​​residualizadas. (Desculpe pela minha terminologia caseira) Portanto, se um modelo do formulário

Y ~ A + B

sofre de multicolinearidade, você pode executar qualquer um dos

Y ~ A + r.(B)
Y ~ r.(A) + B

de modo que apenas os resíduos da variável "tranche júnior" (quando regredidos contra a variável "tranche sênior") sejam ajustados ao modelo. Dessa forma, você está protegido contra a multicolinearidade, mas possui um conjunto de parâmetros mais complicado para relatar.


fonte