Em alguma literatura, li que uma regressão com múltiplas variáveis explicativas, se em unidades diferentes, precisava ser padronizada. (A padronização consiste em subtrair a média e dividir pelo desvio padrão.) Em quais outros casos eu preciso padronizar meus dados? Existem casos em que eu deveria centralizar apenas meus dados (ou seja, sem dividir por desvio padrão)?
multiple-regression
standardization
centering
mathieu_r
fonte
fonte
Respostas:
Na regressão, é frequentemente recomendado centralizar as variáveis para que os preditores tenham média . Isso faz com que o termo de interceptação seja interpretado como o valor esperado de quando os valores do preditor são definidos com suas médias . Caso contrário, a interceptação é interpretada como o valor esperado de quando os preditores são definidos como 0, o que pode não ser uma situação realista ou interpretável (por exemplo, e se os preditores fossem altura e peso?). Outro motivo prático para escalar na regressão é quando uma variável possui uma escala muito grande, por exemplo, se você estava usando o tamanho da população de um país como um preditor. Nesse caso, os coeficientes de regressão podem estar muito0 0 S i S i 10 - 6YEu YEu ordem de magnitude pequena (por exemplo, ) que pode ser um pouco chata ao ler a saída do computador; portanto, você pode converter a variável para, por exemplo, o tamanho da população em milhões. A convenção de que você padroniza as previsões existe principalmente para que as unidades dos coeficientes de regressão sejam as mesmas.10- 6
Como @gung faz alusão e @ MånsT mostra explicitamente (+1 a ambos, btw), a centralização / escalonamento não afeta sua inferência estatística nos modelos de regressão - as estimativas são ajustadas adequadamente e os valores- são os mesmos.p
Outras situações em que a centralização e / ou a escala podem ser úteis:
quando você estiver tentando somar ou calcular a média de variáveis que estão em escalas diferentes , talvez crie algum tipo de pontuação composta. Sem escala, pode ser que uma variável tenha um impacto maior na soma devido puramente à sua escala, o que pode ser indesejável.
Para simplificar cálculos e notação. Por exemplo, a matriz de covariância amostral de uma matriz de valores centralizada por suas médias amostrais é simplesmente . Da mesma forma, se uma variável aleatória univariada tiver sido centrada na média, então e a variação podem ser estimadas a partir de uma amostra observando a média da amostra dos quadrados dos valores observados. valores.X′X X var(X)=E(X2)
Relacionado ao mencionado, o PCA só pode ser interpretado como a decomposição de valor singular de uma matriz de dados quando as colunas foram centralizadas pela primeira vez por seus meios.
Observe que a escala não é necessária nos dois últimos pontos mencionados e a centralização pode não ser necessária no primeiro item mencionado, portanto os dois não precisam andar de mãos dadas o tempo todo.
fonte
(Atualização adicionada muito mais tarde :) Um caso análogo que eu esqueci de mencionar é a criação de termos de interação . Se um termo de interação / produto for criado a partir de duas variáveis que não estão centralizadas em 0, alguma quantidade de colinearidade será induzida (com a quantidade exata dependendo de vários fatores). A centralização primeiro resolve esse problema em potencial. Para obter uma explicação mais completa, consulte esta excelente resposta do @Affine: diagnóstico de colinearidade problemático somente quando o termo de interação estiver incluído .
fonte
Além das observações nas outras respostas, gostaria de salientar que a escala e a localização das variáveis explicativas não afetam a validade do modelo de regressão de forma alguma.
portanto
Assim, a escala corresponde simplesmente à escala das inclinações correspondentes.
fonte
Caso você use a descida do gradiente para ajustar-se ao seu modelo, as covariáveis padronizadas podem acelerar a convergência (porque quando você tem covariáveis não dimensionadas, os parâmetros correspondentes podem dominar inadequadamente o gradiente). Para ilustrar isso, algum código R:
Além disso, para alguns aplicativos de SVMs, a escala pode melhorar o desempenho preditivo: Escala de recursos na descrição de dados vetoriais de suporte .
fonte
Eu prefiro "razões sólidas" para centralizar e padronizar (elas existem com muita frequência). Em geral, eles têm mais a ver com o conjunto de dados e o problema do que com o método de análise de dados.
Muitas vezes, prefiro centralizar (ou seja, mudar a origem dos dados) para outros pontos que sejam fisicamente / quimicamente / biologicamente / ... mais significativos que a média (consulte também a resposta de Macro), por exemplo
a média de um grupo controle
sinal em branco
A estabilidade numérica é um motivo relacionado ao algoritmo para centralizar e / ou dimensionar dados.
Além disso, dê uma olhada na pergunta semelhante sobre padronização . Que também abrange "apenas o centro".
fonte
Para ilustrar a questão da estabilidade numérica mencionada por @cbeleites, aqui está um exemplo de Simon Wood sobre como "quebrar"
lm()
. Primeiro, geraremos alguns dados simples e ajustaremos uma curva quadrática simples.Mas se adicionarmos 900 a X, o resultado deve ser praticamente o mesmo, exceto para a direita, não? Infelizmente não...
Edite para adicionar ao comentário por @ Scortchi - se observarmos o objeto retornado por lm (), veremos que o termo quadrático não foi estimado e é mostrado como NA.
E, de fato, como sugerido por @ Scortchi, se olharmos para a matriz do modelo e tentarmos resolver diretamente, ela "quebra".
No entanto,
lm()
não me fornece nenhum aviso ou mensagem de erro além dosNA
s naI(X^2)
linha dosummary(B)
R-3.1.1. Outros algoritmos podem, obviamente, ser "quebrados" de diferentes maneiras, com diferentes exemplos.fonte
lm
falha ao estimar um coeficiente para o termo quadrático e fornece um aviso sobre uma matriz de design singular - talvez mais diretamente ilustrativa do problema do que essas plotagens.Eu duvido seriamente que a centralização ou padronização dos dados originais possa realmente mitigar o problema da multicolinearidade quando termos quadrados ou outros termos de interação são incluídos na regressão, como alguns de vocês, em particular o gung, recomendaram acima.
Para ilustrar meu argumento, vamos considerar um exemplo simples.
Suponha que a especificação verdadeira tenha o seguinte formato, de forma que
Assim, a equação OLS correspondente é dada por
Em resumo, se meu entendimento sobre centralização estiver correto, não creio que os dados de centralização ajudariam a mitigar o problema do MC causado pela inclusão de termos ao quadrado ou outros termos de ordem superior na regressão.
Ficaria feliz em ouvir suas opiniões!
fonte
x = c(1,2,3); x2 = x^2; cor(x, x2); # [1] 0.9897433; xc = c(-1,0,1); xc2 = xc^2; cor(xc, xc2) # [1] 0
.