É uma boa prática padronizar seus dados em uma regressão com dados longitudinais / em painel?

16

Em geral, padronizo minhas variáveis ​​independentes em regressões, a fim de comparar adequadamente os coeficientes (dessa forma, eles têm as mesmas unidades: desvios-padrão). No entanto, com dados longitudinais / em painel, não tenho certeza de como devo padronizar meus dados, especialmente se estimar um modelo hierárquico.

Para ver por que isso pode ser um problema em potencial, suponha que você tenha indivíduos medidos ao longo de períodos t = 1 , , T e você mediu uma variável dependente, y i , te uma variável independente x i , t . Se você executar uma regressão completa de pool, não há problema em padronizar seus dados desta maneira: x . z = ( x - média ( x ) ) / sd ( xi=1,,nt=1,,Tyi,txi,t , pois não altera a estatística t. Por outro lado, se você ajustar uma regressão não agrupada, ou seja, uma regressão para cada indivíduo, deverá padronizar seus dados apenas por indivíduo, não o conjunto de dados inteiro (no código R):x.z=(xmean(x))/sd(x)

for (i in 1:n) {
  for ( t in 1:T) x.z[i] =  (x[i,t] - mean(x[i,]))/sd(x[i,]) 
}

No entanto, se você ajustar um modelo hierárquico simples com uma interceptação variável por indivíduos, estará usando um estimador de contração, ou seja, está estimando um modelo entre regressão agrupada e não agrupada. Como devo padronizar meus dados? Usando os dados inteiros como uma regressão agrupada? Utilizando apenas indivíduos, como no caso não registrado?

Manoel Galdino
fonte

Respostas:

10

Não vejo que padronização seja uma boa idéia na regressão comum ou com um modelo longitudinal. Isso dificulta a obtenção de previsões e geralmente não resolve um problema que precisa ser resolvido. E se você tiver e x 2 no modelo. Como você padroniza x 2 ? E se você tiver uma variável contínua e uma variável binária no modelo? Como você padroniza a variável binária? Certamente não pelo seu desvio padrão, o que faria com que variáveis ​​de baixa prevalência tivessem maior importância.xx2x2

Em geral, é melhor interpretar os efeitos do modelo na escala original de .x

Frank Harrell
fonte
@ Frank Harrell - bons pontos sobre os problemas associados às condições descritas, mas se houver todas as variáveis ​​contínuas com escalas diferentes, a padronização não é a única maneira de comparar inclinações?
DQdlM 7/11/17
1
@ Frank, suponho que depende do tipo de modelo que você está executando, mas a padronização das variáveis ​​preditoras geralmente é útil. Centralizá-los significa que a interceptação se torna interpretável à medida que o resultado médio previsto e a importância relativa de diferentes preditores se tornam mais óbvias. Normalmente deixo preditores binários em paz, mas às vezes vale a pena considerar outras opções de dimensionamento. Finalmente, em alguns casos, ter preditores com desvios-padrão muito diferentes pode levar a problemas computacionais / de convergência.
Michael Bishop
2
R2χ2
1
Se você possui variáveis ​​binárias, não as padronize, apenas uma contínua. Veja este artigo de Gelman (< stat.columbia.edu/~gelman/research/published/standardizing7.pdf >, sugerindo dividir variáveis ​​por dois desvios-padrão. Em qualquer caso, isso ajuda a obter convergência se você estiver ajustando um modelo bayesiano.
Manoel Galdino
xx2
0

Existe uma alternativa à padronização para trazer variáveis ​​medidas com escalas diferentes para a mesma métrica. Chama-se Proporção de Escala Máxima (POMS) e não interfere nas distribuições multivariadas como a transformação z costuma fazer.

Todd Little recomenda explicitamente o POMS sobre a padronização z em seu livro sobre modelagem de equações estruturais longitudinais. A transformação Z apresenta problemas adicionais ao lidar com dados longitudinais, veja aqui: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/

user142548
fonte